阿里巴巴操作系统团队一直致力于建立和完善系统领域工业界和学术界的纽带,也在持续实践工业界和学术界之间的问题分享和工作互动,并希望通过这些分析和互动能够更好地促进中国在计算机系统领域的整体发展和创新。目前我们有很多工作正在持续进行中,这些工作几乎覆盖了操作系统的内核,虚拟化,容器,网络,存储,调度,安全,性能优化,故障诊断等多个方向。在 2019 年,我们共有 4 篇论文被不同的会议接收(按论文被接收顺序倒排): IPDPS’20 (CCF-B),ASPLOS’20 (CCF-A),  Cluster’19 (CCF-B),ESEC/FSE’19 (CCF-A)。本文是对这些工作的一个介绍和总结。

第 34 届 IPDPS 会议将于 05/18/2020 在美国新奥尔良召开。IPDPS 是并行和分布式计算方向计算机系统领域的旗舰会议,我们的一篇论文被接受,论文信息如下:

Zijun Li, Quan Chen, Shuai Xue, Tao Ma, Yong Yang, Zhuo Song, Minyi Guo. Amoeba: QoS-Awareness and Reduced Resource Usage of Microservices with Serverless Computing. [IPDPS’20]

这篇论文是和上海交大并行计算研究所合作的论文之一,该论文提出了基于运行时负载和敏感度的预测模型,实现了在 runc 和 runv 之间的动态负载均衡,并最终在 serverless 和弹性计算场景下与传统 IaaS 相比大幅降低了 cpu 和内存的占用(分别多达 70% 和 80%)。目前论文作者之一薛帅同学正在操作系统团队实习,同时上海交大的陈全老师也在操作系统团队担任访问学者,我们正在针对阿里内部业务开展更深入的合作,后续还将有一系列的工作成果发表。

第 25 届 ASPLOS 会议原定于 03/16/2020 在瑞士洛桑举行,由于全球新冠肺炎的影响,会议有史以来第一次全部采用了别开生面的远程视频方式。ASPLOS 是操作系统,体系结构和编程语言三个方向综合的计算机系统领域顶级会议,推动了计算机系统多项关键技术的发展,我们的一篇论文被接受,论文信息如下:

Teng Ma, Mingxing Zhang, Kang Chen, Zhuo Song, Yongwei Wu, Xuehai Qian.  AsymNVM: An Efficient Framework for Implementing Persistent Data Structures on Asymmetric NVM Architecture. [ASPLOS’20]

这篇论文是和清华高性能所合作完成的,我们第一次提出了利用 RDMA 将数据中心的 NVM 做 disaggregation, 实现了高效的框架,同时证明了这种新架构的可行性。操作系统团队是阿里 RDMA 技术的先行者和推广者,主要作者马腾同学一直在操作系统团队实习。AsymNVM 与传统架构相比:

  1. AsymNVM 能够共享 NVM 资源,并且它可以确保具有多个后端的可用性,并且由于架构和接口的简化可以使后端更加可靠。
  2. 由于采用了基于 RDMA 解耦的架构,前端节点一直以接近 100% 的CPU占用率运行,后端只会产生非常小的 CPU 占用率,大概 < 10%,能够支持更多前端。
  3. 同简单的直接使用远程直接内存访问技术来访问远端非易失内存的实施方式相比,AsymNVM 提供超过 6 倍的性能提升。
  4. AsymNVM 在交易基准 SmallBank 中将吞吐量提高到 1.42 倍,在 TATP 中将吞吐量提高到 12.5 倍。

第 21 届 Cluster 会议于 09/23/2020 在美国阿尔伯克基召开。Cluster 是高性能计算方向计算机系统领域的主要会议,我们的一篇论文被接受,论文信息如下:

Teng Ma, Tao Ma, Zhuo Song, Jingxuan Li, Huaixin Chang, Kang Chen, Hai Jiang, Yongwei Wu. X-RDMA: Effective RDMA Middleware in Large-scale Production Environments. [Cluster’19]

这也是和清华大学高性能所合作的一篇论文,提出并实现了统一高效的 RDMA 消息中间件,解决了 RDMA 在实际生产过程中的一些关键可靠性和可用性问题,例如:极简的接口抽象,必要的上层消息确认机制,中间件辅助流控配合 DCQCN,结合生产系统的诊断机制等等,目前该技术已经被广泛应用在阿里巴巴基础云产品中(包括:数据库,分布式存储等)。

第 27 届 ESEC/FSE 会议于 26/08/2019 在爱沙尼亚塔林召开。ESEC/FSE 是软件工程领域三大顶会之一,我们的一篇论文被接收,论文信息如下:

Heyuan Shi, Runzhe Wang, Ying Fu, Mingzhe Wang, Xiaohai Shi, Xun Jiao, Houbing Song, Yu Jiang, Jiaguang Sun. Industry Practice of Coverage-Guided Enterprise Linux Kernel Fuzzing. [ESEC/FSE’19]

这篇论文是和清华大学软件学院合作完成的,针对内核模糊测试工具应用于企业级 Linux 内核所面临的主要挑战,我们提出了相应的解决方案,实现了对企业级 Linux 内核的模糊测试,并在多个企业级内核中发现了数十个内核漏洞,为企业版 Linux 的内核安全提供了有力的保障。施鹤远,王润哲同学此前一直在操作系统团队实习,并即将以正式员工的身份加入团队。

我们的一些研究工作已经被生产系统接受并认可,同时也有源自于生产系统的问题和创新工作在不断输出到学术界。秉承开放,创新,分享的态度,深厚的系统领域经验和强大的研发力量,以及在系统领域的全视角场景,我们真诚期望与更多的业界同仁一起携手,共创系统领域的未来! 如果对我们的研究工作感兴趣或者希望与我们探索合作的机会,欢迎广大同仁与我们联系:songzhuo.sz@alibaba-inc.com 宋卓。