作为系统领域顶会双星之一的 OSDI ( USENIX Symposium on Operating Systems Design and Implementation ) ,当地时间今年 10 月 8 日 -10 日在在美国加州 Carlsbad 的 Omni La Costa Resort & Spa 酒店举办了其第 13 次会议 OSDI'18。本次大会参会人数达到了创纪录的 650 多人,投递论文 257 篇,收录 47 篇,录取率不到 20%。另外有 83 个 Poster 和 6 个 Demo。本届 OSDI 三篇 Best Paper 分别来自 Understanding Failures ( REPT: Reverse Debugging of Failures in Deployed Software, Weidong Cui et al ) ,Operating System ( LegoOS: A Disseminated, Distributed OS for Hardware Resource Disaggregation, Yizhou Shan, et al ) 和 Debugging ( Orca: Differential Bug Localization in Large-Scale Services, Ranjita Bhagwan ) 三大 OS 传统领域,组委会可谓初心不忘,聚焦系统层面的创新。
3 篇 Best paper 中两篇的第一作者都是华人学生,也是一个令人欣喜的现象。值得一提的是,Operating System 的 Best Paper:LegoOS: A Disseminated, Distributed OS for Hardware Resource Disaggregation, Yizhou Shan, et al,引用了我们之前发布的 Alibaba cluster trace 佐证下一代 resource disaggregation 的设计,说明阿里巴巴的基础技术能力和场景已经开始得到顶级学术会议的重视。
阿里巴巴对本次会议进行了最高级别的金牌赞助,并举办了专题研讨会 ( BoF ) ,分别介绍了 ( 1 ) 阿里巴巴 OS 开发优化和创新方面的一些最新进展, ( 2 ) 阿里云存储系统盘古 2.0,以及 ( 3 ) 阿里巴巴的资源管理系统 Sigma 在日常和双十一期间进行的多种优化和面临挑战。研讨会现场吸引了来自全世界数十位专家学者,在系统软件事业部系统性能研究员 Kingsum 的主持下,大家以演讲介绍加自由讨论的形式,对上述 3 个话题展开了热烈的讨论。
上图:本次研讨会的三个主题以及讲师介绍
上图:会场内近无虚席
阿里巴巴 OS 的开发与探索
Alikernel 是阿里巴巴为了更好支持自身业务发展,应对多种技术挑战而进行开发和优化的操作系统内核。随着阿里巴巴集团服务器数量、业务多样性、应用混部规模的不断提高,操作系统和内核需要面临的挑战日趋增多,除了上述提到的规模问题,我们还有快速迭代、成本节约和创新性 ( 例如 serverless ) 的要求。
针对这些需求,操作系统资深技术专家绍康介绍了内核开发快速迭代、资源隔离、性能优化、以及在 Unikernel 方向上的创新探索 ( AliUK ) 。
上图:AliUK 架构
新一代分布式存储系统盘古 2.0
盘古 2.0 是已经在阿里巴巴广泛部署的新一代分布式存储系统,具有低延时、高 IOPS 的特性。盘古 2.0 的多级设计可以满足不同应用在多种场景下的需求,通过引入纯用户态的存储引擎 USSOS 和软硬件协同设计等机制,盘古 2.0 可以有效支持创新存储介质和 RDMA 网络,并大幅度提高 CPU 效率和 NVM 支持。
阿里云分布式存储资深技术专家储道,从现状、需求、设计、架构、新特性以及性能等多个方面,列举了盘古 2.0 的诸多引人注目的特性。
上图:新一代存储系统在成本控制、性能和 QoS 保障方面达到的要求
阿里巴巴超大规模资源管理系统 Sigma
Sigma 是阿里巴巴集团内部的资源管理系统,是阿里巴巴集团云化战略的关键系统,也是阿里巴巴集团最重要的基础设施之一。它服务于阿里巴巴集团众多经济体,如天猫、淘宝、广告、物流等。也负责双 11 等电商促销场景下的资源管理,从 2011 年起,就从容量规划、稳定性、成本控制等多个方面应对双 11 的极端技术挑战。
在这次分享中,来自系统软件事业部调度系统 Sigma 的技术专家临石,在 Sigma 的日常资源管理、双十一资源资源准备和稳定性、以及整个集群的 cost efficiency 几个方面,介绍了 Sigma 作出一些优化和面临的挑战。
上图:Sigma-Fuxi 混部架构图
Sigma 的日常管理。混部方面,阿里巴巴通过资源隔离、优先级控制、多调度器协调等方式,将混部的平均 CPU 利用率提高了 45% 以上,相对之前 10% 的在线服务平均资源利用率,节省了大量成本。在高质量决策方面,Sigma 引入强化学习机制,克服了传统启发式调度算法容易实现、难以优化的问题,大幅度资源部署率提高 ( 在线调度场景 ) 。同时,Sigma 还引入了动态额度机制,通过分析业务负载和应用容器的能力,实现了更加激进的动态资源额度控制,有效提高了整体资源利用率。
在双十一资源准备方面。Sigma 通过大量创新手段,大幅度提升了临时负载应对能力 ( 超过 100 倍日均压力 ) ,同时保证了业务的稳定性,为集团节省大量成本的同时,为商业模式的创新提供有有效的技术支持。
后记
尽管研讨会在晚上 20:30 开始,但是房间还是很快被坐满,与会者对阿里巴巴在系统软件方面的工作十分感兴趣。斯坦福大学 Platform Lab 的 Faculty Director John Ousterhout 也参加了本次研讨会。值得一提的是,阿里系统软件事业部不仅仅在和斯坦福进行合作,同时也和很多其他很多高水平学校的老师进行合作。这次研讨会大大提高了这些高水平研究者对阿里巴巴基础设施的了解,我们非常欢迎所有有志之士加入我们,共同打造最稳定、高效的系统软件。
留言与评论(共有 0 条评论) |