开放计算正成为当前乃至未来数据中心的创新主力,通过全球化协作的创新模式,解决数据中心基础设施可持续发展的重大问题。作为开放计算领域生态覆盖最广且最具影响力的年度技术峰会,OCP China Day 2022(开放计算中国技术峰会)于8月10日在北京成功举行。
已成功举办4届的OCP China Day由OCP社区主办,浪潮信息承办。大会设置1场主论坛及5场分论坛,其中,开放计算生态论坛,汇聚了来自微软、浪潮信息、阿里云、NVIDIA、是德科技、长工微电子、村田等企业的专家学者,聚焦SONiC/SAI开放架构、开放网络软件、节能降耗等产业生态话题,推动开放计算产业化。
1.SONiC引领开源网络发展快车
SONiC(Software for Open Networking in the Cloud)和与其伴生的SAI(Switch Abstraction Interface)是由微软主导的开放云网络领域的两大开源项目。为了顺应云计算、软件定义、开源开放的历史潮流,微软并未将这个系统做成封闭、私有的,而是以开放、开源、社区的模式运作。
微软亚洲研究院首席研究员熊勇强介绍说,SONiC这个英文缩写有三大关键词:一是软件,即这是一个基于Debian的Linux网络操作系统;二是开放网络,即这是基于开源社区打造的开放系统;三是云,即能支持多种芯片和平台。这其中的关键是Switch Abstraction Interface交换机抽象接口(SAI)。
SONiC发展的核心目标是云服务厂商对网络的自主、可控、可扩展,做到可控性、可扩展性、敏捷性以及协作性。从2016年发布以来,SONiC社区发展迅速,从芯片到交换平台到云厂商,以及相关系统和服务,都拥有了大量的成员。可喜的是,中国成员的作用日益突出,从生产芯片的盛科、生产交换机的锐捷、浪潮信息,到阿里、腾讯、百度、美团、京东、滴滴等用户和云服务商,都会看到中国成员的身影。
2021年,SONiC从 OCP社区转移到了Linux基金会,从而为OCP和Linux两个社区架起了一个桥梁,既能充分利用Linux社区的开发者和系统资源,发挥Linux对网络操作系统的支持,又能充分服务OCP社区软硬件结合支持数据中心的目的。
微软云网络部门资深工程师于欣磊介绍说,SAI就是交换机抽象接口层,连接了底层的硬件以及上层的网络操作系统。通过提供一套标准化的统一接口,以及定义的一套完整的数据模型,为硬件和驱动提供相应的实现标准,同时为上层的NOS提供统一的API和数据模型,方便数据中心的交换设备的部署,同时达到发展白盒交换机的商业目的。
目前,很多国内厂商加入到社区。在2020年,社区对PTF项目进行升级,同时加入了很多的测试实例,在QS层面也进行了增强和改进。
SONiC全新的理念、开放的架构快速获得了云计算时代的用户、厂商的青睐,成为云计算时代构建网络软件系统的首选。Gartner报告预测,到2025年,全球40%拥有大型数据中心网络(超过200台交换机)的企业将在生产环境中部署SONiC。IDC预言,2024年SONiC交换机市场规模将达到20亿美元。
2.中国企业开放网络贡献日益增多
浪潮信息交换机产品部研发总监陈翔介绍,云数据中心网络目前面临的三大挑战:一是目前将近70%的数据是服务器内部的东西向流量,而传统的网络无法高效的调度东西流量,导致网络利用率低。
二是网络无法满足AI和高性能计算等新兴业务的高质量、超低延时要求。
第三,网络无法灵活地支持异构算力。新的应用业务需要XPU和FPGA等各种专用的异构算力的支持。而传统的网络无法灵活打通各种不同功能、不同位置的硬件资源,导致数据中心的异构算力资源无法得到充分的利用。
浪潮信息认为,网络的开放解耦是大势所趋,通过软硬解耦和容器化应用两层解耦可以加速整个网络业务的创新,促进更开放的产业生态的建立,更好地保护网络软件的投入成本,大幅度降低网络软件TCO。
浪潮信息一直是开放网络的引领者与推动者,积极的参加各种开放组织,是OCP和ODCC铂金会员,并积极回馈开源社区,在SONiC社区,在硬件上面贡献了25G和100G交换机平台以及相关的驱动代码;向社区贡献将hotswap linecard和Mc-lag的一些特性增强。同时浪潮信息也在积极推动开放网络技术的落地。
浪潮开放网络是基于开源的可靠+开放的网络解决方案,充分吸收和借鉴了开源社区的方案,形成了一个最佳实践。其中Inspur NOS就是基于SONiC社区构建的,具有更丰富的网络特性和更高的稳定性,目前可以支持像x86和Arm等多种CPU和交换芯片,同时还针对数据中心的特性进行了强化测试与bug修复。它天然具备的敏捷运维,可以实现不间断的在线升级,在网络的持续可用方面,网络匹配云业务的快速发展,支持标准的开放接口,可以与第三方管理工具进行无缝对接,也可以对客户的定制工具实现统一管理。
OCP通过开源推动了白盒网络发展,但是在国内有能力设计和使用白盒的客户依旧不多。阿里云基础设施网络研发事业部高级专家朱芳波介绍,为了解决行业共同痛点,阿里、腾讯、百度、美团、京东、快手、火山引擎、中国移动、信通院联手推出S³IP,希望推进白盒标准化来改变现状,降低白盒使用门槛,让更多客户享受白盒红利。
一个繁荣白盒网络会让供应/成本更有保障,同时通过标准化设计,推动行业进一步分层,实现专业人做专业事,降低资源投入和耗散。期望通过分享S³IP发展历程、当前重要成果、未来规划,吸引更多白盒用户、系统厂商、部件/模块厂商加入S³IP,一起推动白盒生态发展。
NVIDIA HPC-AI技术市场总监冯高锋介绍了DPU在HPC和AI行业的应用,不仅可以卸载基础设施软件,释放CPU 资源, 构建云原生生态,而且使用DPU对部分集合通信加速,例如和美国俄亥俄州立大学的合作显示,DPU对all2all 和allgather异步通信实现卸载,性能提升明显,在一款分子动力学应用,和3D傅立叶变换应用中,都有显著加速作用。针对云上生产环境,NVIDIA提出了性能隔离特性,能够实现租户的网络流量隔离,保障租户在云上也能获得极致性能。
是德科技技术经理虞乐为大家分享了“构建开放测试框架和工具,帮助社区实现测试目标”。是德科技2020年加入了SONiC社区,主要负责测试用例编写、测试脚本实现。在服务不同的用户的基础上,是德科技发现传统的测试基础设施很难满足一些开源项目的需求,通过构建开放的测试框架和工具来帮助社区实现开源项目的测试目标。
3.节能降碳新技术迅速发展
提到节能降碳,电源是必不可少的一个话题。长工微电子北区高级销售经理王卿认为,现今开放计算系统硬件领域内,CPU朝着更低的工艺节点演进,带来的CPU功耗及杂散元器件损耗的问题愈来愈突出。除数据中心规模快速增长外,疫情下半导体供应链紧张的状态未得到有效缓解,重要原因之一在于VRM控制器和power stage不能交叉应用,因此电源方案的兼容设计成为主流方向。例如在功率器件方面,长工微在12V应用下提供了能够兼容业界主流封装的70A Power Stage IS6806A/IS6809A,采用MCM封装;对于正在发生的Open Rack应用,电源总线从12V向48V的演进,长工微也对12V,5V等中间总线提出了自己的看法,与相应的研究方向。
村田电子电源产品技术专家杨宁为大家分享用于整机柜供电的多种电源产品方案。村田在电源模块研发制造方面已经拥有35年的历史,累积了丰富的经验。在2017年村田收购了索尼的锂电池业务部门,并将美国麻省理工学院下的Arctic center的开关电容先进技术收入囊中。目前村田已经有五大类的电源产品,主要包括AC转DC产品,数据中心电源子系统隔离型和非隔离型的DC/DC模块,以及最新的电源管理芯片等。
阿里云异构计算产品高级架构师俞宜洋介绍,震旦异构计算平台是阿里云为数据中心、边缘计算和AIoT等全场景下各种机器学习算法、应用和高性能计算设计的统一编译和软硬件协同优化软件,可实现与各种加速硬件的高效集成和平滑迁移。同时,为算法和应用屏蔽异构算力硬件的架构差异,快速对接下层多种机器学习框架,实现无感知多端快速部署,提升开发效率。
未来,OCP社区将继续通过创新的产业协作模式,聚合全球最领先的科技企业,继续与社区的方式,推动领先技术的产品化和产业化,加速数据中心转型升级。
留言与评论(共有 0 条评论) “” |