阿姆斯特丹是个以“开放”著称的城市,当然这个开放不是你们以为的那个开放。
秋天是收获开放果实的季节,从美洲到欧洲再到亚洲,Open19、OCP、OpenPOWER、ODCC先后召开了Summit。
OpenPOWER向左,OCP向右?
9月10日, 2018数字中国万里行暨北方区数据中心之旅最后一站,去阳泉的路上。接到赴荷兰参加2018 OCP地区峰会的邀请,心下有些犹豫。
一则,会议在10月1-2日召开,已经18年没有踏上欧洲大陆的我,担心没有足够的时间办下签证;
二则,上次十一期间出差,还是五年前去西雅图参加微软的新品吹风会,如今长假只想在家睡觉。
但是,第二天上午,在百度云计算(阳泉)中心的参观,唤醒了我尘封90天,对开放计算的热情。
百度阳泉:开放计算的乐园
天蝎整机柜是开放数据中心委员会(ODCC)的招牌项目,经过多年的发展,“在天蝎整机柜的市场上,百度仍然是最大的用户,浪潮是最大的供应商。”
百度云计算(阳泉)中心于2012年启动,2014年9月第一期建成投入运行,今年最后一期完成后将全部投入运营。不难看出,阳泉数据中心的发展轨迹与天蝎整机柜服务器高度重合,又是百度自建,有充分的施展空间,非常有利于整机柜的部署。
百度云计算(阳泉)中心共有8个模组楼,两两一对,整体布局形似百度Logo中的熊掌
然而,天蝎整机柜服务器在阳泉数据中心所占比例之高,仍然超出了我的预期。为了体验阳泉数据中心采用的四种供电架构和四种空调末端技术,我们穿梭于八个模组楼之间,参观了多个机房。除了一个机房里有少量被百度称为“一体机”的某款浪潮服务器,目力所及之处,全都是天蝎整机柜服务器——据了解,百度北极2.0整机柜服务器在阳泉数据中心的占比接近96%。
百度阳泉数据中心里的这一排北极2.0整机柜服务器,各容纳35个1U服务器节点
整机柜服务器有快速部署等优点,年初我在《整机柜的诞生》一文中已有较为充分的论述。经过本次万里行的洗礼,对数据中心的服务器密度有了更为直观的感受。由于天蝎整机柜的节点比传统机架式服务器更宽、更深,且供电单元(PSU)和风扇已“上交”给机柜,计算和存储密度有明显的提高,一个1U节点的实际容量,可以与一台2U机架式服务器大体相当。由此算来,阳泉数据中心的北极2.0整机柜装备的1U服务器节点普遍达到30个以上,如果换成常规的2U机架式服务器,一个机柜肯定是装不下的。与此相对应,百度云计算(阳泉)中心的单机柜功率普遍达到8.8kW(千瓦,AI服务器的机柜超过10千瓦),也是此行中最高的水平。
北极2.0整机柜服务器对应天蝎2.0整机柜服务器技术规范,以及后面的天蝎2.5技术规范。天蝎2.5的一大新特性是机柜中可安装多达2U的电池后备系统(Battery Backup System,BBS),这种国内首批内置机柜级锂电池的服务器在阳泉成功上线,进一步优化了数据中心的供电架构,在配电系统彻底模块化的同时,去除了UPS和传统铅酸电池的配置,实现了机电、IT的一体化,供电效率达到了99.5%,节省的机房空间达到25%。
北极2.0整机柜服务器内置的锂电池蓄电单元会占用供电框上下各1U的机架空间,但在实践中由于受到机柜供电能力的限制,除非全部使用冷存储服务器,节点本来就放不满,所以增加的这2U蓄电单元反而提高了整机柜的空间利用率
整机柜提高密度,内置锂电池节省空间,多种手段综合作用,百度云计算(阳泉)中心的服务器总装机容量从最初设计时的12万台,增长到现在的16万台,而我们参观时的实际装机量已超过11万台,从另一个角度体现了开放计算的价值。
2016年5月IPF上浪潮展出SR 4.5整机柜服务器(对应天蝎2.5技术规范)的BBU节点,由4个输出功率达1.1kW的电池模块组成,采用因特斯拉而为大众所知的18650规格锂离子电芯,两个这样的节点可以为8.8kW的IT负载持续供电15分钟
然而,这些又和此次OCP地区峰会有多大关系呢?
5大新品:ODCC贯通OCP
9月30日晚,阿姆斯特丹。会前惯例,邀三两基友,把酒话业界。
结合近期的业界动态和地区峰会的定位,我料想此行不会有太多新规范和产品方面的收获,更希望感受一下欧洲的开放计算生态。长居海外的基友则较为关注OCP(Open Compute Project,开放计算项目)基金会里中国会员的动向,正巧还刚参加完在硅谷召开的Open19峰会。
浪潮在Open19峰会上公布的全球工厂布局,右上角我参观过,是《整机柜的诞生》一文的主角担当;左上角是在硅谷的工厂,生产能力虽不及国内,比建设中的欧洲工厂还是大多了
Open19是LinkedIn(领英)发起的开放计算项目,相对(超大规模)而言更为符合中大规模客户的实际需求。Open19公开于2016年7月中旬,略晚于微软宣布收购LinkedIn,两年后的2018年7月18日,OCP又宣布LinkedIn成为其铂金会员(Platinum Member,加入的时间是5月31日),发起者的两次转轨似乎都没有影响到Open19的独立发展,反而在OCP的大本营开了峰会。
OCP的首次地区峰会接踵而至,总体情况基本符合我的预期:今年本来就是硬件的小年,OCP美国峰会后又刚过去半年多,两个最大的IP贡献者——Facebook和微软——总体上新意欠奉,微软的Project Olympus武库里增加了两款分别基于Intel+NVIDIA和AMD平台的GPU服务器,已是为数不多的亮点。
相比两大用户,生态系统的另一端要更活跃一些,譬如浪潮就在峰会上发布了5款基于Open Rack V2标准的服务器节点:包括3款计算节点,1款存储节点,1款GPU节点。略加分析,于我们了解开放计算的生态发展,颇有助益。
Open Rack和天蝎2.x机柜都采用21英寸内宽、集中供电单元的架构,主要区别在于天蝎整机柜还集中了散热(风扇)和管理(RMC),供电铜排(busbar)的位置也不同,从而导致了节点形态上的差异,对浪潮这样跨越ODCC和OCP两大开放计算标准的供应商,是个不大不小的考验。
浪潮在阿姆斯特丹OCP峰会上展出的6款Open Rack产品,供电框往下,依次是4 OU的GPU节点ON5488M5、2 OU的存储节点ON5266M5,3款2 OU计算节点ON5283M5、ON5273M5、ON5263M5,和1 OU计算节点ON5163M5。除代号San Jose的ON5263M5之外,都是此次新推出的产品
1U服务器只能使用40mm风扇,效率明显不及2U服务器所能使用的80mm或60mm风扇,所以除了对计算密度要求很高(如面向HPC应用)的机型,Open Rack的节点很少采用1U设计,通常从2U起步。天蝎整机柜则正相反,由于节点与风扇解耦,不存在上述限制,于是1U机型成为主流规格。
(注:Open Rack每U的高度为48mm,称为Open U,简称OU;天蝎2.x每U的高度为46.5mm,称为Scorpio U,简称SU。都比标准RU略大,但相差也就是2mm左右,具体到单个节点的设计,差异不大)
天蝎整机柜的节点要适配Open Rack,首先必须在后端加上风扇,Open Rack V2(ORv2)将铜排的数量从3根减少到1根,允许节点使用较大尺寸的风扇
这个矛盾在计算节点上体现得最为明显。类似于百度之于天蝎整机柜,Facebook是Open Rack的最大用户,奉行计算与存储解耦的理念,为了保证计算密度,采用2(O)U3的设计,即3个双路计算节点平分2(O)U的机架空间。天蝎整机柜则不然,双路节点有1U半宽计算密集型和1U全宽计算存储均衡型等选择。由于外形规格迥然不同,Open Rack和天蝎2.x的双路计算节点基本上只有主板可以通用(OCP网卡这样的附件暂不展开讨论)。
所以,相较于天蝎整机柜的计算类节点,浪潮的Open Rack计算节点要对上Facebook的胃口,必须重新设计,正如2017年8月中获得OCP Accepted认证的San Jose Compute Sled(型号为ON5263M5),就是一款典型的2(O)U3计算节点。
3个并排放置是Open Rack双路计算节点的典型特征,从上至下依次是2 OU的ON5283M5、ON5273M5、ON5263M5,和1 OU的ON5163M5,可以直观的看到区别所在
ON5263M5基于第一款OCP-Accepted英特尔至强可扩展处理器(Xeon Scalable Processor,XSP)主板Inspur San Jose Motherboard,此次推出的3款计算节点亦然。其中2款变化不大,主要是增强了I/O扩展能力:ON5273M5提供两个出自不同CPU的PCIe x16插槽,可以更好的支持高性能PCIe设备如GPU、100GbE网卡等;ON5283M5则提供更多的2.5英寸盘位和PCIe x8插槽。
变化较大的是高密度计算版本ON5163M5,通过牺牲扩展能力,将高度降至1(O)U,即1(O)U3的形态。以Open Rack V2的典型配置来看,可以容纳96个这样的节点,前提是机柜的供电能力可以匹配——实际上,天蝎2.x的计算密集型节点设计为1(S)U2(即1U半宽),而不是1(S)U3,更主要的也是受限于机柜的功率密度。
存储节点ON5266M5和GPU节点ON5488M5均为全宽节点,这有利于浪潮利用其在天蝎整机柜上的丰富积累。
在计算与存储解耦的理念下,存储节点通常指JBOD(Just a Bunch Of Disks,闪存则是JBOF),譬如Facebook的Open Rack存储节点Open Vault。Open Vualt是一款2(O)U节点,里面有上下两层各可容纳15个3.5英寸硬盘,从散热的角度看,相当于2个1U的节点共享2U机箱更大直径的风扇。天蝎整机柜的JBOD节点推出时间要晚上几年,得益于天蝎整机柜深度超过Open Rack,节点的深度随之略为占优(850mm vs. 800mm),所以尽管只是1(S)U规格,却可以容纳20个3.5英寸硬盘。
存储节点ON5266M5采用与Open Vault类似的两层设计,每层17个3.5英寸盘位,比天蝎版本(SN3116J4)略少
既然有Open Vault这般先例,要把1(S)U的天蝎JBOD节点SN3116J4两两堆叠,改造成2(O)U的Open Rack版本JBOD节点ON5266M5,于浪潮也并非难事。大的调整有四:节点后端加上一排风扇,及相应的电路;适应节点深度的缩短,减去最靠后的一行(3个)硬盘托架,变成每层17个硬盘,共34个硬盘,仍然比Open Vault多4个;改变对接铜排的位置和连接器;外壳和供电的二合一。
至于支持16个PCIe GPU的ON5488M5,其原型是浪潮的SR-AI整机柜节点。由于其节点本身就是4U形态,主要步骤上只需要加装风扇、缩短深度、微调供电即可,比JBOD节点又省了一步——当然实际工作远没有这么简单,只是籍此探讨一下ODCC旗下的天蝎整机柜标准与OCP旗下的Open Rack标准之间,产品设计的可重用度问题。
后端风扇是ON5488M5与浪潮SR-AI整机柜节点最显眼的区别
开放融合:化繁为简之道
两天会议结束,在同一个会议中心,2018 OpenPOWER欧洲峰会接力登场。从议程和会场设置来看,更偏软件开发者,包括浪潮商用机器展台上的两款OpenPOWER机型在内,展出的硬件并不算多。
浪潮商用机器在OpenPOWER欧洲峰会上展出了两款机型
OCP也设了展台,但没有展品,主要是OCP基金会CTO Bill Carter出面和大家联络感情。反过来看,我所参加的每一届OCP峰会都能见到OpenPOWER的展台,像本届地区峰会上就展出了因新科超算榜首Summit(此Summit不是我们在开的Summit)而名声大噪的IBM Power Systems AC922服务器。2018 ODCC峰会之后在青岛召开的2018全国高性能计算年会上,多位专家在演讲中提及Summit,均对其(基于AC922的)胖节点设计赞不绝口,认为很适合人工智能中的深度神经网络(DNN)算法。
OCP峰会上的OpenPOWER展台,右侧图片上就是Summit的节点
我不由得又想到Open19:LinkedIn的母公司微软加入OCP就属于“带艺来投”,其OCS(Open Cloud Server,开放云服务器)及Project Olympus成为与Open Rack并行、相对独立发展的分支;而LinkedIn加入OCP之后,还没有显露出让Open19也加入OCP的迹象……那么,未来Open19会像OpenPOWER一样,与OCP保持着若即若离的关系么?
即使不考虑Open19,也可以看看亦师亦友的OpenStack——今年以来,社区内外关于OpenStack越来越复杂,项目失控的声音渐多。OpenStack曾经是OCP学习的榜样,如今又有哪些教训可供参考呢?
常出国的朋友可能用过Booking,该公司就是在阿姆斯特丹成立的
OCP欧洲代表John Leban认为, OpenStack与开放计算的结合和协同会带来十分直接的收益,可以大幅度降低成本,与开放计算结合就是OpenStack的发展趋势,这一点在电信行业尤为明显。但是,OpenStack开始变得太过宽泛,项目太多而不深入,这可能会给OpenStack带来危机。OCP未来的发展应该专注几个重点,而非面面俱到。
Bill Carter表示,LinkedIn在嵌入式软件领域参与OCP社区的切入点很多,但对Open19加入OCP的猜测不置可否。他刚与OpenStack用户交流了两个小时,大家持与John Leban同样的观点,即OpenStack和OCP发展的很快,现在需要重新聚焦。但是,他们谈论的是如何重组数据中心和简化数据中心的运行,OCP的技术和方案应该与网络、接入和边缘产品兼容,否则会把事情复杂化。
“OpenStack的各个模型正在变得复杂化而难以应用,我们应该开始考虑聚焦问题,方案供应商正在把各个模块整合为统一的方案,让OpenStack变得更容易使用。现在大家已经意识到这个问题,我们就必须继续做下去,不仅是软件的整合,而是软硬件的共同整合。”
浪潮集团副总裁胡雷钧和OCP基金会CTO Bill Carter
除了项目的复杂度,开放计算还要解决大规模、超大规模数据中心在管理、运维方面的复杂度,大量来自不同供应商的服务器等设备,闭源的BMC(Baseboard Management Controller,基板管理控制器)以及相关的软件包标准不一,给统一管理带来了很多技术障碍。业界的解决方案是Facebook发起的OpenBMC开源项目,经过几年发展后已转移到Linux基金会,形成了相对完善的技术生态。
当前的服务器管理技术标准主要是IPMI 2.0,其较差的扩展性也很难满足大规模数据中心的管理需求。DMTF(Distributed Management Task Force,分布式管理任务组)制定了下一代服务器管理技术标准Redfish,具有扩展性好、功能丰富、针对地址不同和供应商不同的基础设施向客户提供规范化管理接口的优点,适用于从数据中心运营到企业管理控制台等不同用户的需求,现在正处于从IPMI向RedFish的切换期。
OpenBMC与Redfish被认为是下一代数据中心的管理技术和标准。伴随着5款新品的发布,浪潮率先实现了OpenBMC和Redfish的融合,其OCP认证的San Jose节点(ON5263M5)是全球第一款符合Redfish OCP Baseline profile的产品,并开发了符合Redfish标准的OpenBMC全功能版本,以推进开放数据中心管理技术生态的发展。
浪潮集团副总裁胡雷钧表示,OpenBMC和机柜管理方案涉及很多具体细致的内容。浪潮想一步步的把专业知识、IP和软件代码放到基于OpenBMC的路径上,并正在OpenBMC上进行Redfish、固件生命周期管理、系统故障诊断等关键功能的完善。浪潮会循序渐进,应用ODCC和超大规模数据中心的经验和趋势,在社区中实实在在的执行和实施,使每个人都能从中受益。
Bill Carter也提到了几个月前与浪潮的交流:“浪潮积极参与贡献ODCC,是核心会员和技术贡献者,而ODCC的主要技术之一就是机柜管理软件。我们介绍了如何在物理架构上共享技术,以及如何应用机柜管理解决方案。今天早上,我们了解到诺基亚也有相似的机柜管理软件,他们对开源表示强烈兴趣。两天内,我们了解到至少6家公司有兴趣参与,这是一个广受关注的议题。”
留言与评论(共有 0 条评论) |