故障停机:损害企业利益的隐患
如果你问一个大型企业的IT主管,请他列出最关注的几件事情,那么对企业IT基础设施可靠性和业务连续性的关注一定排名第一。IT主管的压力来自于企业自身运营的压力。无论是财务系统、订单系统、生产管理系统,还是实时分析系统,这些核心业务系统承载着企业正常运营的关键数据流和信息流,通常被期望实现7×24小时不间断运行,因为一次普通的故障停机都会带来巨大的经济损失。
根据信息技术情报咨询公司(Information Technology Intelligence Consulting,ITIC)的一份关于服务器硬件和操作系统的可靠性调查报告,在接受其调查的全球800多名客户中,81%的受访者表示,每年一小时的停机时间造成的损失超过30万美元。
找到适合关键业务的IT基础设施
为了尽可能减少故障停机的概率以及带来的影响,企业可以采用更适合核心系统的业务部署方式 — 比如使用多台服务器进行冗余部署。这种方式虽然增加了业务可用性,但不会降低单机的故障概率,同时会增大空间、能耗、管理等各方面的开销,并且即便采用了冗余,如果每个服务器节点本身的故障率偏高,那么也会出现冗余节点频繁切换的情况,增加业务中断的风险。
因此,在采用冗余部署的同时,增加单个节点的可靠性也十分必要。业界通常将一类能够提供极高单机可靠性、能够应用于企业核心业务的计算硬件称为关键业务服务器。这类服务器在过去一直由以POWER小型机为代表的UNIX服务器承载,但随着科技的进步,越来越多的核心业务已经改由x86架构的服务器来承载。
华为KunLun关键业务服务器就是其中的佼佼者,它不仅提供出色的性能、高效的资源利用率,以及媲美POWER小型机的高可靠性,还能以开放的架构跟上云和大数据时代的创新步伐,逐渐成为企业核心服务IT硬件的优质选择。
“组合拳”突破x86架构局限
众所周知,x86是一个开放的系统架构,这意味着x86服务器上的每个组件,例如服务器硬件、操作系统和数据库程序,都可以来自不同的厂商,因此通常x86服务器厂商较难实现端到端的可靠性设计,其服务器可靠性通常只是简单依靠x86处理器的RAS能力。(RAS是可靠性Reliability、 可用性Availability 和可服务性Serviceability的缩写,代表在这3个领域的技术集合)
为了适应关键业务领域对高可靠性的需求,KunLun采取了多种措施,以“组合拳”的形式构建了独有的全栈式可靠性设计,从硬件层、固件层、操作系统层和应用程序层的维度对可靠性进行增强,并将各层级的可靠特性进行有机结合,实现故障可隔离、可预警,故障部件可在线更换,以及面向典型应用场景的端到端可靠性交付,包括Oracle数据库场景和SAP HANA内存计算场景。这种独创的可靠性设计被命名为RAS2.0技术。
1先来看硬件层
硬件层最显著的一个特点是全模块化设计,并支持从前后进行维护。KunLun由系统计算框、中央管理框和I/O扩展框这三大组件构成,其中系统计算框前视图和后视图如下图所示。
KunLun三大组件均为全模块设计,这样的设计带来了诸多好处。
第一,免除开箱麻烦,不用动线缆,节省时间,减少操作失误;
第二,无需螺丝刀等工具,所有模块通过自带结构件可锁紧、解锁;
第三,前后维护为电源、风扇、硬盘、CPU板、内存板等部件热拔插替换提供了便利。
2接着看固件层
这一层主要特点是带内系统固件和带外管理软件相互配合,组成了一个以带外为主导的故障管理系统。该系统可对服务器各个部件进行故障检测和信息收集,并在故障发生时报告部件名称和故障信息。此外,KunLun带外故障管理系统还支持故障主动分析引擎(PFAE,Pro-active Failure Analysis Engine),可不断对历史故障信息进行分析,当一个部件出现轻微异常并出现向严重故障演变的趋势时,PFAE会进行预警,以便系统提前采取措施。比如可以对故障模块进行隔离,或对故障部件进行在线替换。
PFAE因为具有对故障进行主动预判的能力,因此能够有效降低系统发生严重故障进而导致停机的风险。
3最后看操作系统层和应用软件层
KunLun这部分的可靠性能力建筑在与主流生态圈合作的基础上。KunLun是业界唯一支持CPU和内存模块在线物理拔插的关键业务服务器。自KunLun发布以来,华为和合作伙伴积极构建开放生态,加速创新。CPU和内存热替换技术是系统性的复杂技术,需要处理器、系统固件、服务器平台,以及操作系统和数据库等应用的支持。
目前KunLun已和SUSE Linux操作系统发布了在Oracle数据库和SAP HANA场景下的内存在线替换联合解决方案,并仍继续与SUSE和Red Hat两家Linux厂商展开联合研发,预计将在2018年第四季度实现在最新英特尔至强可扩展处理器平台上支持对CPU和内存模块的在线替换技术。
消除故障隐患,企业砥砺前行
企业IT系统正在经历由封闭向开放转型的过程,而其对于关键业务连续性的要求却从未降低。
KunLun关键业务服务器一方面以开放架构帮助企业释放创新潜能,另一方面以增强的“组合拳”提供了媲美封闭架构UNIX服务器的高可用性,为企业提供了优质的关键业务计算资源,为其业务连续性保驾护航。
留言与评论(共有 0 条评论) |