6月27号,朋友圈晒起了蓝天白云,北京久违的好天气,脑海里总是飘出那句:爱就像蓝天白云晴空万里突然暴风雨....,这个在抖音很火的歌曲,或许最能表达阿里云的心情,因为他们刚刚经历一场暴风雨。
6 月 27 日下午,有众多网友在微博中反馈阿里云平台出现了访问故障。从阿里云官网公告中了解到,故障的开始时间为 2018 年 6 月 27 日16: 21 左右,主要原因为,阿里云官网的部分管控功能,及MQ、NAS、OSS等产品的部分功能出现访问异常。不过,目前大部分功能已经恢复正常。
对此,阿里云迅速发布公告,甚至道歉表示:对于这次故障,没有借口,我们不能也不该出现这样的失误!我们将认真复盘改进自动化运维技术和发布验证流程,敬畏每一行代码,敬畏每一份托付。
事件的原因,阿里云团队表示,工程师团队在上线一个自动化运维新功能中,执行了一项变更验证操作。这一功能在测试环境验证中并未发生问题,上线到自动化运维系统后,触发了一个未知代码bug,错误代码禁用了部分内部IP,导致部分产品访问链路不通。后续人工介入后,工程师团队快速定位问题进行了恢复。
在国内,阿里云的地位毋庸置疑,但是这确实不是阿里云第一次宕机。
早在2015年9月,阿里云云盾的安骑士产品升级触发bug导致了用户ECS里的部分正常文件被误隔离。
2016年10月,华东1地域可用区B部分ECS服务器出现IO HANG的问题。
在这里,我绝对不是以批判的角度来审视阿里云,做云计算难免故障,苹果iCloud、Microsoft Azure、AWS、Facebook、IBM等等都曾出现过类似事故,国内的今日头条、微博还有百度等等,都有类似的故障。
那么有故障再所难免,在故障时刻, 怎么减少大家的最大损失,才是我们所期望看到的。
在627,阿里云出现事故的时候,就有技术群在发布:短信接口出现问题,用户无法注册;API借口出现问题,当然对一些公司,不可避免的造成了一些经济损失。
那么企业如何才能最大限度的减少损失呢?
其实我们在谈云服务的时候,一般有三种形式:公有云、私有云以及混合云。公有云通常指第三方提供商为用户提供的能够使用的云,私有云是为一个客户单独使用而构建的,因而提供对数据、安全性和服务质量的最有效控制,混合云融合了公有云和私有云,是近年来云计算的主要模式和发展方向。
有个形象的比喻就是:我们在家里自己做饭属于自建私有云,需要建造厨房购买锅碗瓢盆柴米油盐等,费时费力;外面餐馆提供的就相当于公有云服务,按需胡吃海塞吃完结账抹嘴走人;请厨师到家里上门做饭则属于典型的混合云。
像阿里这次事故,就属于公有云问题,公司对数据掌握能力较低,容易对企业业务造成影响;而私有云,维护成本较高,对于一般中小企业无力支付其巨额成本;即便是混合云也并不是完美无缺,数据冗余能力要求较强、风险成本以及学习成本都很高。
所以,最近流行一个新的服务形式:多云。其实道理跟鸡蛋不放在一个篮子里是一样的。但是目前,云服务商众多,如何挑选以及对接、后续服务等等事项确实令人头疼,特别是挑选服务商,会增加企业的人力成本、时间成本。
所以如果以中介模式,能聚合绝大部分云服务商,然后提供服务的平台,势必会受到大家欢迎。但是,能把这些巨头、竞品融合到一个平台,相比也不是一件容易的事儿。但是相信,在这次事故之后,越来越多企业认识到数据安全的问题,“多云”未必不是未来发展的趋势。毕竟经过昨天那场事故,“用多云,不宕机”口号更加令人信服。
留言与评论(共有 0 条评论) |