莱斯大学计算机科学家Eugene Ng和他的同事们推出了一种名为ShareBackup的新工具,该工具允许数据中心中的共享备份交换机在软件或硬件交换机出现故障后的几分之一秒内承担网络流量。换句话说,当失败不可避免地发生时,它将保持快速的数据。
根据Ng,该工具将解决数据专家、研究人员和依赖于系统的每个人的典型的不便,以传达长时间的结果。
Ng说,“数据网络由服务器和网络交换机组成。交换机将数据包移动到需要移动的地方。但这一切都失败了,尤其是在拥有数千块硬件的大型数据中心。
对于失败的交换机,通常的反应是将数据流分流到另一行。一般来说,网络有多条连接服务器的路径,所以,就像高速公路上有个封闭路段一样,我们会绕着它转。这是一种传统的、自然的方法,很有道理:你在失败的地方重新选择路线,以到达你需要去的地方。
“但有时另一条路很拥挤,一切都减速了。数据中心不是互联网;它们与人们浏览网站无关。它们是关于支持数据密集型应用程序,比如数据挖掘或机器学习。许多应用程序都有严格的性能期限,因此盲目地重新路由流量可能是数据中心不应该做的事情。
在这种情况下,ShareBackup工具将快速交换机和软件放在战略位置,可以在一微秒内从失败的交换机上接收流量。当问题解决后,该工具使备份开关可用来处理另一个故障。
Ng说,“ShareBackup不仅可以保持全带宽,还可以帮助分析问题,包括通常导致网络故障的错误配置,从而节省数据中心的时间和金钱。”
“我们的部分工作是帮助数据中心找出网络中的问题所在。一旦备份被激活,您就可以将故障设备从生产网络中取出,并对其进行测试,以确定是哪个组件导致了问题。
“现在,如果我们把两个设备拿出来,却不知道哪个坏了,这两个都需要更换。”很可能只有一种设备存在问题。我们的软件可以以半自动的方式诊断这些设备,如果其中一个部件是好的,就可以恢复。
这篇论文的主要作者是莱斯大学研究生吴定明和校友夏亦婷,她现在是Facebook的一名计算机科学家。共同作者是莱斯大学研究生孙晓叶,黄欣和辛巴拉什·齐纳马拉拉。
吴昌俊本周将在匈牙利布达佩斯举行的2018年SIGCOMM会议上发表一篇关于这项工作的同行评议论文。这篇论文可以下载。
留言与评论(共有 0 条评论) |