作者:Joe Hertvik
IT运营(IT Ops)专业人员在企业中扮演三个关键角色:架构师、建筑师、以及危急时刻显身手的英雄人物。他们构思并帮助规划数字化环境,构建支撑这些环境所需的基础设施,处理尚未或已经演变成危机的问题。
正如他们在Geico商业广告中所说的那样,这就是他们的工作。
今天,我想重点讲述IT运营工作中不可避免的调试活动,尤其是棘手的IT网络危机防范与处理工作。恕我直言,根据本人在过去15年中积累的IT运营变更处理经验,我认为IT专业人员在防范网络危机以及处理既成事实的网络危机时应切记以下几点。
1、哪些事物发生了改变?很多(大多数)危机是由于环境变化而引起的。在诊断问题时,最好能了解近期发生的其他环境变化。如果未能找到明显的直接原因,请思考:近期发生的哪些变化有可能导致出现这个问题?这对于帮您解决无法洞悉全局的远端问题特别有用。
例如,如果服务器停止传输信息,首先要检查服务器,确保其没有挂起或关闭、硬盘容量未被耗尽、以及服务器是否正常连接到网络等。如果确定服务器本身没有问题,则应扩大搜索范围,逐一排查最近发生变化的其他事物。如果是连接失败。请检查项目管理系统或变更日志,以了解网络上近期发生了哪些变化。无法连接到服务器的原因可能是路由器、交换机或防火墙配置错误所致,也可能是有人误删了服务器的DNS记录或更改了路由路径。问题也可能出现在任何其他地方,您所看到的只是表象,而非根源。
2、通过做好计划来避免连带损失 — 意外发生的连带问题会令人感到无比沮丧。例如,您出于安全考虑而对夜间数据传输进行加密,将其与现有服务器的硬件身份绑定在一起,因此,当您更换服务器硬件时,会因密钥发生改变而导致夜间数据传输失败,迫使您不得不启用新更换的服务器。要想防范连带损失,关键是要在做出任何变更之前做好功课,并尽可能多地找出相关功能。您应深入了解并找出任何相关功能,据此对变更方案做出必要的调整。
3、使用变更检查清单 — Atul Gawande在其所著的检查清单注意事项:如何把事情做对一书中谈到了如何使用检查清单来帮助我们更正确、更安全、更可靠地传递信息。在执行变更任务时,IT运营专业人员经常会依靠记忆、培训和本能来开展关键工作。这种情况下,如果顺序不对或者跳过某些步骤,便会出现问题。我强烈建议您针对网络变更使用检查清单,以确保成功并规避危机。一份可靠的检查清单能帮您合理规划变更步骤并在变更过程中妥善开展这些工作。
准备 – 实施变更之前需要做些什么?需要关闭或调整哪些服务器或设备?需要通知谁?
实施 — 在变更过程中必须开展哪些工作?需要修改哪些配置?
开展验证,以确定变更是否生效 - 您如何确定变更是否已生效?您应该检查哪些项目?应该使用哪些数据开展验证活动?
应急程序 — 如果情况恶化,您应采取哪些牵制策略?您准备如何应对危机?
恢复 — 您如何撤销为实施变更而执行的准备操作?认真做好这步工作能帮您避免触发另一个区域产生危机。
检查清单不一定要很长,只需全面、准确、实用即可。恕我直言,使用检查清单乃是成功实施网络变更的关键。
4、遵循“逐一实施变更”的规则— 我个人的规则是:逐一实施重大网络变更。这样的话,即便出错,也只是一次变更失败,您也只会遇到一个危机。如果两个或多个变更同时失败,您将遭遇多重危机,此时的损失与逐一实施变更相比完全是另外一回事。您可能会认为只需停运部分网络段便可同时实施多个变更,这种做法很诱人,但请不要做此尝试,因为这是不值得去冒的风险。
5、知道您所在的确切位置:位置意识 — 当IT专业人员因误认为自己正在操控测试系统而疏忽大意,导致生产系统瘫痪时,就发生了最可怕的自我伤害。例如,IT经理在刷新QA数据库时因登录了错误的设备而意外清空了生产数据库。您在使用远程桌面程序时很有可能会在无意之中连接到错误设备,从而引发上述错误。因此,您在开始工作之前必须确保登录了正确的设备,即使只是执行 hostname 命令等简单的操作也不例外。如果您因此而避免了登录错误设备执行操作,定会庆幸不已。
以上几点都是变更管理指南中未曾提到或一带而过的实用性操作步骤。开展这些操作可帮您处理意外的IT运营危机或防止发生危机。
整理/夏立城 上海蓝盟创始人兼CEO,复旦校友创新创业俱乐部副会长,致力于用IT外包网络维护服务赋能企业客户发展,助力其创新、迭代和进化。
留言与评论(共有 0 条评论) |