Cloudflare全球大范围死机原因出炉:配置错误的软件更新

提供属性递送网络、DDoS缓解服务与DNS服务的Cloudflare在世界协调时间(UTC)7月2日下午1点42分发生大死机,一度传出是遭到黑客攻击,不过Cloudflare很快便出面澄清,这是定期进行的软件更新中出现一个配置错误所造成的意外。

当天的意外造成许多采用Cloudflare的网站或服务出现502错误的状况,虽然只持续了短短的27分钟,但Cloudflare的流量最高曾下滑82%,全球都传出灾情。

根据Cloudflare的说明,该站会定期更新网络应用程式防火墙(Web Application Firewall,WAF)的规则,这些规则是用来改善在面临网络攻击时阻止JavaScript的能力,它们通常会先于模拟模式中测试,确认无误后再部署至生产环境,且WAF规则是一次部署至全球,而非渐进式的。

然而,其中一个规则所含的正规表示式,造成Cloudflare全球服务器的CPU使用率冲上100%,使得那些由Cloudflare代理的网域出现502错误(闸道不正确),也让Cloudflare面临了前所未见的CPU衰竭事件。

Cloudflare大约花了20分钟分清问题的症结,决定先行砍掉全球服务器上的WAF规则集,才在UTC时间下午2点09分时让流量恢复正常。

Cloudflare坦承此次意外的发生,源自于测试程序不够周延,计画同时变更测试及部署程序,以避免以后再发生类似的事件。

资料来源:iThome Security

发表评论
留言与评论(共有 0 条评论)
   
验证码:

相关文章

推荐文章

'); })();