CrowdStrike劫难的7个紧急经验

作者 | Steven J. Vaughan-Nichols

编译 | 星璇

出品 | 技术栈(微信号:blog51cto)

坐在Linux桌面前,面前是嗡嗡作响的Linux主机,CrowdStrike的解体并没有直接影响到我。但就像地球上简直一切人一样,直接影响却是另一回事。

共事们被困在机场。事发48小时后,共事们仍在不停地修复一个又一个出缺点的Windows系统,而好友们也不得不经常使用现金购置杂货。

这一切本不用出现。

“这提示咱们,咱们正生存在一个日益数字化的环球中,软件简直撑持着咱们生存的方方面面——从交通和紧急服务到银行、批发,甚至食品服务,”新思科技软件完整性个人总经理Jason Schmitt在一份资讯稿中指出,“软件疑问或者造成严重的业务疑问,在某些状况下,还会影响到消费者视为天经地义的许多必需品。”

让我重申一遍:这一切本不用出现。让我来总结一下经验。

1.繁多文明是有害的

无论是在爱尔兰大饥馑时间、造成我的后人到来美国的土豆,还是在美国南部棉铃虫出现之前的棉花,或是Windows系统,每当一切人都依赖一个繁多系统时,你就是在自找费事。

据微软统计,只要850万台Windows设施遭到影响,这不到一切Windows设施的百分之一。但这些数字并没有说明所有状况。

依据商业数据剖析公司6sense.com的统计,CrowdStrike是排名第一的企业端点安保公司,领有超越3,500名客户。这听起来或者不多,但这其中包含了四分之一经常使用端点安保服务的公司。这些往往是大型企业。因此,只管从堕入有限重启的系统数量来看,受影响的规模很小,但其影响却是庞大的。

“此次终止的规模凸显了适度依赖繁多系统或提供商所带来的风险,”云计算公司Civo的首席执行官Mark Boost在向资讯媒体颁布的一份申明中示意,“这令人警醒地提示咱们,规模和声誉并不能保证不受严重技术疑问或安保破绽的影响。即使是最大、最成熟的公司也必定坚持警觉,始终更新和保证其系统安保。”

2.蹩脚的代码是风险之源

依据NeoSync(一家开发工具公司)首席执行官Evis Drenova在X上提出的盛行通常,造成其Falcon Sensor程序出现劫难性安保更新的基本要素是其C++代码中的空指针失误。但CrowdStrike仿佛否定了这一点。

出名谷歌破绽钻研员Tavis Ormandy也在X上颁布推文示意不批准。Ormandy以及Mac安保网站和工具套件Objective-See的创立者Patrick Wardle(他们也在X上对此事宣布了看法)以为,疑问出在逻辑失误上。

最终,咱们将弄分明究竟哪里出了疑问,但毫无不懂的是,这种蹩脚的代码绝不应该被发送给客户。

3.品质保证是相对必要的

这个疑问始于CrowdStrike。该公司的品质保证(QA)团队是如何让这次更新颁布的,这个疑问很或者很快就会造成许多人被解雇。

但是,他们并不是惟一应该为这场劫难性的一步而遭到指摘的人。

在往年4月于西雅图举办的北美开源峰会上,微软Linux平台组的初级名目经理Jack Aboutboul谈到了“懈怠的系统治理员”疑问。典型的懈怠治理员会装置软件,开启智能更新,并处置最新的紧急疑问。这没疑问……直到其中一个更新造成系统解体。

他们应该在每次收到新补丁时启动测试。在演讲中,Aboutboul探讨的是Linux发行版的更新,但雷同的想法也适用于所无关键义务软件。

Redwerk和QAwerk(均为软件开发和QA机构)的开创人Konstantin Klyagin在一份资讯稿中指出,“智能化测试确保即使是庞大的更改也不会引入新的失误。这关于像CrowdStrike这样的大规模更新尤其关键,由于仅启入手动测试是不够的。”

还有谁没有这样做呢?!看起来至少还有一些公司依然没有做到。

难道真的有那么多组织在这个基本步骤上失败了吗?一些人以为CrowdStrike应该遭到指摘,由于这个安保数据补丁“是一个绕过客户端分阶段控制的渠道更新,并且无论客户能否须要,都推送给了一切人。”

由于绕过了客户端的推出控制,因此有更多的公司遭到了侵害。这让我感觉很有或者,由于这么多企业都因此次失败而遭受重创。再次强调,疑问依然是:“为什么有人会毫不犹疑地部署如此关键的补丁?”

4.分阶段推出可以防止劫难

一个关系的消费疑问是,许多组织同时将一切更新推送到其一切系统。这是一个十分基本的失误;它本不应该出现,但理想就是这样。

是的,分阶段推出确实存在一些推戴意见——当不同的团队经常使用不同版本时,用户或者会感到困惑。但是,关于不能容忍失败的关键义务系统,您须要对任何更新都采取极其审慎的态度。

此外,分阶段推出有很多方法。它们包含滚动更新、蓝绿部署、金丝雀颁布和A/B测试。选用一种。让它适宜您的企业,只是不要将一切更新都放在一个庞大的篮子里。

此外,假设出现疑问,弱小的回滚程序关于复原到稳固版本至关关键。难道您不想只要按下一个按钮就能回滚到反常上班的系统吗?如今,不可胜数的IT员工必定宿愿如此。

5.劫难复原和备份是必需的

这只管是显而易见的事情,但您必定制订劫难复原方案并领有牢靠的备份。

“我与几位首席消息安保官(CISO)和首席安保官(CSO)交谈过,他们正在思索触发从备份复原协定,而不是手动将每台计算机疏导到安保形式,找到有疑问的CrowdStrike文件,删除它,而后从新启动到反常的Windows系统中,”公共演讲者兼安保专家Eric O’Neill在一份资讯稿中示意。“那些没有投资于极速备份处置方案的公司堕入了两难境地。”

确实如此。固然,在当今的云计算时代,劫难复原和备份已不像过去那样便捷。但它们至关关键。而且,在这种状况下,传统的劫难复原方法和备份将施展严重作用。

6.须要增强的监控和事情照应才干

此次环球性的终止事情凸显了初级监控工具和强小事情照应方案的关键性。应建设实时监控和警报系统,以便在疑问出现时立刻发现。IT团队应制订详细的事情照应方案,并明白协定以极速识别、隔离和处置疑问。这些方案应包含基本要素剖析和预先审查,以始终改良照应战略。

但说起来容易做起来难。

Cockroach Labs的首席执行官兼联结开创人斯宾塞·金布尔(Spencer Kimball)在向资讯媒体颁布的一份申明中示意:“在当今数字时代应容许战,须要企业采取踊跃且适用的战略来减轻终止并确保复原才干。”

他补充道:“终止疑问并非咱们能够齐全处置的疑问。云环境只会变得越来越复杂和互关系联。这种大规模的复杂性将继续参与风险,特意是关于仍处于云驳回初期阶段的企业而言。延续监控和警报关于在疑问更新之前发现和处置疑问至关关键。”

Hydrolix公司的副总裁安东尼·法尔科(Anthony Falco)在给The New Stack的一封电子邮件中也表白了相似的观念。

法尔科说:“这次大规模终止事情凸显了公司面临的新理想:当今推进业务的环球散布式软件平台是一个复杂的相互依赖网络,并非一切都受任何繁多行为者的控制。‘一个庞大的失误就或者让环球业务堕入停滞。

7.为下一次性做好预备

CrowdStrike/Windows事情是一个严格的提示,即即使是日常保养,假设治理不当也或者造成严重终止。它凸显了现代IT系统的互关系联性,以及宽泛经常使用的软件缺点所带来的深远影响。

经过从此次事情中吸取经验并实施弱小的风险治理战略,IT团队可以更好地为未来相似事情做好预备并减轻其影响。

咱们须要做得更好。咱们必定做得更好。我年岁大到足以阅历过第一个严重而宽泛的安保疑问——1988年的Morris蠕虫病毒。那时,技术疑问只困扰着从事技术上班的人。但那样的日子早已一去不复返了。

参考链接:

您可能还会对下面的文章感兴趣: