CIO们眼中的CrowdStrike大事故——以及他们从中吸取的教训

对于不少CIO来说，做好灾难恢复与业务连续性的准备和计划制定，并且与利益相关方保持畅通的交流，能大大缓解宕机造成的影响。

来自各行各业的IT领导者们讨论了所在团队的一线工作心得，以及为了提高响应能力与规划水平而总结的早期经验。

7月19号凌晨2点左右，Mike Mainiero被事件响应团队里的同事叫醒。Catholic Health公司的IT系统及其合作伙伴的基础设施全线崩溃，其中一家放射科服务供应商成为首批受到冲击的受害者之一。

这家位于美国长岛的医疗保健系统服务商拥有近1.6万名员工，同时支持着六家急症护理机构、三家疗养院、一家家庭健康服务机构、一家临终关怀医院还有一个医生执业网络。Catholic Health高级副总裁兼CDIO Mainiero表示，他们设有一支处置小组，专门负责召集IT人员以针对网络安全及其他事件建立应急指挥中心。

“我们需要立即召集团队，想要尽快弄清楚到底发生了什么，之后再进行分类、沟通和事件应对。”他还补充称，官员们很快意识到这起事件的紧急性，“很明显，一旦医院受到此类事件的影响，病患很可能因此丧命。”

跟Mainiero一样，不少CIO同样在7月19号凌晨从睡梦中惊醒，得知所在的组织因为网络安全CrowdStrike的软件更新bug而导致IT系统中断。令他们惊出一身冷汗的是，全球数百万台运行有微软Windows系统的计算机因此崩溃，并显示“蓝屏死机”这一最高错误提示。

Mainiero旋即开始向高管团队发送消息，向他们通报情况并保证指挥中心已经建立完成。

Mainiero回忆道，Catholic Health收到了来自CorwdStrike的通知，其中包含关于补救措施的说明信息，但必须以手动方式应用于数百台服务器。随后，他们又开始想办法对病患护理场所下的台式机和工作站施以抢救。

指挥中心很快向全体医疗系统设施的运营负责人提供了接触点更新。“我们能够缓解当前局势，应该没必要取消任何手术或者诊疗预约”，而且设施也确实能够继续为患者提供护理，唯一的区别就是工作人员只能在纸上做记录。到了当天下午5点之前，所有关键问题都得到了缓解。

Mainiero指出，如果中断发生在白天，那影响肯定会更大。“在医院场景下，必须尽一切可能避免把患者转移到其他环境，我们也是以此为应对前提。所以哪些宕机影响到了最终用户，也几乎没有影响到患者。凭借我们的快速响应，成功减轻了实际造成的伤害。”

全员响应

虽然其他企业在事件之下不至于危及生命，但类似的情况在全球各地的组织中也在一一上演。对于不少CIO来说，做好灾难恢复与业务连续性的准备和计划制定，并且与利益相关方保持畅通的交流，确切大大缓解了宕机造成的影响。

全美注册会计师机构The Bonadio Group的CIO John Roman就表示，“我们成功在三个小时之内让所有服务器都恢复了运行，而且……到星期五当天下午，所有笔记本电脑也都回归正常。”根据他的估算，全部1100台设备中只有约300台受到了影响。“我们之所以能够做到这一点，是因为我们实施了事件响应计划。大多数事件响应计划都是为了应对某种特定恶意状况所设计，而我们将自己的计划进行了通用化改造，能够适度可以想到的几乎所有事件类型——包括全球流行病扩散。”

Roman解释称，在部署了事件响应计划之后，第二步就是呼吁IT部门的每个人都运行CrowdStrike提供的脚本来解决问题。他还通过公司范围内的短信服务、内联网门户和电子邮件与公司领导及全体员工随时保持沟通。

跟Mainiero一样，Roman表示事件的发生时间降低了实际影响。“要说不幸中的万幸，那就是作为一家会计师事务所，我们一年到头都很忙，但最忙的肯定是报税季。如果这事发生在三月份，那对业务产生的影响会大得大，因为我们会没办法提供税务服务。可好在事件发生在盛夏，再加上我们的及时补救，实际给业务造成的冲击非常有限。”

对于稳定币2.0生态系统管理公司Black Wallet来说，事情就没这么走运了。公司CIO Remi Alli将其描述为“对组织来说一次极具挑战的经历”，并表示宕机持续了好几个小时。“在此期间，我们没办法访问关键安全功能，而且服务器和笔记本电脑全都受到了影响。”

Alli解释道，由于无法访问CrowdStrike的服务，“我们无法有效监控并应对潜在威胁，这引发了我们对于整体安全态势的担忧。总的来说，这是一段紧张而充满挑战的时间，因为我们必须在保持系统完整性的同时克服宕机带来的限制。”

保持冷静是关键

Alli做的第一个决定，就是召集事件响应团队来评估情况，并为公司制定出即时响应计划。“我们必须确保在解决宕机影响的同时，继续保持业务的连续性。”

沟通也至关重要，Alli通过定期发布更新让领导层和利益相关方们了解实际情况以及IT团队正在采取的措施。“这种情况下人们很容易惊慌失措，而我们专注于保持透明和冷静，这种稳定的情绪也能让其他团队尽快踏实下来。”

再有，“无法获取关键安全见解让我们暂时陷入风险当中，而且更重要的是，这也凸显出我们整体安全体系中的漏洞。我们不得不迅速调整一部分安全协议并依赖其他措施，这也再次提醒我们必须建立起强大的备份计划和冗余措施。”

Mainiero对此深表赞同，他表示在这种情况下“CIO会自然而然扮演起核心角色——如果你惊慌失措，那你的团队也会惊慌失措。”他在职业培训中学会了永远不要大喊大叫，“但我会使用坚定的命令证据，在保持友善的同时鲜明地传递立场。这是一种激励和引导，有时候你会发现这比大声发号施令更能引发人们的支持和理解。”

经验教训和其他收获

就会账款软件提供商AvidXchange有一部分面向客户的产品组合受到了宕机事件的影响，但CIO Angelic Gibson表示，IT部门还是在不到24小时之内就完全恢复了服务。她将这一成就归功于“充分的准备”和在宕机过程中制定的相应计划。

Gibson解释道，“我们按照业务计划逐步行事，采取措施进行主动筹备并建立起正确的沟通渠道，这让我们能够快速高效地与各必要相关方进行沟通，同时在内部努力恢复系统的正常运行。”

Gibson认为，CIO们必须经常保持公开沟通的习惯，同时对紧急方案保持信心、确保其始终有所冗余，同时做好调动资源的准备以率领IT部门迅速采取行动。

Catholic Health的Mainiero也强调，预先制定沟通计划有着至关重要的意义，其中还应包括人员名单以及可供预设主题行及文本的发布平台。同样的，拥有一套能够帮助你“自动召集团队”的系统也很重要。

他还建议设置供应商紧急联络人。尽管Mainiero能够直接跟CrowdStrike取得联系，但他表示向所有受宕机事件影响的用户发出通知非常重要，毕竟Catholic Health之下还有数百家合作供应商。

与其他公司一样，Bonadio Group的Roman也建议组织中的事件响应计划应该考虑到一切重大状况，而不仅仅是勒索软件或者恶意软件攻击。此外，单纯制定计划还不够，必须具体加以实践。

Roman指出，“我们每年都会开展桌面演习，并根据演习情况更新我们的事件响应计划。”

根据IT部门的规划，如果有可能发生全公司宕机，则应要求全员参与演习。

Roman表示，“之后就是沟通、沟通、再沟通。人们在宕机过程中很想知道究竟发生了什么，处理到了什么程度。我自己经常出差，最让人恼火的就是航班被取消，但我们不知道原因。知道原因虽然解决不了问题，但至少能让人感觉好一点。”

Black Wallet的Alli也从这次宕机事件中学到了很多重要教训。首先就是“随时为意外做好准备。无论供应商看起来多么可靠，都一定得制定应急计划。现在，我们已经将对自身事件响应协议应对各种情况（包括供应商服务中断）的能力进行测试当成了头等大事。”

另外一点则是加强内部沟通——这种沟通不仅限于IT部门之内，而是涵盖整个组织。Alli强调，这有助于缓解恐慌并确保每个人都站在同一条战线之上。

此次中断还促使其“深入研究我们的第三方依赖关系，不仅是CrowdStrike，还包括其他一切关键供应商。了解我们对各家供应商的依赖程度，能让我们更积极地管理合作关系并开展更准确的风险评估。”

Alli同时提到，这也让Black Wallet意识到在组织之内培养强大网络安全实践的必要性。

业务恢复之后，Black Wallet“开展了全面的事后分析，不仅关注问题出在哪里，还分析了我们的应对措施。这种反思性的做法，将帮助我们改进未来的业务流程。”

总体而言，虽然CrowdStrike宕机是一段痛苦的回忆，但也提醒组织“弹性和适应性在网络安全体系中的重要意义。”Alli指出，“恢复过程不仅涉及技术层面的修复，更要求不断强化我们围绕安全和风险管理建立起的组织文化。”

保持信任

Roman和Mainiero都表示，此次事件不会影响到他们与CrowdStrike的合作关系。

尽管这家公司最近挨了不少骂，但“CrowdStrike仍然是家了不起的厂商，我们更看重的是供应商那边的工程文化。”Mainiero表示，“他们确实犯了错误”，但医疗保健系统也必须要为任何可能发生的故障做好准备。

Mainiero还指出，部分人指责CrowdStrike垄断了网络安全行业，而在他看来这次事件就是单纯的质量保证不力问题。随着系统设计和集成方式变得越来越复杂，整个软件行业应该齐心协力，讨论如何更好地解决质量保证问题。

Roman也对此表示赞同，他说“我们都是人，是人就会犯错。如果打算放弃CrowdStrike……也就意味着放弃了一切云服务提供商。到此次事件之前，CrowdStrike的产品一直运行完美，成功阻止了病毒和恶意软件的爆发。他们的客户支持工作也非常出色，我们愿意继续保持与CrowdStrike的合作关系。”

来源：至顶网CIO与CTO频道

0赞

好文章，需要你的鼓励

CIO们眼中的CrowdStrike大事故——以及他们从中吸取的教训

来源：至顶网CIO与CTO频道

2024

08/16

16:33

分享

点赞

Uber年度遗失物报告揭示：数千件物品遗留在无人驾驶出租车中

Uber今年将部署500辆数据采集车辆，助力自动驾驶发展

Uber、Wayve与Waymo的伦敦无人驾驶出租车大战即将开启

Mobileye计划2027年在美国推出自动驾驶出租车服务

Waymo召回近4000辆无人出租车，原因是其进入高速公路施工区域

特斯拉在奥斯汀开始测试无方向盘无踏板Cybercab量产版

图灵奖得主Patterson：摩尔定律的真相，CPU、GPU、TPU的诞生与分工

Omdia报告：Dell PowerProtect助力企业三年期网络弹性TCO最高降低61%

“驯服”千亿模型，鏖战“黑猴打瓦”，龙虾“一键接管” ，锐龙AI Max+ 395开启全能桌面AI主机“王炸”时刻

豪声电子泰国电声工厂初步投产：2500万泰铢项目进入产能爬坡

地瓜机器人将560TOPS端侧算力，加载到了20+头部团队机器人中

WAIC 2026主论坛（下午场）重磅揭晓！

Gartner：IT预算下降与AI崛起，CIO要成为“数字先锋”

2025年CIO的十大首要任务

当首席数据官成为业务战略家

Gartner发布2025年及未来中国CIO数字领导力的重要预测

CIO分享：正在重新考虑如何使用公有云服务

喜力：对数字创新做出新的承诺

农机零售商Tractor Supply CIO谈发挥首席增长官的作用

全球最大飞机租赁公司AerCap CIO：如何成为强大并购战略的催化剂

美敦力技术负责人：通往技术驱动型医疗之路

30000名宜家员工如何与人工智能展开协作

如果您非常迫切的想了解IT领域最新产品与技术信息，那么订阅至顶网技术邮件将是您的最佳途径之一

三一集团：数字化是必选项，AI是生存项

因湃电池 × 达索系统：如何共创出一套电池产业最佳实践

AI走进真实世界之后：安全、健康与产业的新命题

CES 2026

关注官方公众号

关注官方微博

关注官方喜马拉雅

友情链接

业界热点: