CrowdStrike大當機的省思，臺灣大型醫院學到這2件事

台湾一家大型医院因7月19日CrowdStrike大当机事件，开始评估对双主机备援机制的主机，分别采用不同厂商的防护服务。

台湾时间7月19日下午1点多，一个看似寻常的周五午后，却因一场全球性的CrowdStrike当机事件变得不平静，大大小小业务中断了半小时至数小时之久。

台湾灾情虽没欧美各地严重，但也有企业从这次危机中反思，要改变原有的IT策略。比如，针对双主机备援架构（HA），「2台主机要采用不同资安厂商产品，才能降低厂商发生问题、备援主机无法执行的风险，」一位大型医院知情人士说。

阶段1：3大系统受到影响

这个策略改变，来自于事件经验。回到事发当下，下午1点刚过，这家医院IT就接到急诊部电话，告知急诊系统无法运作。与许多企业一样，IT认为是硬体故障，因此到机房检查、重开主机。

但他们发现，就算重新开机，急诊部的系统依然无法启动。于是，他们按照典型的备援机制作法，先进行复原（Rollback），试图回复到受影响前一版的虚拟机作业系统环境。

「这是第一阶段。」知情人士表示，在回复作业系统环境的同时，IT团队也同步检查其他系统、了解影响范围，得知医院检验检查系统和药局药袋列印系统也受到影响，导致一些尚未领药的民众需额外等待。由于不确定事件原因，他们也在第一时间向资安署通报，说明影响范围。

阶段2：双管齐下恢复系统作业

事发半小时后，医院收到台湾资安厂商来信，说明当机问题可能来自CrowdStrike资安软体，于是建议医院IT，先进入OS安全模式、将CrowdStrike所在目录重新命名，再重开主机，来让医疗服务恢复运作。但知情人士表示，这个过程并非顺利，尤其是重开、进入安全模式时，得尝试多次才行。

好在事发1小时内，不少系统已陆续恢复运作，只有少数系统，如药袋列印系统无法恢复，于是改以单机作业方式送交包药机，来继续包药作业。至此，大部分系统已恢复作业，只有检验检查系统较复杂，后来由委外厂商完成修复。

从大当机中学习到的2件事

回顾整起事件，医院IT盘点，由于他们将CrowdStrike资安防护软体安装于部分主机，其余则使用另一家厂商防护软体，也因此，医院最繁忙的门诊系统并未受到影响，对医院的整体冲击并不大。

但知情人士点出：「我们还是从这次经验中重新学习，」比如，这次事件源自CrowdStrike厂商发布流程不够严谨，让他们引以为戒，提醒自己未来在上架IT系统或更新版本时，更需按照标准程序进行。他解释，一般软体上线或更新，会经过3个环境试行，也就是开发测试环境、预上版环境（Stage）以及正式上线环境（Production）。CrowdStrike这起事件，让医院更警惕自己，未来上线新服务时更要遵循这些步骤，避免之后出现大麻烦。

另一个重要经验则是「分散风险，不要将鸡蛋放在同个篮子里。」尤其是双主机备援机制，该机制目的是，当原主机故障无法运行时，可切换由另一台主机接手、继续作业，而他们想做的是，对原主机和备援主机，分别采用不同厂商的防护服务。

如此一来，就算其中一家厂商服务出问题，也不会影响另一台备援主机的运行，「这是我们正在思考的事，」该人士说道。这是他们从CrowdStrike事件中，学习到的2件事。

CrowdStrike大当机的省思，台湾大型医院学到这2件事