CrowdStrike大当机的省思,台湾大型医院学到这2件事

台湾一家大型医院因7月19日CrowdStrike大当机事件,开始评估对双主机备援机制的主机,分别采用不同厂商的防护服务。

台湾时间7月19日下午1点多,一个看似寻常的周五午后,却因一场全球性的CrowdStrike当机事件变得不平静,大大小小业务中断了半小时至数小时之久。

台湾灾情虽没欧美各地严重,但也有企业从这次危机中反思,要改变原有的IT策略。比如,针对双主机备援架构(HA),「2台主机要采用不同资安厂商产品,才能降低厂商发生问题、备援主机无法执行的风险,」一位大型医院知情人士说。

阶段1:3大系统受到影响

这个策略改变,来自于事件经验。回到事发当下,下午1点刚过,这家医院IT就接到急诊部电话,告知急诊系统无法运作。与许多企业一样,IT认为是硬体故障,因此到机房检查、重开主机。

但他们发现,就算重新开机,急诊部的系统依然无法启动。于是,他们按照典型的备援机制作法,先进行复原(Rollback),试图回复到受影响前一版的虚拟机作业系统环境。

「这是第一阶段。」知情人士表示,在回复作业系统环境的同时,IT团队也同步检查其他系统、了解影响范围,得知医院检验检查系统和药局药袋列印系统也受到影响,导致一些尚未领药的民众需额外等待。由于不确定事件原因,他们也在第一时间向资安署通报,说明影响范围。

阶段2:双管齐下恢复系统作业

事发半小时后,医院收到台湾资安厂商来信,说明当机问题可能来自CrowdStrike资安软体,于是建议医院IT,先进入OS安全模式、将CrowdStrike所在目录重新命名,再重开主机,来让医疗服务恢复运作。但知情人士表示,这个过程并非顺利,尤其是重开、进入安全模式时,得尝试多次才行。

好在事发1小时内,不少系统已陆续恢复运作,只有少数系统,如药袋列印系统无法恢复,于是改以单机作业方式送交包药机,来继续包药作业。至此,大部分系统已恢复作业,只有检验检查系统较复杂,后来由委外厂商完成修复。

从大当机中学习到的2件事

回顾整起事件,医院IT盘点,由于他们将CrowdStrike资安防护软体安装于部分主机,其余则使用另一家厂商防护软体,也因此,医院最繁忙的门诊系统并未受到影响,对医院的整体冲击并不大。

但知情人士点出:「我们还是从这次经验中重新学习,」比如,这次事件源自CrowdStrike厂商发布流程不够严谨,让他们引以为戒,提醒自己未来在上架IT系统或更新版本时,更需按照标准程序进行。他解释,一般软体上线或更新,会经过3个环境试行,也就是开发测试环境、预上版环境(Stage)以及正式上线环境(Production)。CrowdStrike这起事件,让医院更警惕自己,未来上线新服务时更要遵循这些步骤,避免之后出现大麻烦。

另一个重要经验则是「分散风险,不要将鸡蛋放在同个篮子里。」尤其是双主机备援机制,该机制目的是,当原主机故障无法运行时,可切换由另一台主机接手、继续作业,而他们想做的是,对原主机和备援主机,分别采用不同厂商的防护服务。

如此一来,就算其中一家厂商服务出问题,也不会影响另一台备援主机的运行,「这是我们正在思考的事,」该人士说道。这是他们从CrowdStrike事件中,学习到的2件事。