工人在电线上采取的安全预防措施直观地展示了其背后清晰的思路。在不太直观的IT世界里,我们能否改进评估风险的方式?
今天我被我家周围不寻常的声音吵醒了。经检查,似乎是我房子周围的高压电线正在接受检查。我抽空出去拍了一张照片,并与正在检查支撑电线的塔架上的油漆的人进行了交谈。站在最上面的工人会向下面的人喊出数字,表示不同位置的油漆测量。
显然,这项活动已经有了很多安全方面的考虑。谁想爬上380千伏的电力线?很多事情都可能出错:触电、坠落、被卡住......显然,这项工作是经过精心策划的,安全方面的考虑也是显而易见的:戴着硬帽子,在塔上插着绿旗,还有很多安全装备。
作为一个IT人,我总是对这些非常直观的活动印象深刻。从Kepner-Tregoe的角度来看,所有的安全预防措施都展示了良好的风险评估思维。在评估风险时,要考虑出错的概率和严重性,并在采取的安全行动中体现出来。
在不太直观的IT世界里,这并不总是那么容易。一个硬件或软件升级出错的风险是什么?在日益复杂的数据中心结构中,如果一切出错,后果(决定严重性)往往不容易估计。而且,由于许多变化都是独一无二的,估计事情出错的概率也很复杂。在IT领域,估计一个具体问题发生的概率是高度推测的。因此,使用KT方法来分析风险--潜在问题分析--似乎比它更难。
我们能从那些每天攀登多个电力线塔的人身上学到什么?
每次这个人开始爬下一个塔时,都会反复使用同样的风险评估。当然,对于可能适用于每座塔的环境的具体情况,还会有一些额外的考虑。例如,下一个塔的顶部有一个移动电话基站,所以爬这个塔的人可能不仅要考虑触电和坠落的风险,还要考虑GSM/UMTS发射器的辐射风险。
在IT领域,我们可以做更多的风险评估,我们看到在我们周围的世界正在做的风险评估。一个IT系统的升级可能看起来非常具体,而且是独一无二的,但仔细一看,这可能是我们这个月参与的第四次升级了。我们是如何做以前的升级的,我们以前活动的经验如何帮助我们这次做得更安全?
如果你考虑到潜在问题分析工作的重复使用--以及它所带来的价值--你就有充分的理由在上面花费一些严肃的时间,然后反复使用它。
在这一点上,我可以看到那些人在爬下一个塔,上面有GSM/UMTS的天线。当然,那里正在进行很多良好的安全思考。顺便问一下,你知道为什么我的手机今天早上不能用了吗?