当一个复杂的问题将安全或客户置于危险之中时--当时间紧迫或成本增加时--根本原因分析必须准确而快速。许多核电厂几十年来一直使用Kepner-Tregoe开发的根本原因分析的系统方法。核电站故障排除的潜在高风险为任何行业提供了经验教训。因此,我们要求来自几家核电厂和化石电厂的一组故障排除专家确定那些能够提高根本原因分析速度和准确性的行动。虽然他们的经验是针对其行业的,但只要风险大,就可以分享有效的故障排除的最佳做法。
这里有四个从这些核工业故障排除者那里收集到的关键行动,与任何行业都相关。它们可以使在黑暗中射击和第一次尝试就击中靶心之间的区别。
1. 先思考后行动
每个故障排除者都听说过,"做一些事情。我不管是什么,只是做一些事情"。一位高级系统工程师讲述了这种暗箱操作的方法会造成多大的麻烦。"他解释说:"有一次,我们的故障排除和根本原因分析包括确定可能导致问题的每一种方式,然后对每一种方式进行物理处置。我们确实用这种方法找到并解决了大多数问题,但它非常耗时和昂贵。"
他解释说,在来自运营、维护、培训和工程部门的部分员工通过培训师项目后,他们开始在工厂教授根本原因分析方法。当一系列的发电机事故意味着如果问题继续下去,反应堆将不得不以每天$25万或更高的成本关闭时,系统化的根本原因分析很快证明了其价值。尽管有让发电机重新投入使用的压力,故障排除小组还是系统地说明了问题,并寻找在一些但不是所有发电机事故中发生的重大差异和变化。他们确定了一个可能的原因,根据问题规格进行测试,并使发电机顺利恢复运行。新的 "先思考,后行动 "的故障排除方法得到了回报。
2. 一次解决一个问题
在时间压力下成功解决问题的一个主要障碍是未能确定需要解决的一个问题。"一位在促进根本原因分析方面有经验的工程师说:"通常情况下,即使一个系统内有几个正在进行的问题,也能保持运行。"然后出现了一个使整个系统瘫痪的问题。在时间压力下,目标不是解决所有这些问题。而是要确定并解决导致系统故障的那个问题。"在问题分析开始之前,团队成员必须就单一的、最优先的问题达成准确、具体的声明。这在压力大、时间紧的情况下提供了重点。
3. 使用一个程序
当风险很高时,情绪和肾上腺素就会很高。通常情况下,当一个故障排除小组第一次集合时,各种想法,特别是关于原因的想法,被抛出,被否决,有时还被再次提出。如果没有一个共同的系统化的处理问题的过程,团队可能会无限地绕圈子,浪费时间和金钱,同时努力掌握情况。
当故障排除小组的每个人都使用相同的程序时,秩序就会迅速恢复。信息被有序地、按部就班地收集。团队中的每个人都站在同一起跑线上,收集信息,开发可能的原因,然后测试这些原因以确定哪一个是最有可能的,最后,验证真正的原因。
一位经常被要求在紧急情况下提供便利的工程师认为,在这种情况下成功的关键是坚定而不独断专行。"他建议:"让他们谈一会儿。他建议说:"他们会使用技术术语,跳到原因,为他们的宠物理论辩护,并试图用他们的内容知识来打动对方。当他们把所有这些都从他们的系统中拿出来后,你就需要引导他们走流程化道路。"
4. 聚集正确的人
组织通常用一个核心的故障排除小组来处理根本原因分析,并由具有特殊专长的人作为补充。来自发电厂的故障排除专家同意,当风险很高时,指派合适的人是至关重要的。
"有时管理者想把分析工作分配给另一组人,因为有知识的人太忙于管理问题,"一位工程师指出。"但是,如果这第二组人没有掌握事实,或者事件仍在发展中,他们真的无法做好根本原因分析工作。创建一个问题规范和测试可能的原因往往需要不到一个小时--如果分配了合适的人员。即使对于繁忙或关键的人员来说,这也是他们可能做出的一小时的最佳投资。"