通过 Andrew Vermes, Kepner-Tregoe
我们每天都有那些 "霍默-辛普森 "的时刻:你看着一个新的项目,觉得可能会出问题,但由于各种原因(时间、压力、预算),你什么都不做。然后它就发生了...D'oh!
你对那些你本可以预见的问题/麻烦/负面事件的百分比有何猜测?在最近的一次网络广播中,当我们向IT服务专业人士提出这个问题时,他们压倒性地回答说有相当大比例的问题是可以预防的,答案从20%到85%不等。
IT事件就像蜱虫一样:大部分的行动都在皮肤下。被蜱虫叮咬后没有被注意到,可能是几周、几个月或几年,然后在最严重的情况下,莱姆病被诊断出来。就像蜱虫叮咬一样,正是这些小的、针尖大小的问题是更大问题的预兆。预防是最好的。你必须做好准备,不仅要防止最初的 "咬伤",而且要在问题发生后采取应急措施,改善问题。
为什么要承担不必要的风险?考虑一个IT事件及其影响,如图所示。风险是不断变化的,可能是巨大的。
那么,人们为什么要承担风险? 未能理解和适当地衡量后果.虽然事件处理的成本经常被衡量(零件、人工、修复问题的旅行),但很难估计一个组织的声誉在停机后的实际成本。 你是否已经永远失去了客户? 还发生了什么? 损失的工作是难以估计的。对生产力的损失可能是巨大的,然而不积极主动地进行预防的理由实际上是很薄弱的。当你把事故的成本加起来,再加上各种工作损失的成本,是很惊人的。风险管理是值得的。
稳定和一致是从工作中获得最大价值的方法。为了在工作方式上保持一致,有必要对风险进行管理。无论你使用Kepner-Tregoe 潜在问题分析 (PPA)方法或其他方法,如 FMEA (这也是有效的,但需要更长的时间),因此必须预测到这一点并实施风险管理。
有时,在跳进去分析风险之前,先退一步评估需要解决的问题,是值得的。我是要做风险评估,还是要审查已经做出的决定?我们是应该预测风险还是应该解决实际问题?
假设风险分析是正确的事情,那么就通过问这四个问题来推进。
1.这个活动或过程步骤可能出什么问题?
2.为什么会发生这种情况?
3.我们如何能阻止它?
4.如果预防行动失败,需要哪些应急或备用计划?
风险分析往往过于简化。例如,当我们问,什么会出错?我们的答案是一维的。 升级可能会失败。 当我们问,我们将做什么?我们想象一个单一的行动方案。 后退.
遗憾的是,这可能还不够。以更细化、更详细的方式规划风险要有效得多。在同一个例子中,我们特别指出。 我们有12个小时的时间将我们的存储管理软件升级到5.20版本。
1.什么会出错?
- 没有足够的时间在12小时内完成升级
- 系统管理员可能会犯一个错误,从而导致时间上的损失。
- 升级脚本中的一个错误导致升级失败
- 客户机器中的一个潜在故障导致升级失败
2.为什么?
- 根文件系统太小,我们无法备份现有的补丁,补丁文件有潜在的损坏。
- 系统管理员心不在焉,升级程序有漏洞可循,出现了一些意外情况
3.我们如何才能阻止它(预防行动)?
- 提前练习升级
- 使升级成为系统管理员的优先事项,创建和测试程序,让系统管理员运行实践
- 检查支持数据库问题并审查升级
- 检查机器,在进行测试时使用客户环境的副本,使机器在磁盘布局和结构上完全相同,验证升级可以在当前操作系统上运行。
4.如果我们不在12年内升级,需要采取哪些应急行动/备份计划?
- 放弃升级,重新加载原版并测试功能
- 评估错误的严重性,如果不能按时走上正轨,就放弃升级。
- 尽可能多地收集有关升级失败的数据,并在支持数据库中寻找进一步的数据。
- 尝试修复问题或放弃升级
有效地管理风险需求 注重细节.在采取重大行动之前,值得看看风险评估的细节,如果有任何部分是模糊的或可以解释的,就要采取行动。
什么时候做风险分析
在ITIL框架内,一旦确定了修复或解决方法,在实施之前,就要进行风险分析(见ITIL图形中黄色的PPA)。
同样的时机也适用于生产情况和其他企业。在采取可能改变你的过程性质的重大行动之前,做一个详细的风险分析,并记录拟议的预防和应急行动的风险,以及那些实际执行的行动。除了准备和预防风险外,你还会增加未来任何风险分析的丰富性。
但为什么要等待呢?风险管理不需要在计划变革时开始。小的干扰可能会在重大事件之前发生。这些都是主动性的起点。在任何复杂的系统中,一直都有小事情发生。几乎每天都有一些事情有点不对劲。在出现大量的干扰和情况被破坏和困难之前,注意到它们是值得的。一旦出现问题,如果没有注意到这些小事情,就更难回头去找。
运作良好的事件管理系统会观察问题,但你要监测什么?你怎么知道哪些变化是重要的?一种方法是要求用户在小事情发生时向你报告--即使没有出错。通过更早地注意到影响用户的异常情况,事情可以在苦恼出现之前得到清理。经常处理问题的IT支持人员,可以用主动的票据来记录小的干扰。 没有问题报告,但我们注意到不寻常的行为。 记录它并做一些风险管理。积极主动的票据可以对可靠性产生巨大影响。主动性就像保险。有它总比没有它要好。
入门
自己试试吧。 积极主动地管理风险是切实可行的.考虑一下你在工作中要做的三件最重要的事,选一件,做一些风险管理。如果有些事情看起来不对,就立案或记录。你可能会发现它在未来会很有用。