重大事件管理。不要等着计划你的重大事件应对措施

正在进行的大流行病提醒我们,当大事件发生时,做好准备的重要性。当Covid-19的威胁变得明显时,供应链的中断、个人防护设备库存和设备的缺乏以及相互冲突的卫生政策阻碍了以最佳清晰度和速度作出反应的能力。

IT停机的成本可能是巨大的

重大或高严重性事件是指那些具有巨大和重大影响的事件。在严重依赖IT系统的组织中,这些事件并不经常发生,但当它们发生时,快速、有计划的反应是至关重要的。IT停机的成本可能是巨大的。估计成本从小型企业的每分钟$427到大中型公司的每分钟$9000不等。对于电子商务巨头亚马逊来说,几年前的停机成本估计超过了 $220,000/分钟。

日常的事件管理流程通常能有效地处理大量相对低影响的IT事件和服务请求。事件管理流程的趋势是转向自助服务、自动化和与支持人员的异步接触(即与全球呼叫中心的电子邮件互动)。接受过有限培训和技术技能的服务台人员可以通过基本诊断、二进制决策/知识树和脚本回应来处理日常事件管理功能。更困难的问题会被转到具有技术专长的第二和第三层升级团队,但目标仍然是运用技术含量最低、最廉价的资源来解决事件。

重大事件与较小的日常事件不同,需要采取单独的方法。一个正常的事件通常只影响到几个用户。对于重大事件,影响的成本远远超过了解决的成本。成功的关键因素是响应时间和响应质量。时间是最重要的,所以目标是应用能够最快解决事件的人力资源,以减少业务影响。这些资源通常是训练有素(和高薪)的主题专家,具有丰富的经验和深入的技术故障排除技能。目标是快速响应,解决直接影响,维护组织的声誉,减少运营和客户风险。

管理观念是关键

在活跃的事件中,支持人员和管理人员应该依靠重大事件管理资源来帮助他们控制端到端的过程,并指导他们的活动完成。

  • 了解事件和症状
  • 减轻影响和管理风险
  • 确保决策是可见的,并以数据为导向
  • 评估可能的原因(如有必要)。
  • 管理观念和期望
  • 恢复正常

对重大事件管理不善可能会造成灾难性后果。控制沟通的流程和管理观念对重大事件管理至关重要。如果重大事件管理团队的官方信息不清晰、不及时,就有可能出现错误信息压倒官方信息的情况,从而导致更大的混乱和负面的客户体验。

除了整体的技术和性能影响外,重大事件活动往往跨越业务职能的界限,导致决策权问题的出现。这是一个高风险的环境,管理层必须权衡某些行动的预期结果和其风险。这不仅需要明确的、可获得的已知数据,还需要知道什么是未知的。一个重大事件的管理流程应该包括跨职能的决策指南,以避免在正在发生的重大事件中出现延误和混乱。

一旦事件得到处理,不要停止

重大事件管理的挑战并没有因为服务的恢复而结束。与正常的事件管理流程一样,"现场 "重大事件的主要目标是减轻影响并采取纠正措施,使业务恢复正常运营。现在,问题管理开始启动,需要充分了解根本原因。识别根本原因和实施行动以防止问题再次发生可能是一个挑战。 在管理活跃的重大事件的混乱中,关键的诊断信息往往丢失或被破坏,阻碍了根本原因的识别。为了实现真正的IT稳定性,需要一个综合的重大事件和问题管理流程,以确保和记录关键的 "原因信息",并确保服务的持续改进。

IT停机的成本和威胁可能是巨大的。对重大事件响应的投资对于保持IT稳定性和持续的业务成功至关重要。

关于Kepner-Tregoe

软件和模板并不能解决问题。人是解决问题的关键!

什么样的人?有好奇心的人,会提出很好的问题,根据事实做出决定,并被授权进行领导。他们在压力下保持专注,自信地做需要做的事情。你会在我们的客户和Kepner-Tregoe这里找到这些解决问题的领导者。60多年来,Kepner-Tregoe已经使数以千计的公司有能力解决数以百万计的问题。如果我们能够为一家制造商节省数百万美元,为一家证券交易所恢复IT服务,并帮助阿波罗13号从太空返回,我们就能够帮助你的企业获得成功。

博客图片1
重大事件管理--当变革出现可怕的错误时做好准备
博客图片1
纽约证券交易所系统故障中的规划关键:事件管理手册的10个基本组成部分
博客图片1
使用KT流程进行事件管理
博客图片1
如何成为事件和问题管理的超级明星

我们是以下方面的专家:

联系我们

如需咨询、了解详情,或提出建议!