大多数公司都制定了事件管理流程,以处理日常的中小型干扰。这些流程通常基于成熟的客户服务方法和/或标准 IT 服务管理实践,如 ITIL。虽然这些流程对于处理大量影响较小的事件和服务请求通常很有效,但在管理重大事件时,这些流程就显得力不从心了,因为重大事件完全是另一类事件。重大事件需要一种独特而独立的方法。
影响和频率
标准事件通常只影响少数用户,因此响应和解决时间通常较长,有助于保持较低的运营成本。而重大事故则会对整个业务产生重大影响。值得庆幸的是,重大事故虽然罕见,但一旦发生,整个业务部门都会陷入混乱。在这种情况下,事故造成的财务影响远远超过解决事故的成本,因此响应速度和质量成为成功的关键因素。
涉及的技能和角色
一般来说,受过有限培训和技术专业知识的服务台人员会处理大多数事件。复杂的问题会上报给具有更多专业知识的二级或三级支持团队。但是,目标仍然是利用技术熟练度最低(成本最低)的可用资源解决问题。重大事件则需要采取完全不同的策略。在这种情况下,重点应该是让能够最快解决中断问题的人员参与进来,从而最大限度地减少对业务的影响。通常情况下,这些资源是高技能(相应成本也高)的主题专家。
流程
近年来,事件管理流程已转向自助服务、自动化和异步支持交互(例如与全球呼叫中心团队进行基于电子邮件的交互)。这种方法旨在优化事件管理流程的可扩展性,同时减少人工互动。然而,对可扩展性的强调往往以牺牲解决更复杂的中断所需的时间为代价。因此,重大事件流程必须反向优化,优先考虑解决方案的有效性和解决速度,而不是资源成本和自动化。
交流
在典型的事件场景中,管理层可能会认为需要沟通是一种失败。重大事件则不同,因为与利益相关者进行积极而广泛的沟通不仅有助于准确评估影响,而且对于管理预期和向利益相关者保证情况得到控制也至关重要。在许多重大事件中,与技术问题及其相关症状相比,沟通所产生的感知对整体影响的影响更大。重大事件中的有效沟通需要针对四类不同的利益相关者:
- 其活动受到事件直接影响的受影响用户群体
- 间接或可能受到影响的利益相关者,他们的信任对管理事件至关重要
- 参与诊断和解决事件的内部团队和主题专家(可能包括供应商)
- 支持和IT管理
高管参与和决策
重大事件几乎总是需要高管的参与,以帮助评估影响、促进沟通并做出关键决策来消除障碍。通常,解决重大事件所需的行动会跨越不同的业务部门,从而引发有关决策权的问题。如果没有明确的指导方针,很快就会导致权限重叠和混乱。重大事件管理流程应包括跨职能决策指南,以防止延误和误解。
缓解症状与预防复发
重大事故期间的首要目标是减轻影响并采取纠正措施以恢复正常业务运营。了解根本原因并采取措施防止再次发生属于问题管理的范畴。鉴于重大事故会对业务产生重大影响,管理人员通常会积极跟进,确保找出根本原因,并及时实施预防措施。
然而,在管理正在发生的重大事件的混乱过程中,往往会丢失关键的诊断信息,从而使找出根本原因的工作变得更加复杂。
要避免这两个陷阱,高度集成、全面的事件和问题管理流程至关重要。这一流程应积极捕捉和记录关键的 "原因信息",以确保服务的持续改进。只有这样,才能实现真正的 IT 长期稳定性。
不要等到为时已晚
虽然管理人员无法控制重大事故何时发生,但他们可以控制公司如何应对和管理这些事故。卓越的整体服务,包括有效且易于理解的重大事件管理流程,是快速响应、解决直接影响、保护公司声誉以及降低运营和客户风险的关键。
作为解决问题的领导者,60 多年来,Kepner-Tregoe 一直与客户合作,提高他们管理运营和 IT 方面重大事件的能力,支持他们实现卓越服务。