如果一棵树倒在树林里,没有人听到,会发出声音吗?重大事件和技术故障每天都在发生,但很少有新闻报道或引起客户的实际不满。这并不是因为客户对技术问题麻木不仁或期望值低;也不是因为发生的事件对公司来说不是重大问题。你没有听到大多数重大事件和故障的原因是,服务提供商和公司IT部门越来越意识到管理这些情况的重要性和影响,并且正在采取先发制人的行动,使它们成为非问题。你的公司可以采取的一些行动,使你的故障不被新闻报道,包括。
复原力的设计服务 - 技术问题和组件故障会发生。一个精心设计的弹性服务包括冗余、监控、诊断和影响缓解的能力,使服务能够保持对最终用户的可用性,即使一个或多个组件发生故障。公司正越来越多地采用具有内置弹性能力的新架构和技术,并积极分析遗留系统以评估脆弱性和风险。
减轻对用户的影响 - 即使是设计得最好的服务也不是完美的,而且由于它们依赖于人和技术,它们很容易出现故障。仅仅因为一个故障或事件的发生,并不意味着服务将对用户不可用。在许多情况下,公司可以通过辅助程序和变通方法来减轻对用户的影响--实现部分服务的可用性,其中关键特性或全部功能在性能下降的情况下运行。这种部分服务可用性应通过严格的(重大)事件管理流程进行评估和触发,以确保这些行动是有效的,不会造成二次事件。
管理外部可见性 - 服务中断的持续时间和影响是决定外部各方是否意识到一个关键情况发生的关键。另一个主要因素是你的公司如何(以及是否)与外部利益相关者沟通事件的情况。就像树的比喻一样,除非有人告诉他们,否则大多数外部各方都不知道停电的情况。在某些情况下,合同要求规定了通知的任务。延长停电时间和/或对终端用户的重大影响可以增加外部各方意识到停电发生的可能性。如果有疑问,那就积极主动地沟通。在这些情况下,沟通的重点应该是提供清晰、具体和基于数据的更新,即在事件处理过程中捕捉到的最关键的情况/影响/原因/解决方案的信息,向利益相关者保证公司对情况的控制,并有一个强大的程序在那里。
首先恢复服务 - 由于技术的正常(预期)性能变化,用户往往不知道正在发生故障。区分解决中断或问题和恢复对用户的服务是很重要的。用户只知道服务的可用性,而不知道基础组件的状态。如果对终端用户的服务被迅速恢复,那么他们可能永远不会意识到这个问题。解决基础问题往往要遵循一个单独的时间表。这需要个人了解他或她何时处于事件管理模式或问题管理模式。
这些行动大多是通过一个有效的重大事件管理流程来促进的,该流程使公司员工能够做好准备,显示出对形势的认识,并在关键问题或故障发生时做出反应和果断。由于重大事件对用户的影响和对企业造成的风险,必须以不同于正常的日常运营事件的方式来处理。作为你的整体卓越服务计划的一部分,除了你提供的服务的设计之外,考虑审查你的重大事件和风险管理流程。有了一个执行良好的有效策略,你的服务中断将不会成为一个新闻,你的终端用户将是快乐和富有成效的。
Kepner-Tregoe是为运营和IT提供问题解决和卓越服务流程的行业领导者。KT的专家们拥有60多年与各行业和地域的组织合作的经验,他们了解将您的流程从有效变为高绩效所需要的东西。