IT组织的目标是提供最佳质量的服务和系统,以支持他们的用户和业务流程。不幸的是,系统(就像人一样)并不完美,它们有时会出现故障。 当这种情况发生时,善意的IT人员会尽其所能,迅速修复问题,使系统恢复正常,这样依赖它的用户就可以继续做他们的工作。 确保业务连续性对IT功能至关重要,但预测和预防问题的再次发生也同样重要。
当这两个共同依赖的ITSM流程相互冲突时(一种常见的情况),挑战就出现了。当这种情况发生时,IT人员往往必须选择他们的毒药--迅速恢复服务或永久解决这个问题。 制定一套处理这种冲突的准则可以帮助员工更有效地工作,并确保你的组织的正确平衡。 以下是您在消除事件和问题管理流程的冲突时应该考虑的6个因素。
1.业务影响 - 每一个事件和问题都是不同的,要做出一个明智的决定,把优先权放在哪里,主要取决于是否有一个客观的手段来衡量和分类当前和未来的业务影响。 受影响的人数、受影响的业务流程的关键性、系统/服务受影响的时间长度和无形的影响,如客户的看法,都应该被考虑。
2.资源利用 - 同样的IT人员和技术资源经常被用来解决活跃的事件以及预防问题。 目标是要从你的资源所从事的活动中为组织实现尽可能多的整体利益。 对这些受限的资源应用组合管理技术,可以帮助确定将资源集中在少数高优先级的活动上,将其分散在很多活动中进行覆盖,或者根据技能和经验进行有选择的分配,是否会产生最大的回报。
3.毁坏面包屑 - 重新启动服务器可能会恢复服务,但它可能会破坏IT部门解决问题所需的信息。 通常情况下,当事件被解决时,关于环境中发生的事情、活动的依赖关系、正在使用的资源、用户试图做的事情以及事件发生时系统的执行情况的症状和背景数据都会丢失。 作为管理事件的一部分,为捕获这些数据提供明确的指示,可以避免将来在寻找根本问题的根源时出现延误。
4.复发和影响 - 事件通常是独立处理的,然而问题管理必须考虑到事件重复发生的风险。 评估事件重复发生的频率、持续时间和影响可以帮助IT人员和决策者更全面地看待这种情况。通过 "连接点",更仔细的分析可以帮助确定减轻事件的直接影响是否应该优先于防止它再次发生。
5.可复制性 - 有些问题只能在事件发生时通过对系统和环境的实时分析来诊断,在以后的时间里重现事件可能是不可能的。 当怀疑会出现这种情况时,有必要协调问题和事件管理的活动,以便在事件被解决时能够进行实时诊断。 有效做到这一点的关键是:明确的决策权、有效的沟通和活动的协调。
6.将影响推迟到以后的时间 - 事件管理最困难的决定之一是评估延长当前事件以诊断根本问题的影响,与解决当前情况并在影响未知的情况下增加未来复发的风险。 大多数公司都有非线性的,但可预测的商业活动周期。 例如,影响可能在半夜较低,或在本季度的最后一周为达到财务目标的最后冲刺阶段较高。 清楚地了解这些周期有助于IT人员在处理事件时做出更符合业务需求的决定。
你的组织的问题解决方法应该包括捕获诊断数据的过程步骤,作为事件管理的一部分,并明确界定调查问题的决策标准。对于何时只是恢复服务或何时永久解决一个问题,通常没有明确的正确答案,但考虑到所列的6个因素将有所帮助。
有时你只需要选择你的毒药。
Kepner-Tregoe是解决问题的行业领导者--通过工具、技术、技能和流程帮助企业完善其ITSM流程,使IT人员能够更好地支持用户和业务流程。