衡量ITIL环境下的问题管理质量

仔细观察问题管理是如何进行的

了解分析师和工程师如何处理问题,找到根本原因并采取适当的后续行动,听起来是一件很容易的事情。一旦人们能够访问用于记录ITIL问题管理的应用程序,就可以阅读案例内容。似乎只需要访问案例管理工具和使用该工具的一些技能。

然而,询问问题管理者他们是如何处理问题的,通常会发现真正的程序,描述他们在发现和处理问题时所采取的步骤。这些记录下来的过程和程序非常有帮助:对需要注意的问题的进展步骤有非常明确的预期。

阅读问题单,或询问问题经理他们是如何填写程序中的步骤的,这似乎是了解问题管理中如何创造价值的合理的下一步,因为这是真正收集信息、分析数据和得出结论的地方。那么,问题管理的绩效是如何被衡量的呢?许多组织似乎是围绕着问题来衡量与时间有关的参数,或者计算某一特定状态下的问题单数量。例子包括。

  • 每组应用程序的开放问题单(积压)的数量,考虑到时间问题
  • 未解决的问题票的平均年龄,通常被认为是随着时间的推移而变化的
  • 在问题单中找到根本原因的平均时间
  • 反复出现的问题的数量

考虑到问题管理的目标:找到问题的原因并主动采取行动避免未来的事件和问题,上面的例子能说明一个团队在实现这些目标方面有多成功?我们是否要求的是一件事,而衡量的是完全不同的事?

一个真实的生活经历

在对一家世界性公司的全球IT部门如何处理问题管理进行评估的两天后,我们决定休息一下,在参与评估的人员中比较我们的发现。考虑检查的字段包括票据摘要和问题描述,以及个人进度更新和解决方案描述。

我们看到的模式是,在大多数问题单中,摘要明确指出受影响的应用程序或硬件以及它的问题所在,然后是详细问题描述中的一些基本数据。进一步的更新通常会表明,随着时间的推移,问题是如何通过问题管理的程序性步骤进行的,并在解决描述中得出结论。

虽然这似乎是一个单独的案例,但它代表了在进行评估的团队中看到的模式。通过对其他经验的讨论,我们得出了以下图片,代表了所看到的观察结果。

问题单的例子

这就提出了一系列关于如何得出结论和采取或计划行动的问题。

  • 为了有效地找到原因,需要收集哪些数据?
  • 专家们如何确保他们在适当的时间收集了适当的数据?
  • 魔法是什么样子的?采取了哪些无记载的步骤?做了哪些无记载的思考?
  • 还考虑了哪些其他原因?
  • 解决小组对找到的原因是否真的是 "真正的原因 "有多大的信心?
  • 为解决问题而采取的行动可能造成哪些副作用?

对这些问题的回答可以很好地了解问题管理中如何为任何特定票据创造价值。这些问题的答案通常与问题管理程序的时间或数字参数无关。它们是关于数据收集的质量和相关人员的思维过程的质量。

获得对反复出现的问题的控制权--获得稳定性。

有些人可能会说,当 "魔术 "做得好的时候,企业会看到重复出现的问题数量很少,这一点在上面作为问题管理的一个绩效指标。这倒是真的!

不幸的是。

公司通过重复出现的问题得到的是一个信息,即问题管理过程在第一次发生问题时没有很好(或足够好)地找到根本原因。由于问题的再次发生可能需要几周或几个月的时间,所以这是一个滞后的、不精确的问题管理绩效指标。真正需要的是一种衡量问题管理绩效(以及因此而产生的价值)的方法,以便公司能够预示反复发生的问题的数量会减少。换句话说:问题管理的领先绩效指标是什么?

对于简单的(低影响的)问题,找到表明问题解决情况的措施可能只有轻微的效果,在这种情况下,再次发生不会被人重视,但也不会是灾难性的。有些公司偶尔会发生一些关键的事件和问题,他们在与一个或多个IT相关的灾难性商业事件的边缘徘徊,他们决心永远不再经历这种经历了衡量反复出现的问题和趋势不可能是一个足够好的衡量标准。

做魔术的最佳实践?

向工程师和分析师询问他们在处理问题单时的内部思考过程,会得到许多不同的答案。这与询问同样的听众如何配置一个特定的应用程序或一些硬件时完全不同。现在很明显的是,配置一个应用程序或一个硬件的通用方法有很多优点。

  • 对正在使用的资产进行 "最佳配置",可以减少变化。
  • 对资产如何为整个基础设施增加价值的共同理解有助于能力管理
  • 它简化了关于如何配置或改变资产的沟通。
  • 它可以实现无缝和高质量的交接和维护

鉴于这些因素,令人瞩目的是,往往没有处理问题的共同方法。因此,这仍然是一个魔术。

当一个寻找问题根源的最佳实践被建立起来时,它所带来的优势与配置资产的最佳实践非常相似。此外,它将为故障排除提供一种新的语言,其术语允许记录 "魔术 "的样子,以及如何得出结论。

魔术

魔术 "是什么样子的?

找到问题根源的方法有很多。有些人比其他人更成功,而不同的人(没有标准的框架)自然有不同的方法。任何一组故障排除者的效率都是沿着钟形曲线下降的。故障排除专家有良好的声誉,可以放心地交给他们任何工作。表现稳定的人对大多数任务都很好,并有改进的余地,而那些故障排除声誉不佳的人可能需要帮助。

Kepner-Tregoe(KT)问题分析方法是在20世纪50年代研究和定义的,此后一直在不断完善和测试。我们很容易认识到,这比ITIL的缩写发明还要早很多年。

有人认为,一个已经存在了这么久的方法不可能适合IT行业,因为在这个方法第一次被研究的时候,IT和ITIL都不存在。仔细研究一下问题分析的KT方法,可以做出更合适的判断。问题分析的主要步骤包括: 1:

  • 描述问题
  • 列出可能的原因
  • 评估可能的原因
  • 证明真正的原因
  • 超越修复的思考

对于这些步骤中的每一步,都有明确的意图和一些子步骤--通过问题的措辞和答案的记录来获得正确的数据输入问题分析的思考过程。这一切都在没有任何特定产品或问题的情况下完成,它与ITIL非常相似,在所有类型的IT组织中发挥作用。问题分析是一种为许多不同的问题寻找根源的方法,不管是什么行业或技术。

有什么问题吗?

嗯......是的!但是,KT对 "问题 "一词有一个非常具体的定义,它与ITIL不同,但与ITIL非常吻合。根据KT,在我们触发问题分析过程之前,有三个标准必须是真的。

  1. 实际性能和期望性能之间应该有差距。这就是我们所说的偏差(例如,机器不工作,而它应该工作)。
  2. 偏差的原因不明(例如,不是已知错误)。
  3. 必须有了解偏差的需要(例如,能够采取行动)。

通过一套明确的步骤来寻找根本原因的结果是,故障排除者可以开始沟通并记录在这个过程中已经做了什么和将要做什么。下图给出了一个例子,说明如何将收集到的数据用文本模型来描述问题的症状。

问题分析_Doc_10

已知的魔法

当对问题分析的一致和可复制的方法的步骤被充分理解时,衡量找到的根本原因的质量就变得容易多了。如果找到根本原因的方法被理解,它就可以被记录、复制、顺利移交和有效计时;这些都是最佳实践的特征。

一旦一个IT支持组织开始使用统一的问题分析方法,个人和团队的直接质量或价值就可以得到衡量。这正是KT顾问在评估IT支持环境中正在进行的现有故障排除过程的质量时所做的。通过阅读现有的事件和问题单,并根据已知的标准来估计方法的结构,我们可以帮助产生一个故障排除质量的基线领先指标。

作为一个例子。IT人员如果坚持用带有偏差的对象(回答问题:"什么地方出了问题?")来记录他们的概要(或案例管理工具中的相应字段),那么在找到根本原因之前,平均花费的时间要少10%以上。

这一切可能听起来很容易,以至于这不可能是真的--只要记录下专家们计划寻找根源的对象和缺陷,就能在结案时间上节省仅仅10%以上。好吧,你可能是对的:它可能听起来很容易,但它不是。要使这一思维过程打上烙印并形成条件反射,需要改变行为方式,而在关键时刻,在时间和业务的其他压力下,如果不在高压问题上进行实践和支持,这一简单的步骤就会被抛在一边。实施排除故障的最佳做法的步骤是很好理解的,但做出改变仍然需要注意、专注、良好的计划和思考。幸运的是,思考很容易,但实施团队可能会分心。KT思维过程,像问题分析一样,并不是保证能找到根本原因的银弹。它只是一种引导已经有知识的专家走向目标的方法,找到根本原因的里程可能会因进入该过程的数据(和可观察性)的质量而不同。

后者是成功的关键因素;仅仅填写表格、模板或电子表格并不能给出一个好的根本原因,因为问题分析是建立在需要积极使用的硬性逻辑的坚实基础之上的。它仍然需要密集的数据收集、思考和检查,这与非结构化故障排除环境中的故障排除没有什么不同。最大的变化是思考的步骤变得清晰可见,并且得到了一个名字,所有这些都是基于问题分析的一个清晰的基本计划。这样做的结果是,我们可以衡量和交流我们在寻找根本原因过程中的情况以及我们做得如何。

在这种情况下,测量不是一个数据库查询,显示有多少时间或多少票据符合一组给定的标准。它是一种评级,可以由内部(故障排除)专家给出,他们判断在问题分析的独特步骤中收集的数据的质量。这样的评估成为问题分析质量的一个主要绩效指标。

我们该何去何从?

读一本关于拉小提琴的书并不能使读者成为一个伟大的小提琴手。同样,仅仅培训一个组织如何在排除故障时进行更好的思考,也不可能将该组织变成一个世界级的故障排除者团体。它需要关注、锻炼和奉献,将这种方法嵌入到个人采取的思维方式中,结果会得到回报。对如何在问题管理中找到根本原因进行投资,就是支持对技术技能和经验的投资,从而使员工意识到,要想为复杂的问题找到高质量的解决方案,就必须做好准备。在一个问题管理案例的开始,经理将(仍然)不知道在找到根本原因之前需要多长时间,但会有一个明确和计划的方向,到达的时间将更可预测,这使得问题管理的质量得到衡量。

 

关于Kepner-Tregoe

Kepner-Tregoe是问题解决的领导者。六十多年来,Kepner-Tregoe通过更有效的根本原因分析和决策技能,帮助全球数以千计的组织解决了数百万个问题。Kepner-Tregoe与各组织合作,通过以下方式大大降低了成本并提高了运营绩效
解决问题的培训、技术和咨询服务。

相关的

在重大事件管理中实现卓越服务

金融服务企业如何消除技术债务

我们是以下方面的专家:

联系我们

如需咨询、了解详情,或提出建议!