文本描述
问题管理
2024年7月27日
问题管理
问题管理的目标
问题管理的目标是最小化事故的不利影响以及由于IT基础设施中的错误造成的业务上的问题,阻止与这些错误相关的事故的重复发生。为了达到这个目标,问题管理寻求找到事故的根本原因,采取行动改善或纠正这种状况。
问题管理流程具有主动和被动两个方面。被动的问题管理关注于解决问题以响应一个或多个事故。主动问题管理关注于在事故首次出现前就能识别和解决问题以及知名错误。
问题管理的范围
问题控制、错误控制以及主动问题管理都属于问题管理流程的范围。较为正式的定义是,问题是一个或多个事故未知的底层原因,知名错误是已经成功诊断出来的问题,并且为之定义了临时措施。
问题管理的范围
问题管理流程的输入是:
来自事故管理的事故详细信息
来自配置管理数据库的详细配置信息
任何定义的临时措施(来自事故管理)
问题管理的主要活动包括:
问题控制
错误控制
问题的主动预防
识别问题趋势
从问题管理数据中获得管理信息
完成主要问题的评估
问题管理流程的输出:
知名错误
变更请求(RFC)
更新后的问题记录(包括解决方案和/或任何可用的临时措施)
关闭问题记录(对于解决的问题)
与问题和知名错误匹配的事故的响应
管理信息
基本概念
在事故的早期阶段,能够得到相应的而且容易应用的建议,对于组织有效地解决事故的能力来说,这是最重要的。服务台接收到的事故,对于支持员工很少是初见的或是神秘的。相似地,处于二线或三线的支持员工中的专家也已经解决了许多困难和原始事故和问题。花费在这些解决方案上的资源的最好使用方式就是将它制作成文档,这样一线的员工就可以应用它们了。
问题管理流程试图降低影响业务的事故和问题的数量及危害,因此,问题管理的部分职责是确保以前的信息被记录在档,这样对一线及其它二线支持员工就已经是准备好可用的了。它不是简单地记录文档的问题,它要求:
信息应该建立索引,以便根据来自新事故的简单的线索就能容易地查找;
进行例行检查,以确保持续的文档记录与变更相一致:
技术
可用的外部解决方案
业务实践和需求
内部技巧
重复事故的频度和影响
阐明内部最佳实践
进行详细评估的流程;
训练员工使用信息,理解可用信息的深度和作用,以及怎样访问和理解信息,在提供反馈方面,信息的相关性和易于使用;
存贮信息的知识库-典型地基于集成的服务管理工具,使得在登录后或者在事故处理流程的初始分析阶段就能使用知识。
一般地使用“专家系统”软件来发挥问题管理流程的作用。然而,重要的是包括专家知识,让使用系统的员工根据反馈来更新:
被识别的问题和知名错误;
分析他们遇到的事故(被动问题管理);
按时间段分析事故(主动问题管理);
分析IT基础架构;
提供知识库;
引进新产品时的开发人员和提供商。
一般情况下,问题是多个展现出共同特征的事故的结果。有时问题也可以根据单个明显的事故来识别,由单个错误引起,虽然原因未知,但影响明显。
知名错误是对问题的根本原因成功诊断后识别的,后续将开发一个临时措施。
IT基础架构的结构化分析、来自支持软件的报告以及用户组会议有助于问题和知名错误的识别。这就是主动问题管理。
问题控制重点在于将问题转化为知名错误,错误控制重点在于通过变更管理流程结构化地解决知名错误。
事故管理和问题管理的不同
问题管理不同于事故管理,它的主要目标是事故底层原因的检测,提供后续的解决方案,阻止事故的发生。在许多情况下,这个目标可能与事故管理的目标有直接的冲突,因为事故管理的目标是尽可能快的为客户恢复服务,经常通过临时措施,而不是通过彻底地解决。因此在这个方面,找到解决方案的速度是次要的。底层问题的调查需要花费时间,这样会推迟服务的恢复,但阻止了事故的重复发生。
问题控制
问题控制流程关注于以有效地方式处理问题。问题控制的目标是识别根本原因,诸如存在错误的配置项,向服务台提供可用的关于临时措施的信息和建议。
问题控制流程很相似于,且高度依赖于事故控制流程的质量。事故控制重点在于解决事故,提供临时措施,对特定的事故临时修复。如果对于一个或一组事故,识别出了问题,可用的临时措施和临时修复应该由问题控制流程记录在问题记录中。问题控制流程也对问题建议最佳