19.1 故障管理概述
19.1.1 概念和目标
1 故障是系统运行出现的任何系统本身的问题或者任何不符合标准的操作,已经或者可能引起服务中断和质量下降的事件。
2 故障特征:影响度、紧迫性、优先级。
19.1.2 故障管理范围
3 常见故障:(1)硬件及外围设备故障:主机宕机、设备无故报警、电力中断、网络瘫痪、打印机无法打印;(2)应用系统故障:服务不可用、无法登录、系统出现bug;(3)请求服务和操作故障:忘记密码、未做来访登记。
19.2 故障管理流程
4 故障管理流程包括:故障监视、故障调研、故障支持与恢复处理、故障终止以及对整个故障流程进行跟踪。
19.2.1 故障监视
5 监视考虑因素:进行故障监视时要充分考虑故障的影响度、紧迫性,对影响较大的故障类别进行重点监视,采用更先进的自动化监视管理工具,启用更多的系统监视功能,或者投入更多的人力和物力,在相关部门发现故障时,能根据故障影响度设置处理优先级,尽快进行下一步管理流程。
6 故障接触人员:需要对故障接触人员进行严格管理,针对不同的故障接触人员指定监视职责,制定相关操作手册,而故障接触人员应严格按照规定进行操作和报告,同时,故障接触人员本身和活动也应称为故障监视的项目。包括:(1)故障现场接触人员,如系统运行值班人员、系统用户;(2)初级支持人员,如服务台、支持小组;(3)高级支持人员,如故障处理专家小组、系统服务厂商的技术专家。
7 美国权威市场调查机构GartnerGroup对故障原因分3类:技术因素、应用性故障、操作故障。
8 按实际进行的分7类:(1)按计划进行的硬件、操作系统维护所引起的故障,包括更换硬盘、操作系统补丁。(2)应用性故障,包括软件应用性能问题、应用缺陷(bug)、系统应用变更。(3)人为操作故障:包括误操作以及不按规定非标准操作引起的故障。(4)系统软件故障:包括操作系统死机、数据库的各类故障。(5)硬件故障:包括硬盘、网卡损坏。(6)相关设备故障:包括UPS失效引起的电力中断。(7)自然灾害,包括洪水、火灾、地震。
9 监视项目及监视方法:人员、规范操作的执行、硬件和软件是故障监视的重点;自然灾害由于难于预见和控制,需要进行相应风险分析,采取容灾措施防范措施来应对。(1)对系统硬件及设备的监视包括主机服务器及其主要部件、专用的存储设备、网络交换机、路由器。对硬件的监控方法主要是采用通用的或专用的自动化管理监控工具。(2)对软件的监视包括应用性能、软件缺陷和变更需求。性能监控采用自动化管理监控工具,软件缺陷及变更需求主要由专门的测试工程师监视,或者在使用的过程中用户方发现并提出。(3)人员包括系统操作员、系统开发工程师、用户、来访者,甚至是机房清洁工和运输公司职工,要对他们与系统接触过程的行为进行跟踪和记录,防止或者及早发现非标准的操作带来的系统或服务故障。
19.2.2 故障调研
10 故障信息搜集:故障信息来源有服务台、系统、用户、其他IT部门。信息搜集方式:人工和自动
11 故障管理详细的记录了故障信息,如故障发生时间故障影响到的服务。其目的是(1)便于确认故障影响;(2)问题管理可以根据这些信息查找故障原因;(3)密切跟踪故障进展(4)满座服务级别管理的需要。
12 完整的故障记录包括:故障编号;故障类别;记录故障的日期和时间;记录人(或组)的姓名(或ID);有关用户的姓名、部门、电话和工作地点;回复用户的方式(电话、电子邮件);故障描述;目录;影响度、紧迫性、优先级;故障状态(待处理、处理中、终止);相关的配置信息;故障督导解决的日期时间;终止的日期和时间。
19.2.3 故障支持和恢复处理
13 经过查明和记录,接下来就是故障的初步支持,请说明初步的目的和含义。
答:初步的目的是尽可能的恢复客户的正常工作,尽量避免或减少故障对系统服务的影响。包括2层含义:(1)根据已有的知识和经验对故障的性质进行大概分析,以便采取相应的措施;(2)采取措施和行动不以根本解决问题为目标,主要目的是维持系统的持续运行,如果不能较快找到解决方案,故障处理小组就好找到临时性的解决方法。
19.2.4 故障分析和定位
14 一旦任务分配给某个支持小组,他们应该做好哪些工作?
答:(1)确认接受故障处理任务,并指定有关日期和时间。
(2)正常更新故障状态和历史信息。
(3)通知客户故障最新进展。
(4)说明故障当前所处的状态。
(5)尽可能快的把发现的权益措施提供给服务台和客户。
(6)参考已知错误、问题、解决方法、计划的变更和知识库对故障进行评审。
(7)必要时要求服务台根据协议的服务级别,重新评价故障影响度和优先级,并在必要时对他们进行调整。
(8)记录所有相关信息(解决方案、新增的和修改的分类、对所用相关事件的更新、花费的时间)。
(9)将故障责任反馈给服务台以终止故障。
15 硬件故障定位分析举例
(1)中央处理器,主要原因:集成电路失效,方法:维修人员根据测试诊断结果,更换电路卡,如无备件则降级运行,没有补救手段则须停机检修。
(2)外围设备,应采取脱机和联机检测2种方式,一类是集成电路失效,须更换电路卡,另一类是各种外设的特殊故障,须根据具体情况进行维修。如脱机正常而联机不正常则须运行相应联机测试程序,必要时采取模拟环路测试。
(3)电源部件,大功率器件,故障率高,应充分注意电源部件这些可能发生部件的主要部位。
19.2.5 故障终止
16 故障终止阶段的输入是支持和恢复阶段更新后的故障记录和已解决的问题,采取的主要行动是和客户一起确认故障是否成功解决,输出的结果为更新后的故障信息和故障记录。
17 在故障解决后,服务台应确保做好哪些工作?
答:(1)有关解决故障的行动的信息是否准确易懂;
(2)根据故障产生的根本原因对其进行归类;
(3)客户口头同意故障解决方案和方案执行的最终结果。
(4)记录了故障控制阶段的所有相关信息(客户满意度、处理故障花费时间、故障终止日期和时间)。
19.2.6 故障处理跟踪
18 服务台负责跟踪和监督所用故障的解决过程,包括做好哪些工作?
答:(1)监督故障状态和故障处理最新进展及其影响服务级别的情况;
(2)特别注意故障处理责任在不同专家组之间的转移;
(3)更多关注高影响度故障;
(4)及时通知受影响的用户关于故障处理的最新进展;
(5)检查相似的故障。
各省软考办 | ||||||||||