分级处理IT故障 运维管理流程简洁高效

2013-10-23 15:34 来源:电子信息网 作者:和静

任何计算机系统都有出现故障的时候,可能发生在测试阶段,也可能发生在系统刚刚上线,还可能发生在已经稳定运行很多年的系统上,又可能发生在系统一个小小的升级之后。而这些系统出现故障所带来的负面影响则可大可小,小到一个终端的软件无法使用,大到整个系统瘫痪,所有业务不能办理。由此便有了IT故障处理分级的运作形式,将问题或故障做到先后有序,将IT运维故障划分为普通、急、紧急……依靠这套省力的约定建立故障处理流程,是解放IT支持部门最有效的法则。

当计算机故障升级到“核灾难”

佩特罗夫是原苏联一位年轻军人、计算机工程师。1983年9月26日晚上,他正在莫斯科附近的某个导弹中心值班,他回忆说:“忽然,我面前的计算机屏幕变成了刺眼的红色,刺耳的警报声也随之响起,声音大得简直能把死人都从坟墓里吓醒。这是计算机预警系统发出美国向苏联实施核进攻的警报,美国人向我们发射核武器了!”一般人认为,计算机按事先编制的程序工作,它提供的信息应是绝对可靠的,计算机不会玩花招,但这次出现的情况却不是这样。警报还在不断地响,佩特罗夫没有被吓呆,而是在积极思考。根据他掌握的情况来判断,他认为,美国没有理由在当时对苏联发动核攻击,唯一的可能是计算机出错。导弹中心接到佩特罗夫的报告后,急如星火地派人对计算机进行紧急检修。结果证明,错误警报的发出完全是由计算机的故障造成的,计算机在这起故障中,充当了挑起核战争的罪魁祸首。

上面这个真实存在的计算机故障被列为IT界十大故障之首。虽然这起故障最终没有引发全世界的“灾难”,但是不是今后的数十年之后,就会完全避免此类事件发生呢?这引起了我们深深地思考。

作为IT运维产品和服务提供商的北塔软件认为:“无论从技术角度出发,还是就业务角度而言,我们都需要对经常发生的IT故障进行各种考虑和权衡。在看起来似乎无法立即解决所有故障的情况下进行正确的权衡,则是IT运维人员成功的关键。这意味着要首先确定有哪些系统出现问题,会波及到核心业务的停滞范围,以及理解并确定如何在出现故障的时候按照紧急度权衡,从而避免影响面最大的灾难事件发生。”

北塔软件的技术专家以一家正在实施BTIM IT综合管理系统的银行IT系统为例,为我们说明了故障和灾难的区别。例如,对于一般的电脑系统故障,信科部或业务部门通过通常的措施(如激线、重组、重起、切换、脱机交易、冲证等)在短时间内能够恢复对外的服务,对银行业务和客户利益没有造成重大影响,此类事件称之为故障。如果信息中心发生严重故障,导致管辖内大部分或全部的业务无法进行,且在一天内仍无法恢复正常对外服务,此类故障则要称之为“灾难”了。

1 2 3 > 
运维管理 IT故障

相关阅读

暂无数据

一周热门