计算机中心机房运行风险分析及应对
新闻来源:《网管员世界》 作者:建行广西分行信息技术部高级工程师赵旭东 责任编辑:王一丁 点击:
2)科学监控。事实上,机房保障系统的运行故障,大部分是有一个从量变到质变的过程的,机房设备的使用寿命也有一定的规律可循,而且所有机房设备的运行故障必定有其特定的原因。据此,通过健全科学的实时监控措施,对发生故障随机性强的机房保障系统进行长期实时检测,经过对采集的运行参数的有机分析,及时采取有效的规避风险的措施。由实时监控系统建立的预警系统,可以达到对其监控设备的运行状态检测、运行异常警告、运行故障原因分析,从而达到运行故障防范和及时处置的目的。
3)应急方案。应对运行风险的目标,是尽可能避免发生运行风险,一旦发生风险就要做到快速反应,快速恢复。既然机房运行风险是客观存在的,同时必须承认,有些机房运行风险发生的时间是无法预控和预知的。对此,理想的选择是建立一整套科学有效的“机房运行风险应急方案”。包括启动运行危机处置的报告体系、负责人力资源调动和现场协调指挥的组织机构,负责执行风险处置的各方面专业技术人员及联络体系,指导具体操作的完善详尽的《异常处置应对方案》。
“机房运行应急方案”, 特别重要的是可用性,即实用、能用、会用。其基本原则是制定方案分门别类,描述内容直观明晰,处置方法准确详尽,应急效果可靠稳妥。必须关注整个应急处置过程的所有细节,包括异常分析判断、启动联系协调手段、应急人员备份、处置工具器材等;应急方案必须具备多种级别的应对措施,任何情况下,避免出现无所作为或无法应对的局面。同时特别重要的是对应急方案的应用能力,平时认真组织模拟演练的方法,可以提高应急处置水平。
总之,高度重视机房运行保障的重要性,客观地认知机房运行规律,科学地应对机房运行风险,不断探索和掌握机房运行维护技术,不断提高机房保障管理水平,就能最大限度地规避机房运行风险,为各种计算机应用业务提供可靠保证。
发布时间:2007-10-19 16:55:00 |