数据中心在运行维护中会遇到各种突发的事件,重大的突发事件会引发服务的中断、财产的损失,因此数据中心应建立完整的应急管理的体系,在发生影响服务的事件时,启动应急处理机制及时快速处理,将中断服务和损失降到可控的范围。本讲将重点介绍:急组织管理、应急响应及流程管理、应急演练管理、应急事件管理计划及应急预案的持续改进。
1、数据中心应急组织架构
数据中心应建立应急管理组织架构,组织架构应由决策层、管理层和执行层组成,应包括应急领导小组、应急管理小组、应急技术与执行小组、应急保障小组。
各应急小组人员和职能见下表:
多中心或多个分支机构的数据中心应设立不同级别的应急管理机构。
2、数据中心应急人员的保障
应急管理机构的工作人员应包括管理、运行维护、后勤、应急响应和灾难恢复等各类人员。人员可为专职,也可为兼职,关键岗位的人员应有备份。
数据中心应建立长效的应急人员保障机制,确保应急人员能够胜任应急处理的工作,在人员保障方面应满足以下要求:
1)确保应急处置人员具备应急工作必要的技术能力,定期组织人员培训应满足应急处置的要求,并通过应急演练保证应急处置人员熟练度。
2)确保主、备岗机制的落实,确保主、备岗人员定期的轮换。
3)明确相关厂商的技术支持服务水平,确保应急处置过程中相关厂商能够提供及时有效的技术支持。
数据中心应对运行维护过程中的应急事件进行分类,分类的目的是明确突发事件的风险程度和危害,风险层度和危害包括:
1)对社会、单位、客户的容忍度;
2)发生应急事件系统的重要程度;
3)影响的范围、破坏程度或潜在危害的可能性;
4)估计恢复正常服务或有限服务的时间;
5)应急事件处置需要的资源。
应急事件宜分为公共灾难危害事件、基础设施故障事件和电子信息系统故障事件。
数据中心应建立应急事件的响应和处理流程,应急事件的响应和处理流程可分为发现、响应、处理、验证四个阶段,如图下图所示。
在应急事件的处理过程中,由数据中心领导小组启动和关闭应急事件,应急处理流程应包括:
1)采取必要的控制措施,最大限度地保护运行系统和数据安全,抑制事态恶化,降低损失;
2)调度相关资源,由应急技术和执行小组按照应急预案,恢复中断服务的系统,应急保障小组做好后勤的保障;
4)应急管理小组跟进应急事件处理进展,实施应急事件的情况通报、信息发布、客户的解释和安抚工作;
5)应急领导小组根据应急事件的处理情况实施应急事件升级或降级指挥;
6)应急事件恢复后的系统验证;
7)记录应急事件处理过程的信息,信息内容包括:事件发生的时间、事件请求处理的时间、报告人和受理人、事件处理的派发时间和处理人接单时间,恢复的时间、事件处理的耗时、事件处理过程、发生事件的原因(或现象)、解决方案等相关信息;
8)完善相关的技术文件;
9)宜对应急事件处理和恢复情况进行满意度调查。
数据中心应制定应急事件处置需要关注的两个节点:恢复时间目标和恢复点目标:
1)恢复时间目标(RTO—Recovery Time Objective),当应急事件发生时,信息系统从停止服务开始恢复到最低可用水平所需要的时间。
2)恢复点目标(RPO- Recovery Point Objective),当应急事件发生时,数据可以恢复到的时间点。
这两个目标应体现在服务水平协议或服务质量的考核指标中。
数据中心应根据应急事件的分类,制定相应的应急预案,应急预案应包括:
1)预案的场景、影响范围、重要程度;
2)通知通报路径;
3)操作流程、应急处理技术方案和操作手册;
4)应急处理过程中需要的资源。
5)参与机构和人员、联络方式;
6)应急事件处理需要的相关资源等。
应急预案是否有效和可执行,应通过测试和验证,并应通过应急领导小组的审核和批准。
应急预案存放应按照就近的原则,宜在监控中心、设备安装地存放,便于应急预案处置时迅速阅读。应加强应急预案版本管理、分发和回收。定期对各类应急预案进行清理、归档和修订,在每次修订后所有拷贝统一更新,除满足日常使用外,应保留一套存档以备查阅和复制,旧版本应收回和销毁。
应急演练管理包括应急预案的培训、制定应急演练计划、实施应急演练、应急演练后评价以及应急预案的持续改进,通过演练训练指挥人员和运维人员掌握和提高应急处置的能力。
应急演练按照演练形式分为:桌面演练、模拟演练、实战演练。
桌面演练是组织相关人员,以会议形式模拟各种应急场景,集中讨论应急响应和恢复流程中的管理与指挥协调,验证应急预案是否满足要求;
模拟演练是模拟应急场景,利用备份系统实施应急预案模拟操作。模拟演练不应影响系统的正常运行;
实战演练是模拟真实场景,对正在运行系统制造故障,按照应急预案完成系统切换或业务恢复,在演练完成后需进行系统的回切和恢复。
每年的桌面演练和模拟演练应覆盖所有的应急预案,对基础设施重要系统的实战应急演练每年不应少于一次,实战演练宜每三年覆盖所有应急预案的场景。
应全面记录急演练过程,分析和回顾应急演练过程,并形成应急演练的总结报告,提出改进意见,完善应急预案的文档。
数据中心应每年进行一次应急事件风险防范措施的评估。评估的主要内容是风险识别和分析及控制措施的有效性、应急预案的完备性、应急演练的全面性和及时性,及时发现新的风险,改进风险控制措施,完善应急预案,形成风险防范措施的持续改进。
版权声明:我们致力于保护作者版权,注重分享,被刊用文章【突发事件分类(数据中心运行维护与管理标准)】因无法核实真实出处,未能及时与作者取得联系,或有版权异议的,请联系管理员,我们会立即处理! 部分文章是来自自研大数据AI进行生成,内容摘自(百度百科,百度知道,头条百科,中国民法典,刑法,牛津词典,新华词典,汉语词典,国家院校,科普平台)等数据,内容仅供学习参考,不准确地方联系删除处理!;
工作时间:8:00-18:00
客服电话
电子邮件
beimuxi@protonmail.com
扫码二维码
获取最新动态
