文本描述
文档编号
XX_应急_生产运维紧急处理手册
版 本 号
V1.
密 级
机密
应急_生产运维紧急处理手册
XXX信息技术有限公司
版本控制
编号
修订人
修订时间
版本号
修订内容说明
目录
一、 系统部紧急事故处理工作流程
1.1 系统网络部紧急处理流程示意图:
1.2 紧急处理流程设计思路:
1.3 紧急处理流程的分析:
1.3.1 紧急故障处理流程开始:
1.3.2 紧急故障处理流程处理过程:
1.3.3 紧急故障处理流程处理完成:
二、 系统紧急事故处理流程
三、 数据库紧急事故处理流程
四、 网络紧急事故处理流程 1
五、 系统网络组通报理流程 1
系统部紧急事故处理工作流程
在系统网络部整体稳定性框架中——紧急运维工作规范,在实现整体稳定性目标99.99%起着决定性的因素。
在紧急运维工作规范中涉及到重要的有网络紧急处理、系统紧急处理、DB紧急处理、IT紧急处理&安全紧急处理。
在此次的《系统网络部紧急处理流程规范》文案中,主要以网络、系统&DB各个紧急处理的流程作为核心组成部分。以达到整个部门在应对紧急事故突发的时候,能够快速、高效解决,将影响和风险控制最低底线。
图一:系统部稳定性体系框架示意图
图二: 紧急运维规范的组成示意图
系统网络部紧急处理流程示意图:
紧急处理流程设计思路:
目标
“不影响总体目标”—基础原则
确保紧急事故处理不影响到运行的整体稳定性99.99%;
原则
“两最”原则(TIME IS PREIOUS)
整体流程以清晰化、可执行性为最基本要求;遵循如下“两最原则”——
但凡遇到紧急事故,确保事故发生的负面影响降低至最低;
但凡遇到紧急事故,确保事故发生的时间控制在最短;
方法
“能力+经验+团队协作”,达到无缝交流,快速出击。
针对紧急事故的处理对象,分清事故的轻重缓急,落实到系统网络部门的网络、系统、数据库各个小组;
紧急处理流程的分析:
紧急故障处理流程开始:
将由如下的重要接口,发起对系统紧急处理的流程这一重要动作的开始:
备注:/***SMS手机报警短信将作为发起紧急故障的第一重要的时间来源;
紧急故障处理流程处理过程:
在接受到紧急故障的第一通知后,系统部工作人员在第一时间内对紧急事故的信息进行判断,并进行故障处理;
针对不同的紧急故障场景,将又细分为网络紧急处理流程、系统紧急处理流程(涵硬件、系统、安全、环境等重要因素)、数据库紧急处理流程;
备注:/***这一处理过程,可以具体参照下文对【网络紧急处理流程】、【系统紧急处理流程】、【数据库紧急处理流程】三块单独的分析;
紧急故障处理流程处理完成:
在确认紧急处理完成,恢复正常的应用的第一时间,系统部主管将会以后,针对此次的故障进行通报;产生相关的文档记录, 并归总到《系统部每月稳定性运行报告》;
系统紧急事故处理流程