还剩4页未读,继续阅读
文本内容:
技术事故应急处理程序
1、目的为保障公司遇上严重的技术事故能得到急时、有效地处理,根据工作的实际开展情况,特制定本应急流程制度
2、范围适用于影响网尚系统服务质量的重大系统故障事件的发现、记录、汇报、跟踪、诊断、处理、升级、总结等工作
3、职责描述应急小组组长客服监控人员联系的首位技术经理即为应急小组组长,组长可临时交接到其它经理;但事故解决后必需由首位应急小组组长确认对应急处理过程总负责;决定是否启动应急处理程序;在应急处理开始后10分钟,组织相关成员召开应急会,确定以下3点
1、确定组长、对领导的汇报人、对业务部门的汇报人,并宣布
2、确定应急小组成员分工、职责
3、确定多个解决方案,明确对方案处理的要求时限召集、组织应急小组成员完成应急处理;争取和协调所有有利于应急处理的资源;在应急处理后30分钟,安排相关人员联系厂家、研发人员,讲明故障要求支持根据逐级上报流程向领导汇报应急进展情况;组织事故分析会议和事故总结会议;服务监控成员当班的客服监控工程师向应急小组组长汇报应急工作;发现、确认、记录和通报系统故障;实时评估事故影响服务程度,并向组长汇报;根据影响服务程度,向组长建议优先挽救的服务;确认服务恢复和事故排除;答复客服、客户事故咨询;记录相应急小组组长、事故抢救人员、服务补救人员介入的时间事故抢救成员所负责系统可能导致该事故的工程师应急小组组长确定的应急小组成员名单向应急小组组长汇报应急工作;负责诊断和排除事故;汇报事故处理进展;服务补救成员影响到所负责服务的工程师向应急小组组长汇报应急工作;负责所安排的服务补救任务;检查应用系统的运行情况;向相应业务人员通报服务情况;与相关技术和业务人员共同讨论服务补救措施(如如何向客户解释、发布公告、减小影响服务范围);对业务部门的汇报人应急组长指派的工程师(可由组长兼任)向业务部门接口人汇报以下2点
1、故障现象及(可能)原因、解决方案、预期恢复时间
2、故障影响面、方案尝试时间、故障解决底线时间
3、定期(每15分钟)汇报故障处理情况
4、启动应急程序
1.客服监控工程师申请启动应急故障同时涉及2名以上系统工程师,为了便于统一行动,客服监控工程师可向该技术平台的主管或系统部经理申请启动应急处理程序;
2.系统工程师申请启动应急系统工程师基于对故障的处理及评估状况,认定超出自己处理能力或责任,向其上级领导申请启动应急处理程序;
5、事故应急处理流程图#0;��������#0;����#0;#0;#0;#0;#0;#0;����������������#0;������������#0;������������#0;������������#0;��������#0;������������#0;������������������#0;������������������#0;������������������������������j����������#0;��������������#0;��������������#0;��������������#0;����������������#0;��������������������#0;��#0;������������#0;��������������������#0;������������#0;������������������������#0;����������������������#0;��#0;������������������������#0;
6、逐级上报
(1)应急流程的逐级上报参考《网尚故障处理流程》
(2)在发生服务恢复时间超时的情况时,遵循下表的规则进行逐级上报处理故障级别时间第一级(P1)第二级(P2)第三级(P3)第四级(P4)30分钟部门经理系统负责人1小时技术总监、技术副总裁部门经理系统负责人2小时总裁技术总监部门经理系统负责人8小时技术副总裁技术总监部门经理48小时技术副总裁技术总监说明定义第一级(P1)
(1)关键核心单点业务,如种子、支付网关、核心数据库、CDN分发节点、softx等
(2)大面积故障,如机房线路故障或交换机故障,影响整个机房业务
(3)涉及到国家政府部门干涉的业务,如公安,安全,版权文化居等第二级(P2)关键核心非单点业务,如web服务器,点播服务器,图片服务器、dns等第三级(P3)多服务器负载均衡业务,一台服务器down掉不影响服务,比如ICD系统第四级(P4)非办公时间不需要用到的业务,如夜晚停电办公网交换机不可使用等第
1、二级故障提交的时间以一周7X24小时计算,第
三、四级问题提交的时间以标准工作日5X8计算系统部2005-1-4。