title: 现场故障处理流程 author: Gamehu tags:
LMT团队对外最大的价值就是及时响应现场故障,有点Google SRE On-Call Engineer的感觉,但是现场问题往往较复杂或处理链条很长,所以必须要有一个相对标准且高效的流程,让各角色团队达成一致,从而能快速推进。
快速响应告警,处理生产环境中的故障,对故障分级,同时保证SLA时效。
故障排查
事后故障复盘
协作与沟通
知识库
基于上面的职责,我梳理两个版本,0.5和1.0版本现场故障处理流程,主要在于先分清每个团队的职责,然后把现场故障能快速的流转起来,不管是否为疑难杂症,都做到万事有回响。
0.5版本用于建队初期,时间紧任务重,人员还未完全到位的情况。彼时LMT更多的是解决简单的问题以及跟进问题,大多问题的处理还是需要寻求原研发团队的支持故称接口人模式。 (故障组就是LMT) {% asset_img xc02.jpg %}
1.0版本是各核心模块人员配置到位,且各团队磨合期过了后,整理的,1.0版本流程重点主要在两方面:
{% asset_img xc.jpg %}
后续还有2.0版本,但是因为我已经不在LMT,且职责已经跟当初我建立时大相径庭所以我就不做梳理了。
一定不要忘了还有 复盘与改进
复盘
预防措施
填单 整个流程,为了各团队统一语言,所有过程记录我们要求都基于JIRA单,每个团队对应其流程节点,对JIRA单进行扭转和补充。 {% asset_img dz.png %}