title: 现场故障定位指南 author: Gamehu tags: - LMT categories: - 工作 date: 2024-06-14 23:31:00 --- ---
离职系列 第四篇
离职系列,想想这几年在公司的成长,在这做个记录。此篇主要谈谈LMT时,简单总结了一套针对问题现场定位方法论。
### 前言 在客户现场环境中,我们往往面临网络隔离、工具受限、信息不完整等挑战。并且由于LMT(9人)资源有限,但是试用+付费的现场却有500左右,且数字还在不断增加,因此需要科学的方法论和充分的实践经验,下面是我针对*服务异常*问题整理的,该问题出现频次最高且专业性强涉及多种操作系统(欧拉、centos、麒麟),整理文档方便其它成员学习实践。成员可以结合实际情况灵活调整。 ### 定位指南 #### 第一阶段:问题收集与初步分析(原则上TAC或一线提供) 1. 确认问题的基本信息 - 问题的具体表现(错误信息、异常行为等) - 问题的影响范围 - 问题的发生时间和频率 - 问题是否可复现 2. 建立问题基线 - 首次发现问题的时间点 - 相关变更的时间点(补丁、升级、断电等) - 现场采取的临时措施 #### 第二阶段:快速诊断(LMT) 1. 检查环境 - k8s集群、组件状态、应用pod状态 - 检查系统资源(磁盘、内存等) 2. 检查日志信息 - 查看集群日志、组件日志 - 查看应用pod日志 3. 进行初步故障假设 - 根据已收集的信息提出可能的故障原因 - 按照影响范围和可能性排序 - 可通过经验+知识库等制定快速验证方案 #### 第三阶段:深入分析(LMT+后端研发接口人) 1. 验证假设 - 复现问题场景 - 收集更多证据支持或否定假设 2. 确定初步根因 - 总结所有收集到的证据 - 确认问题的触发条件 - 建立问题发生的完整链路 3. 是否升级问题 - 如果验证有出入或者没有更好的办法则转交问题到我 - 我来决定是否升级问题(申请后端研发介入) #### 第四阶段:解决方案(LMT+后端研发接口人+TAC+一线) 1. 制定修复方案 - 提出短期解决方案(快速修复) - 设计长期解决方案(根本解决) - 评估方案的风险和影响并告知一线,让其与客户沟通确认 2. 实施修复 - 客户确认后,在测试环境验证解决方案 - 准备回滚方案(备份数据、备份镜像等) - 实施修复并验证效果 ### 注意事项 1. 所有重要操作前先备份 2. 收集足够的证据再行动 3. 重要变更需要得到一线授权 4. 保持操作记录的完整性 5. 及时同步问题处理进展 6. 警惕处理过程中的连锁反应 ### 附一张简单的问题记录卡模板 {% asset_img gzk.jpg %}