title: OOM排查工具 author: Gamehu date: 2022-06-14 10:59:38
最近刚深度参与了客户现场一个堆的OOM问题的排查,在这儿简单记录一下使用到的工具。
产品为刚发的第一版,功能还在迭代中。
这个现场,是实验局现场,产品运行了1个多月,突然有一天告诉我们程序在能用和不能用之间反复横跳。
我个人先下个结论。
问题:
#### 为什么突然就OOM?而且一天内发生了多次?
先看日志: 经初步分析发生OOM时,有告警和可视化两个模块在持续输出日志。 暂时把关注点放在这两个模块。
再找外因:
再看内因:
我们先假设了消耗大量内存的场景:
LIRS算法:https://ranger.uta.edu/~sjiang/pubs/papers/jiang02_LIRS.pdf
https://nullget.sourceforge.io/?q=node/609
其实工具没啥特别的,都是这些玩意,主要还是看是否能再适当的时机使用对应的工具找到问题。
工具其实是最好解决的,最难的是人,你得通过各种策略、沟通方式等拿到你想要的信息,特别是此种很可能吃力不讨好的情况。
故障复盘是有必要的,无所谓追责,关键在于挖掘根因,分析出一些改进、预防措施,助于后续减少相应问题发生的概率以及减轻问题造成的损失。