原创

遇到了线上故障,你的第一反应是什么?

遇到了线上故障,你的第一反应是什么

1、线上故障的分类

  • 业务报错持续发生
  • 接口响应时间变长
  • 接口拒绝响应
  • cpu异常飚高
  • 内存异常飚高
  • 数据库连不上

2、故障处理的总的思路

  • 先对故障进行简单的分类分析,如果在5分钟内有了大致思路那就继续分析几分钟;若是毫无头绪,先对集群中的机器其中的一台进行重启处理,若是重启能够缓解问题,继续重启其他的,保留一台留作问题分析即可

3、不同的故障的处理思路

  • 若是有持续的日志报错,分析错误日志一般能够发现问题
  • 获取不到数据连接的问题,一般分析数据的连接池的配置以及当前数据操作线程的情况,可能发生线程block以及线程停顿的情况
  • 接口响应变长或cpu异常飚高一般是系统中有线程存在block或者线程繁忙的情况
  • cpu异常飚高但是无明显报错的情况一般需要观察jvm的gC情况,dump后进行内存分析
  • 内存异常飚高一般可能是出现死循环或者内存泄露

4、故障分析中可能会用到的工具

  • 调用链跟踪工具
  • es日志查询
  • mat jvm分析
  • arthas在线诊断工具
  • Bistoury 在线分析工具

版权声明:本文为人工博客的原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接及本声明。
本文链接:https://www.gzcx.net/article/1719

正文到此结束
本文目录