当前位置: 首页 > news >正文

【复盘】cpu飙升引发的连锁反应

背景分析

负责主要就是后端实例,以及通过负载均衡调用后续的python实例。
在这里插入图片描述

在21日下午5点左右 发现其中一台机器报警出现CPU过高,于是立马进行针对不用的服务进行暂停。
在这里插入图片描述
但是仅接着就出现大量的python服务实例请求超时 504 gateWayTimeOut

原因分析

于是分析 python服务的请求总数,发现并没有增加。于是就分析可能传递给python的参数过大导致的,都是一些请求三方的报文数据。

紧接着有高峰的都是不断的有报警的时间段,发现分析基本都是每个2个小时就有高峰期,于是分析可能是定时重试机制大批量失败的用户进而重试引发的 python服务实例cpu飙升,导致新建检测失败。
在这里插入图片描述
从图中可以看到一个简单的健康检查接口 耗时了6S左右。(其他业务接口基本都是100多秒) 导致整体服务处于僵死状态。 等服务恢复后 就正常处理健康检查。
在这里插入图片描述
对应就是服务cpu飙升。
在这里插入图片描述
在这里插入图片描述

解决方案

1.重启相关服务 发现还是没有解决
2.调整python服务进程数,发现由于cpu飙升至100% 由于按照几核的CPU 部署%70的进程数。才比较合理
3.针对大报文进行不处理
后续就是针对python服务进行新增实例数。提升整体的处理能力,以及相关团队优化python代码。

复盘

本次属于连锁反应,a服务实例cpu飙升 影响 整体python服务,进而影响整体上游服务。
所以当出现问题需要冷静分析具体原因
1.监控对应的cpu 磁盘 内存 网络是否异常
2.请求数据是否增加 外部原因等

相关文章:

  • JDK 7 Update 0 (64位) 详细Windows 安装指南
  • 每日一题(小白)模拟娱乐篇33
  • Java 拦截器完全指南:原理、实战与最佳实践
  • Chronos - 时间序列预测语言模型
  • Redis从入门到实战先导篇
  • Jsoup、Selenium 和 Playwright 的含义、作用和区别
  • 【C/S通信仿真】
  • 17.QT-Qt窗口-工具栏|状态栏|浮动窗口|设置停靠位置|设置浮动属性|设置移动属性|拉伸系数|添加控件(C++)
  • 软件黑盒与白盒测试详解
  • 大厂Java面试:JVM调优与问题定位
  • 我的独立开发技术栈
  • Kotlin中实现静态
  • 深入解析C++ STL Queue:先进先出的数据结构
  • IMU---MPU6050
  • 数据结构-链表
  • 基于stm32的智能门锁系统
  • “时间”,在数据处理中的真身——弼马温一般『无所不能』(DeepSeek)
  • 明远智睿2351开发板:性价比之选,赋能智能硬件创新
  • 【测试报告】幸运闪烁抽奖系统(Java+Selenium+Jmeter自动化测试)
  • cJSON
  • 天问三号计划2028年前后发射实施,开放20千克质量资源
  • 商务部召开外资企业圆桌会
  • 潘功胜在美谈关税:吁全球经济勿滑向“高摩擦、低信任”轨道
  • 2025年超长期特别国债24日首次发行
  • 温氏股份一季度归母净利润20.01亿元,同比扭亏为盈
  • 中国和阿塞拜疆签署互免签证协定