当前位置：首页 > news >正文

【复盘】cpu飙升引发的连锁反应

news 来源：原创 2025/4/24 13:23:07

背景分析

负责主要就是后端实例，以及通过负载均衡调用后续的python实例。
在这里插入图片描述

在21日下午5点左右发现其中一台机器报警出现CPU过高，于是立马进行针对不用的服务进行暂停。
在这里插入图片描述
但是仅接着就出现大量的python服务实例请求超时 504 gateWayTimeOut

原因分析

于是分析 python服务的请求总数，发现并没有增加。于是就分析可能传递给python的参数过大导致的，都是一些请求三方的报文数据。

紧接着有高峰的都是不断的有报警的时间段，发现分析基本都是每个2个小时就有高峰期，于是分析可能是定时重试机制大批量失败的用户进而重试引发的 python服务实例cpu飙升，导致新建检测失败。
在这里插入图片描述
从图中可以看到一个简单的健康检查接口耗时了6S左右。(其他业务接口基本都是100多秒) 导致整体服务处于僵死状态。等服务恢复后就正常处理健康检查。

对应就是服务cpu飙升。

解决方案

1.重启相关服务发现还是没有解决
2.调整python服务进程数，发现由于cpu飙升至100% 由于按照几核的CPU 部署%70的进程数。才比较合理
3.针对大报文进行不处理
后续就是针对python服务进行新增实例数。提升整体的处理能力，以及相关团队优化python代码。

复盘

本次属于连锁反应，a服务实例cpu飙升影响整体python服务，进而影响整体上游服务。
所以当出现问题需要冷静分析具体原因
1.监控对应的cpu 磁盘内存网络是否异常
2.请求数据是否增加外部原因等

相关文章：

JDK 7 Update 0 (64位) 详细Windows 安装指南

每日一题（小白）模拟娱乐篇33

Java 拦截器完全指南：原理、实战与最佳实践

Chronos - 时间序列预测语言模型

Redis从入门到实战先导篇

Jsoup、Selenium 和 Playwright 的含义、作用和区别

【C/S通信仿真】

17.QT-Qt窗口-工具栏|状态栏|浮动窗口|设置停靠位置|设置浮动属性|设置移动属性|拉伸系数|添加控件(C++)

软件黑盒与白盒测试详解

大厂Java面试：JVM调优与问题定位

我的独立开发技术栈

Kotlin中实现静态

深入解析C++ STL Queue：先进先出的数据结构

IMU---MPU6050

数据结构-链表

基于stm32的智能门锁系统

“时间”，在数据处理中的真身——弼马温一般『无所不能』（DeepSeek）

明远智睿2351开发板：性价比之选，赋能智能硬件创新

【测试报告】幸运闪烁抽奖系统（Java+Selenium+Jmeter自动化测试）

cJSON

天问三号计划2028年前后发射实施，开放20千克质量资源

商务部召开外资企业圆桌会

潘功胜在美谈关税：吁全球经济勿滑向“高摩擦、低信任”轨道

2025年超长期特别国债24日首次发行

温氏股份一季度归母净利润20.01亿元，同比扭亏为盈

中国和阿塞拜疆签署互免签证协定