ceph scrub 导致业务问题优化
架构说明
- 业务 -> rgw -> ceph (10)
- ceph 中存储了海量的图片 (小文件)
- CEPH 空间占用约 1.6P
背景
- 近期发现每天凌晨业务请求 rgw 都会出现 5xx 超时故障
- 故障出现都统一在 0:01 ~ 4:xx 左右
- 故障通常出现在 FILE GET 的操作
分析
- 通过错误日志,获取出现错误信息的文件名
- 检测故障前后日志,发现文件访问都正常,只有在 0:00 ~ 4:00 期间访问才会出现错误信息
- 即故障定位为 ceph 自身问题
监控信息
-
查询 3 天发生故障信息
-
CPU
-
磁盘信息
可以理解为
- OSD 节点 每天固定时间点都会出现磁盘繁忙
- 繁忙期间占用了大量 CPU 开销
- 导致业务请求无法响应
明确定位方法
- 每天 0 ~ 6 通常为 ceph 产生 scrub, deep-scrub 事件
- 当前集群已经停用 deep-scrub
- 为可以准确定位问题