当前位置: 首页 > news >正文

ceph scrub 导致业务问题优化

架构说明

  • 业务 -> rgw -> ceph (10)
  • ceph 中存储了海量的图片 (小文件)
  • CEPH 空间占用约 1.6P

背景

  • 近期发现每天凌晨业务请求 rgw 都会出现 5xx 超时故障
  • 故障出现都统一在 0:01 ~ 4:xx 左右
  • 故障通常出现在 FILE GET 的操作

分析

  • 通过错误日志,获取出现错误信息的文件名
  • 检测故障前后日志,发现文件访问都正常,只有在 0:00 ~ 4:00 期间访问才会出现错误信息
  • 即故障定位为 ceph 自身问题

监控信息

  • 查询 3 天发生故障信息

  • CPU
    在这里插入图片描述

  • 磁盘信息
    在这里插入图片描述

可以理解为

  • OSD 节点 每天固定时间点都会出现磁盘繁忙
  • 繁忙期间占用了大量 CPU 开销
  • 导致业务请求无法响应

明确定位方法

  • 每天 0 ~ 6 通常为 ceph 产生 scrub, deep-scrub 事件
  • 当前集群已经停用 deep-scrub
  • 为可以准确定位问题࿰

相关文章:

  • 【Dify(v1.2) 核心源码深入解析】Agent 模块
  • 深入讲解 CSS 选择器权重及实战
  • 【刷题2025】单指针双指针+滑动窗口+二分法三分法+区间问题
  • 如何一键检查网页里的失效链接和废弃域名?
  • 【加密算法】SM2密钥生成与转换详解:从原理到代码实现
  • ecovadis分为哪些类别,要进行ecovadis认证有什么要求
  • 榕壹云场馆预定系统:基于ThinkPHP+MySQL+UniApp打造的全能运动馆智慧运营解决方案
  • 解锁Grok-3的极致潜能:高阶应用与创新实践
  • 多模态大模型文字识别 vs OCR识别模型
  • 【Python进阶】断言(assert)的十大核心应用场景解析
  • RelativeLayout(相对布局)
  • Mac电脑交叉编译iphone设备可以运行的redsocks, openssl, libsevent
  • Rust + WebAssembly 性能剖析指南
  • 辛格迪客户案例 | 厦门三维丝实施SAP系统
  • js ES6箭头函数的作用
  • 0415-批量删除操作
  • ERR_PNPM_DLX_NO_BIN No binaries found in tailwindcss
  • ClickHouse 数据库中的 “超时”
  • 游戏引擎学习第227天
  • Java微服务线程隔离技术对比:线程池隔离 vs 信号量隔离
  • 坚守17年,这件事姚明就算赔钱也在继续做
  • 瑞穗银行(中国)有限公司行长:重庆赛力斯超级工厂的智能化程度令人震惊
  • 浙江桐乡征集涉企行政执法问题线索,含乱收费、乱罚款、乱检查等
  • 纪念|巴尔加斯·略萨:写作之为命运
  • 探索未来课堂更多可能,“人工智能课堂分析循证实验室”在沪成立
  • 人民日报读者点题·共同关注:花粉过敏增多,如何看待城市绿化“成长的烦恼”