当前位置: 首页 > news >正文

记录seatunnel排查重复数据的案例分析

文章目录

      • 背景
      • 分析
        • 检查现象
        • 检查B集群是否有异常,导致重复消费的
        • 分析同步任务
      • 修复问题
        • 发现flink job 一直报异常
        • 修复问题

背景

使用seatunnel 同步数据从A 集群kafka 同步到B集群kafka,现象是发现两边数据不一致,每天10w级别会多几十条数据

分析

检查现象

因为两侧kafka的数据同时也会写es,先检查两侧es的数据, 通过二分发现,B集群es数据确实比A集群多,多的数据检查发现是重复的数据,有记录被写了多次

检查B集群是否有异常,导致重复消费的

检查日志发现有没有写入失败,导致一批数据被重复消费的,从日志来看是没有的

分析同步任务

检查seatunnel 任务,发现没有配置semantics ,然后发又检查了客户现场的flink job ,确定有经常任务会有环境导致的重启现象,应该问题就是这了

sink {kafka {topic = "test_topic"bootstrap.servers = "localhost:9092"format = jsonkafka.request.timeout.ms = 60000semantics = EXACTLY_ONCEkafka.config = {acks = "all"request.timeout.ms = 60000buffer.memory = 33554432}}

修复问题

加上 semantics = EXACTLY_ONCE

sink {kafka {topic = "test_topic"bootstrap.servers = "localhost:9092"format = jsonkafka.request.timeout.ms = 60000kafka.config = {acks = "all"request.timeout.ms = 60000buffer.memory = 33554432}}
发现flink job 一直报异常

最后问题定位到这,官方bug导致,升级最新版本修复
sink 在一致性语义情况下报异常

修复问题

只修改sink一致性语义是不够的,还要消费b 集群kafka 的客户端的事务配置是,read_commited的

相关文章:

  • 第33周JavaSpringCloud微服务 实现电商项目
  • uni-app 开发企业级小程序课程
  • AI音乐解决方案:1分钟可切换suno、udio、luno、kuka等多种模型,suno风控秒切换 | AI Music API
  • LVGL学习(一)(IMX6ULL运行LVGL,lv_obj_t,lv_obj,size,position,border-box,styles,events)
  • Lateral 查询详解:概念、适用场景与普通 JOIN 的区别
  • JWT算法详解
  • iframe下系统访问跨域问题解决办法
  • 统计图表ECharts
  • vue vite开发时保留console.log打包完后依然想保留某个文件夹下的console.log方便以后的观察
  • Linux的基础的操作指令
  • 关于ORM
  • 辛格迪客户案例 | 上海科济药业细胞治疗生产及追溯项目(CGT)
  • Qt-创建模块化.pri文件
  • Windows BilibiliHistoryFetcher-v1.3.2-v1.2.1-开源B站历史记录管理工具[支持批量管理下载]
  • 01_Flask快速入门教程介绍
  • OneClicker脚本自动运行工具
  • 白嫖腾讯的H20!!!同时部署RVC模型
  • 堡垒机和跳板机之区别(The Difference between Fortress and Springboard Aircraft)
  • 一文详解卷积神经网络中的卷积层和池化层原理 !!
  • 量化交易 - RSRS(阻力支撑相对强度)- 正确用法 - 年均收益18%
  • 高架上2名儿童从轿车天窗探出身来,驾驶员被记3分罚200元
  • 玉渊谭天丨先爆视频再爆订单,美关税影响下企业因短视频火出圈
  • 接续驰援,中国政府援缅卫生防疫队出发赴缅
  • 马上评|古籍书店焕新归来,“故纸陈香”滋养依旧
  • 习近平主席东南亚三国行|元首外交硕果累累 • 一图读懂
  • 非法收受财物2.29亿余元,窦万贵受贿案一审开庭