当前位置：首页 > news >正文

记录seatunnel排查重复数据的案例分析

news 来源：原创 2025/4/22 12:57:33

文章目录

- - 背景
  - 分析
  - - 检查现象
    - 检查B集群是否有异常，导致重复消费的
    - 分析同步任务
  - 修复问题
  - - 发现flink job 一直报异常
    - 修复问题

背景

使用seatunnel 同步数据从A 集群kafka 同步到B集群kafka,现象是发现两边数据不一致，每天10w级别会多几十条数据

分析

检查现象

因为两侧kafka的数据同时也会写es，先检查两侧es的数据，通过二分发现，B集群es数据确实比A集群多，多的数据检查发现是重复的数据，有记录被写了多次

检查B集群是否有异常，导致重复消费的

检查日志发现有没有写入失败，导致一批数据被重复消费的，从日志来看是没有的

分析同步任务

检查seatunnel 任务，发现没有配置semantics ，然后发又检查了客户现场的flink job ,确定有经常任务会有环境导致的重启现象，应该问题就是这了

sink {kafka {topic = "test_topic"bootstrap.servers = "localhost:9092"format = jsonkafka.request.timeout.ms = 60000semantics = EXACTLY_ONCEkafka.config = {acks = "all"request.timeout.ms = 60000buffer.memory = 33554432}}

修复问题

加上 semantics = EXACTLY_ONCE

sink {kafka {topic = "test_topic"bootstrap.servers = "localhost:9092"format = jsonkafka.request.timeout.ms = 60000kafka.config = {acks = "all"request.timeout.ms = 60000buffer.memory = 33554432}}

发现flink job 一直报异常

最后问题定位到这，官方bug导致，升级最新版本修复
sink 在一致性语义情况下报异常

修复问题

只修改sink一致性语义是不够的，还要消费b 集群kafka 的客户端的事务配置是，read_commited的

相关文章：

第33周JavaSpringCloud微服务实现电商项目

uni-app 开发企业级小程序课程

AI音乐解决方案：1分钟可切换suno、udio、luno、kuka等多种模型，suno风控秒切换 | AI Music API

LVGL学习(一)(IMX6ULL运行LVGL,lv_obj_t,lv_obj,size,position,border-box,styles,events)

Lateral 查询详解：概念、适用场景与普通 JOIN 的区别

JWT算法详解

iframe下系统访问跨域问题解决办法

统计图表ECharts

vue vite开发时保留console.log打包完后依然想保留某个文件夹下的console.log方便以后的观察

Linux的基础的操作指令

关于ORM

辛格迪客户案例 | 上海科济药业细胞治疗生产及追溯项目(CGT)

Qt-创建模块化.pri文件

Windows BilibiliHistoryFetcher-v1.3.2-v1.2.1-开源B站历史记录管理工具[支持批量管理下载]

01_Flask快速入门教程介绍

OneClicker脚本自动运行工具

白嫖腾讯的H20！！！同时部署RVC模型

堡垒机和跳板机之区别（The Difference between Fortress and Springboard Aircraft）

一文详解卷积神经网络中的卷积层和池化层原理！！

量化交易 - RSRS（阻力支撑相对强度）- 正确用法 - 年均收益18%

高架上2名儿童从轿车天窗探出身来，驾驶员被记3分罚200元

玉渊谭天丨先爆视频再爆订单，美关税影响下企业因短视频火出圈

接续驰援，中国政府援缅卫生防疫队出发赴缅

马上评｜古籍书店焕新归来，“故纸陈香”滋养依旧

习近平主席东南亚三国行｜元首外交硕果累累 • 一图读懂

非法收受财物2.29亿余元，窦万贵受贿案一审开庭