Kafka系列之:记录一次源头数据库刷数据,造成数据丢失的原因
 - 一、背景
 - 二、查看topic日志信息
 - 三、结论
 - 四、解决方法
 
 
  
 
一、背景
 
-  
源头数据库在很短的时间内刷了大量的数据,部分数据在hdfs丢失了
 
  -  
理论上debezium数据采集不会丢失,就需要排查数据链路某个节点是否有数据丢失。
  -  
数据链路是:debezium——kafka——flume——hdfs
  -  
根据经验定位数据在kafka侧丢失,下一面进一步确认是否数据在kafka侧丢失
  
 
二、查看topic日志信息
 
Kafka日志信息如下:
 
[2025-02-20 23:58:21,009] INFO [Log partition