Flink checkpoint问题排查指南
之前只因为checkpoint过大碰到过checkpoint失败的情况,没想到数据倾斜也会导致
我们知道 task 仅在接受到所有的 barrier 之后才会进行 snapshot,如果作业存在反压,或者有数据倾斜,则会导致全部的 channel 或者某些 channel 的 barrier 发送慢,从而整体影响 Checkpoint 的时间,这两个可以通过如下的页面进行检查:
Apache Flink学习网
之前只因为checkpoint过大碰到过checkpoint失败的情况,没想到数据倾斜也会导致
我们知道 task 仅在接受到所有的 barrier 之后才会进行 snapshot,如果作业存在反压,或者有数据倾斜,则会导致全部的 channel 或者某些 channel 的 barrier 发送慢,从而整体影响 Checkpoint 的时间,这两个可以通过如下的页面进行检查:
Apache Flink学习网