当前位置：首页 > news >正文

kafka和Spark-Streaming2

news 来源：原创 2025/4/27 11:51:16

Kafka 工作流程及文件存储机制

Kafka 中消息是以topic 进行分类的，生产者生产消息，消费者消费消息，都是面向topic 的。

“.log”文件存储大量的数据，“.index”文件存储偏移量索引信息，“.timeindex”存储时间戳索引文件。日志文件和索引文件都是根据基本偏移量（LogSegment中的第一条消息的offset）来命名的。上图第2个LogSegment对应的基本偏移量是133，说明了第1个LogSegment中共有133条数据。

Kafka 生产者

作为生产者生成数据，并使用其他组件来采集数据。

分区的原则

（1）指明 partition 的情况下，直接将指明的值直接作为 partiton 值；

（2）没有指明 partition 值但有 key 的情况下，将 key 的 hash 值与 topic 的 partition 数进行取余得到 partition 值；

（3）既没有 partition 值又没有 key 值的情况下，第一次调用时随机生成一个整数（后面每次调用在这个整数上自增），将这个值与 topic 可用的 partition 总数取余得到 partition 值，也就是常说的 round-robin （轮询）算法。

Kafka的ACKS机制

ACKS机制的三种级别：0、1和-1。

acks 参数配置：

0：producer 不等待 broker 的 ack，这一操作提供了一个最低的延迟，broker 一接收到还没有写入磁盘就已经返回，当 broker 故障时有可能丢失数据；

1：producer 等待 broker 的 ack，partition 的 leader 落盘成功后返回 ack，如果在 follower同步成功之前 leader 故障，那么将会丢失数据；

-1（all）：producer 等待 broker 的 ack，partition 的 leader 和 follower 全部落盘成功后才返回 ack。但是如果在 follower 同步完成后，broker 发送 ack 之前，leader 发生故障，那么会造成数据重复。

DStream转换

DStream 上的操作与 RDD 的类似，分为 Transformations（转换）和 Output Operations（输出）两种，此外转换操作中还有一些比较特殊的原语，如：updateStateByKey()、transform()以及各种 Window 相关的原语。

无状态转换操作

无状态转换操作是对每个批次的RDD进行的一系列操作。（即对每个批次的数据进行相同的转换操作。）

常见的无状态转换操作示例，如map、flatMap、filter等。

Transform操作

Transform 允许 DStream 上执行任意的 RDD-to-RDD 函数。即使这些函数并没有在 DStream的 API 中暴露出来，通过该函数可以方便的扩展 Spark API。该函数每一批次调度一次。其实也就是对 DStream 中的 RDD 应用转换。

( Transform操作允许执行任意的RDD到RDD的函数。)

Join操作

Join操作是将两个流的RDD进行关联，并对相同键的值进行合并。

Join操作的硬性要求，即两个流的批次大小必须一致。

相关文章：

Linux常用中间件命令大全

Golang | 倒排索引

docker的安装和简单使用（ubuntu环境）

示波器测试差分信号

Spring缓存注解深度实战：3大核心注解解锁高并发系统性能优化‌

探索亚马逊云科技：开启您的云计算之旅

正则表达式及其游戏中应用

【设计】接口幂等性设计

SQLite 是什么？

28、.NET 中元数据是什么？

maxscript根据音频创建动画表情

闻性与空性：从耳根圆通到究竟解脱的禅修路径

Django【应用 01】django-plotly-dash安装及使用

学硕热度下降，25西电数学与统计学院（考研录取情况）

Electron Forge【实战】阿里百炼大模型 —— AI 聊天

Flink checkpoint问题排查指南

如何修复宝可梦时时刻刻冒险无法正常工作

CuML + Cudf (RAPIDS) 加速python数据分析脚本

26考研 | 王道 | 数据结构笔记博客总结

Flink TaskManager详解

民航局：中方航空公司一季度运输国际旅客同比大增34%

江西省宁都县政协原二级调研员谢亦礼被查

罗马教皇方济各葬礼在梵蒂冈举行

建投读书会·东西汇流｜全球物品：跨文化交流视域下的明清外销瓷

单位被裁定补缴12年社保，滞纳金该谁出？

交通枢纽、产业升级，上海松江新城有这些发展密码