当前位置: 首页 > news >正文

kafka和Spark-Streaming2

Kafka 工作流程及文件存储机制

        Kafka 中消息是以topic 进行分类的,生产者生产消息,消费者消费消息,都是面向topic 的。 

 

        “.log”文件存储大量的数据,“.index”文件存储偏移量索引信息,“.timeindex”存储时间戳索引文件。日志文件和索引文件都是根据基本偏移量(LogSegment中的第一条消息的offset)来命名的。上图第2个LogSegment对应的基本偏移量是133,说明了第1个LogSegment中共有133条数据。

 

Kafka 生产者 

作为生产者生成数据,并使用其他组件来采集数据。

        分区的原则

(1)指明 partition 的情况下,直接将指明的值直接作为 partiton 值;

(2)没有指明 partition 值但有 key 的情况下,将 key 的 hash 值与 topic 的 partition 数进行取余得到 partition 值;

(3)既没有 partition 值又没有 key 值的情况下,第一次调用时随机生成一个整数(后面每次调用在这个整数上自增),将这个值与 topic 可用的 partition 总数取余得到 partition 值,也就是常说的 round-robin (轮询)算法。

 

Kafka的ACKS机制

ACKS机制的三种级别:0、1和-1。

acks 参数配置:

0:producer 不等待 broker 的 ack,这一操作提供了一个最低的延迟,broker 一接收到还没有写入磁盘就已经返回,当 broker 故障时有可能丢失数据

1:producer 等待 broker 的 ack,partition 的 leader 落盘成功后返回 ack,如果在 follower同步成功之前 leader 故障,那么将会丢失数据

-1(all):producer 等待 broker 的 ack,partition 的 leader 和 follower 全部落盘成功后才返回 ack。但是如果在 follower 同步完成后,broker 发送 ack 之前,leader 发生故障,那么会造成数据重复

 

DStream转换

DStream 上的操作与 RDD 的类似,分为 Transformations(转换)和 Output Operations(输出)两种,此外转换操作中还有一些比较特殊的原语,如:updateStateByKey()、transform()以及各种 Window 相关的原语。

无状态转换操作

无状态转换操作是对每个批次的RDD进行的一系列操作。(即对每个批次的数据进行相同的转换操作。)

        常见的无状态转换操作示例,如map、flatMap、filter等。

 

Transform操作

   Transform 允许 DStream 上执行任意的 RDD-to-RDD 函数。即使这些函数并没有在 DStream的 API 中暴露出来,通过该函数可以方便的扩展 Spark API。该函数每一批次调度一次。其实也就是对 DStream 中的 RDD 应用转换。

   ( Transform操作允许执行任意的RDD到RDD的函数。)

 

Join操作

Join操作是将两个流的RDD进行关联,并对相同键的值进行合并。

        Join操作的硬性要求,即两个流的批次大小必须一致。

  

 

相关文章:

  • Linux常用中间件命令大全
  • Golang | 倒排索引
  • docker的安装和简单使用(ubuntu环境)
  • 示波器测试差分信号
  • Spring缓存注解深度实战:3大核心注解解锁高并发系统性能优化‌
  • 探索亚马逊云科技:开启您的云计算之旅
  • 正则表达式及其游戏中应用
  • 【设计】接口幂等性设计
  • SQLite 是什么?
  • 28、.NET 中元数据是什么?
  • maxscript根据音频创建动画表情
  • 闻性与空性:从耳根圆通到究竟解脱的禅修路径
  • Django【应用 01】django-plotly-dash安装及使用
  • 学硕热度下降,25西电数学与统计学院(考研录取情况)
  • Electron Forge【实战】阿里百炼大模型 —— AI 聊天
  • Flink checkpoint问题排查指南
  • 如何修复宝可梦时时刻刻冒险无法正常工作
  • CuML + Cudf (RAPIDS) 加速python数据分析脚本
  • 26考研 | 王道 | 数据结构笔记博客总结
  • Flink TaskManager详解
  • 民航局:中方航空公司一季度运输国际旅客同比大增34%
  • 江西省宁都县政协原二级调研员谢亦礼被查
  • 罗马教皇方济各葬礼在梵蒂冈举行
  • 建投读书会·东西汇流|全球物品:跨文化交流视域下的明清外销瓷
  • 单位被裁定补缴12年社保,滞纳金该谁出?
  • 交通枢纽、产业升级,上海松江新城有这些发展密码