当前位置: 首页 > news >正文

kafka整合flume与DStream转换

一、Kafka整合flume

cd /opt/software/flume/conf/

vi flume-kafka.conf

a1.sources=r1

a1.sinks=k1

a1.channels=c1

a1.sources.r1.type=spooldirt

a1.sources.r1.spoolDir=/root/flume-kafka

a1.sinks.k1.type=org.apache.flume.sink.kafka.KafkaSink

a1.sinks.k1.kafka.topic=testTopice

a1.sinks.k1.kafka.bootstrap.servers=node01:9092,node02:9092,node03:9092

a1.sinks.k1.kafka.flumeBatchSize=20

a1.sinks.k1.kafka.producer.acks=1

a1.channels.c1.type=memory

a1.channels.c1.capacity=1000

a1.channels.c1.transactionCapacity=100

a1.sources.r1.channels=c1

a1.sinks.k1.channel=c1

cd /root/

mkdir flume-kafka

ll

drwxr-xr-x   2 root root 4096 11月  8 22:02 agent3

-rw-------.  1 root root  955 9月   6 16:41 anaconda-ks.cfg

-rw-r--r--   1 root root    1 10月 25 18:30 exec-logger.conf

drwxr-xr-x   2 root root   27 11月 15 18:00 flume-hive

drwxr-xr-x   2 root root    6 12月  3 03:59 flume-kafka

-rw-r--r--   1 root root   63 11月  8 23:01 flume-position.json

drwxr-xr-x  22 root root 4096 12月  3 03:59 kafkadata

drwxr-xr-x   3 root root   21 10月 11 18:32 opt

drwxr-xr-x   3 root root 4096 11月  8 18:17 testDir

drwxr-xr-x   2 root root   38 11月  8 19:01 testdir2

-rw-r--r--   1 root root  108 11月 15 17:09 test.log

drwxr-xr-x   2 root root 4096 11月  8 18:49 testSink

kafka-topics.sh --create --zookeeper node01:2181,node02:2181,node03:2181 --topic testTopic --partitions 3 --replication-factor 2

flume-ng agent -c /opt/software/flume/conf/ -f /opt/software/flume/conf/flume-kafka.conf -n a1

kafka-console-consumer.sh --topic testTopic --bootstrap-server node01:9092,node:9092,node03:9092 --from-beginning

cd /root/flume-kafka/

echo "hello" >>test3.txt

echo "hello flume" >>test2.txt

cd /opt/software/flume/conf/

vi kafka-flume.conf

kafka-console-consumer.sh --topic testTopic --bootstrap-server node01:9092,node:9092,node03:9092 --from-beginning

Hello

 hello kafka

hello flume

flume-ng agent -c conf/ -f conf/kafka-flume.conf -n a1 -Dflume.root.logger=INFO,console

二、kafka架构深入

分区策略:轮询(RoundRobin)、按 Key 哈希(Hash)、自定义分区。

数据可靠性:通过 ACK 机制(0、1、-1)和 ISR(同步副本集合)保证,acks=-1时需等待 Leader 和 Follower 全部落盘。

事务与幂等性:0.11 版本引入幂等性(enable.idompotence=true),结合 At Least Once 实现 Exactly Once 语义。

三、Spark-Streaming核心编程

1.DStream 转换

DStream 是 Spark-Streaming 处理实时数据的基本单位,可以理解为 “实时数据流”。

转换操作就是对这个数据流进行加工处理,比如过滤、拆分、统计等,就像工厂流水线对原材料进行加工一样。

操作分为两类:

无状态转换:只处理当前批次的数据,不关心历史数据(比如统计当前 3 秒内的单词数)。

有状态转换:会记住历史数据(比如统计从程序启动到现在的总单词数),文档里没详细讲,重点在无状态部分。

2.无状态转换的常见操作

无状态转换就像 “即处理即丢弃”,每次只处理当前批次的数据,不保留之前的结果。

常见函数举例

3.Transform转换

Transform是一个 “万能转换” 函数,可以对每个批次的 RDD(DStream 内部由多个 RDD 组成)执行任意自定义操作,甚至可以使用 Spark 原生的 RDD 函数(即使 DStream 没有直接提供)

4.Join转换

join用于合并两个数据流中相同键的数据,就像拼拼图一样,只有键匹配的部分才能拼在一起。

适用于合并两个来源的单词数据

最后运行结果

相关文章:

  • #苍穹外卖# day 10-11
  • Move Registry 发布,实现 Sui 的超级互操作性
  • ubuntu22.04部署Snipe-IT
  • MYSQL 常用字符串函数 和 时间函数详解
  • 信息学奥赛一本通 1509:【例 1】Intervals | OpenJudge 百练 1201:Intervals
  • 云服务器centos 安装hadoop集群
  • CS001-7-hbao
  • 海之淀攻略
  • 【视频时刻检索】Text-Video Retrieval via Multi-Modal Hypergraph Networks 论文阅读
  • 驱动开发硬核特训 · Day 21(上篇) 抽象理解 Linux 子系统:内核工程师的视角
  • Spring的xxxAware接口工作原理-笔记
  • 高等数学第三章---微分中值定理与导数的应用(3.1微分中值定理3.2洛必达法则)
  • 如何设置极狐GitLab 议题截止日?
  • 050_基于springboot的音乐网站
  • 图解YOLO(You Only Look Once)目标检测(v1-v5)
  • 零基础上手Python数据分析 (23):NumPy 数值计算基础 - 数据分析的加速“引擎”
  • 深度强化学习(DRL)实战:从AlphaGo到自动驾驶
  • React 文件链条
  • [论文阅读]ReAct: Synergizing Reasoning and Acting in Language Models
  • 设备接入与APP(应用程序)接入华为云iotDA平台的详细操作步骤及获取方式
  • 俄总统助理:普京与美特使讨论了恢复俄乌直接谈判的可能性
  • 巴印在克什米尔发生交火
  • 夜读丨修车与“不凑合”
  • 上海楼市明显复苏:一季度房地产开发投资增长5.1%,土地市场重燃战火
  • 解放军报社论:谱写新时代双拥工作崭新篇章
  • 航空货运三巨头去年净利合计超88亿元,密切关注关税政策变化和市场反应