当前位置：首页 > news >正文

学习spark-streaming收获

news 来源：原创 2025/4/28 5:53:47

1.流处理的核心概念

•实时 vs微批处理：理解了 Spark

Streaming 的微批处理（Micro-Batch）模型，将流数据切分为小批次（如1秒间隔）进行处理，与真正的流处理（如Flink）的区别。

・DStream （Discretized Stream）：掌握了

DStream 的抽象，它是一系列连续的RDD，通过转换操作（如 map、reduceByKey）实现流式计算。

2. Spark Streaming 的架构

•Driver 和 Worker 分工：Driver 负责调度任务，Worker 执行具体的计算任务，与 Spark

核心架构一致。

•容错机制：通过 RDD的血缘（Lineage）和检查点（Checkpoint）实现故障恢复，确保数据不丢失。

•背压机制（Backpressure）：动态调整接收

速率以避免数据釈圧（Spark 1.5+支持）。

3.关键技术与 API 使用

• 输入源（Input Sources）：熟悉了从

Kafka、Socket、HDFS、自定义源等读取数据的方法，尤其是 Kafka Direct API 的高效集成。

• 窗口操作（Window Operations）：学会了滑动窗口（如 window、

reduceByKeyAndWindow）的应用场景，例如统计最近 N秒的指标。

•状态管理（Stateful Processing）：通过

updateStateByKey 或 mapwithState 实现跨批次的状态维护（如用户会话跟踪）。

4.性能优化与调优

•并行度调整：通过 repartition 或修改批次间隔（Batch Interval）优化吞吐量。

•资源分配：合理设置 Executor 内存、CPU核心数，避免 GC开销或数据倾斜。

•检查点优化：合理配置检查点目录和频率，平衡容错和性能。

5.与其他工具的集成

• Kafka 集成：掌握了

KafkaUtils.createDirectStream 的使用，理解了如何保证 Exactly-Once 语义。

・Spark SQL 結合：在流処理中週用 Spark

SQL 分析数据（如将 DStream 转为

DataFrame) .

•机器学习：使用

StreamingLinearRegressionWithSGD

等算法实现实时模型更新。

7.14 GitHub命令行工具测试实战：从参数解析到异常处理的全链路测试方案

深入Java JVM常见问题及解决方案

web基础+HTTP+HTML+apache

回顾｜Apache Cloudberry™ (Incubating) Meetup·2025 杭州站

蓝桥杯Java全攻略：从零到一掌握竞赛与企业开发实战

腾讯 Kuikly 正式开源，了解一下这个基于 Kotlin 的全平台框架

基于esp32实现键值对存储读写c程序例程

MongoDB 操作全解析：从部署到安全控制的详细指南（含 emoji 趣味总结）

测试基础笔记第十四天

从回溯到记忆化搜索再到递推

树莓派学习专题＜11＞：使用V4L2驱动获取摄像头数据--启动/停止数据流，数据捕获，缓存释放

Web前渗透

Win11 配置 Git 绑定 Github 账号的方法与问题汇总

flask返回文件的同时返回其他参数

【密码学——基础理论与应用】李子臣编著第七章公钥密码课后习题

ubuntu扩展逻辑卷并调整文件系统大小步骤

“RS232转Profinet，开启“变频器工业版绝绝子！”

Step1X-Edit: A practical framework for general image editing

28-29【动手学深度学习】批量归一化 + ResNet

《深入浅出Git：从版本控制原理到高效协作实战》

高璞任中国第一汽车集团有限公司党委常委、副总经理

江西省宁都县政协原二级调研员谢亦礼被查

白俄罗斯驻华大使：应发挥政党作用，以对话平台促上合组织发展与合作

技术派｜“会飞的手榴弹”：微型无人机将深刻改变单兵作战方式

专访倪军：人要有终身学习能力，一张文凭无法像以往支撑那么多年

神舟二十号载人飞船与空间站组合体完成自主快速交会对接

相关文章：