当前位置: 首页 > news >正文

Spark-Streaming核心编程:有状态转化操作与DStream输出

 

 

在Spark-Streaming的学习旅程中,有状态转化操作和DStream输出是两个关键知识点,今天就来深入聊聊它们。

 

先说说有状态转化操作,这里面 UpdateStateByKey 和 WindowOperations 很重要。 UpdateStateByKey 主要用于跨批次维护状态,就像在流计算里统计单词出现次数并不断累加。使用时,得先定义状态,状态类型不受限制,然后定义状态更新函数,告诉程序怎么用新数据和之前的状态做更新。另外,还得配置检查点目录来保存状态。

 

 WindowOperations 则是通过设置窗口大小和滑动间隔,动态获取当前流计算状态。窗口时长决定计算的时间范围,滑动步长控制计算的触发频率,而且这俩都得是采集周期的整数倍。

 

再看看DStream输出,它规定了对转化后流数据的处理方式。要是一个DStream及其派生的DStream都没执行输出操作,那这些DStream都不会被求值,整个StreamingContext也启动不了。

 

常见的输出操作有 print() ,能在驱动节点打印每批数据的前10个元素,方便开发调试; saveAsTextFiles 、 saveAsObjectFiles 、 saveAsHadoopFiles ,分别用于以不同格式存储数据;还有 foreachRDD(func) ,这是最通用的,能对每个RDD运行任意计算,比如把数据写入MySQL数据库。不过使用时要注意,连接别写在driver层面,也别在 foreach 里为每条数据创建连接,最好用 foreachPartition 在分区创建连接,提升效率。

 

相关文章:

  • 高中数学联赛模拟试题精选第13套几何题
  • 【PyCharm- Python- ArcGIS】:安装一个和 ArcGIS 不冲突的独立 Python让PyCharm 使用 (解决全过程记录)
  • 第1讲、#PyTorch教学环境搭建与Tensor基础操作详解
  • 函数的使用
  • docker compose -p的踩坑经验
  • cached-property - 类属性缓存装饰器
  • 再学GPIO(二)
  • Milvus(8):密集向量、二进制向量、稀疏向量
  • 【Jupyter 启动时如何指定目录】
  • 《C和C++安全编码》课程笔记——第六章 并发
  • C++23 std::move_only_function:一种仅可移动的可调用包装器 (P0288R9)
  • 常用第三方库:sqflite数据库应用
  • 深入解析MyBatis-Plus中的lambdaUpdate与lambdaQuery
  • clickhouse#复制修改数据
  • 深度解析:Web Crawling与Web Scraping的区别与联系
  • 玩转OurBMC第十八期:iKVM特性浅讲
  • Pycharm(十七)生成器
  • 案例分享(九):Hadoop分布式集群部署(三节点)
  • 基于STM32、HAL库的HX710A模数转换器ADC驱动程序设计
  • 系统架构师---基于规则的系统架构
  • 商超展销延长、专区专柜亮相……上海“外贸拓内销”商品与市民见面
  • 13家券商一季报出炉:超七成业绩预喜,财通、湘财、第一创业下滑
  • 清华成立人工智能医院,将构建“AI+医疗+教育+科研”闭环
  • 最高法专门规范涉企案件审执工作:从源头防止趋利性执法司法
  • 初中女生遭多人侵犯后,家属奔波三年要追责那个“案外”的生物学父亲
  • 人民日报任仲平:为什么中国意味着确定性、未来性、机遇性