当前位置: 首页 > news >正文

Spark-Streaming简介和核心编程

Spark-Streaming简介

      概述:用于流式数据处理,支持Kafka、Flume等多种数据输入源,可使用Spark原语运算,结果能保存到HDFS、数据库等。它以DStream(离散化流)为抽象表示,是RDD在实时场景的封装,具有易用、容错、易整合到Spark体系的特点。

       架构:1.5版本前通过设置静态参数限制Receiver数据接收速率,1.5版本起引入背压机制,依据JobScheduler反馈动态调整Receiver数据接收率 ,可通过“spark.streaming.backpressure.enabled”控制是否启用。

DStream实操-WordCount案例:

      添加相关依赖后,编写代码从指定端口读取数据,经flatMap、map、reduceByKey等操作统计单词出现次数,启动netcat发送数据后即可运行。

案例代码:

 

 

 

 

 Spark-Streaming核心编程

DStream创建 - RDD队列:

      使用ssc.queueStream(queueOfRDDs)创建DStream,计算wordcount

 

案例代码

 

DStream创建 - 自定义数据源:

     自定义数据源需继承Receiver并实现onStart、onStop方法。案例中自定义数据源监控指定端口获取内容,在使用时通过ssc.receiverStream引入,进而进行数据处理。

 

 

 

 

 

 

相关文章:

  • 【盈达科技GEO优化】向量数据库:人工智能营销时代的核心引擎
  • 【信息安全工程师备考笔记】第二章 网络信息安全概述
  • 门控循环单元(GRU)
  • 基于机器学习的房租影响因素分析系统
  • 力扣面试150题--有效的括号和简化路径
  • STM32 中断系统深度剖析
  • 高并发抢券系统设计与落地实现详解
  • 滴滴-golang后端开发-企业事业部门-二面
  • 黑盒测试——等价类划分法实验
  • 日常记录-logback脱敏
  • 准确--CentOS 7 配置 Chrony 同步阿里云 NTP 时间服务器及手动同步指南
  • 代理设计模式:从底层原理到源代码的详细解释
  • opencv图像的梯度处理,边缘检测
  • 基于国产 FPGA+ 龙芯2K1000处理器+翼辉国产操作系统继电保护装置测试装备解决方案
  • 联邦元学习实现个性化物联网的框架
  • 类加载器与jvm的内存
  • 【数学建模】孤立森林算法:异常检测的高效利器
  • 3.1goweb框架gin下
  • 大模型学习笔记------Llama 3模型架构之分组查询注意力(GQA)
  • 轻量级别的htpp客户端--Forest
  • 学大教育:去年净利润1.797亿元,学习中心增加约60所
  • 单位被裁定补缴12年社保,滞纳金该谁出?
  • 经济日报金观平:充分发挥增量政策的经济牵引力
  • 龚曙光:散文家永远只有一个视角,就是“我与时代”
  • 专访|白俄罗斯共产党中央第一书记瑟兰科夫:只有大家联合起来,才能有效应对当前危机所带来的冲击
  • 天问三号计划2028年前后发射实施,开放20千克质量资源