当前位置: 首页 > news >正文

Spark学习全总结

基础概念
Spark 是一个快速、通用的大数据处理引擎,支持多种计算模式,如批处理、流处理、交互式查询和机器学习等。

特点:

速度快:基于内存计算,能将数据缓存在内存中,避免频繁读写磁盘,大幅提高处理速度。同时采用了先进的优化技术,如数据分区、推测执行等。

易用性高:支持多种编程语言,如Scala、Java、Python和R等,提供了丰富的API,方便用户进行开发。

通用性强:提供了多种高层组件,包括用于批处理的Spark SQL、用于流计算的Spark Streaming、用于机器学习的MLlib和用于图计算的GraphX等,能满足不同类型的大数据处理需求。

可扩展性好:能轻松扩展到大量的节点上,处理大规模的数据集,具有良好的容错机制,可自动处理节点故障。

与MapReduce比较:
基于内存计算,相较于 MapReduce 等传统框架,能显著提升数据处理速度,适合迭代计算。
拥有丰富的生态系统,包括 Spark SQL、Spark Streaming、MLlib(机器学习库)和 GraphX(图计算库)等组件。

核心组件:

RDD(弹性分布式数据集):Spark 的核心数据结构,是一个容错、并行的数据集合,可以进行各种转换(如 map、filter、join 等)和动作操作(如 collect、count、save 等)。

DAG(有向无环图):作业的逻辑执行计划,由 RDD 的一系列操作构建而成,Spark 会根据 DAG 对作业进行优化和调度。
 
Executor:运行在工作节点(Worker Node)上的进程,负责执行任务并处理数据。
 
Driver:程序的入口点,负责创建 SparkContext,协调各个工作节点,调度任务。

编程:

Scala :Scala 是 Spark 的主要编程语言之一,使用 Scala API 可以灵活地操作 RDD,实现复杂的数据处理逻辑。

SQL :Spark SQL 允许使用 SQL 语句进行数据查询和分析,支持与多种数据源(如 Hive)的集成。

Spark SQL:

功能:用于处理结构化数据,支持SQL查询和DataFrame、DataSet API,能与多种数据源(如Hive、JSON、Parquet等)进行交互,并提供了查询优化和执行计划生成等功能。

应用场景:适用于需要进行SQL风格的数据查询、分析和处理的场景,如商业智能报表、数据仓库查询等。

Spark Streaming:

用于处理实时流数据,将流数据分割成小的批次进行处理,实现近似实时的数据分析。
 
支持多种数据源,如 Kafka、Flume等,以及各种流处理操作,如窗口操作、状态管理等。

DStream转换:DStream 上的操作与 RDD 的类似,分为 Transformations(转换)和 Output Operations(输出)两种,此外转换操作中还有一些比较特殊的原语,如:updateStateByKey()、transform()以及各种 Window 相关的原语。

相关文章:

  • 前端零基础入门到上班:【Day8】JavaScript 基础语法入门
  • 面试题】找出两个整数 a,b 中的较大者
  • 【机器学习驱动的智能化电池管理技术与应用】
  • package.json script 中的 prepare 脚本的作用是什么
  • 00-算法打卡-目录
  • ReACT Agent 实战
  • 关于 React Fiber 架构、Hooks 原理
  • Python爬虫(8)Python数据存储实战:JSON文件读写与复杂结构化数据处理指南
  • pycharm无法创建venv虚拟环境
  • 大模型图像编辑那家强?
  • Centos8 安装 Docker
  • ​​全栈自动化:从零构建智能CI/CD流水线​
  • 多模态常见面试题
  • HTML倒数
  • 使用 MediaPipe 和 OpenCV 快速生成人脸掩膜(Face Mask)
  • 为什么选择 Spring Boot? 它是如何简化单个微服务的创建、配置和部署的?
  • PROXY_ARP在CALICO网络中的应用
  • OpenCV进阶操作:图像金字塔
  • rt-linux下的cgroup cpu的死锁bug
  • 解决SSLError: [SSL: DECRYPTION_FAILED_OR_BAD_RECORD_MAC] decryption faile的问题
  • 柳州警方通报临牌车撞倒行人:扣留涉事车辆,行人无生命危险
  • 杭州6宗涉宅用地收金125.76亿元,萧山区地块楼面价冲破5万元/平米
  • 我国首个核电工业操作系统发布,将在华龙一号新机组全面应用
  • 【社论】用生态环境法典守护生态文明
  • 报告:到2030年我国无人机产业将率先实现万亿规模
  • 教育强国建设基础教育综合改革试点来了!改什么?怎么改?