当前位置: 首页 > news >正文

学习spark总结

一、Spark Core

• 核心功能:基于内存计算的分布式计算框架,提供RDD弹性分布式数据集,支持转换(如map、filter)和动作(如collect、save)操作。

• 关键特性:高容错性(Lineage机制)、高效内存管理、支持多种部署模式(本地/集群)。

二、Spark SQL

• 数据处理:支持结构化数据(JSON/Parquet等)处理,通过DataFrame/Dataset API简化操作。

• 组件集成:可与Hive兼容,通过Spark SQL查询Hive表,支持ANSI SQL语法。

• 性能优势:优化器(Catalyst)自动优化执行计划,提升查询效率。

三、Spark Streaming

• 流处理模型:基于微批处理(Micro-Batch),将实时流分割为小批次处理,支持Kafka、Flume等数据源。

• 关键概念:DStream(离散流)、窗口操作(Window)、状态管理(如updateStateByKey)。

• 容错机制:通过检查点(Checkpoint)确保故障恢复时的 Exactly-Once 语义。

四、Kafka 集成

• 数据源:作为分布式消息队列,为Spark Streaming提供高吞吐量、持久化的实时数据。

• 消费模式:基于Direct API(非Receiver方式),直接从Kafka分区读取数据,保证高效且精准一次消费。

• 集成场景:常用于日志采集、实时监控等需要高可靠性的流处理场景。

五、Flume 集成

• 数据采集:轻量级日志收集框架,支持多源数据(如文件、网络端口)采集,汇聚到HDFS/Spark等系统。

• 与Spark结合:Flume可将数据写入Kafka,再由Spark Streaming消费;或直接通过Flume Sink将数据发送至Spark Streaming。

• 特点:配置灵活、可靠性高,适合构建复杂的日志采集管道。

相关文章:

  • 常见锁策略
  • 关系型数据库PostgreSQL vs MySQL 深度对比:专业术语+白话解析+实战案例
  • Customizing Materials Management with SAP ERP Operations
  • AI日报 - 2025年04月28日
  • (26)VTK C++开发示例 ---将点坐标写入PLY文件
  • Java多线程实现顺序执行
  • 界面打印和重定向同时实现
  • CodeGeeX 免费的国产AI编程助手
  • HikariCP 6.3.0 完整配置与 Keepalive 优化指南
  • SAP-pp 怎么通过底表的手段查找BOM的全部ECN变更历史
  • 【实战篇】数字化打印——打印格式设计器的功能说明
  • (25)VTK C++开发示例 --- 将点坐标写入.xyz文件
  • 复盘笔记1
  • JavaScript性能优化实战:从瓶颈定位到极致提速
  • UE5 在旋转A的基础上执行旋转B
  • UE5 NDisplay 单主机打包运行
  • Java8 后接口的用法总结
  • Kubernetes/KubeSphere 安装踩坑记:从 context deadline exceeded 到成功部署的完整排障笔记
  • 如何排查服务器中存在的后门程序
  • 纯净IP的优势:稳定性与安全性的结合
  • 106岁东江纵队老战士、四川省侨联名誉主席邱林逝世
  • 伊朗港口爆炸已造成281人受伤
  • 对话|男篮国手杨瀚森:参加NBA选秀,去更大的舞台追梦
  • 首映|马丽:真想抱抱臧姑娘,对她说辛苦了
  • 南国置业:控股股东电建地产拟受让公司持有的房地产开发业务等相关资产和负债
  • 欢迎回家!日本和歌山县4只大熊猫将于6月底送返中国