当前位置: 首页 > news >正文

spark学习总结

一、Spark概述

Spark 是一种基于内存的快速、通用、可扩展的大数据分析计算引擎
二、核心组件
1. Spark Core 中提供了 Spark 最基础与最核心的功能,Spark 其他的功能如:Spark SQL,Spark Streaming,GraphX, MLlib 都是在 Spark Core 的基础上进行扩展的 
2. Spark SQL 是 Spark 用来操作结构化数据的组件。通过 Spark SQL,用户可以使用 SQL 或者 Apache Hive 版本的 SQL 方言(HQL)来查询数据。 

3. Spark Streaming:实现实时流数据处理,能将流数据按时间间隔划分成小批次进行处理。

4.MLlib 是 Spark 提供的一个机器学习算法库。MLlib 不仅提供了模型评估、数据导入等额外的功能,还提供了一些更底层的机器学习原语。

三、Spark编程模型
RDD(弹性分布式数据集)
特性:
不可变(immutable)
分区(partitioned)
可并行操作
可持久化(persist/cache)
容错性(通过lineage血统恢复)
创建方式:
从集合创建: `sc.parallelize()`
从外部存储系统: `sc.textFile()`
从其他RDD转换
总体而言,Spark编程模型围绕RDD、DataFrame和Dataset展开,开发者可根据具体的数据特点和处理需求灵活选择使用,利用它们进行数据的转换、分析和获取结果等操作,以实现高效的大数据处理任务。

四. 应用场景
 1.与人工智能深度融合:进一步优化MLlib,支持更复杂的深度学习框架和算法,推动人工智能技术在大数据处理中的广泛应用,实现更智能的数据分析和决策。例如,在医疗领域可基于Spark和MLlib对大量病历及基因数据进行分析,建立更精准的疾病预测模型。
2.完善云原生架构:随着云计算的普及,Spark将更好地适应云原生环境,提高在公有云、私有云和混合云场景下的部署和运行效率,降低企业的运维成本,使企业能更便捷地在云环境中利用Spark进行大数据处理。
3.提升实时计算性能:在实时计算领域,Spark将不断优化流处理性能,降低延迟,提高吞吐量,满足金融、物联网等对实时性要求极高的行业需求。如在金融领域,可更及时地处理股票交易数据、银行转账记录等实时数据流,快速检测异常交易行为。

相关文章:

  • 【Spark入门】Spark简介:分布式计算框架的演进与定位
  • 面试新收获-窗口排序函数
  • 详解最新链路追踪skywalking框架介绍、架构、环境本地部署配置、整合微服务springcloudalibaba 、日志收集、自定义链路追踪、告警等
  • Java学习手册:Java开发常用的内置工具类包
  • Python函数基础:简介,函数的定义,函数的调用和传入参数,函数的返回值
  • C语言学习之调试
  • 测试基础笔记第十三天
  • 第八部分:缓解 RAG 中的幻觉
  • 6.2 内容生成与营销:个性化内容创作与营销策略优化
  • 常见cmd命令
  • 3.1/Q1,Charls最新文章解读
  • Buffer Pool是什么,有什么作用
  • priority_queue的学习
  • 【C到Java的深度跃迁:从指针到对象,从过程到生态】第四模块·Java特性专精 —— 第十四章 集合框架:告别手写链表的苦役
  • Eigen迭代求解器类
  • 对卡尔曼滤波的理解和简单示例实现
  • 服务器虚拟化:技术解析与实践指南
  • 2025蓝桥省赛c++B组第二场题解
  • python 与Redis操作整理
  • Android HAL HIDL
  • 国家发改委答澎湃:力争6月底前下达2025年两重建设和中央预算内投资全部项目清单
  • 柴德赓、纪庸与叫歇碑
  • 湖州通告13批次不合格食品,盒马1批次多宝鱼甲硝唑超标
  • 新华时评:坚定不移办好自己的事,着力抓好“四稳”
  • 经济日报:AI时代如何寻找“你的赛道”
  • 俄总统助理:普京与美特使讨论了恢复俄乌直接谈判的可能性