当前位置: 首页 > news >正文

Spark SQL

一文读懂Spark SQL:从基础到核心编程

  • 在大数据处理领域,Spark框架备受青睐,而Spark SQL更是其中处理结构化数据的得力助手。今天,就来带大家深入了解Spark SQL。
  • Spark SQL的前身是Shark,它最初是为了帮助熟悉关系型数据库但不了解MapReduce的技术人员快速上手而开发的。后来,由于Shark对Hive的依赖制约了Spark的发展,Spark SQL应运而生。它不仅兼容Hive,还能从多种数据源获取数据,如RDD、parquet文件、JSON文件等,未来甚至能支持从RDBMS和NOSQL数据库获取数据。同时,在性能优化和组件扩展方面也有出色表现。
  • Spark SQL有几个显著特点,它能无缝整合SQL查询和Spark编程;可以用相同方式连接不同数据源;能在已有的Hive仓库上直接运行SQL或HQL;还支持通过JDBC或ODBC进行标准数据连接。
  • DataFrame和DataSet是Spark SQL提供的两个重要编程抽象。DataFrame类似传统数据库中的二维表格,以RDD为基础,但它带有schema元信息,这使得Spark SQL能进行针对性优化,提高运行效率。而且DataFrame API提供的关系操作更友好,门槛更低。DataSet则是具有强类型的数据集合,它结合了RDD的强类型和Spark SQL优化执行引擎的优点,使用样例类来定义数据结构信息。
  • 下面讲讲它们的实际操作。创建DataFrame有多种方式,比如从Spark数据源读取数据,像读取json文件:
  • val df = spark.read.json("data/user.json")
  • 也可以从已有的RDD转换而来。查询DataFrame数据时,既可以使用SQL语法,先创建临时视图或全局视图,再用SQL语句查询;也能使用DSL语法,这种方式无需创建临时视图,更加便捷。
  • DataSet的创建也很简单,可以使用样例类序列,如:
  • case class Person(name: String, age: Long)
  • val caseClassDS = Seq(Person("zhangsan",2)).toDS()
  • 也能用基本类型的序列创建。实际使用中,更多是通过RDD来得到DataSet。
  • RDD、DataFrame和DataSet之间可以相互转换。在Spark的不同版本中,它们先后出现:Spark1.0引入RDD,Spark1.3出现DataFrame,Spark1.6有了DataSet。它们都是分布式弹性数据集,具有惰性机制,有许多共同函数,会自动缓存运算,也都有分区概念。但它们也有区别,RDD一般和spark mllib同时使用,不支持sparksql操作;DataFrame每一行类型固定为Row,需解析获取字段值;DataSet类型更灵活,能自由获取每一行信息。
  • 希望通过这篇博客,大家能对Spark SQL有更清晰的认识,在大数据处理的学习和实践中更上一层楼。

相关文章:

  • C++ 用红黑树封装map/set
  • PD-1 功能性抗体知多少
  • 静态代码扫描概述
  • 【数据标准】数据标准化-现状分析及评估
  • 信息系统项目管理工程师备考计算类真题讲解二
  • 【补题】Codeforces Round 857 (Div. 1) A. The Very Beautiful Blanket
  • 如何开发一套场外个股期权交易系统?个股期权交易软件包含:询价,报价,交易,持仓,行权,账户盈亏统计等
  • 金融行业 AI 报告自动化:Word+PPT 双引擎生成方案
  • 【指纹浏览器系列-chromium编译】
  • OpenCV图像处理进阶教程:几何变换与频域分析全解析
  • CExercise_10_5指针高级_1 1.按照字符串的长度,从长到短排序 2.先按照字符串的长度从短到长排序,长度一致的字符串按照字典顺序排序。
  • 《鸿蒙软总线:基于UDP的数据传输奥秘与优势》
  • Redis持久化策略
  • Java 多线程编程之原子类 AtomicInteger(构造方法、常用方法、高级操作方法)
  • x265 编码参数 maxNumReferences 详细解析与实验
  • 散户使用算法交易怎么做?
  • 集中趋势描述
  • 成都国贸·人居|启樾天玺先锋艺术示范区盛大亮相
  • C++笔记-vector
  • 高光谱相机:温室盆栽高通量植物表型光谱成像研究
  • 观察|中日航线加速扩容,航空公司如何抓住机会?
  • 北京:义务教育阶段入学将积极为多孩家庭长幼随学创造条件
  • 中签不易,住宿更难,马拉松赛事期间酒店涨价难题如何解决?
  • 日薪100元散发“引流小卡片”,上海浦东警方抓获2名违法人员
  • 遇见古籍里的先贤,山西博物院“晋国垂棘”明日开展
  • 建投读书会·东西汇流|上海城市体育休闲中的东西方元素