当前位置: 首页 > news >正文

Spark-SQL连接Hive总结及实验

一、核心模式与配置要点

1. 内嵌Hive

无需额外配置,直接使用,但生产环境中几乎不使用。

2. 外部Hive(spark-shell连接)

配置文件:将hive-site.xml(修改数据库连接为node01)、core-site.xml、hdfs-site.xml拷贝到Spark的conf/目录。

驱动:将MySQL驱动(如mysql-connector-java-5.1.49.jar)放入jars/目录。

验证:重启spark-shell,执行show tables验证连接。

3. Spark beeline(Thrift Server模式)

步骤:同外部Hive配置,启动Thrift Server后,通过beeline -u jdbc:hive2://node01:10000 -n root连接。

4. Spark-SQL CLI(命令行工具)

操作:将驱动和hive-site.xml放入对应目录,通过spark-sql.cmd启动,直接执行SQL(如show databases)。

5. 代码操作(Scala示例)

依赖:添加spark-hive_2.12和hive-exec依赖。

配置:

将hive-site.xml放入项目resources目录。

通过enableHiveSupport()启用Hive支持,设置仓库路径:

.config("spark.sql.warehouse.dir", "hdfs://node01:9000/user/hive/warehouse")

常见问题:

权限错误:添加System.setProperty("HADOOP_USER_NAME", "node01")(替换为实际用户名)。

数据库位置异常:需显式配置仓库路径到HDFS,避免默认存于本地

二、  实验

 

 

 

相关文章:

  • 使用SystemWeaver生成SOME/IP ETS ARXML的完整实战指南
  • 23种设计模式-结构型模式之外观模式(Java版本)
  • C++std::map
  • 批量替换多个 Word 文档中的指定图片
  • Spark SQL核心解析:大数据时代的结构化处理利器
  • 奇怪的问题
  • 【大数据分析】Apache Doris高性能实时分析数据库:MPP架构下的多场景应用与优势分析以及部署应用
  • 第十四届蓝桥杯 2023 C/C++组 飞机降落
  • 外网如何连接内网中的mysql数据库服务器
  • 云原生--基础篇-2--云计算概述(云计算是云原生的基础,IaaS、PaaS和SaaS服务模型)
  • 微信小程序 == 倒计时验证码组件 (countdown-verify)
  • 【Linux】:HTTPS协议
  • 阿里V2 点击验证码/新版 2.0-2.1-3.1-3.2 动态Fell
  • 【上位机——MFC】运行时类信息机制
  • C++ GPU并行计算开发实战:利用CUDA/OpenCL加速粒子系统与流体模拟
  • git比较不同分支的不同提交文件差异
  • Linux-网络基础
  • mindspeed-rl使用注意事项
  • 【ESP32】【微信小程序】MQTT物联网智能家居案例
  • Nginx下搭建rtmp流媒体服务 并使用HLS或者OBS测试
  • 在因关税战爆火的敦煌网上,美国人爱买什么中国商品
  • AI换脸侵权案入选最高法典型案例:明晰人工智能使用边界
  • 央行等:在上海试点通过再贴现窗口支持人民币跨境贸易融资
  • 我国与沙特签署《核能发展安全与安保合作谅解备忘录》
  • 今年一季度,上海对东盟进出口总值同比增长7.1%
  • 法官颁布紧急临时禁止令,中国留学生诉美国政府“首战胜利”