当前位置：首页 > news >正文

Spark-SQL连接Hive总结及实验

news 来源：原创 2025/4/22 5:37:30

一、核心模式与配置要点

1. 内嵌Hive

无需额外配置，直接使用，但生产环境中几乎不使用。

2. 外部Hive（spark-shell连接）

配置文件：将hive-site.xml（修改数据库连接为node01）、core-site.xml、hdfs-site.xml拷贝到Spark的conf/目录。

驱动：将MySQL驱动（如mysql-connector-java-5.1.49.jar）放入jars/目录。

验证：重启spark-shell，执行show tables验证连接。

3. Spark beeline（Thrift Server模式）

步骤：同外部Hive配置，启动Thrift Server后，通过beeline -u jdbc:hive2://node01:10000 -n root连接。

4. Spark-SQL CLI（命令行工具）

操作：将驱动和hive-site.xml放入对应目录，通过spark-sql.cmd启动，直接执行SQL（如show databases）。

5. 代码操作（Scala示例）

依赖：添加spark-hive_2.12和hive-exec依赖。

配置：

将hive-site.xml放入项目resources目录。

通过enableHiveSupport()启用Hive支持，设置仓库路径：

.config("spark.sql.warehouse.dir", "hdfs://node01:9000/user/hive/warehouse")

常见问题：

权限错误：添加System.setProperty("HADOOP_USER_NAME", "node01")（替换为实际用户名）。

数据库位置异常：需显式配置仓库路径到HDFS，避免默认存于本地

二、实验

使用SystemWeaver生成SOME/IP ETS ARXML的完整实战指南

23种设计模式-结构型模式之外观模式（Java版本）

C++std::map

批量替换多个 Word 文档中的指定图片

Spark SQL核心解析：大数据时代的结构化处理利器

奇怪的问题

【大数据分析】Apache Doris高性能实时分析数据库：MPP架构下的多场景应用与优势分析以及部署应用

第十四届蓝桥杯 2023 C/C++组飞机降落

外网如何连接内网中的mysql数据库服务器

云原生--基础篇-2--云计算概述（云计算是云原生的基础，IaaS、PaaS和SaaS服务模型）

微信小程序 == 倒计时验证码组件 (countdown-verify)

【Linux】：HTTPS协议

阿里V2 点击验证码/新版 2.0-2.1-3.1-3.2 动态Fell

【上位机——MFC】运行时类信息机制

C++ GPU并行计算开发实战：利用CUDA/OpenCL加速粒子系统与流体模拟

git比较不同分支的不同提交文件差异

Linux-网络基础

mindspeed-rl使用注意事项

【ESP32】【微信小程序】MQTT物联网智能家居案例

Nginx下搭建rtmp流媒体服务并使用HLS或者OBS测试

在因关税战爆火的敦煌网上，美国人爱买什么中国商品

AI换脸侵权案入选最高法典型案例：明晰人工智能使用边界

央行等：在上海试点通过再贴现窗口支持人民币跨境贸易融资

我国与沙特签署《核能发展安全与安保合作谅解备忘录》

今年一季度，上海对东盟进出口总值同比增长7.1%

法官颁布紧急临时禁止令，中国留学生诉美国政府“首战胜利”

相关文章：