当前位置: 首页 > news >正文

pyspark将hive数据写入Excel文件中

不多解释直接上代码,少python包的自己直接下载

#!/usr/bin/env python
# -*- encoding: utf-8 -*-
from pyspark.sql import SparkSession
import pandas as pd
import os# 初始化 SparkSession 并启用 Hive 支持
spark = SparkSession.builder \.appName("select_hive_data_to_xlsx") \.master("yarn") \.config("spark.sql.warehouse.dir", "hdfs://1.1.1.1:4007/aaa/hive/warehouse") \.enableHiveSupport() \.config("spark.yarn.queue", "default") \.config("spark.executor.instances", "10") \.config("spark.executor.memory", "5g") \.config("spark.executor.cores", "4") \.config("spark.driver.memory", "6g") \.config("spark.driver.cores", "5") \.config("spark.hadoop.fs.defaultFS", "hdfs://1.1.1.1:4007") \.config("spark.hadoop.fs.hdfs.impl", "org.apache.hadoop.hdfs.DistributedFileSystem") \.config("spark.hadoop.fs.file.impl", "org.apache.hadoop.fs.LocalFileSystem") \.config("spark.hadoop.fs.hdfs.impl.disable.cache", "true") \.getOrCreate()# 读取 Hive 表
df = spark.sql("\
select \
col_1,col_2 \
from tmp.tmp_1")# 将 DataFrame 写入 CSV
df.write.csv("hdfs://1.1.1.1:4007/data/tmp/tmp_1.csv", header=True)# 读取 HDFS 上的 CSV 数据
df = spark.read.option("encoding", "utf-8").csv("hdfs://1.1.1.1:4007/data/tmp/tmp_1.csv", header=True, inferSchema=True)# 将 Spark DataFrame 转换为 Pandas DataFrame
pandas_df = df.toPandas()# 将 Pandas DataFrame 写入本地的 Excel 文件
pandas_df.to_excel("/data/tmp/tmp_1.xlsx", index=False)# 停止 SparkSession
spark.stop()

创作不易,觉得还不错,辛苦给个点赞👍🏻,感谢~~

相关文章:

  • 淘宝商品主图标题api接口
  • Word处理控件Spire.Doc系列教程:C# 通过模板创建 Word 文档
  • leetcode0175. 组合两个表-easy
  • AXPM60631: 用于AMOLED显示屏的200mA双路DC-DC电源管理芯片
  • body Param Query 三个 不同的入参 分别是什么意思 在前端 要怎么传 这三种不同的参数
  • git回退commit
  • Flink维表深度解析
  • python 里有冒泡排序吗
  • 【MQ篇】RabbitMQ之消费失败重试!
  • Python3:Jupyter Notebook 安装和配置
  • 基于大模型的急性化脓性阑尾炎全程诊疗预测与方案研究
  • 物联网相关
  • Golang | 搜索表达式
  • 巧记英语四级单词 Unit6-上【晓艳老师版】
  • Dijkstra 算法代码步骤[leetcode.743网络延迟时间]
  • Milvus如何实现关键词过滤和向量检索的混合检索
  • 信竞中的数学(一):质数
  • 典籍查询界面增加我的收藏查询功能
  • 极狐GitLab 议题权重有什么作用?
  • 【漫话机器学习系列】227.信息检索与数据挖掘中的常用加权技术(TF-IDF)
  • IPO周报|4月最后2只新股周一申购,今年以来最低价股来了
  • 凝聚多方力量,中国农科院油菜产业专家团部署单产提升新任务
  • 王庆成:儒家、墨家和洪秀全的“上帝”
  • 持续更新丨伊朗内政部长:港口爆炸已致14人死亡
  • 子公司神州信息十年来首次亏损,神州控股遭国有股东广州城投派驻董事问责
  • 居民被脱落的外墙瓦砖砸中致十级伤残,小区物业赔付16万元