当前位置: 首页 > news >正文

Zeppelin在spark环境导出dataframe

1.Zeppelin无法直接访问本地路径

如果zeppelin无法直接访问本地路径,可先将dataframe写到s3,在通过读取s3路径下载文件

%pyspark
# 示例:用 PySpark 处理数据
df = spark.createDataFrame([(1, "Alice"), (2, "Bob")], ["id", "name"])
df.show()
df.coalesce(1).write \.format("csv") \.option("delimiter", "\t") \.option("header", "true") \.mode("overwrite") \.save("s3://mob-emr-test/dataplatform/zeppelin/")

2.Zeppelin可直接访问本地路径

  需添加`file://` 前缀才能导出到本地

%pyspark
from pyspark.sql import SparkSession# 示例 DataFrame
df = spark.createDataFrame([(1, "Alice"), (2, "Bob")], ["id", "name"])# 保存到本地(使用 coalesce(1) 合并成一个文件)
df.coalesce(1).write \.format("csv") \.option("delimiter", "\t") \.option("header", "true") \.mode("overwrite") \.save("file:///c:/user/tmp/pyspark_output")  # 注意 `file://` 前缀

相关文章:

  • pandas读取MySQL中的数据
  • Swift中Class和Struct的深度对比分析
  • 【C++基础知识】折叠表达式详解--结合上一篇
  • Qt ModbusSlave多线程实践总结
  • 基于STM32、HAL库的MCP3421A0T模数转换器ADC驱动程序设计
  • Axure全局变量的含义与基础应用
  • 百度搜索AI开放计划:助力开发者通过MCP Server连接用户和应用
  • Spring Cloud Gateway 如何将请求分发到各个服务
  • 【Harmony OS】组件
  • 从零开始学Python游戏编程39-碰撞处理1
  • ESP-ADF esp_dispatcher组件之dispatcher介绍
  • RK3288 5.10内核无法点亮LVDS显示
  • Chrmo手动同步数据
  • 【软件工程】TCP三次握手中的SYN与ACK:核心机制详解
  • Vue3 上传后的文件智能预览(实战体会)
  • 如何申请游戏支付平台通道接口?
  • (六)机器学习---聚类与K-means
  • Python CT图像预处理——基于ITK-SNAP
  • 【DRAM存储器五十一】LPDDR5介绍--DFE与Pre-Emphasis
  • ⭐Unity_Demolition Media Hap (播放Hap格式视频 超16K大分辨率视频 流畅播放以及帧同步解决方案)
  • 人民日报任仲平:为什么中国意味着确定性、未来性、机遇性
  • 博物馆有一项活动40岁以上不能参加?馆方回应
  • 中国驻英国大使郑泽光:中国需要世界,世界也需要中国
  • 天问三号计划2028年前后发射实施,开放20千克质量资源
  • 大理洱源4.8级地震致442户房屋受损,无人员伤亡
  • 蔚来李斌:当下国际贸易环境有不确定性,但坚信中国汽车产业最终将占全球四成份额