当前位置: 首页 > news >正文

pyspark(一) DataFrame结合jupyter入门

DataFrame描述

DataFrame是一个二维表结构,包括行、列以及schema(元数据)

在 Spark 中,DataFrame 是一种以 RDD 为基础的分布式数据集,是一种特殊的RDD,是一个分布式的表,类似于传统数据库中的二维表格。DataFrame 与 RDD 的主要区别在于,前者带有 schema 元信息,即 DataFrame 所表示的二维表数据集的每一列都带有名称和类型。

PySpark DataFrames是延迟求值的。它们是在RDD之上实现的。当Spark转换数据时,它不会立即计算转换,而是计划以后如何计算。当显式调用collect()等操作时,计算就会开始

代码展示

入口以及创建

普通创建

普通创建+schema

 

 根据pandas创建

打印信息 

数据展示

打印元数据信息

展示指定行

展示列名

describe汇总

collet

防止内存溢出,打印指定行行数

toPandas()

返回指定列

返回指定列实例

分配新的列

过滤器 

分组计算示例

写入文件&读取文件&指定压缩格式

csv

parquet

转换SparkSql 

sql运行

UDF函数

相关文章:

  • Redis内存淘汰策略详解
  • Java面试题总结6
  • 【GPTs分享】每日GPTs分享之Image Generator Tool
  • 加密和签名的区别及应用场景
  • 详解字符串函数<string.h>(上)
  • 详解IP安全:IPSec协议簇 | AH协议 | ESP协议 | IKE协议
  • 回溯 Leetcode 47 全排列II
  • 鸿蒙ArkTs开发WebView问题总结
  • ChatGPT学习第三周
  • SpringBoot 自定义映射规则resultMap association一对一
  • Nacos配置
  • 动态规划--(算法竞赛、蓝桥杯)--二维费用背包
  • 如何学习自然语言处理之语言模型
  • 【投稿优惠|快速见刊】2024年图像,机器学习和人工智能国际会议(ICIMLAI 2024)
  • element-ui附件上传及在线查看详细总结,后续赋源码
  • StarRocks——中信建投基于StarRocks构建统一查询服务平台
  • WPF 【十月的寒流】学习笔记(1):DataGrid过滤
  • Unity将4个纹理图拼接成1个纹理
  • 类型字段定义影响WebApi传值及SqlSugar调用Select创建新对象
  • Vue3修改Element-plus语言与项目国际化
  • 特朗普将举行集会庆祝重返白宫执政百日,美媒:时机不当
  • 三大交易所修订股票上市规则:明确关键少数责任,强化中小股东保障
  • 三大猪企去年净利润同比均较大幅度增长,资产负债率齐降
  • 上海车展的“老头乐”,又升级了
  • 乌克兰基辅遭大规模袭击,已致12人死亡
  • 出35万元为副县长的女友凑购房首付,青海一商人被判缓刑