01.Python代码Pandas是什么?pandas的简介
01.Python代码Pandas是什么?pandas的简介
提示:帮帮志会陆续更新非常多的IT技术知识,希望分享的内容对您有用。本章分享的是pandas的使用语法。前后每一小节的内容是存在的有:学习and理解的关联性,希望对您有用~
python语法-pandas第一节 :pandas是什么?pandas的简介
文章目录
- 01.Python代码Pandas是什么?pandas的简介
- pandas是什么?
- pandas的简介
- 安装pandas
- 使用pandas(简单验证使用的环境 / 快速理解pandas使用语法)
- Series
- DataFrame
pandas是什么?
它是方便使用的数据结构和数据分析工具。
pandas的基础底层是 Numpy( NumPy是什么?)。同时也是一个强大的分析结构化数据的工具集
数据结构和数据分析工具解释(也是快速理解):
pandas方便存储是因为:它数据结构内部去扩展了Numpy。基于Numpy之上还扩展了很多数据格式来存储不同的数据
Numpy本身就已经有很多很多的函数来操作数组。pandas自己又提供了额外的很多数据分析的方法
既然它可以存,所以同时:
pandas也支持从各种文件导入数据,如:CSV、JSON、SQL、Microsoft Excel
这个功能在实际使用就非常的方便,就演变成了:
pandas又能存 又能算 又支持各种格式的文件导入数据
在这个基础之上,pandas非常适合做数据分析(高效灵活的数据结构+数据操作和分析):
数据清洗:处理缺失数据、重复数据、删除一些兀余数据等。
数据转换:改变数据的形状、结构、格式。
数据分析:进行统计分析、聚合、分组等。
数据可视化:通过整合 Matplotlib 和 Seaborn 等库,可以进行数据可视化。
pandas的简介
pandas 的主要数据结构是 Series (一维数据)与 DataFrame(二维数据)。
Series 是一种类似于一维数组的对象,它由一组数据(各种 Numpy 数据类型)以及一组与之相关的数据标签(即索引)组成。
带有索引的系列数据
DataFrame 是一个表格型的数据结构,它含有一组有序的列,每列可以是不同的值类型(数值、字符串、布尔型值)。DataFrame 既有行索引也有列索引
可以被看做由 Series 组成的字典(共同用一个索引) 多个 Series
两种数据结构,作为数据的存储框架.当数据以这两种数据结构进行存储后:我们就可以利用其提供的强大功能进行高效的数据处理。
所以在实际的开发项目中,pandas可以快速的处理分析数据。
···对于大数据的 spark和Flink:它们专注于实时流处理和批处理,适用于需要低延迟和高吞吐率的应用场景。(且需要分布式的集群搭建和网络通信环境,传数据给它,还需要kafka、zookeeper)
···pandas:先把数据存放在某地,主要用于小到中等规模的数据分析,提供丰富的数据处理功能。能非常快速的得出简单的结果。(单个电脑也能迅速完成)
安装pandas
使用命令:
pip install pandas -i https://pypi.mirrors.ustc.edu.cn/simple/
使用pandas(简单验证使用的环境 / 快速理解pandas使用语法)
Series
#导入pandas的包,并取了一个别名是pd
#后面通常会频繁使用pandas来调用功能,使用别名简洁且可以区分关键字
import pandas as pd#定义一列表
data = [1, 2, 3, 4, 5]
#将列表传递给pd,生成一维数组 赋值给变量s
s = pd.Series(data)
print(s) #看输出结果,这个列表数据没变,但是已经具备pandas的功能了#输出的数据都带一个索引
DataFrame
import pandas as pd# 创建一个简单的 DataFrame
data = {'Name': ['apple', 'bangbangzhi', 'python'], 'count': [10, 20, 30]}
df = pd.DataFrame(data)# 查看 DataFrame
print(df)#表格型的数据结构,它含有一组有序的列,每列可以是不同的值类型
(会陆续更新非常多的IT技术知识及泛IT的电商知识,可以点个关注,共同交流。比心)