当前位置：首页 > news >正文

【数据分析】数据筛选（布尔索引：一个判断条件）

news 来源：原创 2025/4/28 20:49:39

布尔索引

布尔索引：在实际应用中，只要是通过比较运算返回的判断结果（一个布尔型Series），就可以进行布尔索引。

应用场景：

面对大型数据时，用于获取数据的行索引和列索引往往不确定，通常我们需要寻找满足或不满足特定计算或条件的值。这时候，我们就需要用到布尔索引来筛选出符合要求的数据。

让我们来考虑以下例子：
假设在读取电商数据时，我们想要输出所有 "cutdown_price"（优惠价格）大于0 的行数据，该怎么做呢？

先访问了 "cutdown_price" 这一列数据，然后就需要判断该列中哪些值大于0。
如果大于0，就把对应的那一行数据保留下来。

判断 "cutdown_price" 这一列数据中哪些值大于0，可以使用比较运算中的大于（>）来写一个条件表达式：data["cutdown_price"]>0。与我们之前学的数学操作类似，这时候该列的数据会逐个和0进行比较操作，每一行都会返回一个对应的布尔值，从而得到一个布尔型Series：

True表示该行的"cutdown_price"大于0；

False表示该行的"cutdown_price"小于等于0。

上面的图可以看到，"cutdown_price"这一列里，85647对应的数据是1000，大于0，所以返回的布尔值是True。

使用比较运算中的大于（>）来写一个条件表达式，判断一下data变量里，"cutdown_price"这一列哪些值大于0？

# 导入pandas模块，并以"pd"为该模块的简写

import pandas as pd

# 使用pd.read_csv()函数读取路径为 "/Users/yequ/电商数据清洗.csv" 的CSV文件，并将结果赋值给变量data

data = pd.read_csv("/Users/yequ/电商数据清洗.csv")

# 使用列索引筛选出"cutdown_price"这一列数据

# 同时使用比较运算判断这一列哪些值大于0

# 并使用print()将结果直接输出

print(data["cutdown_price"] > 0)

输出：

在得到了一个布尔型Series后，我们就可以把True对应位置的行保留下来，作为新的DataFrame返回。

接下来，我们来获取所有 "cutdown_price" 大于0的行数据。

要将所有返回为True的对应行数据保留下来，就需要用到布尔索引。将刚刚写的条件表达式传入DataFrame对象后的中括号里作为布尔索引即可。布尔索引会把判断结果为True的行数据直接返回，从而达到筛选数据的效果。

# 导入pandas模块，并以"pd"为该模块的简写

import pandas as pd

# 使用pd.read_csv()函数读取路径为 "/Users/yequ/电商数据清洗.csv" 的CSV文件，并将结果赋值给变量data

data = pd.read_csv("/Users/yequ/电商数据清洗.csv")

# 使用print()和布尔索引，输出"cutdown_price"这一列值里大于0的行

print(data[data["cutdown_price"]>0])

从输出的内容可以看到，返回的DataFrame就是data变量里，所有"cutdown_price"这一列值里大于0的行数据。
这时的行索引index就类似于一个书签，用于标记位置，不影响内容。
根据行索引index，就能很快地知道原数据data变量里的第10行、第27行、第28行、......的cutdown_price都大于0。

# 导入pandas模块，并以"pd"为该模块的简写

import pandas as pd

# 使用pd.read_csv()函数读取路径为 "/Users/yequ/电商数据清洗.csv" 的CSV文件，并将结果赋值给变量data

data = pd.read_csv("/Users/yequ/电商数据清洗.csv")

# 使用print()和布尔索引，输出"cutdown_price"这一列值里大于0的行

print(data[data["cutdown_price"]>0])