深入浅出Pandas:利用Python进行数据处理与分析
上QQ阅读APP看书,第一时间看更新

5.1 复杂查询

第4章介绍了.loc[]等几个简单的数据筛选操作,但实际业务需求往往需要按照一定的条件甚至复杂的组合条件来查询数据。本节将介绍如何发挥Pandas数据筛选的无限可能,随心所欲地取用数据。

5.1.1 逻辑运算

类似于Python的逻辑运算,我们以DataFrame其中一列进行逻辑计算,会产生一个对应的由布尔值组成的Series,真假值由此位上的数据是否满足逻辑表达式决定。例如下例中索引为0的数据值为89,大于36,所以最后值为True。

# Q1成绩大于36
df.Q1 > 36
'''
0      True
1     False
2      True
3      True
4      True
      ...
95     True
96    False
97     True
98    False
99    False
Name: Q1, Length: 100, dtype: bool
'''

一个针对索引的逻辑表达式会产生一个array类型数组,该数组由布尔值组成。根据逻辑表达式,只有索引为1的值为True,其余全为False。

# 索引等于1
df.index == 1
'''
array([False,  True, False, False, False, False, False, False, False,
       False, False, False, False, False, False, False, False, False,
       False, False, False, False, False, False, False, False, False,
       False, False, False, False, False, False, False, False, False,
       False, False, False, False, False, False, False, False, False,
       False, False, False, False, False, False, False, False, False,
       False, False, False, False, False, False, False, False, False,
       False, False, False, False, False, False, False, False, False,
       False, False, False, False, False, False, False, False, False,
       False, False, False, False, False, False, False, False, False,
       False, False, False, False, False, False, False, False, False,
       False])
'''

再看一下关于DataFrame的逻辑运算,判断数值部分的所有值是否大于60,满足表达式的值显示为True,不满足表达式的值显示为False。

# df.loc[:,'Q1':'Q4']部分只取数字部分,否则会因字符无大于运算而报错
df.loc[:,'Q1':'Q4'] > 60
'''
       Q1     Q2     Q3     Q4
0    True  False  False   True
1   False  False  False  False
2   False  False  False   True
3    True   True   True   True
4    True  False   True   True
..    ...    ...    ...    ...
95  False  False   True   True
96  False  False  False  False
97   True   True  False  False
98  False   True  False   True
99  False  False  False   True

[100 rows x 4 columns]
'''

除了逻辑运算,Pandas还支持组合条件的Python位运算:

# Q1成绩不小于60分,并且是C组成员
~(df.Q1 < 60) & (df['team'] == 'C')
'''
0     False
1     False
2     False
3      True
4     False
      ...
95    False
96    False
97     True
98    False
99    False
Length: 100, dtype: bool
'''

5.1.2 逻辑筛选数据

切片([])、.loc[]和.iloc[]均支持上文所介绍的逻辑表达式。通过逻辑表达式进行复杂条件的数据筛选时需要注意,表达式输出的结果必须是一个布尔序列或者符合其格式要求的数据形式。例如,df.iloc[1+1]和df.iloc[lambda df: len(df)-1]计算出一个数值,符合索引的格式,df.iloc[df.index==8]返回的是一个布尔序列,df.iloc[df.index]返回的是一个索引,它们都是有效的表达式。

以下是切片([])的一些逻辑筛选的示例:

df[df['Q1'] == 8] # Q1等于8
df[~(df['Q1'] == 8)] # 不等于8
df[df.name == 'Ben'] # 姓名为Ben
df[df.Q1 > df.Q2]

以下是.loc[]和.lic[]的一些示例:

# 表达式与切片一致
df.loc[df['Q1'] > 90, 'Q1':]  # Q1大于90,只显示Q1
df.loc[(df.Q1 > 80) & (df.Q2 < 15)] # and关系
df.loc[(df.Q1 > 90) | (df.Q2 < 90)] # or关系
df.loc[df['Q1'] == 8] # 等于8
df.loc[df.Q1 == 8] # 等于8
df.loc[df['Q1'] > 90, 'Q1':] # Q1大于90,显示Q1及其后所有列

需要注意的是在进行或(|)、与(&)、非(~)运算时,各个独立逻辑表达式需要用括号括起来。

any和all对逻辑计算后的布尔序列再进行判断,序列中所有值都为True时all才返回True,序列中只要有一个值为True时any就返回True。它们还可以传入axis参数的值,用于指定判断的方向,与Pandas的axis参数整体约定一样,默认为0列方向,传入1为行方向。利用这两个方法,我们可以对整体数据进行逻辑判断,例如:

# Q1、Q2成绩全为超过80分的
df[(df.loc[:,['Q1','Q2']] > 80).all(1)]
# Q1、Q2成绩至少有一个超过80分的
df[(df.loc[:,['Q1','Q2']] > 80).any(1)]

上例对两个列整体先做逻辑计算得到一个两列的布尔序列,然后用all和any在行方向上做逻辑计算。

5.1.3 函数筛选

可以在表达式处使用lambda函数,默认变量是其操作的对象。如果操作的对象是一个DataFrame,那么变量就是这个DataFrame;如果是一个Series,那么就是这个Series。可以看以下例子,s就是指df.Q1这个Series:

# 查询最大索引的值
df.Q1[lambda s: max(s.index)] # 值为21
# 计算最大值
max(df.Q1.index) # 99
df.Q1[df.index==99]
'''
99    21
Name: Q1, dtype: int64
'''

下面是一些示例:

df[lambda df: df['Q1'] == 8] # Q1为8的
df.loc[lambda df: df.Q1 == 8, 'Q1':'Q2'] # Q1为8的,显示 Q1、Q2
df.loc[:, lambda df: df.columns.str.len()==4] # 由真假值组成的序列
df.loc[:, lambda df: [i for i in df.columns if 'Q' in i]] # 列名列表
df.iloc[:3, lambda df: df.columns.str.len()==2] # 由真假值组成的序列

5.1.4 比较函数

Pandas提供了一些比较函数,使我们可以将逻辑表达式替换为函数形式。

# 以下相当于 df[df.Q1 == 60]
df[df.Q1.eq(60)]
'''
     name team  Q1  Q2  Q3  Q4
20  Lucas    A  60  41  77  62
'''

除了.eq(),还有:

df.ne() # 不等于 !=
df.le() # 小于等于 <=
df.lt() # 小于 <
df.ge() # 大于等于 >=
df.gt() # 大于 >

使用示例如下:

df[df.Q1.ne(89)] # Q1不等于89
df.loc[df.Q1.gt(90) & df.Q2.lt(90)] # and关系,Q1>90,Q2<90

这些函数可以传入一个定值、数列、布尔序列、Series或DataFrame,来与原数据比较。

另外还有一个. isin()函数,用于判断数据是否包含指定内容。可以传入一个列表,原数据只需要满足其中一个存在即可;也可以传入一个字典,键为列名,值为需要匹配的值,以实现按列个性化匹配存在值。

# isin
df[df.team.isin(['A','B'])] # 包含A、B两组的
df[df.isin({'team': ['C', 'D'], 'Q1':[36,93]})] # 复杂查询,其他值为NaN

5.1.5 查询df.query()

df.query(expr)使用布尔表达式查询DataFrame的列,表达式是一个字符串,类似于SQL中的where从句,不过它相当灵活。

df.query('Q1 > Q2 > 90') # 直接写类型SQL where语句
df.query('Q1 + Q2 > 180')
df.query('Q1 == Q2')
df.query('(Q1<50) & (Q2>40) and (Q3>90)')
df.query('Q1 > Q2 > Q3 > Q4')
df.query('team != "C"')
df.query('team not in ("E","A","B")')
# 对于名称中带有空格的列,可以使用反引号引起来
df.query('B == `team name`')

还支持使用@符引入变量:

# 支持传入变量,如大于平均分40分的
a = df.Q1.mean()
df.query('Q1 > @a+40')
df.query('Q1 > `Q2`+@a')

df.eval()与df.query()类似,也可以用于表达式筛选:

# df.eval()用法与df.query类似
df[df.eval("Q1 > 90 > Q3 > 10")]
df[df.eval("Q1 > `Q2`+@a")]

5.1.6 筛选df.filter()

df.filter()可以对行名和列名进行筛选,支持模糊匹配、正则表达式。

df.filter(items=['Q1', 'Q2']) # 选择两列
df.filter(regex='Q', axis=1) # 列名包含Q的列
df.filter(regex='e$', axis=1) # 以e结尾的列
df.filter(regex='1$', axis=0) # 正则,索引名以1结尾
df.filter(like='2', axis=0) # 索引中有2的
# 索引中以2开头、列名有Q的
df.filter(regex='^2', axis=0).filter(like='Q', axis=1)

5.1.7 按数据类型查询

Pandas提供了一个按列数据类型筛选的功能df.select_dtypes(include=None, exclude=None),它可以指定包含和不包含的数据类型,如果只有一个类型,传入字符;如果有多个类型,传入列表。

df.select_dtypes(include=['float64']) # 选择float64型数据
df.select_dtypes(include='bool')
df.select_dtypes(include=['number']) # 只取数字型
df.select_dtypes(exclude=['int']) # 排除int类型
df.select_dtypes(exclude=['datetime64'])

如果没有满足条件的数据,会返回一个仅有索引的DataFrame。

5.1.8 小结

本节介绍了如何实现复杂逻辑的数据查询需求,复杂的数据查询功能是Pandas的杀手锏,这些功能Excel实现起来会比较困难,有些甚至无法实现,这正是Pandas的优势所在。