利用pandas中groupby解决分组对象的组内排序问题

问题：根据数据某列进行分组，选择其中另一列大小top-K的的所在行数据解析：求解思路很清晰，即先用groupby对数据进行分组，然后再根据分组后的某一列进行排序，选择排序结果后的top-K结果案例：取一下dataframe中B列各对象中C值最高所在的行df = pd.DataFrame({"A": [2, 3, 5, 4], "B": ['a', 'b', 'b', 'a'], "C": [...

guofei_fly

49287人浏览 · 2019-06-27 09:53:31

guofei_fly · 2019-06-27 09:53:31 发布

问题：根据数据某列进行分组，选择其中另一列大小top-K的的所在行数据
解析：求解思路很清晰，即先用groupby对数据进行分组，然后再根据分组后的某一列进行排序，选择排序结果后的top-K结果

案例：取一下dataframe中B列各对象中C值最高所在的行

df = pd.DataFrame({"A": [2, 3, 5, 4], "B": ['a', 'b', 'b', 'a'], "C": [200801, 200902, 200704, 201003]})

Groupby的基本功能介绍

groupby以后返回DataFrameGroupBy对象，实际上还没有进行任何计算，只是一个暂时存储的容器，

[In]df.groupby('B')
[Out]<pandas.core.groupby.DataFrameGroupBy object at 0x11800f588>

对groupby结果进行简单的列选取返回的也是DataFrameGroupBy/SeriesGroupBy对象，无法可视化

[In]df.groupby('B')['A']     # 返回SeriesGroupBy对象
[Out]<pandas.core.groupby.SeriesGroupBy object at 0x117f6b630>

[In]df.groupby('B')['A','C']     # 返回DataFrameGroupBy对象
[Out]<pandas.core.groupby.DataFrameGroupBy object at 0x117fb84e0>

需要对DataFrameGroupBy进行计数、统计、agg聚合计算、apply映射计算和transform等操作，才能生成可视化的数据(下文仅以count和size函数为例展示，不涉及其它的操作)

[In] df.groupby('B', as_index=False)['A'].count()   # 组内数据统计
[Out]	B	A
	0	a	2
	1	b	2

[In] df.groupby('B')['A'].size().reset_index(name='Size')  # 组内数据统计，size和count的一个显著区别在于count不考虑Nan，size考虑Nan
[Out] B	Size
 0	  a  2
 1	  b	 2

解决方案一：对DataFrameGroupBy对象，用apply函数进行某列的sort_values排序，再选出其中的最大值所在行

# 返回值是一个带有multiindex的dataframe数据，其中level=0为groupby的by列，而level=1为原index
[In] df.groupby('B').apply(lambda x: x.sort_values('C', ascending=False))
[Out] 	A	B	C
B				
a	3	4	a	201003
	0	2	a	200801
b	1	3	b	200902
	2	5	b	200704

# 通过设置group_keys参数对multiindex进行优化
[In] df.groupby('B', group_keys=False).apply(lambda x: x.sort_values('C', ascending=False))
[Out]	A	B	   C
	3	4	a	201003
	0	2	a	200801
	1	3	b	200902
	2	5	b	200704

# 再次groupby，并调用内置的first()方法，取最大值
[In] df.groupby('B', group_keys=False).apply(lambda x: x.sort_values('C', ascending=False)).groupby('B').first().reset_index()
[Out]   B	A	   C
	0	a	4	201003
	1	b	3	200902

解决方案二：先对B进行整体的sort_values，在groupy取值

[In] df.sort_values('C', ascending=False).groupby('B').first().reset_index()
[Out]   B	A	   C
	0	a	4	201003
	1	b	3	200902

问题拓展：以上仅解决了Top-1的问题，如果是Top-k呢？
答案：将first()函数变为head()函数

[In] df.sort_values('C', ascending=False).groupby('B').head(2)
[Out] 	A	B	C
	3	4	a	201003
	1	3	b	200902
	0	2	a	200801
	2	5	b	200704

总结：

方案二，即先排序再groupby取值更方便
pandas中API众多，在实际使用时要捋清各步骤返回值的类型以方便记忆和联想

开放原子开发者工作坊

开放原子开发者工作坊旨在鼓励更多人参与开源活动，与志同道合的开发者们相互交流开发经验、分享开发心得、获取前沿技术趋势。工作坊有多种形式的开发者活动，如meetup、训练营等，主打技术交流，干货满满，真诚地邀请各位开发者共同参与！

更多推荐

开放原子开源基金会新增捐赠人（2024年9月）

2024年9月，新增以下单位成为开放原子开源基金会及旗下项目捐赠人。

开放原子开发者工作坊

2024开放原子开发者大会议题征集正式开启

2024开放原子开发者大会（以下简称“大会”）将于12月中旬重磅来袭,2024开放原子开发者大会议题征集正式开启!

开放原子开发者工作坊

操作系统大会&openEuler Summit 2024参会指南，请查收！

开放原子开发者工作坊

所有评论(0)

查看更多评论

guofei_fly

@guofei_fly

已为社区贡献2条内容