我有一个带有重复索引的稀疏数据框。如何以我保留的方式合并相同索引的行所有非 NaN 数据来自冲突的行?
我知道您可以使用内置功能实现非常接近的目标drop_duplicates
功能,但你只能保留first or the last具有相同索引的行:
df.reset_index().drop_duplicates(subset='index', keep='first').set_index('index').sort_index()
我所需要的就是全部非纳米值,来自任何冲突的行。
Before:
After:
df.reset_index().groupby('index').max()
这将从冲突的行中选择非 NaN 值。或者,如果同一列的多个冲突行中存在值,则取其中的最大值。
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)