python pandas 删除重复的列

2024-03-14

从数据框中删除重复列的最简单方法是什么？

我正在通过以下方式读取具有重复列的文本文件：

import pandas as pd

df=pd.read_table(fname)

列名称是：

Time, Time Relative, N2, Time, Time Relative, H2, etc...

所有“时间”和“时间相对”列都包含相同的数据。我想：

Time, Time Relative, N2, H2

我所有尝试删除、删除等，例如：

df=df.T.drop_duplicates().T

导致唯一值索引错误：

Reindexing only valid with uniquely valued index objects

抱歉，我是一个 Pandas 菜鸟。任何建议，将不胜感激。

额外细节

熊猫版本：0.9.0
Python版本：2.7.3
Windows 7的
（通过Pythonxy 2.7.3.0安装）

数据文件（注意：在真实文件中，列之间用制表符分隔，这里用4个空格分隔）：

Time    Time Relative [s]    N2[%]    Time    Time Relative [s]    H2[ppm]
2/12/2013 9:20:55 AM    6.177    9.99268e+001    2/12/2013 9:20:55 AM    6.177    3.216293e-005    
2/12/2013 9:21:06 AM    17.689    9.99296e+001    2/12/2013 9:21:06 AM    17.689    3.841667e-005    
2/12/2013 9:21:18 AM    29.186    9.992954e+001    2/12/2013 9:21:18 AM    29.186    3.880365e-005    
... etc ...
2/12/2013 2:12:44 PM    17515.269    9.991756+001    2/12/2013 2:12:44 PM    17515.269    2.800279e-005    
2/12/2013 2:12:55 PM    17526.769    9.991754e+001    2/12/2013 2:12:55 PM    17526.769    2.880386e-005
2/12/2013 2:13:07 PM    17538.273    9.991797e+001    2/12/2013 2:13:07 PM    17538.273    3.131447e-005

这是一个基于重复项删除列的单行解决方案列名:

df = df.loc[:,~df.columns.duplicated()].copy()

怎么运行的：

假设数据框的列是['alpha','beta','alpha']

df.columns.duplicated()返回一个布尔数组：aTrue or False对于每一列。如果是False那么到那时为止，列名是唯一的，如果是True那么列名会先重复。例如，使用给定的示例，返回值将是[False,False,True].

Pandas允许使用布尔值进行索引，从而仅选择True价值观。由于我们想要保留不重复的列，因此我们需要翻转上面的布尔数组（即[True, True, False] = ~[False,False,True])

最后，df.loc[:,[True,True,False]]使用上述索引功能仅选择非重复列。

决赛.copy()是否可以复制数据帧（主要是）避免稍后尝试修改现有数据帧时出现错误。

Note：上面仅检查列名称，not列值。

删除重复索引

由于它足够相似，因此对索引执行相同的操作：

df = df.loc[~df.index.duplicated(),:].copy()

通过检查值而不转置来删除重复项

更新和警告: 请谨慎使用。根据 DrWhat 在评论中提供的反例，该解决方案可能not在所有情况下都能达到预期的结果。

df = df.loc[:,~df.apply(lambda x: x.duplicated(),axis=1).all()].copy()

这避免了转置的问题。快吗？不，有效果吗？在某些情况下。在这里，尝试一下：

# create a large(ish) dataframe
ldf = pd.DataFrame(np.random.randint(0,100,size= (736334,1312))) 


#to see size in gigs
#ldf.memory_usage().sum()/1e9 #it's about 3 gigs

# duplicate a column
ldf.loc[:,'dup'] = ldf.loc[:,101]

# take out duplicated columns by values
ldf = ldf.loc[:,~ldf.apply(lambda x: x.duplicated(),axis=1).all()].copy()

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

pandas