pandas 计算多列

2023-12-24

我有一个看起来像这样的数据框

Measure1 Measure2 Measure3 ...
0        1         3
1        3         2
3        0        

我想计算列中值的出现次数以产生:

Measure Count Percentage
0       2     0.25
1       2     0.25
2       1     0.125
3       3     0.373

With

outcome_measure_count = cdss_data.groupby(key_columns=['Measure1'],operations={'count': agg.COUNT()}).sort('count', ascending=True)

我只得到第一列(实际上使用 graphlab 包,但我更喜欢 pandas)

有人可以帮助我吗?


您可以通过使用展平 df 来生成计数ravel and value_counts,由此您可以构建最终的 df:

In [230]:
import io
import pandas as pd
​
t="""Measure1 Measure2 Measure3
0        1         3
1        3         2
3        0        0"""
​
df = pd.read_csv(io.StringIO(t), sep='\s+')
df

Out[230]:
   Measure1  Measure2  Measure3
0         0         1         3
1         1         3         2
2         3         0         0

In [240]:    
count = pd.Series(df.squeeze().values.ravel()).value_counts()
pd.DataFrame({'Measure': count.index, 'Count':count.values, 'Percentage':(count/count.sum()).values})

Out[240]:
   Count  Measure  Percentage
0      3        3    0.333333
1      3        0    0.333333
2      2        1    0.222222
3      1        2    0.111111

我插入了一个0只是为了使 df 形状正确,但你应该明白这一点

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

pandas 计算多列 的相关文章

随机推荐