通过另一列的分组值之和标准化 pandas 数据框中的列

2023-12-22

我有点坚持尝试标准化 pandas 数据框中列的某些条目。所以我有一个像这样的数据框:

df = pd.DataFrame({
        'user':[0,0,1,1,1,2,2], 
        'item':['A','B', 'A', 'B','C','B','C'],
        'bought':[1,1,1,3,3,2,3]})
df
bought|item|user
----------------
1     |A   |0
1     |B   |0
1     |A   |1
3     |B   |1
3     |C   |1
2     |B   |2
3     |C   |2

我想通过每个用户购买的总数来标准化购买的每件商品的数量。

换句话说,对于“购买”的每个条目,我想将其除以该用户购买的总和(作为另一列)。在这种情况下,我想要的输出是这样的(但“标准化”列不必是分数):

bought|item|user|normalized
--------------------------
1     |A   |0   |1/2
1     |B   |0   |1/2
1     |A   |1   |1/7
3     |B   |1   |3/7
3     |C   |1   |3/7
2     |B   |2   |2/5
3     |C   |2   |3/5

到目前为止,我已按用户分组并按用户获得总和:

grouped = df.groupby(by='user')
grouped.aggregate(np.sum)

但此时我被困住了。谢谢!


pandas map

df.assign(normalized=df.bought.div(df.user.map(df.groupby('user').bought.sum())))

pandas transform

df.assign(normalized=df.bought.div(df.groupby('user').bought.transform('sum')))

两者都产生

   bought item  user  normalized
0       1    A     0    0.500000
1       1    B     0    0.500000
2       1    A     1    0.142857
3       3    B     1    0.428571
4       3    C     1    0.428571
5       2    B     2    0.400000
6       3    C     2    0.600000
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

通过另一列的分组值之和标准化 pandas 数据框中的列 的相关文章

随机推荐