通过另一列的分组值之和标准化 pandas 数据框中的列

2023-12-22

我有点坚持尝试标准化 pandas 数据框中列的某些条目。所以我有一个像这样的数据框：

df = pd.DataFrame({
        'user':[0,0,1,1,1,2,2], 
        'item':['A','B', 'A', 'B','C','B','C'],
        'bought':[1,1,1,3,3,2,3]})
df
bought|item|user
----------------
1     |A   |0
1     |B   |0
1     |A   |1
3     |B   |1
3     |C   |1
2     |B   |2
3     |C   |2

我想通过每个用户购买的总数来标准化购买的每件商品的数量。

换句话说，对于“购买”的每个条目，我想将其除以该用户购买的总和（作为另一列）。在这种情况下，我想要的输出是这样的（但“标准化”列不必是分数）：

bought|item|user|normalized
--------------------------
1     |A   |0   |1/2
1     |B   |0   |1/2
1     |A   |1   |1/7
3     |B   |1   |3/7
3     |C   |1   |3/7
2     |B   |2   |2/5
3     |C   |2   |3/5

到目前为止，我已按用户分组并按用户获得总和：

grouped = df.groupby(by='user')
grouped.aggregate(np.sum)

但此时我被困住了。谢谢！

`pandas` `map`

df.assign(normalized=df.bought.div(df.user.map(df.groupby('user').bought.sum())))

`pandas` `transform`

df.assign(normalized=df.bought.div(df.groupby('user').bought.transform('sum')))

两者都产生

   bought item  user  normalized
0       1    A     0    0.500000
1       1    B     0    0.500000
2       1    A     1    0.142857
3       3    B     1    0.428571
4       3    C     1    0.428571
5       2    B     2    0.400000
6       3    C     2    0.600000

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

pandas

通过另一列的分组值之和标准化 pandas 数据框中的列的相关文章

Jupyter Notebooks 不显示进度条

我正在尝试在 Jupyter 笔记本中显示进度条这是一台新电脑我通常做的事情似乎不起作用 from tqdm import tqdm notebook example iter 1 2 3 4 5 for rec in tqdm not
更新 Sqlalchemy 中的多个列

我有一个在 Flask 上运行的应用程序并使用 sqlalchemy 与数据库交互我想用用户指定的值更新表的列我正在使用的查询是 def update table value1 value2 value3 query update T
查找模块中显式定义的函数 (python)

好的我知道您可以使用 dir 方法列出模块中的所有内容但是有什么方法可以仅查看该模块中定义的函数吗例如假设我的模块如下所示 from datetime import date datetime def test return Thi
当单词以“|”分隔时如何读取文件（埃因霍温）？

在Python中我有一个文件其中的单词由例如 city state zipcode 我的文件阅读器无法区分单词另外我希望我的文件阅读器从第 2 行而不是第 1 行开始如何让我的文件阅读器分隔单词 import os import
Python Fabric - 未找到主机。请指定用于连接的（单个）主机字符串：

如何获取找不到主机请指定用于连接的单个主机字符串面料如何解决 def bootstrap host ec2 54 xxx xxx xxx compute 1 amazonaws com env hosts host env use
PySide6.1 与 matplotlib 3.4 不兼容

当我只安装PySide6时 GUI程序运行良好但是一旦我安装了matplotlib及其依赖包包括pyqt5 则GUI程序将无法运行并输出以下错误消息 This application failed to start because no
与 while 循环一样，如何跳过 for 循环中的步骤？

我尝试像 while 循环一样跳过 for 循环中的几个步骤在 while 循环中步骤根据特定条件进行调整如下面的代码所示 i 0 while i lt 10 if i 3 i 5 else print i i i 1 result
具有屏蔽无效值的 pcolormesh

我试图将一维数组绘制为 pcolormesh 因此颜色沿 x 轴变化但每个 x 的 y 轴保持不变但我的数据有一些错误值因此我使用屏蔽数组和自定义颜色图其中屏蔽值设置为蓝色 import numpy as np import mat
使用 numpy 在 python 中执行最大方差旋转

我正在研究矩阵的主成分分析我已经找到了如下所示的组件矩阵 A np array 0 73465832 0 24819766 0 32045055 0 3728976 0 58628043 0 63433607 0 72617152 0 5
将文本注释到轴并对齐为圆

我正在尝试在轴上绘制文本并将该文本与圆对齐更准确地说有一些具有不同坐标 x y 的点位于该圆内并使用以下命令创建 ax scatter x y s 100 我想用圆圈连接并标记每个点 Cnameb 文本的坐标由 xp yp 定义因此
无法在 python 3.8 上将带有 webapp 的 python 部署到 azure

我正在尝试使用部署一个测试项目Flask使用以下方法将框架迁移到 Azure 云中Azure CLI https learn microsoft com en us azure app service containers quicksta
如何将回溯/sys.exc_info() 值保存在变量中？

我想将错误名称和回溯详细信息保存到变量中这是我的尝试 import sys try try print x except Exception ex raise NameError except Exception er print 0 s
如何在 robobrowser-python 中发出 POST 请求

http robobrowser readthedocs org en latest api html http robobrowser readthedocs org en latest api html 我正在尝试使用 APIbrows
Pandas - 合并数据框以将所有值保留在左侧，如果“左侧没有键”，则从右侧“插入”值，否则“更新”左侧现有的“键”

我有两个数据框 df1 和 df2 np random seed 0 df1 pd DataFrame key A B C D id 2 23 234 2345 2021 np random randn 4 df2 pd DataFrame
更改 Python Cmd 模块处理自动完成的方式

我有一个 Cmd 控制台设置为自动完成 Magic the Gathering 收藏管理系统的卡牌名称它使用文本参数在数据库中查询卡片并使用结果自动完成建议卡片然而这些卡片名称有多个单词 Cmd 会从last到行尾的空间例如
Python 通过从现有 csv 文件中过滤选定的行来写入新的 csv 文件

只是一个问题我试图将 csv 文件中的选定行写入新的 csv 文件但出现错误我试图读取的 test csv 文件是这样的两列 2013 9 1 2013 10 2 2013 11 3 2013 12 4 2014 1 5 2014
如何在单元测试中使用 JSON 发送请求

我的 Flask 应用程序中有在请求中使用 JSON 的代码我可以像这样获取 JSON 对象 Request request get json 这一直工作得很好但是我正在尝试使用 Python 的 unittest 模块创建单元测试但
如何为所有用户安装 Anaconda python？

Anaconda python 发行版 https store continuum io cshop anaconda 非常方便地部署科学计算环境 SCE 并根据需要切换python版本默认情况下安装会将 python 定位到 anac
如何获取所有mysql元组结果并转换为json

我能够从表中获取单个数据但是当我试图获取表上的所有数据时我只得到一行 cnn execute sql rows cnn fetchall column t 0 for t in cnn description for row in ro
缓存 Flask-登录 user_loader

我有这个 login manager user loader def load user id None return User query get id 在我引入 Flask Principal 之前它运行得很好 identity loa

随机推荐

使用 DataTemplate 的 WPF 可编辑组合框的 SelectedItem 问题

我在使用 WPF 时遇到以下问题ComboBox XAML
Pytorch 和 numpy 广播规则差异？

我对 torch 进行了一些实验以下是我的发现 5 7 3 and 5 7 3 gt 5 7 3 equal 5 3 4 1 and 5 3 1 1 gt 5 3 4 1 1 暗淡为 1 5 3 4 1 and 3 4 1 gt 5 3
访问单元格的预定义元素

我有一个元胞数组 A 1x80 其中每个元素本身就是一个元胞数组 9x2 我还有一个向量 B 代表 A 的一组选定单元格我想提取每个选定单元格的元素 2 2 我尝试用一个简单的 A 1 B 2 2 但当然这是行不通的你能帮助我吗这个
WebStorm/PhpStorm 从任何地方的搜索中排除文件

当我到处搜索时我想从搜索结果中排除 JS 和 js map 文件我正在使用 TypeScript 我的预期行为是从 Search Everywhere 中省略这些文件是的我可以将文件标记为纯文本但这对于每个文件来说很麻烦 I ha
延迟复选框组的 JSF AJAX 侦听器

我有一个复选框组 h selectManyCheckbox 并在选中或取消选中框时触发 AJAX 事件这很简单f ajax e g f ajax execute form event click 我想增强此功能以便在之后不再重新执行ev
Graphics.DrawString() 与 TextRenderer.DrawText()

我对这两种方法感到困惑我的理解是Graphics DrawString 使用GDI 并且是基于图形的实现而TextRenderer DrawString 使用GDI并且允许大范围的字体并支持unicode 我的问题是当我尝试将基于十进制
Python Bottle 运行初始化方法两次

我的瓶子有问题 initialize函数运行两次示例应用程序 route index def index return bang def initialize print bam if name main initialize run r
Java 线程限制，JVM 9

所以根据most https www quora com What is the maximum number of threads in Java What happens if number of threads exceeds the
com.google.gson.JsonSyntaxException：android 中的 java.lang.IllegalStateException

我收到错误 com google gson JsonSyntaxException java lang IllegalStateException 需要一个字符串但在第1行第3列是BEGIN OBJECT My Code Gson gso
Boost：如果模板参数是指针，则取消引用它

如果模板参数是指针或智能指针我可以使用什么来取消引用它或者如果不是则保持原样 template
CNN中的滤波器数量是多少？

我目前看到theano的API theano tensor nnet conv2d input filters input shape None filter shape None border mode valid subsample 1
Pytorch 中 [-1,0] 的维度范围是多少？

所以我正在努力理解 Pytorch 中有关集合的一些术语我不断遇到同样类型的错误range我的张量不正确当我尝试谷歌寻找解决方案时解释往往更加令人困惑这是一个例子 m torch nn LogSoftmax dim 1 input
Cron 错误文件模式与权限被拒绝

我有一个cron备份我的数据库的工作 crontab l daily etc cron d pg backup sh 但是设置适当的权限存在问题当我有 ls l etc cron d pg backup sh rwxr xr 1 roo
Hive Bucket-理解 TABLESAMPLE(BUCKET X OUT OF Y)

大家好我对 Hive 很陌生我已经在实际操作中了解了 hadoop 中的存储桶概念但未能理解以下几行内容有人可以帮助我吗 SELECT avg viewTime FROM page view TABLESAMPLE BUCKET 1
使用 Batik 从 SVG 中使用 XPath 获取特定元素

我正在尝试使用 Batik 从 SVG 文档中查找一些元素这是我正在使用的示例 SVG 文档
如何在运行时更改类定义？

有没有办法让我在运行时更改类的属性添加删除属性除非您正在使用以下实例否则您无法执行此操作ExpandoObject http msdn microsoft com en us library system dynamic expan
自定义日期选择器

我已经陷入了几个 DatePicker 问题但似乎找不到任何解决方案我目前有一个 DatePickerDialog 非常适合我的需求但我还需要能够隐藏禁用日和月字段以便选择一个月或一年除了实现我的方法之外我找不到任何解
Git for Windows 使用 gitk-all 启动 gitk 上下文菜单

我安装了 Windows 版 Git 当我右键单击一个项目并选择Git History我得到了 Gitk 窗口但每次这样做我都需要设置视图以查看所有分支即使我编辑视图并将其设置为Remember 我在随后访问 Gitk 时仍然没有获得所
POI for XPage - 将 Word 文档保存为富文本字段中的附件

我正在使用 OpenNTF POI 4 XPage 插件这对于生成 Word 文档非常有效现在生成 Word 文档后我想创建一个新的响应文档并将该 Word 文档作为附件存储在该响应文档的富文本字段中这是我的代码在 POI 4
通过另一列的分组值之和标准化 pandas 数据框中的列

我有点坚持尝试标准化 pandas 数据框中列的某些条目所以我有一个像这样的数据框 df pd DataFrame user 0 0 1 1 1 2 2 item A B A B C B C bought 1 1 1 3 3 2 3 df

通过另一列的分组值之和标准化 pandas 数据框中的列

pandas map

pandas transform

通过另一列的分组值之和标准化 pandas 数据框中的列 的相关文章

随机推荐

热门标签

`pandas` `map`

`pandas` `transform`

通过另一列的分组值之和标准化 pandas 数据框中的列的相关文章