pandas 中唯一值的累积计数

2024-04-03

我想按周累计计算 pandas 框架中某一列的唯一值。例如，假设我有这样的数据：

df = pd.DataFrame({'user_id':[1,1,1,2,2,2],'week':[1,1,2,1,2,2],'module_id':['A','B','A','A','B','C']})

+---+---------+------+-----------+
|   | user_id | week | module_id |
+---+---------+------+-----------+
| 0 |       1 |    1 |         A |
| 1 |       1 |    1 |         B |
| 2 |       1 |    2 |         A |
| 3 |       2 |    1 |         A |
| 4 |       2 |    2 |         B |
| 5 |       2 |    2 |         C |
+---+---------+------+-----------+

我想要的是每周的唯一 module_id 数量的运行计数，即如下所示：

+---+---------+------+-------------------------+
|   | user_id | week | cumulative_module_count |
+---+---------+------+-------------------------+
| 0 |       1 |    1 |                       2 |
| 1 |       1 |    2 |                       2 |
| 2 |       2 |    1 |                       1 |
| 3 |       2 |    2 |                       3 |
+---+---------+------+-------------------------+

作为循环来执行此操作很简单，例如：

running_tally = {}
result = {}
for index, row in df.iterrows():
    if row['user_id'] not in running_tally:
        running_tally[row['user_id']] = set()
        result[row['user_id']] = {}
    running_tally[row['user_id']].add(row['module_id'])
    result[row['user_id']][row['week']] = len(running_tally[row['user_id']])
print(result)

{1: {1: 2, 2: 2}, 2: {1: 1, 2: 3}}

但我的真实数据帧非常巨大，所以我想要一个矢量化算法而不是循环。

有一个听起来类似的问题here https://stackoverflow.com/q/35759120/575530，但看看已接受的答案（here https://stackoverflow.com/a/35759315/575530）原始发帖者不希望像我一样在日期之间累积唯一性。

我将如何在 pandas 中进行矢量化？

想法就是创造lists 每组按两列，然后使用np.cumsum对于累积列表，最后将值转换为集合并获取长度：

df1 = (df.groupby(['user_id','week'])['module_id']
         .apply(list)
         .groupby(level=0)
         .apply(np.cumsum)
         .apply(lambda x: len(set(x)))
         .reset_index(name='cumulative_module_count'))

print (df1)
   user_id  week  cumulative_module_count
0        1     1                        2
1        1     2                        2
2        2     1                        1
3        2     2                        3

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

pandas

pandas 中唯一值的累积计数的相关文章

pd.to_datetime 更改日期格式产生错误的日期

我从 csv 文件中提取了下表时间戳 user id 成本 val12011 年 1 月 1 日 1 1 32012 年 1 月 7 日 1 19 572013 年 1 月 9 日 1 21 632011 年 1 月 2 日 2 20 8
以矢量化方式在另一个 DataFrame 中查找包含值子集的行

如何匹配此 DataFrame 中的值source car id lat lon 0 100 10 0 15 0 1 100 12 0 10 0 2 100 09 0 08 0 3 110 23 0 12 0 4 110 18 0 32 0
根据列索引重命名 Dataframe 列

是否有内置函数可以按索引重命名 pandas 数据框我以为我知道列标题的名称但事实证明第二列中有一些十六进制字符根据我接收数据的方式我将来可能会在第 2 列中遇到这个问题因此我无法将这些特定的十六进制字符硬编码到 datafram
将 pandas 数据帧拆分为子数据帧列表的最快方法

我有一个大数据框df我有完整的清单indices中的独特元素df index 我现在想创建一个由元素索引的所有子数据帧的列表indices 具体来说 list df df loc x for x in indices 运行这个命令需要很长时
用 Pandas 计算该月的最后一个星期五

我编写了这个函数来获取该月的最后一个星期四 def last thurs date date month date dt month year date dt year cal calendar monthcalendar year mon
从字典的元素创建 Pandas 数据框

我正在尝试从字典创建一个 pandas 数据框字典设置为 nvalues y1 1 2 3 4 y2 5 6 7 8 y3 a b c d 我希望数据框仅包含 y1 and y2 到目前为止我可以使用 df pd DataFrame fr
数据框 - 平均列

我在 pandas 中有以下数据框 Column 1 Column 2 Column3 Column 4 2 2 2 4 1 2 2 3 我正在创建一个数据框其中包含第 1 列和第 2 列第 3 列和第 4 列等的平均值 ColumnA
仅当某些值相等时，如何才能将一个文本文件中的值替换为另一个文本文件中的其他值？

我有一个名为finalscores txt我想创建一个 python 脚本它将打开它并从两个单独的列中读取值这是我的finalscores txt file Atom nVa predppm avgppm stdev delta QPr
如何使用 python-pandas 和 gensim 将数据框中的单词映射到整数 ID？

给定这样一个数据框包括项目和相应的评论文本 item id review text B2JLCNJF16 i was attracted to this B0009VEM4U great snippers 我想绘制顶部的地图5000最常用
Pandas 数据框到 Excel 工作表

我有一个包含 5 个工作表的 Excel 文件 xls 格式我想用 pandas 数据框的内容替换第 5 个工作表的内容根据您的上述需求您将需要使用 Python 导出 pandas 数据框和 VBA 删除现有工作表内容并复制粘贴
Pandas hub_table 更快的替代品

我正在使用熊猫pivot table在大型数据集 1000 万行 6 列上运行由于执行时间至关重要因此我尝试加快流程目前处理整个数据集大约需要 8 秒这太慢了我希望找到替代方案来提高速度性能我当前的 Pandas 数据透视
如何使用正则表达式在 pandas 数据框中选择一行以及包含特定子字符串的行后面的固定行数

Problem 我有一个 pandas 数据框我试图从中提取特定行我感兴趣的行是包含日期的行以及紧随日期行之后的行重要的是我想将信息从日期后面的行移动到包含日期的行中的新列通过这样做我将在同一行上获得一个人的信息需要明确
Pandas 堆积条形图中元素的排序

我正在尝试绘制有关某个地区 5 个地区的家庭在特定行业赚取的收入比例的信息我使用 groupby 按地区对数据框中的信息进行排序 df df orig groupby District Portion of income value co
Pandas dataframe.hist() 更改子图上的标题大小？

我正在使用 pandas Python 操作 DataFrame 我的数据是 10000 行 X 20 列我正在将其可视化如下所示 df hist figsize 150 150 但是如果我将 Figsize 增大每个子图的标题即
如何计算分类值（包括零出现）？

我想按月计算代码数量这是我的示例数据框 id month code 0 sally 0 s A 1 sally 0 s B 2 sally 0 s C 3 sally 0 s D 4 sally 0 s E 5 sally 0 s A 6
加快Python中一个点是否处于某个形状的顺序检查

我有一个代码用于顺序确定是否在我的中找到每对笛卡尔坐标DataFrame落入某些几何封闭区域但我怀疑它相当慢因为它不是矢量化的这是一个例子 from matplotlib patches import Rectangle r1 Re
Pandas 交叉表与 Pandas 数据透视表有何不同？

两只熊猫的crosstab and pivot table函数似乎提供完全相同的功能有什么区别吗两者之间的主要区别是pivot table期望您的输入数据已经是一个 DataFrame 你将一个 DataFrame 传递给pivot t
高级描述熊猫

有没有像 pandas 那样更高级的功能通常我会继续这样 r pd DataFrame np random randn 1000 columns A r describe 我会得到一份很好的总结就像这样 A count 1000 000
使用 Python 绘制 USGS 水文数据甘特图？

我编译了一个数据帧其中包含几个不同流计的 USGS 流数据现在我想创建一个类似的甘特图this https stackoverflow com questions 31820578 how to plot stacked event d
如何获取分类数据的分组条形图

I have a big dataset with information about students And I have to build a graph of dependencies between different value

随机推荐

java.lang.ClassCastException：org.springframework.security.core.userdetails.User无法转换为model.User

我在我的应用程序中使用 Spring Security 我需要在我的应用程序的控制器中登录用户详细信息为此我正在使用这段代码 User loggedInUser User SecurityContextHolder getContext
VPC 中的 AWS Lambda 有时无法访问互联网

我有部署到 VPC 的 Lambda 此部署有以下配置专有网络 192 168 0 0 16 公共子网 A 192 168 32 0 20 具有 NAT 网关和到 Internet 网关的路由 0 0 0 0 0 私有子网 A 192 1
不明白 Monitor.Pulse() 的必要性

根据MSDN http msdn microsoft com en us library ateab679 aspx Monitor Wait 释放对象上的锁并阻塞当前线程直到它重新获取锁然而我读到的有关 Wait 和 Pulse
如何使用脚本更改 Xcode 11 中的构建设置版本控制？

由于 Xcode 11 已将版本更改为 MARKETING VERSION 并将构建更改为 CURRENT PROJECT VERSION 构建设置中有新字段由于以下原因我如何使用脚本更改此值 xcrun agvtool new ver
OpenMP 并行区域中嵌套函数的内部编译器错误

我尝试调用GSL库的蒙特卡罗积分子程序来进行一些数值计算因为我的 for 循环相当简单这意味着不同运行的结果是独立的所以我预计使用 OpenMP 进行并行化应该非常简单然而当我编译它时它总是显示内部编译器错误分段错误并且什
在 x86_64 linux 中重定位超过 2GB 的程序时出现链接器错误？

我有一个用户程序通常编译为有一个入口点0x400460我必须重新定位才能有一个从以下位置开始的入口点2GBLinux 中加载的共享库例如 linux vdso so 1 gt 0x00007fff109cd000 libc so 6 g
访问 Lua 类型元表

显然 getmetatable 可以访问几种类型的元表 getmetatable getmetatable getmetatable newproxy true 然而似乎您无法获取其他类型的元表除了函数似乎无法访问数字布尔值或 ni
静态变量是线程安全的吗？ C＃

我想创建一个存储数据表的类这将阻止我的应用程序在每次我想要检索它时导入详细信息列表因此这应该完成一次我相信下面的代码会这样做但我不确定它是否是线程安全的下面的代码位于我的三层应用程序的业务层部分它将数据表返回到表示层 publ
使用 Apple 登录：如何为现有应用程序实现它？

Apple 于 2019 年 6 月 3 日发布的最新重大更新中有一项功能使用 Apple 登录 https developer apple com sign in with apple get started 有关如何在应用程序中使用
c++ 使用 time() 并同时包含和 - 哪一个优先？

我使用带有 Zsh 5 0 2 Vim 7 3 和 GCC 4 8 0 的 GNU Linux 发行版来学习 C 由于函数的重新定义以下代码将无法编译foo include
botocore.exceptions.SSLError：SSL 验证失败

Meta 蟒蛇 2 7 5Pip 来自 usr lib python2 7 site packages pip 的 pip 18 1 python 2 7 AWS CLI aws cli 1 16 104 Python 2 7 5 Linu
在命令行运行 Laravel 任务时如何传递多个参数？

我创建了一个任务类其方法需要多个参数 class Sample Task public function create arg1 arg2 something here 但工匠似乎只得到第一个参数 php artisan sample c
在哪里可以找到 OCaml Option 模块？

我的意思是这个模块 Option http ocaml lib sourceforge net doc Option html 我找不到它 open Option给我Error Unbound module Option并且没有 optio
当 VS2013 以管理员身份运行时，MSTest 正在删除测试结果

我知道这听起来很奇怪但事实就是如此我正在使用 MSTest 来运行我的单元测试使用VS2013 ReSharper 8 1 C 中的一些dll项目我正在调用一些 API 函数这就是为什么我需要 VS 以管理员身份运行否则这些调用
Motionlayout：警告找不到视图 ID -1

我的问题是我不断收到警告W MotionLayout WARNING could not find view id 1 因此我的 MotionLayout 非常滞后几乎从expanded state to the collapsed
使用 JQUERY ajax 函数将 JSON 对象发送到 ASP.NET Web 服务

我想在 aspx 页面的客户端创建对象我想向这些 javascript 类添加函数以使生活更轻松实际上我可以获取并使用从服务返回的对象从服务器端类派生当我想通过 jquery ajax 方法从客户端发送对象时我无法做到这是我的
Firefox Addon SDK 中的 HTML5 文件 API

有没有办法在内容脚本中访问 Firefox addon sdk 中的 Html5 文件 api 这是为了存储用户添加的单词及其含义所必需的数据可能会变得很大因此本地存储不是一个选择 window requestFileSystem3 w
为什么在模块中导出类型别名（例如 std::vector ）允许在某些内部分区中同时使用 std::vector 和 std::string ？

我目前正在使用 Visual Studio 2022 Update 17 1 6 我发现导出类型别名有一些有趣的东西由于我不明白的原因当我导出某些数据类型的类型别名时例如std vector
如何重命名 GitHub 托管存储库？

我最近参加了旧金山无人机奥运会在来自真正的奥运会的友好说明之后名称被更改为无人机运动会或类似名称我需要相应地更改我的 GitHub 名称 So 如何重命名 GitHub 上的存储库为了具体起见我想重命名 https githu
pandas 中唯一值的累积计数

我想按周累计计算 pandas 框架中某一列的唯一值例如假设我有这样的数据 df pd DataFrame user id 1 1 1 2 2 2 week 1 1 2 1 2 2 module id A B A A B C user

pandas 中唯一值的累积计数

pandas 中唯一值的累积计数 的相关文章

随机推荐

热门标签

pandas 中唯一值的累积计数的相关文章