合并并总结 Pandas 中的几个值计数系列

2024-04-23

我通常使用value_counts()获取某个值出现的次数。然而，我现在处理大型数据库表（无法将其完全加载到 RAM 中）并在不到 1 个月的时间内查询数据。

有没有办法存储结果value_counts()并将其合并/添加到下一个结果中？

我想统计用户操作的数量。假设以下结构用户活动日志：

# month 1
id    userId     actionType
1     1          a
2     1          c
3     2          a
4     3          a
5     3          b

# month 2
id    userId     actionType
6     1          b
7     1          b
8     2          a
9     3          c

Using value_counts()在那些产品上：

# month 1
userId
1       2
2       1
3       2

# month 2
userId
1       2
2       1
3       1

预期输出：

# month 1+2
userId
1       4
2       2
3       3

到目前为止，我只是找到了一种使用 groupby 和 sum 的方法：

# count users actions and remember them in new column
df1['count'] = df1.groupby(['userId'], sort=False)['id'].transform('count')
# delete not necessary columns
df1 = df1[['userId', 'count']]
# delete not necessary rows
df1 = df1.drop_duplicates(subset=['userId'])

# repeat
df2['count'] = df2.groupby(['userId'], sort=False)['id'].transform('count')
df2 = df2[['userId', 'count']]
df2 = df2.drop_duplicates(subset=['userId'])

# merge and sum up
print pd.concat([df1,df2]).groupby(['userId'], sort=False).sum()

pythonic / pandas 有效合并多个系列（和数据帧）信息的方式是什么？

让我建议“添加”并指定填充值 0。这比之前建议的答案有一个优势，因为当两个 Dataframe 具有不同的唯一键集时，它将起作用。

# Create frames
df1 = pd.DataFrame(
    {'User_id': ['a', 'a', 'b', 'c', 'c', 'd'], 'a': [1, 1, 2, 3, 3, 5]})
df2 = pd.DataFrame(
    {'User_id': ['a', 'a', 'b', 'b', 'c', 'c', 'c'], 'a': [1, 1, 2, 2, 3, 3, 4]})

现在添加两组values_counts()。这fill_value参数将处理出现的任何 NaN 值，在本例中，出现在df1，但不是df2.

a = df1.User_id.value_counts()
b = df2.User_id.value_counts()
a.add(b,fill_value=0)

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

pandas

count

合并并总结 Pandas 中的几个值计数系列的相关文章

如何提取图像中的表格

我想从图像中提取表格这个 python 模块https pypi org project ExtractTable https pypi org project ExtractTable 与他们的网站https www extractta
python 命令行应用程序的最佳布局是什么？

什么是正确的方法或者我会满足于good方式布置一个中等复杂度的命令行 python 应用程序我使用 Paster 创建了一个 Python 项目框架它为我提供了一些文件 myproj init py MyProj egg info
Python 中快速、小型且重复的矩阵乘法

我正在寻找一种使用 Python Cython Numpy 快速将许多 4x4 矩阵相乘的方法任何人都可以给出任何建议吗为了展示我当前的尝试我有一个需要计算的算法 A 1 A 2 A 3 A N 哪里每个 A i A j Python
如何设置 1dCNN+LSTM 网络（Keras）的输入形状？

我有以下想法要实施 Input gt CNN gt LSTM gt Dense gt Output 输入有 100 个时间步长每个步长有一个 64 维特征向量 A Conv1D层将在每个时间步提取特征 CNN 层包含 64 个滤波器每个
Pyside QPushButton 和 matplotlib 的连接

我正在尝试使用 matplotlib 开发一个非常简单的 pyside Qt 程序我希望按下按钮时绘制图表到目前为止我可以在构造函数上绘制一些东西但无法将 Pyside 事件与 matplotlib 连接起来有没有办法做到这一点
Python 中的 Socket.IO 客户端库 [关闭]

Closed 这个问题正在寻求书籍工具软件库等的推荐不满足堆栈溢出指南 help closed questions 目前不接受答案谁能推荐一个 Python 的 Socket IO 客户端库我环顾四周但我能找到的唯一的要么是服务
如何修复错误嵌套/未闭合的 HTML 标签？

我需要通过使用正确的嵌套顺序关闭任何打开的标签来清理用户提交的 HTML 我一直在寻找一种算法或Python代码来做到这一点但除了PHP等中的一些半生不熟的实现之外还没有找到任何东西例如类似的东西 p p ul li Foo bec
如何重定向到外部404页面Python Flask

我正在尝试将 404 重定向到外部 URL 如下所示 app route 404 def http error handler error return flask redirect http www exemple com 404 404
优化Python：大数组、内存问题

我在运行 python numypy 代码时遇到速度问题我不知道如何让它更快也许其他人假设有一个表面有两个三角剖分一个是细三角剖分 fine 有 M 个点一个是粗剖分有 N 个点此外还有每个点的粗网格数据 N 个浮点数我正
使用 Python 发布 XML 文件

我是 Python 新手需要一些帮助我的目标是向 URL 发送一些带有 post 请求的 XML 这将触发发送 SMS 我有一个小的 XML 文档我想将其发布到 URL 我可以在需要发布的 python 代码中引用我的服务器上的 XM
如何使用python将dataframe的行数据转换为json中的列名作为键，行数据作为值

我在转换数据帧的按行数据时遇到问题其中列名作为键行数据作为值我想将此按行 json 传递给另一个 API 作为输入我无法获取此 json 数据 for row in df iterrows out row to json orien
从 XML 文档生成嵌套列表

在 python 中工作我的目标是解析我制作的 XML 文档并创建一个嵌套的列表列表以便稍后访问它们并解析提要 XML 文档类似于以下代码片段
Python 视图与复制错误希望我仅在脚本中使用 .loc

我正在运行一个很长的脚本其中有一个数据框df 随着脚本运行构建和修改df我在命令行中一列又一列地收到此错误尝试在 DataFrame 的切片副本上设置一个值尝试使用 loc row indexer col indexer valu
构建一个电子邮件客户端有多难？ - Python

我正在这里未知的领域冒险我正在尝试计算使用 Python 实现电子邮件客户端有多困难邮件检索邮件发送电子邮件格式电子邮件渲染我也想知道是否所有协议都容易难以支持例如SMTP IMAP POP3 希望有人能指出我正确的方向 P
Django ORM 是否具有与 SQLAlchemy 的混合属性等效的功能？

In SQL炼金术 http docs sqlalchemy org en rel 0 7 index html a 混合属性 http docs sqlalchemy org en rel 0 7 orm extensions hybri
无法将项目追加到多处理共享列表

我正在使用多重处理来为我的应用程序创建子流程我还在进程和子进程之间共享一个字典我的代码示例主要流程 from multiprocessing import Process Manager manager Manager shared
安装轮子后安装后脚本

Using from setuptools command install import install 如果我运行我可以轻松运行自定义安装后脚本python setup py install 这是相当微不足道 https stackov
运行迁移时出错：sqlalchemy.exc.CompileError：Postgresql ENUM 类型需要名称

当我第一次尝试运行升级时遇到此错误尽管我已经给了它一个 name 属性但它似乎在性别类型枚举上失败了有解决办法吗有什么方法可以查看生成的 SQL 内容吗这是我的 models py 这是我运行flask ext migrate u
Python pycrypto 模块：为什么 simplejson 无法转储加密字符串？

表明统一码错误 utf8 codec can t decode byte 0x82 in position 0 unexpected code byte 这是代码 from Crypto Cipher import AES import s
与 IPython 内核分离而不终止它

有人可以告诉我如何在不终止 IPython 内核的情况下分离它吗我在文档中看到quit 有一个参数keep kernel 但不幸的是quit keep kernel True 行不通的如果您通过 IPython 控制台客户端连接到内核并

随机推荐

执行错误日志记录的简单方法？

我创建了一个小型 C winforms 应用程序作为一项附加功能我正在考虑向其中添加某种形式的错误日志记录有人对解决这个问题有什么好的建议吗这是我从未考虑过添加到以前的项目中的功能因此我愿意接受有更多经验的开发人员的建议我正在考
HTML 将 Phaser 移动到容器 div 中

目前正在 Phaser 中制作一个基于浏览器的游戏并尝试将其添加到容器中div我创建的标签但是移相器似乎将自身推到容器下方div 两张截图对比 http gyazo com 3cc9b9333cf89d7fc879bd2cdc741609
如何在 Strapi 中将用户不可编辑的字段添加到内容类型？

说我有一个post具有以下 4 个字段的内容类型 title 细绳 content 细绳 slug 细绳 author 关系如何添加第五个字段该字段的值取决于上述 4 个字段之一且用户不可编辑说吧我想要一个wordCount字段中的
CFBundle可执行错误

无法安装应用程序 Users myname Documents SDK iPhoneApplications x build Debug iphoneos x app 处的应用程序未指定 CFBundleExecutable 我不知道这意味
在 Silverlight 4 中编辑标题

我们正在开发一个浏览器外的 Silverlight 4 应用程序并希望在应用程序加载后更改标题 Example public partial class MainPage UserControl public MainPage Initi
递归深度有限的旅行目录树

我需要递归地处理目录树中的所有文件但深度有限这意味着例如在当前目录和前两个子目录级别中查找文件但不再进一步查找在这种情况下我必须处理例如 subdir1 subdir2 file 但不是 subdir1 subdir2 subdi
Xunit 中的测试异常 ()

我正在尝试对此方法编写 Xunit 测试 public async Task
在 DLL 中，函数表的结构如何？

我一直在研究不明确支持我的操作系统的设备库的实现特别是我有一个反汇编的 DLL 以及大量的支持源代码现在功能表导出表是如何构造的我的理解是第一个结构 data部分是 RVA 表接下来是通过索引链接到第一个地址表的字符串表这
Linux 内核线程没有地址空间

为什么Linux内核线程没有地址空间对于任何要执行的任务它都应该有一个内存区域对吗内核线程的文本和数据去了哪里内核线程确实有一个地址空间只是他们都有同一个这并不妨碍它们各自拥有不同的堆栈文本和数据放置在内核地址空间由所有线
当数据包含 UTF 8 字符时 PHP 导出 CSV

在 MySQL 中我将数据字段类型设置为utf8 bin我正在以 Unicode 存储数据文本在网页中正确显示我想生成 Excel 文件将数据从我的表导出到其中输出在 xls and cvs是我在这里查看了其他答案它被提到使用
如何在Android中编写特殊字符

我想将单位添加到我的TextView 例如幂 2 如文本行上方的小写字母微符号等我怎样才能做到这一点是的您可以使用 Unicode 字符Textview TextView tvtext new TextView this tvTe
下载NLTK数据时出现PermissionError

我使用 Anaconda 的 Python 3 6 3 发行版它安装了 NLTK 但没有安装我项目所需的 NLTK DATA 问题是当我尝试安装时 nltk download I get PermissionError Errno 13
如何拆分同时包含分隔符和转义分隔符的字符串？

我的字符串分隔符是分隔符在字符串中转义为 E g irb main 018 0 gt s a b d e gt a b d e irb main 019 0 gt s split gt a b d e 有人可以建议我正则表达式这样 sp
jQuery $.live() 不适用于 iPhone 上的表格行

我正在使用 jQuery 使表格行可点击 live 功能可以在 Chrome Firefox 甚至桌面 Windows Safari 上完美运行但不能在 iPhone 上运行 bind 到处都可以使用但出于明显的原因我想使用其他功能
代码优先更改数据源，无需连接字符串

我在创建 MVC4 应用程序时似乎遇到问题我采用了代码优先方法来创建模型但 web config 文件中似乎没有创建连接字符串构建的数据库似乎是在 localhost SQLEXPRESS 实例上构建的但我想将其更改为外部数据源如
svg 中的简单填充图案：对角线阴影

我如何填充 SVG 形状不是使用单一颜色图像或渐变而是使用阴影图案如果可能的话对角线已经两个小时了我什么也没发现至少在2005年之后我认为一个可能的破解方法是使用孵化的 PNG 作为填充但这并不理想我在互联网上也没有找到
使用 Pandas/ExcelWriter 对单元格中的文本部分进行着色

如何使用 pandas 数据框和 ExcelWriter 对写入 Excel 文件的部分文本进行着色我已经设置了使用背景颜色和文本颜色以及不同内容来格式化单元格但是您可以将格式设置仅应用于字符串 1 3 5 的单元格中的第一个逗号分隔值
如何防止意外地在非常量对象上调用变异函数？

假设我们有一个 myType 类型的对象 obj 并且我们希望将其传递给函数 Foo 该函数返回一些有关 obj 的有价值的信息函数 Bar 是声明 obj 的地方也是从中调用 Foo 的地方如下所示 void Bar myType
Chrome 应用程序 localStorage 不持久并且 chrome.storage 不工作

我有一个 chrome Kiosk 应用程序我需要在机器打开和关闭之间保存数据几个字节作为字符串但无论我尝试什么本地存储似乎在重新启动时都会被擦除当我转到 chrome inspect apps 检查 Chrome 应用程序时控
合并并总结 Pandas 中的几个值计数系列

我通常使用value counts 获取某个值出现的次数然而我现在处理大型数据库表无法将其完全加载到 RAM 中并在不到 1 个月的时间内查询数据有没有办法存储结果value counts 并将其合并添加到下一个结果中我想统计

合并并总结 Pandas 中的几个值计数系列

合并并总结 Pandas 中的几个值计数系列 的相关文章

随机推荐

热门标签

合并并总结 Pandas 中的几个值计数系列的相关文章