如何在 pandas 数据框中执行不同值的累积和

2023-12-25

我有一个像这样的数据框：

id    date         company    ......
123   2019-01-01        A
224   2019-01-01        B
345   2019-01-01        B
987   2019-01-03        C
334   2019-01-03        C
908   2019-01-04        C
765   2019-01-04        A
554   2019-01-05        A
482   2019-01-05        D

我想获取“公司”列随着时间的推移唯一值的累积数量。因此，如果一家公司稍后出现，则不会再次计算在内。

我的预期输出是：

date            cumulative_count
2019-01-01      2
2019-01-03      3
2019-01-04      3
2019-01-05      4

我试过了：

df.groupby(['date']).company.nunique().cumsum()

但如果同一家公司出现在不同的日期，则重复计算。

Using duplicated + cumsum + last

m = df.duplicated('company')
d = df['date']

(~m).cumsum().groupby(d).last()

date
2019-01-01    2
2019-01-03    3
2019-01-04    3
2019-01-05    4
dtype: int32

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

pandas

DataFrame

datetime

pandasgroupby

如何在 pandas 数据框中执行不同值的累积和的相关文章

Python逻辑运算符优先级[重复]

这个问题在这里已经有答案了哪个运算符优先4 gt 5 or 3 lt 4 and 9 gt 8 这会被评估为真还是假我知道该声明3 gt 4 or 2 lt 3 and 9 gt 10 显然应该评估为 false 但我不太确定 pyth
Pandas 中允许重复列

我将一个大的 CSV 包含股票财务数据文件分割成更小的块 CSV 文件的格式不同像 Excel 数据透视表之类的东西第一列的前几行包含一些标题公司名称 ID 等在以下列中重复因为一家公司有多个属性而不是一家公司只有一栏在前几行
忽略 Mercurial hook 中的某些 Mercurial 命令

我有一个像这样的善变钩子 hooks pretxncommit myhook python path to file myhook 代码如下所示 def myhook ui repo kwargs do some stuff 但在我的例子中
为什么在 Python 2.4 中使用 Unicode 数据会出现 ASCII 编码错误，而在 2.7 中却不会？

我有一个程序当在 Python 2 7 中运行时会生成正确的 Unicode 输出到标准输出当在 Python 2 4 中运行时我得到UnicodeEncodeError ascii codec can t encode chara
使用 OLS 回归预测未来值（Python、StatsModels、Pandas）

我目前正在尝试在 Python 中实现 MLR 但不确定如何将我找到的系数应用于未来值 import pandas as pd import statsmodels formula api as sm import statsmodels
对图像块进行多重处理

我有一个函数必须循环遍历图像的各个像素并计算一些几何形状此函数需要很长时间才能运行在 24 兆像素图像上大约需要 5 小时但似乎应该很容易在多个内核上并行运行然而我一生都找不到一个有据可查解释充分的例子来使用 Multiproc
按元组分隔符拆分列表

我有清单 print L I WW am XX newbie YY ZZ You WW are XX cool YY ZZ 我想用分隔符将列表拆分为子列表 ZZ print new L I WW am XX newbie YY ZZ You
Seaborn Pairplot 图例不显示颜色

我一直在学习如何在Python中使用seaborn和pairplot 这里的一切似乎都工作正常但由于某种原因图例不会显示相关的颜色我无法找到解决方案因此如果有人有任何建议请告诉我 x sns pairplot stats2 hue
将 matplotlib 颜色图集中在特定值上

我正在使用 matplotlib 颜色图 seismic 绘制绘图并且希望白色以 0 为中心当我在不进行任何更改的情况下运行脚本时白色从 0 下降到 10 我尝试设置 vmin 50 vmax 50 但在这种情况下我完全失去了白色关
在 pytube3 中获取 youtube 视频的标题？

我正在尝试构建一个应用程序来使用 python 下载 YouTube 视频pytube3 但我无法检索视频的标题这是我的代码 from pytube import YouTube yt YouTube link print yt titl
Pandas 根据 diff 列形成簇

我正在尝试使用 Pandas 根据表示时间以秒为单位的列中的差异来消除数据框中的一些接近重复项例如 import pandas as pd numpy as np df pd DataFrame 1200 1201 1233 1555
如何在 python 中没有 csv.reader 迭代器的情况下解析单行 csv 字符串？

我有一个 CSV 文件需要重新排列和重新编码我想跑 line line decode windows 1250 encode utf 8 在由 CSV 读取器解析和分割之前的每一行或者我想自己迭代行运行重新编码并仅使用单行解析表单
无法在 osx-arm64 上安装 Python 3.7

我正在尝试使用 Conda 创建一个带有 Python 3 7 的新环境例如 conda create n qnn python 3 7 我收到以下错误 Collecting package metadata current repoda
创建嵌套字典单行

您好我有三个列表我想使用一行创建一个三级嵌套字典 i e l1 a b l2 1 2 3 l3 d e 我想创建以下嵌套字典 nd a 1 d 0 e 0 2 d 0 e 0 3 d 0 e 0 b a 1 d 0 e 0 2 d 0
如何在jquery中获取保存时间和当前时间的差异？

我想在 javascript 或 jquery 中获取保存时间和当前时间之间的时差我节省的时间看起来像Sun Oct 24 15 55 56 GMT 05 30 2010 java中的日期格式代码如下 String newDate 201
在Python中按属性获取对象列表中的索引

我有具有属性 id 的对象列表我想找到具有特定 id 的对象的索引我写了这样的东西 index 1 for i in range len my list if my list i id specific id index i break
具有自定义值的 Django 管理外键下拉列表

我有 3 个 Django 模型 class Test models Model pass class Page models Model test models ForeignKey Test class Question model M
字典和数组作为类变量与实例变量

这是赚取积分的简单方法请解释以下内容 class C a b 0 c def init self self x def d self k v self x k v self a k v self b v self c append v d
从 Twitter API 2.0 获取 user.fields 时出现问题

我想从 Twitter API 2 0 端点加载推文并尝试获取标准字段作者文本和一些扩展字段尤其是用户字段端点和参数的定义工作没有错误在生成的 json 中我只找到标准字段但没有找到所需的 user fields 用户
Scrapy Spider不存储状态（持久状态）

您好有一个基本的蜘蛛可以运行以获取给定域上的所有链接我想确保它保持其状态以便它可以从离开的位置恢复我已按照给定的网址进行操作http doc scrapy org en latest topics jobs html http d

随机推荐

朴素贝叶斯分类的简单解释[关闭]

Closed 这个问题不符合堆栈溢出指南 help closed questions 目前不接受答案我发现很难理解朴素贝叶斯的过程我想知道是否有人可以用英语用简单的一步一步过程来解释它我知道它需要将发生的次数作为概率进行比较但我不知
为什么 Android 的进度对话框中没有取消按钮？

我正面临着类似的令人头疼的时刻这个人 http groups google com group android developers browse thread thread cdae98b7832b4754 567ffa7107a73f7
ActionView::缺少模板

将 mysite 部署到 VPS 后我遇到此运行时错误请注意在我的本地计算机中一切正常当我尝试访问控制器路由的任何视图时假设 Posts Controller index 我收到这个错误 Completed 500 Intern
将数据帧传递给函数时，pandas 何时进行引用传递和值传递？

def dropdf copy df df df drop y axis 1 def dropdf inplace df df drop y axis 1 inplace True def changecell df df y 0 99 x
dotnet test > 有没有办法显示在控制台中运行的测试列表？

跑步时dotnet test 有没有办法显示在控制台中运行的所有测试的列表而不是某些输出文件在控制台中看到这样的列表是理想的 x test1 test2 test3 x test4 而不仅仅是总体测试统计数据运行失败跳过我在 ma
如何执行 URL 中没有 .php 扩展名的 PHP 网页？

抱歉菜鸟问题无法理解我应该搜索的内容我正在用该页面创建一个网站product php id 777我希望它是product 777 谢谢你在您的 Web 根目录中创建 htaccess 文件并在其中输入以下内容 Options Fo
UICollectionView 滚动到项目不适用于水平方向

我有一个UICollectionView在一个UIViewController启用分页由于某种奇怪的原因 collectionView scrollToItem工作时的方向collectionview is vertical但当方向为ho
python：无意中修改传递给函数的参数

有几次我不小心修改了函数的输入由于 Python 没有恒定的引用我想知道什么编码技术可以帮助我避免经常犯这种错误 Example class Table def init self fields raw data fields is a
除非您更新 Google Play 服务，否则此应用将无法运行

我现在一直在不断尝试让 Android V2 的谷歌地图能够工作我正在设备上尝试此操作 Samsung Galaxy S 2 3 3 和模拟器我的清单我尝试过同时使用 Debug 键和 Release 键
C# 可以从派生类调用基类属性

我有一个基类其属性具有 setter 方法有没有一种方法可以从派生类调用基类中的 setter 并为其添加更多功能就像我们使用 base 关键字覆盖方法一样抱歉我应该添加一个例子这是一个例子希望我做对了 public clas
Linux 中 mmap 物理内存的用户空间 memcpy 性能较差

在我的计算机上安装的 192GB RAM 中我有 188GB RAM 以上 4GB 硬件地址 0x100000000 由 Linux 内核在启动时保留 mem 4G memmap 188G 4G 数据采集内核模块使用 DMA 将数据累积
Java POI：如何读取Excel单元格值而不是公式计算？

我正在使用 Apache POI API 从 Excel 文件中获取值除了包含公式的单元格之外一切都运行良好事实上 cell getStringCellValue 返回单元格中使用的公式而不是单元格的值我尝试使用evaluateF
使用 equals 方法比较字符串并 == [重复]

这个问题在这里已经有答案了可能的重复如何在 Java 中比较字符串 https stackoverflow com questions 513832 how do i compare strings in java Java Strin
如何使用 tqdm 迭代列表

我想知道处理某个列表需要多长时间 for a in tqdm list1 if a in list2 do something 但这不起作用如果我使用for a in tqdm range list1 我将无法检索列表值你知道怎么做吗
无法从 Django Docker 实例内部访问项目绝对 url

我有一个使用 Cookiecutter Django 启动的项目目前我正在添加 WeasyPrint 以将某些视图作为 PDF 文件提供这在开发中运行良好 Cookiecutter Django 使用 Caddy 作为 HTTP 服务器
禁止实例化为临时对象 (C++)

我喜欢在 C 中使用哨兵类但我似乎有一种精神困扰导致反复编写如下错误 MySentryClass arg other code 不用说这会失败因为哨兵在创建后立即死亡而不是按预期在作用域结束时死亡有没有某种方法可以防止 MySe
Django CreateView 不保存对象

我正在使用基本的博客应用程序练习 django 基于类的视图然而由于某种原因我的 Post 模型的 CreateView 没有将帖子保存在数据库中模型 py class Post models Model user models F
如何正确使用头文件成为一个完整的类？

初学者程序员我遵循工作正常的头文件的样式但我试图弄清楚在编译时如何不断收到所有这些错误我正在 Cygwin 中使用 g 进行编译 Ingredient h 8 13 error expected unqualified id befo
进化算法：最优重新群体分解

这确实是标题中的全部内容但对于任何对进化算法感兴趣的人来说这里有一个细分在 EA 中基本前提是随机生成一定数量的有机体实际上只是参数集针对问题运行它们然后让表现最好的有机体生存下来然后你会重新填充幸存者的杂交品种幸存者的
如何在 pandas 数据框中执行不同值的累积和

我有一个像这样的数据框 id date company 123 2019 01 01 A 224 2019 01 01 B 345 2019 01 01 B 987 2019 01 03 C 334 2019 01 03 C 908 201

如何在 pandas 数据框中执行不同值的累积和

如何在 pandas 数据框中执行不同值的累积和 的相关文章

随机推荐

热门标签

如何在 pandas 数据框中执行不同值的累积和的相关文章