获取自 Pandas DataFrame 中上次出现以来的天数？

2023-12-19

假设我有一个 Pandas DataFramedf:

Date      Value
01/01/17  0
01/02/17  0
01/03/17  1
01/04/17  0
01/05/17  0
01/06/17  0
01/07/17  1
01/08/17  0
01/09/17  0

对于每一行，我想有效地计算自上次出现以来的天数Value=1.

So that df:

Date      Value    Last_Occurence
01/01/17  0        NaN
01/02/17  0        NaN
01/03/17  1        0
01/04/17  0        1
01/05/17  0        2
01/06/17  0        3
01/07/17  1        0
01/08/17  0        1
01/09/17  0        2

我可以做一个循环：

for i in range(0, len(df)):
    last = np.where(df.loc[0:i,'Value']==1)
    df.loc[i, 'Last_Occurence'] = i-last

但对于非常大的数据集来说，它似乎效率非常低，并且可能无论如何都是不正确的。

这是 NumPy 方法 -

def intervaled_cumsum(a, trigger_val=1, start_val = 0, invalid_specifier=-1):
    out = np.ones(a.size,dtype=int)    
    idx = np.flatnonzero(a==trigger_val)
    if len(idx)==0:
        return np.full(a.size,invalid_specifier)
    else:
        out[idx[0]] = -idx[0] + 1
        out[0] = start_val
        out[idx[1:]] = idx[:-1] - idx[1:] + 1
        np.cumsum(out, out=out)
        out[:idx[0]] = invalid_specifier
        return out

很少有示例在数组数据上运行来展示涵盖触发器和起始值的各种场景的用法：

In [120]: a
Out[120]: array([0, 1, 1, 1, 0, 0, 1, 0, 0, 1, 1, 1, 1, 1, 0])

In [121]: p1 = intervaled_cumsum(a, trigger_val=1, start_val=0)
     ...: p2 = intervaled_cumsum(a, trigger_val=1, start_val=1)
     ...: p3 = intervaled_cumsum(a, trigger_val=0, start_val=0)
     ...: p4 = intervaled_cumsum(a, trigger_val=0, start_val=1)
     ...: 

In [122]: np.vstack(( a, p1, p2, p3, p4 ))
Out[122]: 
array([[ 0,  1,  1,  1,  0,  0,  1,  0,  0,  1,  1,  1,  1,  1,  0],
       [-1,  0,  0,  0,  1,  2,  0,  1,  2,  0,  0,  0,  0,  0,  1],
       [-1,  1,  1,  1,  2,  3,  1,  2,  3,  1,  1,  1,  1,  1,  2],
       [ 0,  1,  2,  3,  0,  0,  1,  0,  0,  1,  2,  3,  4,  5,  0],
       [ 1,  2,  3,  4,  1,  1,  2,  1,  1,  2,  3,  4,  5,  6,  1]])

用它来解决我们的案例：

df['Last_Occurence'] = intervaled_cumsum(df.Value.values)

示例输出 -

In [181]: df
Out[181]: 
       Date  Value  Last_Occurence
0  01/01/17      0              -1
1  01/02/17      0              -1
2  01/03/17      1               0
3  01/04/17      0               1
4  01/05/17      0               2
5  01/06/17      0               3
6  01/07/17      1               0
7  01/08/17      0               1
8  01/09/17      0               2

运行时测试

方法 -

# @Scott Boston's soln
def pandas_groupby(df):
    mask = df.Value.cumsum().replace(0,False).astype(bool)
    return df.assign(Last_Occurance=df.groupby(df.Value.astype(bool).\
                                    cumsum()).cumcount().where(mask))

# Proposed in this post
def numpy_based(df):
    df['Last_Occurence'] = intervaled_cumsum(df.Value.values)

时间安排 -

In [33]: df = pd.DataFrame((np.random.rand(10000000)>0.7).astype(int), columns=[['Value']])

In [34]: %timeit pandas_groupby(df)
1 loops, best of 3: 1.06 s per loop

In [35]: %timeit numpy_based(df)
10 loops, best of 3: 103 ms per loop

In [36]: df = pd.DataFrame((np.random.rand(100000000)>0.7).astype(int), columns=[['Value']])

In [37]: %timeit pandas_groupby(df)
1 loops, best of 3: 11.1 s per loop

In [38]: %timeit numpy_based(df)
1 loops, best of 3: 1.03 s per loop

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

performance

date

pandas

NumPy

获取自 Pandas DataFrame 中上次出现以来的天数？的相关文章

使用 Django 将文件异步上传到 Amazon S3

我使用此文件存储引擎在上传文件时将文件存储到 Amazon S3 http code welldev org django storages wiki Home http code welldev org django storages w
具有“日期之间”的 CakePHP 模型

我有一个很大的数据集超过十亿行数据在数据库中按日期分区因此我的查询工具必须在每个查询上指定一个 SQL Between 子句否则它将必须扫描每个分区而且它会在返回之前超时所以我的问题是分区的数据库中的字段是日期使用 C
使用 Boto3 以字符串形式打开 S3 对象

我知道使用 Boto 2 可以使用以下命令将 S3 对象作为字符串打开 get contents as string http boto readthedocs org en latest ref file html highlight c
无法在 selenium 和 requests 之间传递 cookie，以便使用后者进行抓取

我用 python 结合 selenium 编写了一个脚本来登录网站然后从driver to requests这样我就可以继续使用requests进行进一步的活动 I used item soup select one div class
LEFT JOIN 比 INNER JOIN 快得多

我有一张桌子 MainTable 有超过 600 000 条记录它通过第二个表连接到自身 JoinTable 在父子类型关系中 SELECT Child ID Parent ID FROM MainTable AS Child JOIN
如何使用scrapy检查网站是否支持http、htts和www前缀

我正在使用 scrapy 来检查某些网站是否工作正常当我使用http example com https example com or http www example com 当我创建 scrapy 请求时它工作正常例如在我的pa
Python将文本文件解析为嵌套字典

考虑以下数据结构 HEADER1 key value key value HEADER2 key value key value HEADER3 key value HEADER4 key value key value 原始数据中没有缩进
两个不同长度的数据帧的列之间的余弦相似度？

我在 df1 中有文本列在 df2 中有文本列 df2 的长度将与 df1 的长度不同我想计算 df1 text 中每个条目与 df2 text 中每个条目的余弦相似度并为每场比赛给出分数输入样本 df1 mahesh suresh
在 SQL Server 中获取一周的第一天

我试图按周对记录进行分组将聚合日期存储为一周的第一天然而我用于四舍五入日期的标准技术似乎无法在几周内正常工作尽管它可以在天月年季度和我应用的任何其他时间范围内正常工作这是 SQL select start of week d
如何查找或安装适用于 Python 的主题 tkinter ttk

过去 3 个月我一直在制作一个机器人仅用代码就可以完美运行现在我的下一个目标是为它制作一个 GUI 但是我发现了一些障碍主要的一个是能够看起来不像一个 30 年前的程序我使用的是 Windows 7 我仅使用 Python 3 3
如何指示 urwid 列表框的项目数多于当前显示的项目数？

有没有办法向用户显示 urwid 列表框在显示部分上方下方有其他项目我正在考虑类似滚动条的东西它可以显示条目的数量或者列表框顶部底部的单独栏如果这个行为无法实现有哪些方法可以实现这个通知在我的研究过程中我发现这个问题 ht
AWS Lambda 不读取环境变量

我正在编写一个 python 脚本来查询 Qualys API 中的漏洞元数据我在 AWS 中将其作为 lambda 函数执行我已经在控制台中设置了环境变量但是当我执行函数时出现以下错误 module initialization
如何将带有参数的Python装饰器实现为类？

我正在尝试实现一个接受一些参数的装饰器通常带有参数的装饰器被实现为双重嵌套闭包如下所示 def mydecorator param1 param2 do something with params def wrapper fn def
为什么python+sqlite3特别慢？

我尝试使用 Python 2 7 4 sqlite3 和 Firefox SQLite Manager 0 8 0 处理对同一数据库的相同请求在小型数据库 8000 条记录上 Python 和 Firefox 都运行得很快并且给出了相同
pandas 中数据帧中的随机/洗牌行

我目前正在尝试找到一种方法来按行随机化数据框中的项目我在 pandas 中按列洗牌排列找到了这个线程在 pandas 中对 DataFrame 进行改组排列 https stackoverflow com questions 157
将 Keras 集成到 SKLearn 管道？

我有一个 sklearn 管道对异构数据类型布尔分类数字文本执行特征工程并想尝试使用神经网络作为我的学习算法来拟合模型我遇到了输入数据形状的一些问题我想知道我想做的事情是否可能或者我是否应该尝试不同的方法我尝试了几种不
如何使用 python 定位和读取 Data Matrix 代码

我正在尝试读取微管底部的数据矩阵条形码我试过libdmtx http libdmtx sourceforge net 它有 python 绑定当矩阵的点是方形时工作得相当好但当矩阵的点是圆形时工作得更糟如下所示另一个复杂问题是在某
IndexError - 具有匀称形状的笛卡尔 PolygonPatch

我曾经使用 shapely 制作一个圆圈并将其绘制在之前填充的图上这曾经工作得很好最近我收到索引错误我将代码分解为最简单的操作但它甚至无法执行最简单的循环 import descartes import shapely geome
python从二进制文件中读取16字节长的双精度值

我找到了蟒蛇struct unpack 读取其他程序生成的二进制数据非常方便问题如何阅读16 字节长双精度数出二进制文件以下 C 代码将 1 01 写入二进制文件三次分别使用 4 字节浮点型 8 字节双精度型和 16 字节长双精度型
无法安装最新版本的 Numpy (1.22.3)

我正在尝试安装最新版本的 numpy 即 1 22 3 但看起来 pip 无法找到最后一个版本我知道我可以从源代码本地安装它但我想了解为什么我无法使用 pip 安装它 PS 我有最新版本的pip 22 0 4 ERROR Could n

随机推荐

如何在 TFS 上创建分支并将挂起的更改附加到新分支

我正在主分支上工作并对文件做了很多更改我没有检查这些更改如何从主分支创建子分支但附加到主分支的所有本地挂起更改更改将附加到新创建的子分支所以基本上如何创建子分支并将父分支的所有挂起更改附加到子分支您可以搁置更改然后使用 T
如何从异步 Http 客户端请求获取 CompletableFuture？

On 异步 Http 客户端文档 https github com AsyncHttpClient async http client我看到如何获得Future
Intel MSR 每线程频率缩放

我正在扩展 Linux 内核以便控制某些线程的频率当它们被调度到核心任何核心时通过将正确的 p 状态写入寄存器来更改核心的频率IA32 PERF CTL 如英特尔手册中建议的那样但是当调度具有不同自定义频率的不同线程时似
为 pandas 中的列添加具有重复值的数字

我有一个像这样的数据框 df col1 col2 1 pqr 3 abc 2 pqr 4 xyz 1 pqr 我发现有重复的值及其 pqr 我想在 pqr 发生的地方添加 1 2 3 我想要实现的最终数据框是 df1 col1 col2 1
为什么 std::mutex 在 WIndows SOCKET 结构中使用时会创建 C2248？

我正在使用一个结构来支持 Windows SOCKET 列表 struct ConnectedSockets std mutex lock std list
在 mongodb 中分组并从集合中获取所有值

这是示例数据需要根据competition id进行分组需要分组后集合中的所有数据我已经添加了示例集合和所需的输出 ss 请帮忙检查一下提前致谢 id l5ergph87pgdr8k season id status id 13 v
Spring WebFlux 反应式 WebSocket 防止连接关闭

我正在为我的应用程序开发简单的聊天模块使用 Spring WebFlux 后端使用 ReactiveMongoRepository 前端使用 Angular 4 我能够通过 WebSocketSession 接收数据但在从数据库流式传输
电子邮件中的 mathematica 代码并保持与笔记本相同的格式

众所周知当要发送包含一些 Mathematica 代码的电子邮件时做法是执行以下操作选择单元格单元格 gt 转换为 gt 输入表格然后复制为文本然后将代码粘贴到电子邮件或任何其他交换媒体中上述唯一的问题是当另一端从电子邮件复
在inApp浏览器中注入代码并在应用程序中获取其返回值

我正在编写一个phonegap应用程序它在inAppBrowser内启动一个网络应用程序我想从这个网络应用程序获得某些反馈以便在我的phonegap应用程序中进一步使用它因此用户启动 Web 应用程序在那里执行一些操作然后单击
状态栏有新通知发送时如何亮屏？

这是我设置通知的代码它有效 Override public void onReceive Context context Intent intent category String intent getExtras get CATEGOR
在 Mac OS Big Sur 上使用 pyenv 安装 python 3.6 时出现问题

在我的 MacBook Air OS Big Sur 上使用命令 pyenv install 3 6 13 安装 Python 3 6 13 时出现以下错误 Installing Python 3 6 13 python build us
在 Android 设备上尽可能快地删除或删除 sqlite - 表

我有一个有 1400 行的表每行都有一个 blob 字段保存 10kb 到 500kb 之间的数据我需要删除该表我花了 3 5 分钟删除该表并花了 3 分钟删除该表这对用户来说太长了我怎样才能尽快删除该表不需要回滚或任何安全
可以使用 plinq ForAll 批量插入数据库吗？

我正在这样做 entities AsParallel ForAll o gt repository Insert o 这好吗我能用它获得更多表现吗 No 这个可能会更快因为它利用了 SQL 的并行性但最终 SQL 必须在进行插入时对表
Bang IE7 - 这是什么意思？

这个标题并不像看起来那么疯狂我保证在研究另一个问题时我在 Stack Overflow 的样式表中注意到以下内容 width auto width 650px ie7 padding bottom 20px ie7 这是一种奇怪的条件
部署 .NET COM dll，出现错误 (0x80070002)

我有一个 NET COM 程序集正在尝试部署到 Web 服务器 IIS 6 Win 2003 我们已成功将此程序集部署到测试环境但生产环境无法正常工作该程序集是从经典 ASP 页面调用的每次该页面尝试使用初始化程序集 Set LT
为什么 View.display 返回 null？

我正在尝试使用本教程来实现 CameraX https codelabs developers google com codelabs camerax getting started 5 https codelabs developers
C# 禁用表单加载时的文本框焦点

我有一个文本框我想禁用它的焦点如何通过编程禁用文本框的焦点使用 C 编程禁用文本框焦点我使用了下面两个代码不起作用 textBox1 focus false textBox1 focused false 您可以设置this Acti
如何为 Android v2 地图创建发布密钥

我尝试了下面的调试密钥代码它工作正常当我制作 apk 时地图崩溃了在谷歌搜索后我发现调试键在发布模式下工作 keytool list v keystore C Users your user name android debug
用于表单的 Google Apps 脚本，生成唯一 ID 号

我创建了一个简单的 Google 表单其中包含以下字段姓名电子邮件工资和请求当用户完成表单后我想向他她发送一封包含信息的电子邮件但是我想使用请求字段插入一个唯一的号码用户在需要进一步通信时可以参考该号码如果用户在
获取自 Pandas DataFrame 中上次出现以来的天数？

假设我有一个 Pandas DataFramedf Date Value 01 01 17 0 01 02 17 0 01 03 17 1 01 04 17 0 01 05 17 0 01 06 17 0 01 07 17 1 01 08

获取自 Pandas DataFrame 中上次出现以来的天数？

获取自 Pandas DataFrame 中上次出现以来的天数？ 的相关文章

随机推荐

热门标签

获取自 Pandas DataFrame 中上次出现以来的天数？的相关文章