Pandas：将日期范围解压缩为单个日期

2023-11-23

Dataset:我有一个 1GB 的股票数据集，其中包含日期范围内的值。日期范围没有重叠，数据集按（股票代码、开始日期）排序。

>>> df.head()
             start_date    end_date                   val    
ticker         
AAPL         2014-05-01  2014-05-01         10.0000000000
AAPL         2014-06-05  2014-06-10         20.0000000000
GOOG         2014-06-01  2014-06-15         50.0000000000
MSFT         2014-06-16  2014-06-16                  None
TWTR         2014-01-17  2014-05-17         10.0000000000

Goal:我想解压缩数据框，以便拥有单独的日期而不是日期范围。例如，AAPL 行将从只有 2 行变为 7 行：

>>> AAPL_decompressed.head()
                   val
date                       
2014-05-01         10.0000000000
2014-06-05         20.0000000000
2014-06-06         20.0000000000
2014-06-07         20.0000000000
2014-06-08         20.0000000000

我希望 pandas 有一个很好的优化方法，比如重新采样，可以在几行内完成此操作。

比几行多一点，但我认为它会产生你所问的结果：

从您的数据框开始：

In [70]: df
Out[70]:
       start_date   end_date  val  row
ticker
AAPL   2014-05-01 2014-05-01   10    0
AAPL   2014-06-05 2014-06-10   20    1
GOOG   2014-06-01 2014-06-15   50    2
MSFT   2014-06-16 2014-06-16  NaN    3
TWTR   2014-01-17 2014-05-17   10    4

首先，我将这个数据框重塑为一个带有一个的数据框date列（因此每行对于每个日期重复两次start_date and end_date（我添加了一个名为row):

In [60]: df['row'] = range(len(df))
In [61]: starts = df[['start_date', 'val', 'row']].rename(columns={'start_date': 'date'})
In [62]: ends = df[['end_date', 'val', 'row']].rename(columns={'end_date':'date'})
In [63]: df_decomp = pd.concat([starts, ends])
In [64]: df_decomp = df_decomp.set_index('row', append=True)
In [65]: df_decomp.sort_index()
Out[65]:
                 date  val
ticker row
AAPL   0   2014-05-01   10
       0   2014-05-01   10
       1   2014-06-05   20
       1   2014-06-10   20
GOOG   2   2014-06-01   50
       2   2014-06-15   50
MSFT   3   2014-06-16  NaN
       3   2014-06-16  NaN
TWTR   4   2014-01-17   10
       4   2014-05-17   10

基于这个新的数据框，我可以将其分组ticker and row，并每天应用resample对每个组和fillna（使用方法“pad”向前填充）

In [66]: df_decomp = df_decomp.groupby(level=[0,1]).apply(lambda x: x.set_index('date').resample('D').fillna(method='pad'))

In [67]: df_decomp = df_decomp.reset_index(level=1, drop=True)

最后一个命令是删除现在多余的row指数级别。
当我们访问 AAPL 行时，它会给出您想要的输出：

In [69]: df_decomp.loc['AAPL']
Out[69]:
            val
date
2014-05-01   10
2014-06-05   20
2014-06-06   20
2014-06-07   20
2014-06-08   20
2014-06-09   20
2014-06-10   20

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

pandas

TimeSeries

Pandas：将日期范围解压缩为单个日期的相关文章

如何使用 tkinter 使用网格功能显示不同的图像？

我想使用显示文件夹中的图像grid 但是当我尝试使用以下代码时我得到了迭代单个图像的输出 My code def messageWindow win Toplevel path C Users HP Desktop dataset for
使用python编辑html，但是lxml将漂亮的html实体转换为奇怪的编码

我正在尝试使用 python 带有 pyquery 和 lxml 来更改和清理一些 html Eg html div p It 146 s a spicy meatball p div lxml html clean 函数 clean ht
MacOS Big Sur 中的 NPM 错误“找不到 Python 可执行文件”

我已经花了整整一周的时间寻找这个问题的答案但没有成功我查看了每个 StackOverflow 帖子 Google 的每一篇文章以及我能找到的每个相关的 Github 问题大多数相关错误似乎都比较旧所以我想知道我的问题是否由于我使用的
如何搜索一列并用找到的内容填充另一列？

我有一个带有虚构人物数据的大熊猫数据框下面是一个小例子每个人都由一个数字定义 import pandas as pd import numpy as np df pd DataFrame Number 5569 3385 9832 64
使用 Poetry 创建的 Python 项目：如何在 Visual Studio Code 中调试它？

我有一个根据基本 Poetry 创建的 Python 项目指示 https python poetry org docs basic usage 项目文件夹是这样的 my project my project my project py F
如何检查给定的数字是否是2的幂？

下面的代码不适用于某些输入 a i set 1 while i lt 10000 a add i i lt lt 1 N int input if N in a print True else print False 我最初的想法是检查每个
Python 模块 BeautifulSoup 提取锚点 href

我正在使用 BeautifulSoup 模块通过以下方式从 html 选择所有 href def extract links html soup BeautifulSoup html anchors soup findAll a print
如何停止 PythonShell

如何终止停止 Node js 中 PythonShell 执行的 Python 脚本的执行我在交互模式下运行输出通过 socket io 发送到给定的房间如果没有更多的客户端连接到这个房间我想停止 python 脚本的执行这是我
Pandas 根据条件替换数据框值

我有一个主数据框 df Colour Item Price Blue Car 40 Red Car 30 Green Truck 50 Green Bike 30 然后我有一个价格修正数据框 df pc Colour Item Price
类型错误：无法连接“str”和“int”对象有人可以帮助新手使用他们的代码吗？

感谢任何帮助还有任何重大缺陷或您在格式或基本方面看到的任何重大缺陷请指出谢谢 day raw input How many days locations raw input Where to days str day location
哈希 freezeset 与排序元组

在 Python 中给定一组可比较的可散列的元素s 散列是否更好frozenset s or tuple sorted s 这取决于你在做什么创建一个更快frozenset 比排序tuple but frozenset占用的内存比tu
在基本 Tensorflow 2.0 中运行简单回归

我正在学习 Tensorflow 2 0 我认为在 Tensorflow 中实现最基本的简单线性回归是一个好主意不幸的是我遇到了几个问题我想知道这里是否有人可以提供帮助考虑以下设置 import tensorflow as tf 2
PySpark DataFrame 上分组数据的 Pandas 式转换

如果我们有一个由一列类别和一列值组成的 Pandas 数据框我们可以通过执行以下操作来删除每个类别中的平均值 df DemeanedValues df groupby Category Values transform lambda g
如何读取多个文件并将它们合并到一个 pandas 数据框中？

我想读取位于同一目录中的多个文件然后将它们合并到一个 pandas 数据框中如果我这样做的话它会起作用 import pandas as pd df1 pd read csv data 12015 csv df2 pd read csv
我应该在哪里对对象和字段进行 django 验证？

我正在创建一个 Django 应用程序它使用 Django Rest Framework 和普通的 django views 作为用户的入口点我想对模型的独立字段以及整个对象进行验证例如字段根据正则表达式函数输入的车牌是否正确与
根据标签位置计算 Pandas DataFrame 的索引

我正在尝试计算标签的索引Pandas https pandas pydata org DataFrame在每一列中基本上我有以下内容DataFrame d col1 label1 label2 label3 col2 label2 lab
混合语言源目录布局

我们正在运行一个使用多种不同语言的大型项目 Java Python PHP SQL 和 Perl 到目前为止人们一直在自己的私有存储库中工作但现在我们希望将整个项目合并到一个存储库中现在的问题是目录结构应该是什么样的我们应该为每种
Docker Python 脚本找不到文件

我已经成功构建了一个 Docker 容器并将应用程序的文件复制到 Dockerfile 中的容器中但是我正在尝试执行引用输入文件在 Docker 构建期间复制到容器中的 Python 脚本我似乎无法弄清楚为什么我的脚本告诉我它无
基于 Web 请求在 Airflow 上运行作业

我想知道是否可以在通过 HTTP 收到请求时执行气流任务我对 Airflow 的调度部分不感兴趣我只是想用它来代替芹菜因此示例操作如下所示用户提交一份表格请求某些报告后端接收请求并向用户发送请求已收到的通知然后后端使用 Ai
处理错误“TypeError: Expected tuple, got str”将 CSV 加载到 pandas 多级和多索引 (pandas)

我正在尝试加载 CSV 文件这个文件 https drive google com file d 13a eVeSzy6HkhffQw32S57U hm5YCj0 view usp sharing 创建一个多索引多级数据帧它有5 五指

随机推荐

PHP 将一个类的实例传递给另一个类

我对 PHP OO 编程技术还是比较陌生我有一个非常简单的广泛问题在类中实例化一个类然后将该实例传递给另一个类通常是不好的做法吗我想要的是能够创建我知道在每个用户请求中始终需要的特定类的实例第二类不仅仅是一个辅助类理想情况下在我的
java：为什么局部变量应该声明为final [重复]

这个问题在这里已经有答案了可能的重复在Java中将方法参数声明为final是否有任何性能原因为什么在 Java 中将局部变量和方法参数标记为 final 我正在使用 PMD 来查看代码违规情况在 webService 方法中我有下
C# 如何检查两个值之一是否为 TRUE？

对于 C 专家来说这应该是一个简单的问题我基本上想检查一个值或另一个值是否为 TRUE 代码如下 if Boolean Parse staff getValue Male Boolean Parse staff getValue Fema
更改 DataGridView 中按钮的颜色

我到处寻找这个问题的答案这篇文章的答案更改 DataGridView 单元格中按钮的颜色没有回答我关于字体的问题我已经尝试过以下方法 DataGridViewRow r dataGridView Rows 0 r Cells 1 St
用于 PHP 的 Microsoft sqlsrv 驱动程序在查询“SELECT SCOPE_IDENTITY() AS id”时不返回任何结果

使用 php mssql 驱动程序此查询工作正常 INSERT INTO Table columnName VALUES text SELECT SCOPE IDENTITY AS id 表确实有一个 id 列它是一个标识我将执行该查
MVC - 模型与同一页面上的多个实体绑定

我想知道如何在从页面上多个实体返回信息的场景中使用模型绑定我想显示来自两个单独实体的字段组合即客户地址我正在为我的模型使用 Microsoft 的 DAAB 和自定义业务实体有任何想法吗如果您尝试在回发时绑定到多个模型则应尝试
如何在 MS SQL Server 2008 上设置日期格式

我想根据模式格式化日期例如 22 01 2015 或 2016 12 15 在 NET Framework 中我们有 DateTime gt ToString 方法它接受格式作为参数甚至接受 string Format 它的作用相同
在 Web 应用程序中处理时区

在我们的网络应用程序中我们需要显示并输入不同时区不同国家的日期时间信息目前我们正在为每个国家地区维护单独的 Web 服务器和单独的数据库 oracle 11g 我们计划将所有内容合并到一个具有单一数据库 Oracle 11g 的门
如何在此 SSRS 表达式中“指定数据集聚合”？

我的 SSRS 报告中需要一个行值该值是根据报告中已使用的几个字段计算得出的我希望它显示在名为 textboxPercentageValue 的文本框中用半简单的英语来说表达式公式是 If the value of the Wee
Android 自定义 ArrayAdapter 在过滤后不刷新

所以我有一个习惯ArrayAdapter所以我可以使用标题副标题视图ListView 我有一个EditText它接受一个字符串并过滤适配器过滤器的工作原理是过滤正确的对象我可以通过单击它来判断它以正确的附加开始意图但是即使过
Javascript：关于如何定义新数据类型有哪些指导原则？

假设您正在创建数据类型并公开其行为您能否举例说明何时使用一个功能和新功能 define new data type var CustomDataType function this a whatever this doX functio
设置内联元素的宽度

您可以设置内联元素的宽度例如 span em and strong 但在放置它们之前您不会注意到任何效果 a 我以为内联元素的宽度不能设置 b 假设可以设置宽度在我们定位内联元素之前我们不会注意到任何效果因此我们指定的宽度位置如何
“撤消”功能的最佳设计模式[重复]

这个问题在这里已经有答案了可能的重复撤消引擎的设计模式一般来说您如何处理应用程序中支持撤消功能的问题我曾经开发过网络应用程序和桌面应用程序但我从来没有真正对我制作的任何撤消系统感到满意我相信应该是Command设计模式
Angular2.js 与 Angular2.dev.js

我想知道之间的差异angular2 js and angular2 dev js 当然还有更多文件例如 router dev js and router js还有我的问题是为什么有两个版本它们之间有什么区别 angular2 dev
Ruby on Rails 使用外键删除固定装置

我在使用使用外键的装置设置测试时遇到问题如果有人能帮助我理解这一点我将不胜感激比方说 user type模型有一个参考 role模型当测试执行时测试数据库中的所有数据都被删除并再次重新插入 Rails 首先从角色模型中删除数据而
在 JS 中访问 Asp.Net Session 变量

我无法访问 js 文件中的变量我在页面顶部的代码是然后我想访问我的 js 文件中的权限我现在只想提醒您这一点我能做到吗 thanks 您必须将会话值存储在隐藏字段中之后您可以在 JS 中访问隐藏的 FieldValue
php中的应用范围

我需要在所有请求之间共享相同的数组对象无论来自同一浏览器用户的请求如何 php 中是否有任何应用程序范围可以存储该数组对象我正在使用 php 5 x 如果您想在每个用户的所有请求中共享它使用会话可能是要走的路如果您想在所有用户的所
从 dict 创建 ORM 对象并添加到会话中

假设我有一个User具有属性的模型id name email和一段关系languages 是否有可能创建一个User来自现有数据的实例其行为就像我查询它一样dbsession query User get 42 我的意思特别是我希望能够访
在 Qt MainWindow 上设置 WA_DeleteOnClose 属性时，删除 ui 指针时程序崩溃

我已经设置了WA DeleteOnClose主窗口中的小部件属性 setAttribute Qt WA DeleteOnClose 但是每当我关闭该主窗口时我都会在其析构函数中遇到段错误该析构函数只包含delete ui 简而言之在
Pandas：将日期范围解压缩为单个日期

Dataset 我有一个 1GB 的股票数据集其中包含日期范围内的值日期范围没有重叠数据集按股票代码开始日期排序 gt gt gt df head start date end date val ticker AAPL 2014

Pandas：将日期范围解压缩为单个日期

Pandas：将日期范围解压缩为单个日期 的相关文章

随机推荐

热门标签

Pandas：将日期范围解压缩为单个日期的相关文章