如何使用Python和Pandas在时间翻转时添加24小时

2024-04-26

我必须分析一些日志，并基于此，我必须计算一些东西，但我坚持了一件事。在这里，我尝试以简单的形式重新创建我的问题。假设我有以下日志“堆栈溢出.txt" file

23:58:03.458
23:58:13.446
23:58:23.447
23:58:33.440
23:58:43.440
23:58:53.440
23:59:03.434
23:59:13.435
23:59:23.428
23:59:33.428
23:59:43.429
23:59:53.435
00:00:03.429
00:00:13.423
00:00:23.417
00:00:33.411
00:00:43.418
00:00:53.411
00:01:03.405
00:01:13.406
00:01:23.400
00:01:33.406
00:01:43.400
00:01:53.411
00:02:03.400
00:02:13.406
00:02:23.394
00:02:33.400
00:02:43.394

我使用了下面的Python程序，将这个时间转换成毫秒。

import pandas as pd
df = pd.read_csv("stackoverflow.txt", header=None)
# Split Time String into Hour Minutes Seconds and Milliseconds
new_df = df[0].str.split(":", n=-1, expand=True)
df['Hours'] = new_df[0]
df['Minutes'] = new_df[1]
# Split Seconds.Milliseconds information into Seconds and Milliseconds separately
new_df = new_df[2].str.split(".", n=-1, expand=True)
df['Seconds'] = new_df[0]
df['Milliseconds'] = new_df[1]
# These generated data frames are string, convert them into Integers
# df['Hours'] = df['Hours'].apply(lambda x: int(x,10)) 
# Another way of doing, good thing is that both are consuming same amount of time, checked using %time
df['Hours'] = pd.to_numeric(df['Hours'], errors='coerce')
df['Minutes'] = pd.to_numeric(df['Minutes'], errors='coerce')
df['Seconds'] = pd.to_numeric(df['Seconds'], errors='coerce')
df['Milliseconds'] = pd.to_numeric(df['Milliseconds'], errors='coerce')
# Calculate Total Time
df['Total Time(ms)'] = df['Hours']*3600000 + df['Minutes']*60000 + df['Seconds']*1000 + df['Milliseconds']
df

输出如下：

0   Hours   Minutes Seconds Milliseconds    Total Time(ms)
0   23:58:03.458    23  58  3   458 86283458
1   23:58:13.446    23  58  13  446 86293446
2   23:58:23.447    23  58  23  447 86303447
3   23:58:33.440    23  58  33  440 86313440
4   23:58:43.440    23  58  43  440 86323440
5   23:58:53.440    23  58  53  440 86333440
6   23:59:03.434    23  59  3   434 86343434
7   23:59:13.435    23  59  13  435 86353435
8   23:59:23.428    23  59  23  428 86363428
9   23:59:33.428    23  59  33  428 86373428
10  23:59:43.429    23  59  43  429 86383429
11  23:59:53.435    23  59  53  435 86393435
12  00:00:03.429    0   0   3   429 3429
13  00:00:13.423    0   0   13  423 13423
14  00:00:23.417    0   0   23  417 23417
15  00:00:33.411    0   0   33  411 33411
16  00:00:43.418    0   0   43  418 43418
17  00:00:53.411    0   0   53  411 53411
18  00:01:03.405    0   1   3   405 63405
19  00:01:13.406    0   1   13  406 73406
20  00:01:23.400    0   1   23  400 83400
21  00:01:33.406    0   1   33  406 93406
22  00:01:43.400    0   1   43  400 103400
23  00:01:53.411    0   1   53  411 113411
24  00:02:03.400    0   2   3   400 123400
25  00:02:13.406    0   2   13  406 133406
26  00:02:23.394    0   2   23  394 143394
27  00:02:33.400    0   2   33  400 153400
28  00:02:43.394    0   2   43  394 163394

但每当一天从 23:59 到 00:00 发生变化时，我想添加 24 小时。我无法理解，我将如何做到这一点。有人可以帮助我实现这一目标吗？

我建议与Timedelta http://pandas.pydata.org/pandas-docs/stable/user_guide/timedeltas.htmls:

df = pd.read_csv("stackoverflow.txt", header=None)

首先将列转换为to_timedelta http://pandas.pydata.org/pandas-docs/stable/generated/pandas.to_timedelta.html，然后求差值，比较Timedelta(0)并为下一行添加pd.Timedelta(24, 'h').

td = pd.to_timedelta(df[0])
df['new'] = td.mask(td.diff().lt(pd.Timedelta(0)).cumsum().gt(0), td + pd.Timedelta(1, 'days'))
df['newint'] = (df['new'].dt.total_seconds() * 1000).astype(int)

print (df)
               0                    new    newint
0   23:58:03.458 0 days 23:58:03.458000  86283458
1   23:58:13.446 0 days 23:58:13.446000  86293446
2   23:58:23.447 0 days 23:58:23.447000  86303447
3   23:58:33.440 0 days 23:58:33.440000  86313440
4   23:58:43.440 0 days 23:58:43.440000  86323440
5   23:58:53.440 0 days 23:58:53.440000  86333440
6   23:59:03.434 0 days 23:59:03.434000  86343434
7   23:59:13.435 0 days 23:59:13.435000  86353435
8   23:59:23.428 0 days 23:59:23.428000  86363428
9   23:59:33.428 0 days 23:59:33.428000  86373428
10  23:59:43.429 0 days 23:59:43.429000  86383429
11  23:59:53.435 0 days 23:59:53.435000  86393435
12  00:00:03.429 1 days 00:00:03.429000  86403429
13  00:00:13.423 1 days 00:00:13.423000  86413423
14  00:00:23.417 1 days 00:00:23.417000  86423417
15  00:00:33.411 1 days 00:00:33.411000  86433411
16  00:00:43.418 1 days 00:00:43.418000  86443418
17  00:00:53.411 1 days 00:00:53.411000  86453411
18  00:01:03.405 1 days 00:01:03.405000  86463405
19  00:01:13.406 1 days 00:01:13.406000  86473406
20  00:01:23.400 1 days 00:01:23.400000  86483400
21  00:01:33.406 1 days 00:01:33.406000  86493406
22  00:01:43.400 1 days 00:01:43.400000  86503400
23  00:01:53.411 1 days 00:01:53.411000  86513411
24  00:02:03.400 1 days 00:02:03.400000  86523400
25  00:02:13.406 1 days 00:02:13.406000  86533406
26  00:02:23.394 1 days 00:02:23.394000  86543394
27  00:02:33.400 1 days 00:02:33.400000  86553400
28  00:02:43.394 1 days 00:02:43.394000  86563394

解决方案是数据多天 - 因此对于第一次更改添加 1 天，接下来的 2 天......

创建差异，添加累积和并将输出转换为日时间增量，即添加到原始数据中的内容：

print (df)
               0
0   23:59:23.428
1   23:59:33.428
2   23:59:43.429
3   23:59:53.435
4   00:00:03.429
5   00:00:13.423
6   00:00:23.417
7   00:00:33.411
8   23:59:23.428
9   23:59:33.428
10  23:59:43.429
11  23:59:53.435
12  00:00:03.429
13  00:00:13.423
14  00:00:23.417
15  00:00:33.411

td = pd.to_timedelta(df[0])
days = pd.to_timedelta(td.diff().lt(pd.Timedelta(0)).cumsum(), unit='d')

df['new'] = td + days
df['newint'] = (df['new'].dt.total_seconds() * 1000).astype(int)
print (df)
               0                    new     newint
0   23:59:23.428 0 days 23:59:23.428000   86363428
1   23:59:33.428 0 days 23:59:33.428000   86373428
2   23:59:43.429 0 days 23:59:43.429000   86383429
3   23:59:53.435 0 days 23:59:53.435000   86393435
4   00:00:03.429 1 days 00:00:03.429000   86403429
5   00:00:13.423 1 days 00:00:13.423000   86413423
6   00:00:23.417 1 days 00:00:23.417000   86423417
7   00:00:33.411 1 days 00:00:33.411000   86433411
8   23:59:23.428 1 days 23:59:23.428000  172763428
9   23:59:33.428 1 days 23:59:33.428000  172773428
10  23:59:43.429 1 days 23:59:43.429000  172783429
11  23:59:53.435 1 days 23:59:53.435000  172793435
12  00:00:03.429 2 days 00:00:03.429000  172803429
13  00:00:13.423 2 days 00:00:13.423000  172813423
14  00:00:23.417 2 days 00:00:23.417000  172823417
15  00:00:33.411 2 days 00:00:33.411000  172833411

EDIT:

天数解释：

首先得到差异diff http://pandas.pydata.org/pandas-docs/stable/generated/pandas.Series.diff.html:

print (td.diff())
0                         NaT
1                    00:00:10
2             00:00:10.001000
3             00:00:10.006000
4    -1 days +00:00:09.994000
5             00:00:09.994000
6             00:00:09.994000
7             00:00:09.994000
8             23:58:50.017000
9                    00:00:10
10            00:00:10.001000
11            00:00:10.006000
12   -1 days +00:00:09.994000
13            00:00:09.994000
14            00:00:09.994000
15            00:00:09.994000
Name: 0, dtype: timedelta64[ns]

然后比较通过lt http://pandas.pydata.org/pandas-docs/stable/generated/pandas.Series.lt.html (<) 对于负 Timedeltas：

print (td.diff().lt(pd.Timedelta(0)))
0     False
1     False
2     False
3     False
4      True
5     False
6     False
7     False
8     False
9     False
10    False
11    False
12     True
13    False
14    False
15    False
Name: 0, dtype: bool

获取累计总和cumsum http://pandas.pydata.org/pandas-docs/stable/generated/pandas.Series.cumsum.html:

print (td.diff().lt(pd.Timedelta(0)).cumsum())
0     0
1     0
2     0
3     0
4     1
5     1
6     1
7     1
8     1
9     1
10    1
11    1
12    2
13    2
14    2
15    2
Name: 0, dtype: int32

最后转换为天数 timedeltas：

days = pd.to_timedelta(td.diff().lt(pd.Timedelta(0)).cumsum(), unit='d')

print (days)
0    0 days
1    0 days
2    0 days
3    0 days
4    1 days
5    1 days
6    1 days
7    1 days
8    1 days
9    1 days
10   1 days
11   1 days
12   2 days
13   2 days
14   2 days
15   2 days
Name: 0, dtype: timedelta64[ns]

EDIT:

您的解决方案中可以使用相同的IDE：

...
df['Total Time(ms)'] = df['Hours']*3600000 + df['Minutes']*60000 + 
                       df['Seconds']*1000 + df['Milliseconds']

s = df['Total Time(ms)'].diff().lt(0).cumsum() * 24 * 60 * 60 * 1000
df['newint'] = s + df['Total Time(ms)']

print (df)
               0  Hours  Minutes  Seconds  Milliseconds  Total Time(ms)  \
0   23:59:23.428     23       59       23           428        86363428   
1   23:59:33.428     23       59       33           428        86373428   
2   23:59:43.429     23       59       43           429        86383429   
3   23:59:53.435     23       59       53           435        86393435   
4   00:00:03.429      0        0        3           429            3429   
5   00:00:13.423      0        0       13           423           13423   
6   00:00:23.417      0        0       23           417           23417   
7   00:00:33.411      0        0       33           411           33411   
8   23:59:23.428     23       59       23           428        86363428   
9   23:59:33.428     23       59       33           428        86373428   
10  23:59:43.429     23       59       43           429        86383429   
11  23:59:53.435     23       59       53           435        86393435   
12  00:00:03.429      0        0        3           429            3429   
13  00:00:13.423      0        0       13           423           13423   
14  00:00:23.417      0        0       23           417           23417   
15  00:00:33.411      0        0       33           411           33411   

       newint  
0    86363428  
1    86373428  
2    86383429  
3    86393435  
4    86403429  
5    86413423  
6    86423417  
7    86433411  
8   172763428  
9   172773428  
10  172783429  
11  172793435  
12  172803429  
13  172813423  
14  172823417  
15  172833411

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

pandas

如何使用Python和Pandas在时间翻转时添加24小时的相关文章

Python数据框将列表列分解为多行[重复]

这个问题在这里已经有答案了我有一个像这样的数据框 desc id info a b c 2 type u v w 18 tail 三列 desc id info desc 是一个列表我想要这个 des id info a 2 type
通过pip安装lxml时出错：需要Microsoft Visual C++ 14.0

我使用的是 Windows 10 机器最近从 python 2 7 迁移到 3 5 当尝试通过 pip 安装 lxml 时它会停止并抛出此错误消息构建 lxml etree 扩展错误需要 Microsoft Visual C 14
在Python子目录中创建文件？

在我的 Python 脚本中我需要在子目录中创建一个新文件而不更改目录并且需要从当前目录不断编辑该文件 My code os mkdir datetime dst for ip in open list txt with open ip
Python：合并嵌套列表

初学者在这里我有 2 个要合并的嵌套列表 list1 a b c d e f g h list2 p q r s t u v w 我正在寻找的输出是 list3 a p q b c r s d e t f g h u v w 这可以在没有
使用分组的多列熊猫绘制堆积条形图

我有两个数据框我需要获取它们之间的差异然后在该差异之上绘制其中一个数据框这是一个最小的例子 import pandas as pd import matplotlib pyplot as plt df1 pd DataFrame 2
使用数据库数据模型生成 SQLAlchemy 模型、架构和 JSON 响应

将 Flask 和 SQLAlchemy 用于 Python Web 应用程序我的目标是创建一个系统在其中我可以从现有 PostgreSQL 数据库导入数据模型并将它们映射到相应 SQLAlchemy 模型中的字段使用这些 SQL
如何读取 10 位原始图像？其中包含 RGB-IR 数据

我想知道如何从我的 10 位原始它有 rgb ir 图像数据数据中提取 RGB 图像如何使用 Python 或 MATLAB 进行阅读拍摄时的相机分辨率为 1280x720 室内照片图片下载 https drive google c
Django 1.7.1 需要字段的默认值 - 但数据库中没有条目。为什么？

我遇到了一个奇怪的问题我在 Mac OS X Yosemite 上使用 Django 1 7 1 并且配置了本地 MySQL 数据库通常我创建一个模型如果我想添加另一个字段我只需做一个 manage py migrateDjang
在pycharm中使用多处理时如何调试

我正在 pycharm 社区版中使用 anaconda2 调试多进程程序它有几个后台工作进程工作进程将检查输入队列以检索任务而不会休眠直到收到任务事实上我只对主要流程感兴趣但是pycharm调试器总是单步进入子进程看起来主进
Pandas 数据框列总和并收集结果

给定以下数据框 import pandas as pd p1 name willy age 11 interest Lego p2 name willy age 11 interest games p3 name zoe age 9 int
Python：从字符串访问变量[重复]

这个问题在这里已经有答案了这可能是非常基本和简单的事情我可能只是在谷歌上搜索错误的术语但希望这里有人可以帮助我我仍然是编程的初学者这从这个问题中可能是显而易见的我正在寻找一种从字符串访问变量的方法像这样 A1 B1 C1 my
是否可以将 SpaCy 安装到 Raspberry Pi 4 Raspbian Buster

我一整天都在安装 SpaCy sudo pip install U spacy Looking in indexes https pypi org simple https www piwheels org simple Collectin
python 中打印变量和字符串

好吧我知道如何打印变量和字符串但是我如何打印类似我的字符串 card price 的内容它是我的变量我的意思是这是我的代码 print I have and here I would like to print my varia
matplotlib 轴标签偏移量的因素和变化

在 matplotlib 中的轴刻度标签上有两种可能的偏移量 factors and shifts 在右下角 1e 8 是一个因子 1 441249698e1 是一个移位这里有很多答案展示了如何操纵两个都 matplotlib 将轴
当前异常上下文掩盖了先前的错误

以下是我在 Doug Hellman 网站上名为 masking exceptions catch py 的文件中找到的示例我暂时无法找到链接 throws 中引发的异常将被丢弃而 cleanup 中引发的异常将被报告道格在他的文章中
第 100 次避免循环导入

Summary 我继续有一个ImportError在一个复杂的项目中我已经将其蒸馏到仍然会出现错误的最低限度 Example 巫师有装有绿色和棕色药水的容器这些可以添加在一起产生同样是绿色或棕色的新药水我们有一个PotionABC
如何按分层类别结构中的值对 pandas 中的数据框进行排序

我有一个 pandas 数据框 pd DataFrame category Transport Transport Car Transport Train Household Household Utilities Household Ut
如何从已安装的云端硬盘文件夹中永久删除？

我编写了一个脚本在每次迭代后将我的模型和训练示例上传到 Google Drive 以防发生崩溃或任何阻止笔记本运行的情况如下所示 drive path drive My Drive Colab Notebooks models if p
在 python 中使用 org.mpris.mediaplayer2.player PlaybackStatus 属性

The 规格页 http specifications freedesktop org mpris spec latest Player Interface html summary对于这个特定的接口说 PlaybackStatus s P
无法比较类型“ndarray(dtype=int64)”和“str”

Example of data that I want to replace 数据具有以下属性购买 V 高高中低维持 V 高高中低门 2 3 4 5 更多 2 4人以上 lug boot 小中大安全性低中高这就是

随机推荐

我可以让部分 Google Apps 脚本代码以我的身份执行，而其余部分以访问用户的身份执行吗？

我有一个应用程序脚本 Web 应用程序可以写入融合表以及定期缓存的一些电子表格我不想向同事提供对融合表的编辑访问权限他们可以根据自己的需要编辑条目目前 Web 应用程序以用户身份执行适用于我组织内的任何人这就是目的但是我希
如何让用户会话持续24小时？

我搞乱了我的 apache 和 php ini 文件我的网站的用户仍然抱怨网站在很短的时间后或每次关闭并打开同一个浏览器时都会将他们注销我正在运行 Apache 和 PHP 我应该进行哪些设置才能使用户会话持续 24 小时这样他们就不
类型推导后函数模板中的替换顺序是否有保证？

考虑这个函数模板 template
如何在 Angular Reactive 表单中根据条件以动态方式显示/隐藏字段

我的场景是我有 3 个用户 1 admin将有 3 个字段电子邮件名字姓氏 2 雇员将有 4 个字段电子邮件名字姓氏联系人 3 前台将有 5 个字段电子邮件名字姓氏航空公司详细信息供应商人名堆栈闪电战链接 https
是否可以使用 UINavigationController 但隐藏其导航栏（用自定义工具栏替换它）和返回按钮

我希望使用 UINavigationController 在 2 个 UIViewController 之间切换 AUIViewController BUIViewController与UIView AView BView相关 AView
如何追加到 Swift 字典中的值数组

假设我有一个字典它接受字符串作为键和数组作为值 var d String Int d k Int 现在我想append 到下面的数组 k 我怎么做 Int d k append 1 error d k as Int append 1 er
如何循环遍历列表并删除 groovy 中的项目？

我试图弄清楚如何从循环内的 groovy 列表中删除项目 static main args def list1 1 2 3 4 for num in list1 if num 2 list1 remove num println list1
小型开发团队的 Git 分支策略 [关闭]

Closed 这个问题是基于意见的 help closed questions 目前不接受答案我们有一个网络应用程序几乎每天都会更新和发布我们使用 git 作为我们的版本控制系统我们当前的分支策略非常简单且不完善我们有一个主分支
扩大 x 轴上刻度线之间的间距

我想扩大 R 中 x 轴刻度线之间的间距我在 x 轴上有年份c 2005 2012 y 轴上每年一个值说 A lt c 5 4 6 7 3 8 4 2 B lt c 2005 2012 plot B A type l 我现在需要扩大每个
对象Vba读取项目

我无法读取电影对象我不知道为什么我试图将 JSOn API 返回到 Excel 中的工作表但我无法读取电影对象 Sub getData Dim Movie As Object Dim R As Object Dim scriptCon
检查 datagridview 单元格是否为空或为空[重复]

这个问题在这里已经有答案了我必须更改单元格的背景颜色当它们的值为字符串或空时这是我编写的代码与此处的其他代码类似 for int rowIndex 0 rowIndex lt dataGridView1 RowCount rowIn
如何从Python字符串中提取国家/地区

我有一些文本其中可能包含也可能不包含国家地区名称例如尼日利亚 Hotspot Network LTD 农村电话可行性研究这就是我从中提取国家地区名称的方法在我的第一次尝试中 findcountry Nigeria Hotspo
kubernetes POD IP什么时候会改变？

我正在尝试将一个整体应用程序移植到 k8s pod 理论上 Pod 被认为是短暂的建议使用服务概念来提供静态 IP 但到目前为止在我的测试中我还没有看到 POD IP 被更改那么现在的问题是 k8s 什么时候会为我的 POD 分配一
如何在 ubuntu 20 中安装旧版本的 gcc -3 或 gcc-4

我正在尝试安装旧版本的 gcc 4enter code here对于我的ubuntu创建构建目录 mkdir gcc build cd gcc build 下载源文件 wgethttp www netgull com gcc release
使用 Google 翻译翻译整个 Google 表格

我有一张用日语写的 Google 表格我需要将其转换成英文我知道我们可以使用googletranslate
SSIS 与 DTS 性能

这么晚了才这么做似乎很疯狂但是我正在使用 Rocket Software UniVerse 源和 SQL 目标重建一些 ETL 基础设施旧的目标平台是 Windows Server 2003 上的 SQL 2000 新平台是 Wind
如何检查一个点是否在给定半径内？

我有以下代码需要很长时间才能执行 pandas 数据框df and df plants非常小小于 1Mb 我想知道是否有任何方法可以优化这段代码 import pandas as pd import geopy distance imp
如何在 Ruby 中获取从位置 N 到最后一个字符的子字符串？

我想从字符串中获取从位置 N 到字符串末尾的子字符串在 Ruby 中如何做到这一点只需将字符串切片即可 string N 1
简单版jQuery live函数

是否有可能在任何地方获得一个纯 Javascript 函数用于事件处理程序其功能与 jQuery 类似live 我需要能够将事件附加到尚未创建的对象但由于依赖于 jQuery 核心 jquery livequery 和 jquery e
如何使用Python和Pandas在时间翻转时添加24小时

我必须分析一些日志并基于此我必须计算一些东西但我坚持了一件事在这里我尝试以简单的形式重新创建我的问题假设我有以下日志堆栈溢出 txt file 23 58 03 458 23 58 13 446 23 58 23 447 23

如何使用Python和Pandas在时间翻转时添加24小时

如何使用Python和Pandas在时间翻转时添加24小时 的相关文章

随机推荐

热门标签

如何使用Python和Pandas在时间翻转时添加24小时的相关文章