按日期对 pandas df 中的组进行排序和排名

2024-02-10

从以下类型的数据框中，我希望能够对id日期字段：

df = pd.DataFrame({
'id':[1, 1, 2, 3, 3, 4, 5, 6,6,6,7,7], 
'value':[.01, .4, .2, .3, .11, .21, .4, .01, 3, .5, .8, .9],
'date':['10/01/2017 15:45:00','05/01/2017 15:56:00',
        '11/01/2017 15:22:00','06/01/2017 11:02:00','05/01/2017 09:37:00',
        '05/01/2017 09:55:00','05/01/2017 10:08:00','03/02/2017 08:55:00',
        '03/02/2017 09:15:00','03/02/2017 09:31:00','09/01/2017 15:42:00',
        '19/01/2017 16:34:00']})

有效排名或索引，每id，基于日期。

我用过

df.groupby('id')['date'].min()

这允许我提取第一个日期（虽然我不知道如何使用它来过滤掉行），但我可能并不总是需要第一个日期 - 有时它会是第二个或第三个日期，所以我需要生成一个新的列，带有日期索引 - 结果将如下所示：

关于这种排序/排名/标签有什么想法吗？

EDIT

我最初的模型忽略了一个非常普遍的问题。

由于可能有一些id并行执行多个测试，因此它们显示在数据库中的多行中，并具有匹配的日期（date对应于它们被记录的时间）。这些应该被算作相同的日期，而不是增加 date_rank：我已经生成了一个模型，并更新了date_rank演示这看起来如何：

df = pd.DataFrame({
'id':[1, 1, 1, 2, 2, 3, 3, 3, 4, 4, 5, 5, 6,6,6,7,7], 
'value':[.01, .4, .5, .7, .77, .1,.2, 0.3, .11, .21, .4, .01, 3, .5, .8, .9, .1],
'date':['10/01/2017 15:45:00','10/01/2017 15:45:00','05/01/2017 15:56:00',
        '11/01/2017 15:22:00','11/01/2017 15:22:00','06/01/2017 11:02:00','05/01/2017 09:37:00','05/01/2017 09:37:00','05/01/2017 09:55:00',
        '05/01/2017 09:55:00','05/01/2017 10:08:00','05/01/2017 10:09:00','03/02/2017 08:55:00',
        '03/02/2017 09:15:00','03/02/2017 09:31:00','09/01/2017 15:42:00',
        '19/01/2017 16:34:00']})

计数器可以承受这个：

您可以尝试按降序对日期值进行排序并聚合“id”组值

@praveen的逻辑非常简单，通过扩展逻辑，您可以使用类别的astype将值转换为类别，并可以检索该类别的代码（键'），但它与您的预期输出有点不同

df1 = df.sort_values(['id', 'date'], ascending=[True, False])
df1['date_rank'] =df1.groupby(['id']).apply(lambda x: x['date'].astype('category',ordered=False).cat.codes+1).values

Out:

                 date   id  value   date_rank
0   10/01/2017 15:45:00 1   0.01    2
1   10/01/2017 15:45:00 1   0.40    2
2   05/01/2017 15:56:00 1   0.50    1
3   11/01/2017 15:22:00 2   0.70    1
4   11/01/2017 15:22:00 2   0.77    1
5   06/01/2017 11:02:00 3   0.10    2
6   05/01/2017 09:37:00 3   0.20    1
7   05/01/2017 09:37:00 3   0.30    1
8   05/01/2017 09:55:00 4   0.11    1
9   05/01/2017 09:55:00 4   0.21    1
11  05/01/2017 10:09:00 5   0.01    2
10  05/01/2017 10:08:00 5   0.40    1
14  03/02/2017 09:31:00 6   0.80    3
13  03/02/2017 09:15:00 6   0.50    2
12  03/02/2017 08:55:00 6   3.00    1
16  19/01/2017 16:34:00 7   0.10    2
15  09/01/2017 15:42:00 7   0.90    1

但为了获得准确的输出，这里我使用了字典和反转字典键来提取值

df1 = df.sort_values(['id', 'date'], ascending=[True, False])
df1['date_rank'] = df1.groupby(['id'])['date'].transform(lambda x: list(map(lambda y: dict(map(reversed, dict(enumerate(x.unique())).items()))[y]+1,x)) )

Out:

                date    id  value   date_rank
0   10/01/2017 15:45:00 1   0.01    1
1   10/01/2017 15:45:00 1   0.40    1
2   05/01/2017 15:56:00 1   0.50    2
3   11/01/2017 15:22:00 2   0.70    1
4   11/01/2017 15:22:00 2   0.77    1
5   06/01/2017 11:02:00 3   0.10    1
6   05/01/2017 09:37:00 3   0.20    2
7   05/01/2017 09:37:00 3   0.30    2
8   05/01/2017 09:55:00 4   0.11    1
9   05/01/2017 09:55:00 4   0.21    1
11  05/01/2017 10:09:00 5   0.01    1
10  05/01/2017 10:08:00 5   0.40    2
14  03/02/2017 09:31:00 6   0.80    1
13  03/02/2017 09:15:00 6   0.50    2
12  03/02/2017 08:55:00 6   3.00    3
16  19/01/2017 16:34:00 7   0.10    1
15  09/01/2017 15:42:00 7   0.90    2

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

pandas

Sorting

groupby

ranking

按日期对 pandas df 中的组进行排序和排名的相关文章

c++11 正则表达式比 python 慢

嗨我想了解为什么以下代码使用正则表达式进行分割字符串分割 include
将 geojson 文件下载到 jupyter 中的 folium 中

我想要一张欧洲地图作为 json 文件这样我就可以使用 geojson 将其作为图层放置在 Folium 地图上这样我就可以将我的数据集嵌入到其中以显示欧洲哪个国家的酒精含量最高我在从 GitHub 获取 json 文件以在 jy
使用 Python 将列名称与 CSV 文件中的数据对齐

这是我用来将数据写入 csv 文件的代码 with open temp csv a as fp a csv writer fp delimiter t data faceXpos faceYpos faceHeight faceWidth
Python 正则表达式从文本中提取域

我有以下正则表达式 r a zA Z0 9 a zA Z0 9 61 a zA Z0 9 a zA Z 2 6 当我将其应用于文本字符串时比方说这是 www website1 com 这是 website2 com 我得到 www we
以编程方式结束/退出粘合作业

我正在使用 Glue 书签来处理数据我的工作是每天安排的但也可以手动启动由于我使用书签有时胶水作业可以在没有新数据要处理的情况下启动然后读取的数据帧为空在这种情况下我想好好地结束我的工作因为它没有什么关系我试过 if
使用 scipy、python、numpy 进行非线性 e^(-x) 回归

下面的代码为我提供了一条最佳拟合线的平坦线而不是沿着 e x 模型的一条适合数据的漂亮曲线谁能告诉我如何修复下面的代码以使其适合我的数据 import numpy as np import matplotlib pyplot as pl
在 Python 中倾斜数组

我有一个 2D 数组我将使用它保存为灰度图像scipy misc toimage 在此之前我想将图像倾斜给定角度像这样进行插值scipy ndimage interpolation rotate 上图只是为了说明倾斜过程我知道我必须
我可以在pycharm中的断点处进入交互模式吗

我是一个相当新的 Pycharm 3 用户正在从事 django 项目我可以在 pycharm3 中的断点处进入交互模式吗这可能吗当程序在断点处停止时我尝试过工具 gt 打开调试命令行但我没有看到控制台打开我怎样才能让它发挥作
pandas groupby 并转换为 json 列表

我有一个如下所示的 pandas 数据框 idx f1 f2 f3 1 a a b 2 b a c 3 a b c 87 e e e 我需要将其他列转换为基于索引列的字典列表所以最终结果应该是 idx features 1 f1 a f
如何找到查询结果的大小

我在 Rails 中有以下查询 records Record select y id source where source gt source y id gt y id group y id source having count 1 如
NumPy 根据另一个数组中的值对第三个数组中的每个匹配元素求和一个数组

我有两个 numpy 数组一个包含值另一个包含每个值类别 values np array 1 2 3 4 5 6 7 8 9 10 valcats np array 101 301 201 201 102 302 302 202 102
如何在 FastAPI Swagger API 中按方法类型对方法进行排序？

如何在 FastAPI Swagger 自动文档中设置 API 方法的排序顺序我希望所有方法按类型分组 GET POST PUT DELETE 这个答案 https stackoverflow com questions 24951268
Python：两个列表之间的成对比较：列表 a >= 列表 b？

如果我想检查列表中的所有元素 a 1 2 3 6 大于或等于另一个列表中对应的元素 b 0 2 3 5 如果 a i gt b i 对于所有i的则返回 true 否则返回 false 这有逻辑功能吗比如a gt b 谢谢你可以这样做
如果任何单元测试失败，如何使 Python 的覆盖率工具失败？

我想使用 shell 脚本来确保我的单元测试通过and我的代码有足够的测试覆盖率我只想运行我的测试代码once 我希望我可以通过coverage https coverage readthedocs io 工具和单次运行的工具如果一项或
AppEngine 警告 - OpenBLAS 警告 - 无法确定该系统上的 L2 缓存大小

我尝试在 GC AppEngine 上部署应用程序部署过程中没有错误但应用程序无法运行仅显示加载页面日志中唯一一个奇怪的原始日志 OpenBLAS WARNING could not determine the L2 cache s
使用 Celery 通过 Gevent 进行实时、同步的外部 API 查询

我正在开发一个 Web 应用程序该应用程序将接收用户的请求并且必须调用许多外部 API 来编写对该请求的答案这可以直接从主 Web 线程使用 gevent 之类的东西来扇出请求来完成或者我在想我可以将传入的请求放入队列中并使用
Tensorflow `tf.layers.batch_normalization` 不会向 `tf.GraphKeys.UPDATE_OPS` 添加更新操作

以下代码复制粘贴可运行说明了如何使用tf layers batch normalization import tensorflow as tf bn tf layers batch normalization tf constant
如何将 Django 数据库中的模板标签解释/渲染为 HTML

我正在尝试添加带有来自 Django 管理站点的图像的帖子但安全自动转义关闭过滤器无法解释 Django 的模板标签 My input and page look like 复制图像地址给出http 127 0 0 1 8000 7B
如何通过异常值检测方法在周期性或基于序列的数据上生成脉冲作为异常值以进行实验？

我想对一些时间序列数据进行一些实验KM https scikit learn org stable auto examples cluster plot cluster iris html sphx glr auto examples cl
Pandas 数据框可对多列和要列出的值进行字典

我有一个数据框 id key a1 1 a2 1 a3 1 a4 2 a5 2 a6 3 我想创建一本字典key作为机器号并且id列作为列表 like 1 a1 a2 a3 2 a4 a5 3 a6 我可以先使用 groupby 然后再使

随机推荐

Coldfusion 10 returnformat =“JSON”添加字符

我有一个正在从 CF8 转换为 CF10 的应用程序而我的一些远程 CFC 返回的数据应该是 JSON 现在失败了因为返回的数据前面似乎有一个例如这是返回结构的输出 SUCCESS true ERRORS DATA COLUMNS
如何使用 Axios NPM 库执行带有 XML SOAP 参数的 GET 请求？

Axios 允许您使用查询和参数运行 GET 查询有没有办法将 XML SOAP 参数传递到 Axios 请求中 await Axios get url params xmls Is it this data xmls Is it thi
如何从测试覆盖率中排除 Dagger2 类

是否有任何选项可以从 Android Studio 的测试覆盖率报告中排除 Dagger2 类 JaCoCo 排除如果您使用 JaCoCo 例如使用 android 仪器连接测试您需要配置excludes 或包括根据文档 http w
Meteor：将图像从 url 保存到 AWS S3 存储

我正在尝试在服务器端通过其网址从网络获取图像即http www skrenta com images stackoverflow jpg http www skrenta com images stackoverflow jpg 并使用
无法取消对 EJB 的 @Asynchronous 调用

在这个最简单的例子中我做错了什么 Glassfish 4 0 b87 Eclipse 开普勒 m6 我自己 java package com example cancelbug import java util concurrent Exe
Three.js - 对象跟随鼠标位置

我正在创建一个球体Three js每当鼠标移动时它都必须跟随鼠标如图所示这个例子 https stemkoski github io Three js Mouse Sprite html 处理鼠标移动的函数如下 function onMo
无法复制到 Windows 10 上的 Windows 容器（“docker cp”）

我在笔记本电脑上设置了适用于 Windows 的 Docker 然后从Linux容器 to Windows容器在 Docker 的设置中这会提示几次重新启动和 Windows 更新我提取了一个图像并使用以下命令运行基于它的容器 dock
在具有不同根相对路径的代理后面运行 ASP.NET MVC 应用程序

我在代理后面运行的 ASP NET MVC 应用程序中遇到路径问题我们的 IIS 应用程序根路径是例如http 服务器 MyApp http server MyApp 意味着使用应用程序根目录的所有 url Url Action MyAc
实体框架 - 附加实体 - 附加导航属性？

我有以下通用代码来更新断开连接的实体 public T UpdateItem T entity this dbSet Attach entity this dbContext Entry entity State System Data E
如何让 Install4j 对所有内容进行签名？

如何更改 Mac OS X 上 install4j 的协同签名对哪些文件进行签名具体来说我的应用程序的所有文件包括其 jar 文件都没有经过签名这完全违背了代码签名的目的所以我想解决这个问题我也想在 Windows 上做同样
SymPy 中的非顺序替换

我正在尝试使用 SymPy 1 同时替换表达式中的多个术语我尝试使用字典作为参数的 subs 函数 2 但发现它是按顺序替换的 In a subs a b b c Out c 问题是第一次替换产生的术语可以被第二次替换所替换但它不应该
Microsoft.Build.BuildEngine.Engine 在构建 WPF 应用程序时抛出错误

我正在使用 Microsoft Build BuildEngine Engine 构建 WPF 应用程序这对于类库和 Web 应用程序来说已经成功运行但现在尝试使用它来构建 WPF 应用程序时我收到以下错误目标标记CompilePa
powershell 文件名唯一部分列表

我有多台机器将文件上传到一个 FTP 目录文件名的第一部分是机器其余部分是时间戳例如AAAAA 20130312 125113 现在我想获取已上传到此目录的所有唯一计算机的排序列表我设法将丢失的所有 filenames substr
使用 adb 向 Android 手机发出捏合/捏合命令

到目前为止我可以使用 adb 命令点击滑动解锁安装卸载和启动应用程序但无法找到如何使用 adb 命令执行放大缩小我已经获得了捏入捏出的坐标但不知道如何使用终端的 adb 命令来触发它们例如我们有命令 gt adb s
如何为本地Rails项目设置Postgres数据库？

我最近买了一台新机器现在想在 Github 上处理我的项目我很好奇如何在本地计算机上正确设置 Postgres 数据库我有postgresql pgadmin3 and libpq dev安装在 Ubuntu 12 04 上我拉下项
大量 iTunes Connect 抓取

我正在研究从 iTunes Connect 网站获取销售报告和其他数据的不同选项由于Apple不提供API 所以我找到的所有解决方案都是基于抓取页面由于我需要我们提供的产品的信息因此我不太乐意将所有 iTunes 帐户提供给第三方服务
Spring Boot 多个端口？

如何让 Spring Boot Web 应用程序在多个端口上运行例如8080和80我怎样才能做到这一点应用程序属性 server port 8080 80 您可以添加侦听器而不是运行多个应用程序例如如果您使用 undertow C
Firebase“抛出新错误（'提供的服务帐户无效'）；”错误信息

我注意到 Firebase 最近发生了变化我正在构建一个需要 firebase 的 node js 应用程序以前这就足够了 var Firebase require firebase var firebaseRef new Fireba
从 create-react-app 公共文件夹读取 JSON 文件 [重复]

这个问题在这里已经有答案了我有一个 ipAddress json 文件其中包含以下内容 ipAddress 11 111 111 111 在公共文件夹中我将该 ipAddress json 文件放入 ipAddress 文件夹中因此
按日期对 pandas df 中的组进行排序和排名

从以下类型的数据框中我希望能够对id日期字段 df pd DataFrame id 1 1 2 3 3 4 5 6 6 6 7 7 value 01 4 2 3 11 21 4 01 3 5 8 9 date 10 01 2017 15

按日期对 pandas df 中的组进行排序和排名

EDIT

按日期对 pandas df 中的组进行排序和排名 的相关文章

随机推荐

热门标签

按日期对 pandas df 中的组进行排序和排名的相关文章