Pandas：通过 groupby 对象迭代填充缺失值

2024-01-25

我有以下数据集：

d = {'player': ['1', '1', '1', '1', '1', '1', '1', '1', '1', '2', '2', 
'2', '2', '2', '2', '3', '3', '3', '3', '3'],
'session': ['a', 'a', 'b', np.nan, 'b', 'c', 'c', 'c', 'c', 'd', 'd', 
'e', 'e', np.nan, 'e', 'f', 'f', 'g', np.nan,  'g'],
'date': ['2018-01-01 00:19:05', '2018-01-01 00:21:07', 
'2018-01-01 00:22:07', '2018-01-01 00:22:15','2018-01-01 00:25:09', 
'2018-01-01 00:25:11', '2018-01-01 00:27:28', '2018-01-01 00:29:29', 
'2018-01-01 00:30:35', '2018-01-01 00:21:16', '2018-01-01 00:35:22', 
'2018-01-01 00:38:16', '2018-01-01 00:38:20', '2018-01-01 00:40:35', 
'2018-01-01 01:31:16', '2018-01-03 00:55:22', '2018-01-03 00:58:16', 
'2018-01-03 00:58:21', '2018-03-01 01:00:35', '2018-03-01 01:31:16']
}

#create dataframe
df = pd.DataFrame(data=d)
#change date to datetime
df['date'] =  pd.to_datetime(df['date']) 

df.head()

     player session        date
0       1       a 2018-01-01 00:19:05
1       1       a 2018-01-01 00:21:07
2       1       b 2018-01-01 00:22:07
3       1     NaN 2018-01-01 00:22:15
4       1       b 2018-01-01 00:25:09

所以，这是我的三栏：

'player'- 三个玩家 (1,2,3) - dtype = object
'会议'（目的）。每个会话 ID 将玩家在线实施的一组操作（即数据集中的行）组合在一起。
'date'（日期时间对象）告诉我们每个操作的实施时间。

此数据集中的问题是我有每个操作的时间戳，但某些操作缺少其会话 ID。我想要做的是：对于每个玩家，我想根据时间线为缺失值提供一个 id 标签。如果缺少 ID 的操作属于某个会话的时间范围（第一个操作 - 最后一个操作），则可以对它们进行标记。

假设我按玩家和 ID 进行分组，并计算每个会话的时间范围：

my_agg = df.groupby(['player', 'session']).date.agg([min, max])
my_agg

                           min                 max
player session                                        
1      a       2018-01-01 00:19:05 2018-01-01 00:21:07
       b       2018-01-01 00:22:07 2018-01-01 00:25:09
       c       2018-01-01 00:25:11 2018-01-01 00:30:35
2      d       2018-01-01 00:21:16 2018-01-01 00:35:22
       e       2018-01-01 00:38:16 2018-01-01 01:31:16
3      f       2018-01-03 00:55:22 2018-01-03 00:58:16
       g       2018-01-03 00:58:21 2018-03-01 01:31:16

此时，我想遍历每个玩家，并逐个会话比较我的 nan 值的时间戳，以查看它们所属的位置。

所需输出：在示例中，第一个 Nan 应标记为'b'，第二个为'e'最后一个为'g'.

免责声明: 前几天我也问过类似的问题（看这里） https://stackoverflow.com/questions/51984239/pandas-fill-missing-values-of-a-column-based-on-the-datetime-values-of-another-c，并得到了一个非常好的答案，但是这次我必须考虑另一个变量，我再次陷入困境。事实上，Python 的第一步是令人兴奋的，但也非常具有挑战性。

您的示例已经排序，但是即使您的输入未排序，这也应该产生您想要的结果。如果此答案不能满足您的要求，请发布一个额外的（或修改后的）示例数据框，其中包含预期的输出，但这确实违反了您的要求。

df.sort_values(['player','date']).fillna(method='ffill')

Yields:

   player session                date
0       1       a 2018-01-01 00:19:05
1       1       a 2018-01-01 00:21:07
2       1       b 2018-01-01 00:22:07
3       1       b 2018-01-01 00:22:15
4       1       b 2018-01-01 00:25:09
5       1       c 2018-01-01 00:25:11
6       1       c 2018-01-01 00:27:28
7       1       c 2018-01-01 00:29:29
8       1       c 2018-01-01 00:30:35
9       2       d 2018-01-01 00:21:16
10      2       d 2018-01-01 00:35:22
11      2       e 2018-01-01 00:38:16
12      2       e 2018-01-01 00:38:20
13      2       e 2018-01-01 00:40:35
14      2       e 2018-01-01 01:31:16
15      3       f 2018-01-03 00:55:22
16      3       f 2018-01-03 00:58:16
17      3       g 2018-01-03 00:58:21
18      3       g 2018-03-01 01:00:35
19      3       g 2018-03-01 01:31:16

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Pandas：通过 groupby 对象迭代填充缺失值的相关文章

Pandas DataFrame.hist Seaborn 等效项

在探索时我经常使用 Pandas 的 DataFrame hist 方法来快速显示数据框中每个数字列的直方图网格例如 import matplotlib pyplot as plt import pandas as pd from sk
如何使用 Pandas Series 绘制两个不同长度/开始日期的时间序列？

我正在绘制每周总事件的几个熊猫系列对象系列中的数据events per week看起来像这样 Datetime 1995 10 09 45 1995 10 16 63 1995 10 23 83 1995 10 30 91 1995
Matlab 图像数据的 hist 函数

我是 Matlab 新手我想制作自己的函数与 imhist 显示图像数据的直方图完成相同的工作但我对此完全是新手我不知道如何做开发这样的功能我开始做一些东西但它非常不完整 function output args myhist
对 Pandas DataFrame 进行类型检查

我想对 Pandas DataFrames 进行类型检查即我想指定 DataFrame 必须具有哪些列标签以及哪种数据类型 dtype 存储在其中一个粗略的实现受此启发question https stackoverflow com
根据 R 数据框中的名称对列进行平均

我想知道是否有一种有效的方法来获取每组的平均值类似命名的列谁的名字结尾为 1S and 2S ex ex1S ex2S at time 1并取每组的平均值类似命名的列谁的名字结尾为 1C or 2C ex ex1C ex2C at time
我可以将参数作为数组传递吗？

例如而不是 assert eq add 2 3 5 有什么方法可以调用类似的东西 let params u32 2 2 3 assert eq call add params 5 我发现这个功能对于测试非常有用例如如果我想为需要大量参
自调用函数未定义

如果我声明一个函数文字 var x function alert hi console log x returns the function code However var x function alert hi console log
如何通过函数注释指示函数需要函数作为参数，或返回函数？

您可以使用函数注释 http www python org dev peps pep 3107 在python 3中指示参数和返回值的类型如下所示 def myfunction name str age int gt str return
如何返回包含最大值标签的向量

我有一个 4 列数组我想获得一个向量其中每行包含包含该行最大值的列的标签我可以在循环中执行此操作但我想使用矩阵函数来提高速度我怎样才能在不编写自己的库函数的情况下做到这一点有一个函数可以做到这一点如果x是你的矩阵尝试max
如何按升序或降序对 Seaborn 条形图进行排序 [重复]

这个问题在这里已经有答案了 EXCEL 文件包含有关 7000 个 Apple App store 的信息如下所示这是我的代码 gt import seaborn as sns import matplotlib pyplot as p
根据 Pandas 中的列表对多列进行排序

感谢有关如何根据 pandas 中的倍数列表对给定多列进行排序的任何提示如下所示 import pandas as pd sort a a d e sort b s1 s3 s6 sort c t1 t2 t3 df pd DataFra
Pandas 堆积条形图中元素的排序

我正在尝试绘制有关某个地区 5 个地区的家庭在特定行业赚取的收入比例的信息我使用 groupby 按地区对数据框中的信息进行排序 df df orig groupby District Portion of income value co
附加两个具有相同列、不同顺序的数据框

我有两个熊猫数据框 noclickDF DataFrame 0 123 321 0 1543 432 columns click id location clickDF DataFrame 1 123 421 1 1543 436 colu
操作错误：(sqlite3.OperationalError) SQL 变量太多，同时将 SQL 与数据帧一起使用

我有一个熊猫数据框如下所示 activity User Id 0 VIEWED MOVIE 158d292ec18a49 1 VIEWED MOVIE 158d292ec18a49 2 VIEWED MOVIE 158d292ec18a4
减少从 MongoDB 加载大熊猫数据帧所使用的内存

我有一个大型数据集包含 4000 万条记录总大小约为 21 0G 存储在 MongoDB 中我花了几个小时将其加载到 pandas 数据框中但总内存大小增加到约 28 7G 加载之前约为 600Mb cursor mongocoll
如何将Scheme中的函数应用于另一个函数返回的参数列表？

假设有两个函数 f 和 v 进一步假设 v 返回长度为 n 的列表并且 f 需要恰好 n 个参数我正在Scheme中寻找正确的语法以将f应用于v返回的列表如果我使用语法 f v v arguments 然后我收到一个关于 f 需要
Delphi - 如果没有创建类，为什么这个函数可以工作？

考虑这个类 unit Unit2 interface type TTeste class private texto string public function soma a b integer string end implementa
Pandas Groupby：如何使用两个 lambda 函数？

我目前可以在 Pandas 中执行以下操作但 FutureWarning 严厉地摇动着我的手指 grpd df groupby rank agg mean np mean meian np median min np min max np
Pandas 将多行列数据帧转换为单行多列数据帧

我的数据框如下 code df Car measurements Before After amb temp 30 268212 26 627491 engine temp 41 812730 39 254255 engine eff 15
XSL字符串多重替换功能

如何让这个函数进行多重替换经验替换aaa with 111并替换bbb with 222 etc

随机推荐

跨多个 Docker 镜像的 Jenkins 管道

使用 Jenkins 中的声明性管道如何跨 Docker 映像的多个版本运行阶段我想在 python 2 7 3 5 和 3 6 上执行以下 jenkinsfile 下面是用于在 docker 容器中构建和测试 python 项目的管道
pthread_cond_signal 导致死锁

我有一个程序当其中一个线程调用时会死锁pthread cond siganl 或广播该问题在主程序中可以 100 重现我无法弄清楚它出了什么问题因此提取了调用 wait 和 signal 的代码段然而僵局cannot与提取的问题
优化 Oracle 查询

SELECT MAX verification id FROM VERIFICATION TABLE WHERE head 687422 AND mbr 23102 AND RTRIM LTRIM lname iq bzw AND TO C
为什么Java中字符串变量的声明要大写？

在Java中当声明一个字符串变量时 String 这个词是大写的但它不是我遇到过的任何其他类型例如 int 或 double 为什么是这样这只是设计师的一些奇怪的武断决定吗为什么Java中字符串变量的声明要大写 The Strin
在 Safari Mobile 上播放（和重放）声音

当网站上出现新消息时我需要播放声音它在 Chrome 和 Safari 上运行良好但我无法使其在 Safari 移动设备上运行我看到声音必须通过用户操作来初始化所以我尝试了 var sound new Audio path to
如何在应用程序清单中指定默认通知通道 ID？

Android Oreo 引入了通知通道但有关如何在应用程序清单中指定默认通知通道的文档似乎不完整甚至不存在如何在应用程序清单中指定默认通知通道 ID 使用标准通知通道无法从清单定义默认通道 ID 它仅适用于 Firebase 通知
如何将一个或多个本地 .jar 文件中的类导入到 Spark/Scala Notebook 中？

我正在努力将 JAR 中的类加载到我的 Scala Spark 内核 Jupyter 笔记本中我在这个位置有罐子 home hadoop src main scala com linkedin relevance isolationfor
保护 php api 在 Android 应用程序中使用的安全

我是android开发新手我在用android studio用于开发应用程序我做过的事创建了一个DB其中有两张桌子MySQL 创建了两个单独的api s对彼此而言GET and POST方法两者均已成功访问api s 我现在所取得的
Git：从错误的分支创建新分支

我通常从开发创建新分支 git checkout b new feature develop 然后在最后一次提交后我合并回开发 git checkout develop git merge new feature 但这次我创造了new fe
通过 React-Router v4 传递值

问题如何通过 React Router 的 Link 组件传递一个 prop 或单个值例如 id 并在端点捕获它这就是我的意思假设我们正在页面 a 上该链接将把用户带到 b 像这样现在我需要通过链接传递一个 id 从 a 到
在 AndroidManifest 中：期望 android:screenOrientation="unspecified"

安卓工作室3 6 我希望我的应用程序始终处于portrait模式所以在我的AndroidMainfest xml
Azure 移动服务的自定义 API 中的多个路由的权限

我在 Azure 移动服务工作在那里我制作了一个自定义 api 对于这些可以设置权限如公共应用程序用户和管理员这非常有用但我需要多级API 例如 api user profile userId 并能够对子级别的api设置一些权
有没有办法检测 HTML 元素何时从视图中隐藏？

使用Javascript 是否可以检测某个元素何时不再可见例如当用户向下滚动足够远或浏览器最小化或被另一个窗口覆盖时总体目标是仅当当前广告对用户不可见时才替换广告一种想法是让一个非常简单不可见的 Java Applet 在每次调用
如果子节点是 Scrapy 中其他节点的父节点，如何使用 XPath 从子节点获取文本

我面临一个问题我必须使用 scrapy 中的 Xpath 从子节点获取结果该子节点可能是也可能不是其他节点的父节点考虑这样的情况 h1 class main span class child data span h1 or h1 cl
如何让div全屏且可滚动？

使用绝对值时它会滚动但高度不会达到 100 class position absolute left 0 right 0 top 0 bottom 0 height 100 width 100 z index 1000000 backg
“创建共享对象时不能使用针对‘.bss’的重定位 R_X86_64_32S”

我对此完全陌生但在课堂上老师给了我们他为我们编写的文件来运行它然后它运行得很好但是当我尝试在家中执行此操作时我在 VirtualBox 上使用 Linux 并使用 nasm f elf64 hello asm o hello o
Rails 错误：开发环境中的 ActionView::Template::Error （权限被拒绝 @ sys_fail2）

我正在使用 Rails 4 2 4 ruby 2 1 7 运行 JetBrains RubyMine 并且正在创建一个应用程序作为培训项目的一部分我正在尝试包含 SASS 并正在尝试某些样式表我根据 SASS rails 文档添加了 S
Elisp 列表包含一个值

在 elisp 中如何检查列表是否包含值所以以下将返回 t contains 3 1 2 3 but contains 5 1 2 3 将返回零你需要的功能是member 例如 member 3 1 2 3 它将返回尾部list谁的车e
PHP include 不读取源文件的更改

我的问题可能不会出现在您的计算机上我有 2 个 PHP 脚本读取的第一个脚本包含第二个脚本以获取变量更改值并执行 file put contents 来更改第二个脚本 include second php Now here is
Pandas：通过 groupby 对象迭代填充缺失值

我有以下数据集 d player 1 1 1 1 1 1 1 1 1 2 2 2 2 2 2 3 3 3 3 3 session a a b np nan b c c c c d d e e np nan e f f g np nan g

Pandas：通过 groupby 对象迭代填充缺失值

Pandas：通过 groupby 对象迭代填充缺失值 的相关文章

随机推荐

热门标签

Pandas：通过 groupby 对象迭代填充缺失值的相关文章