Pandas:通过 groupby 对象迭代填充缺失值

2024-01-25

我有以下数据集:

d = {'player': ['1', '1', '1', '1', '1', '1', '1', '1', '1', '2', '2', 
'2', '2', '2', '2', '3', '3', '3', '3', '3'],
'session': ['a', 'a', 'b', np.nan, 'b', 'c', 'c', 'c', 'c', 'd', 'd', 
'e', 'e', np.nan, 'e', 'f', 'f', 'g', np.nan,  'g'],
'date': ['2018-01-01 00:19:05', '2018-01-01 00:21:07', 
'2018-01-01 00:22:07', '2018-01-01 00:22:15','2018-01-01 00:25:09', 
'2018-01-01 00:25:11', '2018-01-01 00:27:28', '2018-01-01 00:29:29', 
'2018-01-01 00:30:35', '2018-01-01 00:21:16', '2018-01-01 00:35:22', 
'2018-01-01 00:38:16', '2018-01-01 00:38:20', '2018-01-01 00:40:35', 
'2018-01-01 01:31:16', '2018-01-03 00:55:22', '2018-01-03 00:58:16', 
'2018-01-03 00:58:21', '2018-03-01 01:00:35', '2018-03-01 01:31:16']
}

#create dataframe
df = pd.DataFrame(data=d)
#change date to datetime
df['date'] =  pd.to_datetime(df['date']) 

df.head()

     player session        date
0       1       a 2018-01-01 00:19:05
1       1       a 2018-01-01 00:21:07
2       1       b 2018-01-01 00:22:07
3       1     NaN 2018-01-01 00:22:15
4       1       b 2018-01-01 00:25:09

所以,这是我的三栏:

  1. 'player'- 三个玩家 (1,2,3) - dtype = object
  2. '会议'(目的)。每个会话 ID 将玩家在线实施的一组操作(即数据集中的行)组合在一起。
  3. 'date'(日期时间对象)告诉我们每个操作的实施时间。

此数据集中的问题是我有每个操作的时间戳,但某些操作缺少其会话 ID。我想要做的是:对于每个玩家,我想根据时间线为缺失值提供一个 id 标签。如果缺少 ID 的操作属于某个会话的时间范围(第一个操作 - 最后一个操作),则可以对它们进行标记。

假设我按玩家和 ID 进行分组,并计算每个会话的时间范围:

my_agg = df.groupby(['player', 'session']).date.agg([min, max])
my_agg

                           min                 max
player session                                        
1      a       2018-01-01 00:19:05 2018-01-01 00:21:07
       b       2018-01-01 00:22:07 2018-01-01 00:25:09
       c       2018-01-01 00:25:11 2018-01-01 00:30:35
2      d       2018-01-01 00:21:16 2018-01-01 00:35:22
       e       2018-01-01 00:38:16 2018-01-01 01:31:16
3      f       2018-01-03 00:55:22 2018-01-03 00:58:16
       g       2018-01-03 00:58:21 2018-03-01 01:31:16

此时,我想遍历每个玩家,并逐个会话比较我的 nan 值的时间戳,以查看它们所属的位置。

所需输出:在示例中,第一个 Nan 应标记为'b',第二个为'e'最后一个为'g'.

免责声明: 前几天我也问过类似的问题(看这里) https://stackoverflow.com/questions/51984239/pandas-fill-missing-values-of-a-column-based-on-the-datetime-values-of-another-c,并得到了一个非常好的答案,但是这次我必须考虑另一个变量,我再次陷入困境。事实上,Python 的第一步是令人兴奋的,但也非常具有挑战性。


您的示例已经排序,但是即使您的输入未排序,这也应该产生您想要的结果。如果此答案不能满足您的要求,请发布一个额外的(或修改后的)示例数据框,其中包含预期的输出,但这确实违反了您的要求。

df.sort_values(['player','date']).fillna(method='ffill')

Yields:

   player session                date
0       1       a 2018-01-01 00:19:05
1       1       a 2018-01-01 00:21:07
2       1       b 2018-01-01 00:22:07
3       1       b 2018-01-01 00:22:15
4       1       b 2018-01-01 00:25:09
5       1       c 2018-01-01 00:25:11
6       1       c 2018-01-01 00:27:28
7       1       c 2018-01-01 00:29:29
8       1       c 2018-01-01 00:30:35
9       2       d 2018-01-01 00:21:16
10      2       d 2018-01-01 00:35:22
11      2       e 2018-01-01 00:38:16
12      2       e 2018-01-01 00:38:20
13      2       e 2018-01-01 00:40:35
14      2       e 2018-01-01 01:31:16
15      3       f 2018-01-03 00:55:22
16      3       f 2018-01-03 00:58:16
17      3       g 2018-01-03 00:58:21
18      3       g 2018-03-01 01:00:35
19      3       g 2018-03-01 01:31:16
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

Pandas:通过 groupby 对象迭代填充缺失值 的相关文章

随机推荐