在 pandas DataFrame 中取消嵌套（分解）多个列表列的有效方法

2024-04-28

我正在将多个 JSON 对象读取到一个 DataFrame 中。问题在于某些列是列表。此外，数据非常大，因此我无法使用互联网上可用的解决方案。它们非常慢并且内存效率低下

我的数据如下所示：

df = pd.DataFrame({'A': ['x1','x2','x3', 'x4'], 'B':[['v1','v2'],['v3','v4'],['v5','v6'],['v7','v8']], 'C':[['c1','c2'],['c3','c4'],['c5','c6'],['c7','c8']],'D':[['d1','d2'],['d3','d4'],['d5','d6'],['d7','d8']], 'E':[['e1','e2'],['e3','e4'],['e5','e6'],['e7','e8']]})
    A       B          C           D           E
0   x1  [v1, v2]    [c1, c2]    [d1, d2]    [e1, e2]
1   x2  [v3, v4]    [c3, c4]    [d3, d4]    [e3, e4]
2   x3  [v5, v6]    [c5, c6]    [d5, d6]    [e5, e6]
3   x4  [v7, v8]    [c7, c8]    [d7, d8]    [e7, e8]

这是我的数据的形状：(441079, 12)

我想要的输出是：

    A       B          C           D           E
0   x1      v1         c1         d1          e1
0   x1      v2         c2         d2          e2
1   x2      v3         c3         d3          e3
1   x2      v4         c4         d4          e4
.....

编辑：在被标记为重复之后，我想强调这样一个事实：在这个问题中我正在寻找一个高效的分解多列的方法。因此，批准的答案能够有效地在非常大的数据集上分解任意数量的列。另一个问题的答案未能做到这一点（这就是我在测试这些解决方案后提出这个问题的原因）。

熊猫 >= 1.3

在更新的版本中，pandas 允许您使用一次分解多个列DataFrame.explode https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.explode.html，前提是所有值都有相同大小的列表。因此，您可以使用它：

df.explode(['B', 'C', 'D', 'E']).reset_index(drop=True)

    A   B   C   D   E
0  x1  v1  c1  d1  e1
1  x1  v2  c2  d2  e2
2  x2  v3  c3  d3  e3
3  x2  v4  c4  d4  e4
4  x3  v5  c5  d5  e5
5  x3  v6  c6  d6  e6
6  x4  v7  c7  d7  e7
7  x4  v8  c8  d8  e8

熊猫 >= 0.25

对于稍旧的版本，您可以申请Series.explode https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.Series.explode.html在每一列上。

df.set_index(['A']).apply(pd.Series.explode).reset_index()

    A   B   C   D   E
0  x1  v1  c1  d1  e1
1  x1  v2  c2  d2  e2
2  x2  v3  c3  d3  e3
3  x2  v4  c4  d4  e4
4  x3  v5  c5  d5  e5
5  x3  v6  c6  d6  e6
6  x4  v7  c7  d7  e7
7  x4  v8  c8  d8  e8

这个想法是将所有必须的列设置为索引NOT先爆炸，然后重置索引。

有趣的是，这恰好比调用更快df.explode，根据我的测试。 YMMV。

explode一般来说，方法的性能相当好：

df2 = pd.concat([df] * 100, ignore_index=True)

%timeit df2.explode(['B', 'C', 'D', 'E']).reset_index(drop=True)
%timeit df2.set_index(['A']).apply(pd.Series.explode).reset_index() # fastest
%%timeit
(df2.set_index('A')
    .apply(lambda x: x.apply(pd.Series).stack())
    .reset_index()
    .drop('level_1', axis=1))


2.59 ms ± 112 µs per loop (mean ± std. dev. of 7 runs, 100 loops each)
1.27 ms ± 239 µs per loop (mean ± std. dev. of 7 runs, 1000 loops each)
120 ms ± 9.48 ms per loop (mean ± std. dev. of 7 runs, 10 loops each)

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

json

pandas

DataFrame

pandasexplode