dask 数据帧 head() 返回空 df

2024-03-26

我有一个 dask 数据框,其中一列上有索引。 问题是如果我执行 df.head() 它总是返回一个空的 df,而 df.tail 总是返回正确的 df。 我检查过 df.head 总是检查第一个分区中的前 n 个条目。因此,如果我执行 df.reset_index(),它应该可以工作,但事实并非如此

下面是重现这个的代码:

import dask.dataframe as dd
import pandas as pd

data = pd.DataFrame({
     'i64': np.arange(1000, dtype=np.int64),
     'Ii32': np.arange(1000, dtype=np.int32),
     'bhello': np.random.choice(['hello', 'Yo', 'people'], size=1000).astype("O")
})
daskDf = dd.from_pandas(data, chunksize=3)
daskDf = daskDf.set_index('bhello')
print(daskDf.head())

尝试打电话head with npartitions=-1,使用所有分区(默认情况下,仅使用第一个分区,并且可能没有足够的元素来返回head).

daskDf.head(npartitions=-1)
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

dask 数据帧 head() 返回空 df 的相关文章

随机推荐