AttributeError:无法从 kedro.extras.datasets.pandas 加载对象 ParquetDataSet

2024-01-14

我刚开始使用 Kedro,在 conda 环境中安装 kedro 后,在尝试列出我的目录时出现以下错误:

执行的命令:kedro catalog list

Error:

kedro.io.core.DataSetError:解析配置时发生异常 对于数据集df_medinfo_raw: 目的ParquetDataSet无法加载 从kedro.extras.datasets.pandas。请参阅有关的文档 如何安装相关依赖 kedro.extras.datasets.pandas.ParquetDataSet:

我通过 conda-forge 安装了 kedro:conda install -c conda-forge "kedro[pandas]"。据我了解,这种安装 kedro 的方式也会安装 pandas 依赖项。

我尝试阅读 kedro 文档以了解依赖项,但并不清楚如何解决此类问题。

我的kedro版本是0.17.6.


Kedro 使用 Pandas 加载ParquetDataSet对象,并且 Pandas 需要额外的依赖项来完成此任务(请参阅“安装:其他数据源” https://pandas.pydata.org/docs/getting_started/install.html#other-data-sources)。也就是说,除了 Pandas 之外,还必须安装fastparquet or pyarrow.

对于康达你要么想要:

## use pyarrow for parquet
conda install -c conda-forge kedro pandas pyarrow

or

## or use fastparquet for parquet
conda install -c conda-forge kedro pandas fastparquet

请注意问题中使用的语法kedro[pandas]对 Conda 来说毫无意义(即,它最终解析为kedro)。 Conda包规范用途称为的自定义语法MatchSpec https://stackoverflow.com/a/57734390/570918,其中 a 内的任何内容[...]被解析为[key1=value1;key2=value2;...]句法。本质上,[pandas]被视为未知密钥,将被忽略。

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

AttributeError:无法从 kedro.extras.datasets.pandas 加载对象 ParquetDataSet 的相关文章

随机推荐