我刚开始使用 Kedro,在 conda 环境中安装 kedro 后,在尝试列出我的目录时出现以下错误:
执行的命令:kedro catalog list
Error:
kedro.io.core.DataSetError:解析配置时发生异常
对于数据集df_medinfo_raw
: 目的ParquetDataSet
无法加载
从kedro.extras.datasets.pandas
。请参阅有关的文档
如何安装相关依赖
kedro.extras.datasets.pandas.ParquetDataSet:
我通过 conda-forge 安装了 kedro:conda install -c conda-forge "kedro[pandas]"
。据我了解,这种安装 kedro 的方式也会安装 pandas 依赖项。
我尝试阅读 kedro 文档以了解依赖项,但并不清楚如何解决此类问题。
我的kedro版本是0.17.6.
Kedro 使用 Pandas 加载ParquetDataSet
对象,并且 Pandas 需要额外的依赖项来完成此任务(请参阅“安装:其他数据源” https://pandas.pydata.org/docs/getting_started/install.html#other-data-sources)。也就是说,除了 Pandas 之外,还必须安装fastparquet
or pyarrow
.
对于康达你要么想要:
## use pyarrow for parquet
conda install -c conda-forge kedro pandas pyarrow
or
## or use fastparquet for parquet
conda install -c conda-forge kedro pandas fastparquet
请注意问题中使用的语法kedro[pandas]
对 Conda 来说毫无意义(即,它最终解析为kedro
)。 Conda包规范用途称为的自定义语法MatchSpec https://stackoverflow.com/a/57734390/570918,其中 a 内的任何内容[...]
被解析为[key1=value1;key2=value2;...]
句法。本质上,[pandas]
被视为未知密钥,将被忽略。
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)