我有数百个 CSV 文件想要以类似方式处理。为了简单起见,我们可以假设它们都在./data/01_raw/
(like ./data/01_raw/1.csv
, ./data/02_raw/2.csv
)等。我宁愿不给每个文件一个不同的名称,并在构建管道时单独跟踪它们。我想知道是否有任何方法可以通过在中指定某些内容来批量读取所有内容catalog.yml
file?
您正在寻找分区数据集 https://kedro.readthedocs.io/en/stable/05_data/02_kedro_io.html#partitioned-dataset。在你的例子中,catalog.yml
可能看起来像这样:
my_partitioned_dataset:
type: "PartitionedDataSet"
path: "data/01_raw"
dataset: "pandas.CSVDataSet"
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)