我有一个 s3 存储桶,我正在尝试对其进行爬网和编目。格式是这样的,其中 SQL 文件是 DDL 查询(CREATE TABLE
语句)匹配不同数据文件的模式,即data1
, data2
, etc.)
s3://my-bucket/somedata/20180101/data1/stuff.txt.gz
s3://my-bucket/somedata/20180101/data2/stuff.txt.gz
s3://my-bucket/somedata/20180101/data1.sql
s3://my-bucket/somedata/20180101/data2.sql
s3://my-bucket/somedata/20180102/data1/stuff.txt.gz
s3://my-bucket/somedata/20180102/data2/stuff.txt.gz
...
我只想编目data1
,所以我尝试使用排除 Glue Crawler 中的模式- 见下文 - 即*.sql
and data2/*
.
不幸的是,爬虫仍在对根路径中的所有内容进行分类s3://my-bucket/somedata/
。我可以忍受拥有data2
编目;我最关心/恼火的是sql
files.
任何人都有排除模式的经验或能够指出这里出了什么问题吗?
The *
排除模式中不跨目录,但**
确实跨越目录。
排除所有.sql
您可以使用的文件:**.sql
您的完整路径data2/*
排除是s3://my-bucket/somedata/data2/*
,但它缺少您的日期分区文件夹。这可以通过添加一个来解决*
在前。
为了排除data2/
目录使用:*/data2/*
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)