胶水爬虫排除模式

2023-11-27

我有一个 s3 存储桶，我正在尝试对其进行爬网和编目。格式是这样的，其中 SQL 文件是 DDL 查询（CREATE TABLE语句）匹配不同数据文件的模式，即data1, data2, etc.)

s3://my-bucket/somedata/20180101/data1/stuff.txt.gz
s3://my-bucket/somedata/20180101/data2/stuff.txt.gz
s3://my-bucket/somedata/20180101/data1.sql
s3://my-bucket/somedata/20180101/data2.sql  
s3://my-bucket/somedata/20180102/data1/stuff.txt.gz
s3://my-bucket/somedata/20180102/data2/stuff.txt.gz
...

我只想编目data1，所以我尝试使用排除 Glue Crawler 中的模式- 见下文 - 即*.sql and data2/*.

不幸的是，爬虫仍在对根路径中的所有内容进行分类s3://my-bucket/somedata/。我可以忍受拥有data2编目；我最关心/恼火的是sql files.

任何人都有排除模式的经验或能够指出这里出了什么问题吗？

The *排除模式中不跨目录，但**确实跨越目录。

排除所有.sql您可以使用的文件：**.sql

您的完整路径data2/*排除是s3://my-bucket/somedata/data2/*，但它缺少您的日期分区文件夹。这可以通过添加一个来解决*在前。

为了排除data2/目录使用：*/data2/*

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

awsglue

胶水爬虫排除模式的相关文章

AWS Glue 谓词下推条件无效

我有一个 MySQL 源我从中创建一个具有谓词下推条件的 Glue 动态框架如下所示 datasource glueContext create dynamic frame from catalog database source ca
当s3数据存储同时具有json和.gz压缩文件时，如何通过Glue爬虫创建AWS Athena表？

我的预期解决方案有两个问题 1 我的S3存储结构如下 mainfolder date 2019 01 01 hour 14 abcd json mainfolder date 2019 01 01 hour 13 abcd2 json gz
如何将 CloudWatch 自定义日志组与 Python Shell Glue 作业结合使用？

我有一些 Python Shell 类型的 Glue 作业我想将作业日志发送到自定义 CloudWatch 日志组而不是默认日志组我可以通过提供如下作业参数来实现 Spark 类型胶水作业 enable continuous cloud
AWS Glue Python Shell 与 Oracle cx_Oracle 的连接问题

我正在研究 AWS Glue Python Shell 我想将 python shell 与 Oracle 连接我成功安装了 psycopg2 和 mysql 库但是当我尝试使用 cx Oracle 连接 Oracle 时我已成功安装
如何配置粘合书签以与 scala 代码一起使用？

考虑 Scala 代码 import com amazonaws services glue GlueContext import com amazonaws services glue util GlueArgParser Job Jso
AWS Glue：如何在输出中添加包含源文件名的列？

有谁知道如何将源文件名添加为粘合作业中的列我们创建了一个流程在其中抓取 S3 中的一些文件以创建架构然后我们编写了一个作业将文件转换为新格式并将这些文件以 CSV 形式写回另一个 S3 存储桶以供管道的其余部分使用我们想要做
使用 AWS Glue 或 PySpark 过滤 DynamicFrame

我的 AWS Glue 数据目录中有一个名为 mytable 的表该表位于本地 Oracle 数据库连接 mydb 中我想将生成的 DynamicFrame 过滤为仅 X DATETIME INSERT 列时间戳大于特定时间在本例
Pythonlogging.getLogger 在 AWS Glue python shell 作业中不起作用

我正在尝试使用 Python 为我的 AWS Glue 作业设置一个记录器logging模块我有一个使用 Python 版本 3 的类型为 Python Shell 的 Glue 作业如果我实例化记录器而没有任何记录则记录工作正常na
如何使用 Java 获取 AWS Glue 客户端

我正在尝试从用 Java 编写的 Lambda 代码调用 AWS Glue 中的作业但我无法获得 Glue 客户端就像我们有这样的 DynamoClient AmazonDynamoDB client AmazonDynamoDBCli
如何将 AWS Glue 作业的输出返回到调用 Step Function 工作流程？

AWS Step Functions 允许调用 AWS Glue 作业如下所述 https docs aws amazon com step functions latest dg connect glue html https docs
AWS Glue：爬网程序无法识别 CSV 格式的时间戳列

运行 AWS Glue 爬网程序时它无法识别时间戳列我已在 CSV 文件中正确设置 ISO8601 时间戳的格式首先我希望 Glue 能够自动将它们分类为时间戳但事实并非如此我还尝试从此链接中使用自定义时间戳分类器https d
如何使用 pyspark 在 awsglue 中展平嵌套 json 中的数组？

我正在尝试展平 JSON 文件以便能够将其全部加载到 AWS Glue 中的 PostgreSQL 中我正在使用 PySpark 我使用爬虫抓取 S3 JSON 并生成一个表然后我使用 ETL Glue 脚本来读取爬取的表使用 R
[XX000][500310] [Amazon](500310) 无效操作：解析的清单不是有效的 JSON 对象

我正在一个包含多个具有不同架构的文件的文件夹上运行爬网程序我希望为每个文件找到一个表发生的情况是在 Glue Catalog 中我实际上可以看到每个文件的一个表以及它自己的架构但是当我尝试通过 Redshift Spectrum
如何访问分区 Athena 表的子目录中的数据

我有一个 Athena 表每天都有一个分区其中实际文件按小时位于子目录中如下所示 s3 my bucket data 2019 06 27 00 00001 json s3 my bucket data 2019 06 27 00
terraform 不检测 lambda 源文件的更改

In my main tf我有以下内容 data template file lambda script temp file template file fn lambda script py data template file libr
从 boto3 调用 AWS Glue Pythonshell 作业时出现参数错误

基于上一篇文章 https stackoverflow com questions 58044032 retrieving s3 path from payload inside aws glue pythonshell job 58044
AWS Glue 爬网程序更改 serde

我有带引号字符串的 csv 默认情况下爬虫会使用 LazySimpleSerde 注册该表无论如何我可以通过编程方式更改它以使用 OpenCSVSerde 吗您可以使用 boto3 它是一个 aws sdk 您可以使用 python
在 AWS Glue 中覆盖动态框架中的镶木地板文件

我使用动态框架在 S3 中写入镶木地板文件但如果文件已存在我的程序会附加一个新文件而不是替换它我用的句子是这样的 glueContext write dynamic frame from options frame table con
使用 Glue 将数据输入到 AWS Elastic Search

我正在寻找使用 AWS Glue python 或 pyspark 将数据插入 AWS Elastic Search 的解决方案我见过用于 Elastic Search 的 Boto3 SDK 但找不到任何将数据插入 Elastic Se
如何减少使用 AWS Glue 将 parquet 文件写入 s3 所需的时间

我正在创建一个胶水作业需要处理来自 s3 路径的每日 4TB 数据量 s3

随机推荐

JQuery 使用 .each() 延迟

您有什么想法可以使用 JQuery 的延迟方法和一个函数来检测所有更改的表单并将每个表单作为 Ajax 帖子提交吗如果我只列出大量表单提交我可以得到同样的结果但如果我使用 form changed each function retu
预填充 HTML 表单文件输入

我有一个 VBScript 它可以检查 HTML 表单用固定值填充它然后提交它到目前为止它工作正常但现在我需要设置将在表单数据中上传的文件的位置我相信如果我将位置设置为该值它就会起作用但事实并非如此
强制WebView在某个网络上运行

是否可以强制WebView通过指定的方式加载 URLNetwork 我的设备打开了两个网络连接 wifi 和移动数据移动数据网络被设置为传出连接的默认网络因此连接管理器返回移动数据网络connectivityManager getAct
UIPickerView 与 NSDictionary

我是一名 NET 程序员也是 Objective C 的新手我正在尝试制作一个 UIPickerView 它的作用类似于 NET 下拉列表用户看到文本列表并选择一个所选值即 ID 将在代码中使用我已经浏览了近半天试图弄清楚这一点
!= 在 jade/pug 中起什么作用？

在下面的翡翠代码中如何工作 messages extends layout block content spacer container row col lg 8 col lg offset 2 col md 10 col md offse
将自定义 NSURLProtocol 与 UIWebView 和 POST 请求结合使用

在我的 iOS 应用程序中我使用 UIWebView 和自定义协议带有我自己的 NSURLProtocol 实现我非常小心地确保每当我加载 url 时我都会将类似的内容加载到我的 UIWebView 中 myprotocol mys
在共享库中使用全局变量

我正在用 C 编写一个应用程序它使用全局变量日志文件结构在我的应用程序中我在运行时动态加载共享库并且我想使用指向相同日志文件结构的全局变量来记录共享库这在简单的方法中似乎是不可能的将全局变量声明为 extern 将不起作用因
无法编译、无法执行dex、无法合并、非巨型指令

我需要一些帮助因为我自己无法找到解决方案我阅读了很多帖子并进行了很多调查但没有解决方案我有一个项目有一些子项目操作栏滑动 facebook 等当我尝试编译它时我总是收到以下错误 2013 07 31 14 44 06 De
如何使用 LINQ 将字典的键和值合并到一个列表中？

我有一本字典其中键是一个字符串值是与该键对应的字符串列表我想显示字典中的所有键并在该键下方显示与该键关联的值像这样的东西 Key 1 Value 1 Value 2 Value 3 Key 2 Value 1 Value 2 在
Git 与 SVN 与非文本文件/大型项目

过去几周我一直在学习 Git 与 SVN 相比我真的很喜欢它的工作方式我希望完全切换到它的主要原因是合并应该更容易几乎没有冲突而且我可以在本地提交这促进了许多分支的使用例如每个票证问题任务等的一个分支并且还促进了许多提
调整未知数量的元素大小以填充父容器的宽度

我需要将未知数量的 div 可能限制为 5 左右放入父容器中并始终确保它们保持均等划分我不确定这是否可以单独使用 CSS 来完成但我想我最好问一下因此如果我们知道使用了 3 个 div div div class menu bu
cassandra 分片和复制

我是 Cassandra 的新手不过本文解释分片和复制我陷入了一个困境我的本地计算机上配置了一个包含 6 个 Cassandra 节点的集群我创建一个新的键空间 TestKeySpace 复制因子为 6 并在键空间 employee
位置管理器是在调度队列上创建的

这个消息是什么意思注意位置管理器 0xe86bdf0 是在主线程以外的线程上执行的调度队列上创建的开发人员有责任确保在分配位置管理器对象的线程上运行运行循环特别是不支持在任意调度队列未附加到主队列中创建位置管理器这将导致无法
从用户选择的文本返回 HTML

我有以下非常简单的 html 页面 This is span style background color black color white the span
Spark：将大 MySQL 表读入 DataFrame 失败

我想提前告诉您以下几个相关问题不能解决我的问题 Spark查询运行速度非常慢将 mysql 表转换为数据集非常慢 Spark 不会加载大型 MySql 表 Spark MySQL 从数据库读取时出错 This one很接近但堆栈跟踪不
为什么 jQuery 的电子邮件验证正则表达式如此简单？

We all know that a regex to validate emails properly would be quite complicated However jQuery s validation plugin has a
使用 git post-receive 挂钩的边带解复用器中出现错误

我已经使用 git 设置了一个 EC2 实例并使用 post receive hook 将其部署到我的服务器本教程这是我的控制台的输出 git push production master email protected s passw
为什么我可以使用 Javascript 阻止 keydown 上的默认事件，但不能阻止 keyup 上的默认事件？

使用时 keydown我可以捕获 keydown 事件然后检查并防止默认操作显示字符使用时 keyup我不能我知道该事件被捕获为alert 当代码处于条件内但仍触发时触发preventDefault 不会阻止该操作这里有一个完整的
按时间和 pandas 中的其他列分组

我有一个大的 pandas 数据框其中包含时间戳名称和值列 index timestamp name value 0 1999 12 31 23 59 59 000107 A 16 1 1999 12 31 23 59 59 00038
胶水爬虫排除模式

我有一个 s3 存储桶我正在尝试对其进行爬网和编目格式是这样的其中 SQL 文件是 DDL 查询 CREATE TABLE语句匹配不同数据文件的模式即data1 data2 etc s3 my bucket somedata 20

胶水爬虫排除模式

胶水爬虫排除模式 的相关文章

随机推荐

热门标签

胶水爬虫排除模式的相关文章