如何使用 AWS Glue 开始处理从 Web 服务终端节点提取的数据?

2024-05-14

更多源数据来自我需要定期轮询的 Web 服务端点。获得数据后,我可以使用 pyspark 执行传统的 ETL,并最终将数据写入 S3 和 Redshift。

我不确定如何进行初始提取,甚至不确定我应该在 AWS Glue 文档中查找什么内容。 “源”Web 服务端点是否可以被视为与数据目录有关的表?

如果有例子就更好了。


我不认为“源”Web 服务端点可以被视为 Glue 数据目录中的表。但是,让它发挥作用应该不会太困难。

  1. 设置一些东西来定期轮询此 Web 服务端点以检索您想要的数据。轮询的数据应放置在 S3“源”存储桶/位置中。
  2. 在 Glue 数据目录中设置一个表,描述从步骤 1 中轮询的数据。根据此数据的外观,您也许可以使用爬网程序来创建表,但我在创建表方面有更好的经验。手动创建表(最初,最终使用 CloudFormation)。
  3. 使用就业创建向导(通过Add Job按钮)以按照提示创建作业。这里重要的部分是确保将“源”设置为步骤 2 中的表设置。
  4. 创建作业后,您将能够修改脚本(Python 或 Scala)以应用您选择的 ETL。

此页面来自 AWS 文档 https://docs.aws.amazon.com/glue/latest/dg/author-job.html做得很好,更详细地描述了该过程。

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

如何使用 AWS Glue 开始处理从 Web 服务终端节点提取的数据? 的相关文章

随机推荐