如何使用 AWS Glue 开始处理从 Web 服务终端节点提取的数据？

2024-05-14

更多源数据来自我需要定期轮询的 Web 服务端点。获得数据后，我可以使用 pyspark 执行传统的 ETL，并最终将数据写入 S3 和 Redshift。

我不确定如何进行初始提取，甚至不确定我应该在 AWS Glue 文档中查找什么内容。 “源”Web 服务端点是否可以被视为与数据目录有关的表？

如果有例子就更好了。

我不认为“源”Web 服务端点可以被视为 Glue 数据目录中的表。但是，让它发挥作用应该不会太困难。

设置一些东西来定期轮询此 Web 服务端点以检索您想要的数据。轮询的数据应放置在 S3“源”存储桶/位置中。
在 Glue 数据目录中设置一个表，描述从步骤 1 中轮询的数据。根据此数据的外观，您也许可以使用爬网程序来创建表，但我在创建表方面有更好的经验。手动创建表（最初，最终使用 CloudFormation）。
使用就业创建向导（通过Add Job按钮）以按照提示创建作业。这里重要的部分是确保将“源”设置为步骤 2 中的表设置。
创建作业后，您将能够修改脚本（Python 或 Scala）以应用您选择的 ETL。

此页面来自 AWS 文档 https://docs.aws.amazon.com/glue/latest/dg/author-job.html做得很好，更详细地描述了该过程。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

WebServices

amazonwebservices

PySpark

awsglue

如何使用 AWS Glue 开始处理从 Web 服务终端节点提取的数据？的相关文章

如何将 AWS CLI 的输出保存在变量中？

我想将 AWS CLI 的输出保存在变量中并在另一个 AWS CLI 中使用该变量我所做的如下 taskarn aws ecs list tasks cluster mycluster service name myService re
通过updateTable创建多个GSI

我在用着更新表 http docs aws amazon com AWSJavaScriptSDK latest AWS DynamoDB html updateTable property根据 DynmaoDB 的规定根据文档如果我们
Docker Build 找不到 pip

尝试关注一些 1 https aws amazon com blogs aws run docker apps locally using the elastic beanstalk eb cli 2 http docs aws amazo
Java和Android之间的交互

我目前正在尝试研究如何将 Android 与现有的基于 java 的系统一起使用基本上我需要与 Android 应用程序进行通信该系统当前使用 ActiveMQ 作为 JMS 提供程序在计算机之间传递对象数据其中一台计算机上有一个显
为什么 [System.ComponentModel.ToolboxItem(false)] 默认出现在 Asp.net Web 服务中

谁能告诉我为什么 System ComponentModel ToolboxItem false 是在Asp net Web服务中使用的吗或许你可以在这里找到一些答案 NET API 浏览器 ToolboxItemAttribute 布尔
为什么在对等互连后无法从另一个 VPC 中的 EC2 实例连接 AWS RDS 实例

我在 VPC A 中的 EC2 实例上运行 Tableau Server 同时我在另一个 VPC B 中创建了 postgres RDS 现在我想在 Tableau Server 和 RDS 之间建立连接 RDS VPC的CIDR为172
调用API“找不到模块”时AWS lambda层错误

我尝试使用 AWS Lambda 层观看了有关它的教程但收到错误找不到模块 service aws nodejs package exclude gitignore package json git provider name aws
WCF 客户端 - 如何处理或忽略 MustUnderstand 标头元素？

我正在写一个WCF使用 WS Security 使用非 Net Web 服务的客户端服务的响应包含一个 Security 标头其中 MustUnderstand 设置为 true 使用 ServiceModelListener 我确实看
获取一个 jar 及其源代码和 javadoc

随着以下内容在ivy xml
从 RabbitMQ 迁移到 Amazon SQS [关闭]

Closed 这个问题是基于意见的 help closed questions 目前不接受答案我们的初创公司目前正在使用RabbitMQ with Python Django 对于消息队列现在我们计划转移到Amazon SQS其高可用性
在 Windows 服务中调用 Web 服务

我使用了一个简单的 Windows 服务来使一个方法在特定时间运行并且运行良好接下来我已经尝试过 protected override void OnStart string args this WriteToFile Simple Se
在 EB 上的 Docker 中运行的应用程序拒绝连接到自身

我有一个 Play 2 Web 应用程序我使用 Docker 将其部署到 Elastic Beanstalk 在此 Web 应用程序中我启动了一个 Akka 集群启动过程涉及将自动伸缩组中的所有节点添加为种子节点包括其自身第一次部
在地图类型中创建 DataFrame 分组列

My 数据框具有以下结构 df spark createDataFrame B a 10 B b 20 C c 30 Brand Type Amount df show Brand Type Amount B a 10 B b 20 C c
在哪里可以找到 AWS Amplify Logger 日志

我目前正在开发一个使用 AWS Amplify 创建的 Web 应用程序我必须在其中实现日志记录基于AWS 放大文档 https docs amplify aws lib utilities logger q platform js有一
当操作系统为 Windows Server 2019 时，ec2 私有子网无法到达 169.254.169.254

我有多个 ec2 实例在私有子网中运行仅允许 vpc 内的流量其中一些实例是自定义操作系统其中一些实例运行 AWS windows server 2012 ami 有些运行 AWS Windows Server 2019 ami 在所
尝试安装 AWS CLI，卡在一个步骤上

我正在尝试为 mac 命令行安装 aws 我想我不明白我需要做什么我在终端上安装了带有 wget 的 aws 捆绑包解压后它完成了所有操作但是当我需要配置我的凭据时什么也没有出现把aws配置以下是说明 http docs aws
AWS CodeBuild - 如何跳过构建

我的构建是在每次推送到存储库和每次拉取请求时触发的因此 CODEBUILD SOURCE VERSION 看起来像 pr 8 或 4570d2e7158cfef687af8da31d1ffec7b02e5ca3 我只希望为 pr 分支执行
Pyspark - 根据条件重置累积和列

我有以下数据框 id date reset cumsum 1001 2023 04 01 false 0 1001 2023 04 02 false 0 1001 2023 04 03 false 1 1001 2023 04 04 fal
如何在 ColdFusion 中对 SOAP 请求正文进行数字签名？

对我来说是新的挑战我需要使用提供商颁发的证书对来自 ColdFusion 客户端应用程序的 SOAP 请求正文进行数字签名和加密我还需要解密响应才能处理它我已经搜索了几天但一无所获我找到了引用其他语言的信息但在 ColdFusi
确定相关词的编程方式？

使用网络服务或软件库我希望能够识别与词根相关的单词例如座位和安全带共享词根座位但西雅图不会被视为匹配简单的字符串比较对于这类事情似乎是不可行的除了定义我自己的字典之外是否有任何库或 Web 服务不仅可以返回单词定义

随机推荐

蓝牙 BLE Android 以最大吞吐量写入外设

我们公司开发了一个具有蓝牙 BLE 的硬件单元并且我们在 Nexus 7 2013 中有一个服务应用程序我们希望使用它向该单元发送固件文件文件最大可达 500kb BT芯片是德州仪器CC2540 我浏览了大量的页面并扫描了 Stac
mysqli::real_connect 和 new mysqli 对象在连接数据库方面有什么区别？

我正在使用这种方法连接到mysql db this gt Con new mysqli this gt DB Server this gt DB User this gt DB Pass this gt DB DB 当我使用这种方法连接时有
为什么将 MySQL 凭据放在 www 目录之外？ [复制]

这个问题在这里已经有答案了可能的重复将核心类放在 Web 根目录之上好还是坏主意 https stackoverflow com questions 3648739 putting core classes above the web
正文中的元标签

我试图在我的网站 www nacts com au 上添加赞按钮以添加到我们 Facebook 页面上的按钮但收到以下消息您的这要么是因为您的格式错误并且它们在解析树中的位置较低要么是您不小心将开放图标记放在了错误的位置无论哪
SSL如何使用对称和非对称加密？如何管理一台主机上多个站点的认证？ [复制]

这个问题在这里已经有答案了首先引用微软TechNet的一些内容管理 Microsoft 证书服务和 SSL http technet microsoft com en us library bb727098 aspx 回顾一下安全 S
TCPClient未收到数据

我想使用 StreamReader 和 StreamWriter 通过 TCPClient NetworkStream 接收和发送数据代码如下所示客户端代码 using TcpClient client new TcpClient IP
注销按钮在 mvc 应用程序中不起作用

我有一个具有不同用户帐户和密码的 MVC 应用程序登录功能工作正常但当我单击注销按钮时出现 404 错误应用程序中的服务器错误无法找到该资源描述 HTTP 404 您正在查找的资源或其依赖项之一可能已被删除名称已更改或暂时
在推送到容器注册表之前如何对构建的映像运行测试？

从 gitlab 文档中可以看出如何使用 kaniko 创建 docker 镜像 build stage build image name gcr io kaniko project executor debug entrypoint sc
高效地将大型 Pandas 数据帧写入磁盘

我正在尝试找到使用 Python Pandas 高效地将大型数据帧 250MB 写入磁盘或从磁盘写入的最佳方法我已经尝试了所有方法Python 数据分析但表现却非常令人失望这是一个更大项目的一部分该项目探索将我们当前的分析数据管理
如何检测 iOS 8 上的包含应用程序是否启用了应用程序扩展？

我正在 iOS 8 beta 上开发一个自定义键盘我想告诉用户如果我的自定义键盘未启用如何在包含应用程序中启用它有什么方法可以检测应用程序扩展是否已启用首先让我们设置一些常量以便于彼此理解包含应用程序安装扩展并保存扩展二进制文
让 WSO2 IOT 服务器作为 Windows 服务运行

我在Server 2012R2上安装了WSO2 IOT Server 我安装了 YAJSW 包装器并按照 WSO2 说明进行配置当我启动 runConsole bat 来配置 Windows 服务时出现以下错误我设置了 JAVA HO
基于类的通用视图额外的上下文

在基于类的视图之前有一个可以在 urlsconf 中传递的 extra context 关键字 https docs djangoproject com en 1 3 topics generic views adding extra c
WPF：当 FontStyle 为 Oblique 时，剪切文本块中最后一个字母的部分

我有一个简单的 XAML 示例
混合混合模式：乘法在 Chrome 中不起作用

我正在尝试使用mix blend mode multiply在 Chrome 上但它无法按预期工作当我添加时magenta cyan and yellow在一起它不会给我黑色但brown https i stack imgur com
从 Bootstrap 4 网格中删除装订线

在 Bootstrap 4 中我被要求自定义桌面的默认网格系统如下所示其中容器桌面断点为1280px 我尝试过的例子是 body margin top 3rem l wrap max width 1280px margin rig
在这种情况下垃圾收集器会做什么？ [复制]

这个问题在这里已经有答案了我试图了解 GC 将如何行动的两种情况 1 有两个对象 object1 和 object2 object1 引用了 object2 object2 引用了 object1 现在这两个对象都没有被使用 GC 可以
获取所有矩阵列逐元素乘积对的快速方法

假设我有一个数字matrix set seed 1 mat lt matrix rnorm 1000 ncol 100 我想生成所有向量它们是中所有唯一向量对的逐元素乘积的结果mat 我们如何改进下面的代码 all pairs lt t
RSA 私有指数确定

我的问题是关于 RSA 签名如果是 RSA 签名加密 gt y x d mod n 解密 gt x y e mod n x gt 原始消息 y gt 加密消息 n gt 模数 1024 位 e gt 公共指数 d gt 私有指数我知道
查看Java Agent修改的Java类的源代码

我需要了解 Java 代理如何修改我的初始类以便我能够理解代码的作用 build gradle configurations jar archiveName agent2 jar jar manifest attributes Prema
如何使用 AWS Glue 开始处理从 Web 服务终端节点提取的数据？

更多源数据来自我需要定期轮询的 Web 服务端点获得数据后我可以使用 pyspark 执行传统的 ETL 并最终将数据写入 S3 和 Redshift 我不确定如何进行初始提取甚至不确定我应该在 AWS Glue 文档中查找什么内容

如何使用 AWS Glue 开始处理从 Web 服务终端节点提取的数据？

如何使用 AWS Glue 开始处理从 Web 服务终端节点提取的数据？ 的相关文章

随机推荐

热门标签

如何使用 AWS Glue 开始处理从 Web 服务终端节点提取的数据？的相关文章