awsglue

AWS Glue 3.0 容器不适用于 Jupyter 笔记本本地开发

我正在 AWS 中开发 Glue 并尝试在本地开发中进行测试和调试我按照这里的说明进行操作https aws amazon com blogs big data developing aws glue etl jobs locally u

amazonwebservices jupyternotebook awsglue

如何在 AWS Glue 中使用 Spark 包？

我想使用 DatastaxSpark Cassandra 连接器 https mvnrepository com artifact com datastax spark spark cassandra connector 2 12 2 5

AWS Glue 爬网程序更改 serde

我有带引号字符串的 csv 默认情况下爬虫会使用 LazySimpleSerde 注册该表无论如何我可以通过编程方式更改它以使用 OpenCSVSerde 吗您可以使用 boto3 它是一个 aws sdk 您可以使用 python

awsglue

从 boto3 调用 AWS Glue Pythonshell 作业时出现参数错误

基于上一篇文章 https stackoverflow com questions 58044032 retrieving s3 path from payload inside aws glue pythonshell job 58044

amazonwebservices boto3 awsglue

无法找到 PySpark 内核 - awsglue 与 vscode 的交互式会话

我最近按照说明使用 vscode 安装 Glue Interactive 会话但找不到 pyspark 内核只能看到 Glue Spark 我想我已经安装了下面的所有内容顺便说一句我在 Windows 上 pip3 install

VisualStudioCode PySpark awsglue vscodeextensions

terraform 不检测 lambda 源文件的更改

In my main tf我有以下内容 data template file lambda script temp file template file fn lambda script py data template file libr

amazonwebservices awslambda Terraform awsglue

如何访问分区 Athena 表的子目录中的数据

我有一个 Athena 表每天都有一个分区其中实际文件按小时位于子目录中如下所示 s3 my bucket data 2019 06 27 00 00001 json s3 my bucket data 2019 06 27 00

awsglue awsgluedatacatalog

AWS Glue：爬网程序将时间戳误解为字符串。 GLUE ETL 旨在将字符串转换为时间戳，使它们为 NULL

我一直在玩AWS Glue按照教程进行一些快速分析here https aws amazon com blogs big data build a data lake foundation with aws glue and amazon

amazonwebservices amazons3 amazonathena awsglue

在 AWS Glue pySpark 脚本中使用 SQL

我想使用 AWS Glue 将一些 csv 数据转换为 orc 我创建的 ETL 作业生成了以下 PySpark 脚本 import sys from awsglue transforms import from awsglue utils

amazonwebservices PySpark apachesparksql amazonathena awsglue

AWS Glue - 将 GET(REST API) 请求的 Json 响应转换为 DataFrame/DyanamicFramce 并将其存储在 s3 存储桶中

headersAPI Content Type application json accept application json Authorization Bearer XXXXXXXXXXXXXXXXXXXXXXXXXX skill r

python amazons3 awsglue awsgluedatacatalog awsgluespark

如何将 pip / pypi 安装的 python 包转换为 zip 文件以在 AWS Glue 中使用

我正在使用 AWS Glue 和 PySpark ETL 脚本并且想要使用辅助库例如google cloud bigquery作为我的 PySpark 脚本的一部分 The 文档说明这应该是可能的 https docs aws amaz

python amazonwebservices amazons3 PySpark awsglue

AWS Glue — 从作业内访问工作流程参数

如何从胶水作业中检索胶水工作流程参数我有一个类型为 python shell 的 AWS Glue 作业该作业从glue 工作流程中定期触发该作业的代码将在大量不同的工作流程中重用因此我希望检索工作流程参数以消除对冗余作业的需求 A

python amazonwebservices awsglue

AWS Glue 中 s3fs 库导入失败

AWSglue不导入s3fs模块 import s3fs 我希望导入该库但 AWSglue 说导入错误没有名为 s3fs 的模块 AWS Glue 作业预装了一些常用库但除此之外您还需要下载 whl对于 pypi 的库在这种情况

python amazons3 awsglue

[XX000][500310] [Amazon](500310) 无效操作：解析的清单不是有效的 JSON 对象

我正在一个包含多个具有不同架构的文件的文件夹上运行爬网程序我希望为每个文件找到一个表发生的情况是在 Glue Catalog 中我实际上可以看到每个文件的一个表以及它自己的架构但是当我尝试通过 Redshift Spectrum

AWS Glue 到 Redshift：是否可以替换、更新或删除数据？

以下是我如何设置的一些要点我将 CSV 文件上传到 S3 并设置了 Glue 爬虫来创建表和架构我有一个 Glue 作业设置它使用 JDBC 连接将数据从 Glue 表写入我们的 Amazon Redshift 数据库该作业还负责映

amazonwebservices JDBC PySpark awsglue

如何在 AWS Glue 中设置多个 --conf 表参数？

AWS Glue 的 stackoverflow 上的多个答案都说要设置 conf 表参数但是有时在一项作业中我们需要在一项作业中设置多个 conf 键值对我尝试了以下方法来设置多个 conf 值所有这些都会导致错误添加另一个名

amazonwebservices awsglue

当输入数据格式更改时，Athena 将数据放入错误的列中

我们有一些管道分隔的 txt 报告进入 S3 中的一个文件夹我们在其中运行 Glue 爬网程序来确定 Athena 中的架构和查询报告的格式最近发生了变化因此中间有两个新列旧文件 Columns A B C D E F Data a

amazonwebservices amazonathena awsglue

我可以在本地测试 AWS Glue 代码吗？

阅读 Amazon 文档后我的理解是运行测试 Glue 脚本的唯一方法是将其部署到开发端点并在必要时进行远程调试同时如果 Python 代码由多个文件和包组成则除了主脚本之外的所有文件和包都需要压缩这一切让我感觉 Glue 不适

python amazonwebservices awsglue

AWS Glue 作业 - 写入单个 Parquet 文件

我正在带分区的 S3 存储桶中收集 JSON 格式的数据例子 s3 bucket app events year 2019 month 9 day 30 0001 json s3 bucket app events year 2019 m

amazonwebservices amazons3 awsglue

如何使用 pyspark 在 awsglue 中展平嵌套 json 中的数组？

我正在尝试展平 JSON 文件以便能够将其全部加载到 AWS Glue 中的 PostgreSQL 中我正在使用 PySpark 我使用爬虫抓取 S3 JSON 并生成一个表然后我使用 ETL Glue 脚本来读取爬取的表使用 R

Arrays json PySpark apachesparksql awsglue