awsglue

AWS Glue 爬网程序无法提取 CSV 标头

我已经无计可施了我有 15 个 csv 文件它们是通过直线查询生成的例如 beeline u CONN STR outputformat dsv e SELECT gt data csv I chose dsv因为某些字符串字段包含逗

csv amazonathena awsglue

是否可以使用 Jupyter Notebook for AWS Glue 而不是 Zeppelin

我开始使用 AWS Glue 进行数据 ETL 我已将数据源拉入我的 AWS 数据目录并准备为我用于测试的一个特定 Postgres 数据库中的数据创建一项作业我在网上读到在创作自己的作品时可以使用 Zeppelin 笔记本我根本

python jupyter awsglue

Pythonlogging.getLogger 在 AWS Glue python shell 作业中不起作用

我正在尝试使用 Python 为我的 AWS Glue 作业设置一个记录器logging模块我有一个使用 Python 版本 3 的类型为 Python Shell 的 Glue 作业如果我实例化记录器而没有任何记录则记录工作正常na

python amazonwebservices logging awsglue

使用 AWS Glue 或 PySpark 过滤 DynamicFrame

我的 AWS Glue 数据目录中有一个名为 mytable 的表该表位于本地 Oracle 数据库连接 mydb 中我想将生成的 DynamicFrame 过滤为仅 X DATETIME INSERT 列时间戳大于特定时间在本例

python python27 amazonwebservices PySpark awsglue

AWS Glue：如何在输出中添加包含源文件名的列？

有谁知道如何将源文件名添加为粘合作业中的列我们创建了一个流程在其中抓取 S3 中的一些文件以创建架构然后我们编写了一个作业将文件转换为新格式并将这些文件以 CSV 形式写回另一个 S3 存储桶以供管道的其余部分使用我们想要做

amazonwebservices apachespark PySpark awsglue

在AWS lambda函数中从s3存储桶读取.mdb或.accdb文件并使用python将其转换为excel或csv

我有一个用例我需要从放置在 AWS s3 存储桶上的 MS Access 文件 mdb 或 accdb 读取表并在 AWS lambda 函数中将其转换为 csv 或 excel 文件然后再次将转换后的文件上传到 s3 存储桶我通过

python msaccess amazons3 awslambda awsglue

如何配置粘合书签以与 scala 代码一起使用？

考虑 Scala 代码 import com amazonaws services glue GlueContext import com amazonaws services glue util GlueArgParser Job Jso

scala amazonwebservices awsglue

AWS Glue DPU 配置

我看到 DPU 由 4 个 vCPU 和 16 GB 内存组成是否可以更改 vCPU 内存的设置以便我不会用完 DPU 或超出 DPU 限制我认为一个开发端点最多有 5 个 DPU 一个帐户最多有 2 个 DEV 端点 Regards

awsglue

如何在AWS-Glue脚本中编写用户定义函数？

我们如何在动态框架或数据框架上使用 PySpark Python 在 AWS Glue 脚本中编写用户定义的函数 Dynamicframe 并不像 Dataframe API 支持 UDF 那样完全支持它您将获得的最好结果是 MAP ap

python PySpark awsglue

pyspark：将字符串转换为结构

我有数据如下 Id 01d3050e Properties choices null object demo database pg timestamp 1581534117303 LastUpdated 1581530000000 Las

apachespark PySpark apachesparksql awsglue

如何在粘合作业中添加当前时间戳（额外列），以便输出数据具有额外列

如何在粘合作业中添加当前时间戳额外列以便输出数据具有额外列在这种情况下架构源表第 1 列第 2 列涂胶工作后目的地示意图 Col1 Col2 Update Date 当前时间戳我们执行以下操作并且无需转换为 DF 即可正常

amazonwebservices PySpark ETL awsglue

如何处理 AWS Glue 中映射函数中的错误？

我正在使用mapDynamicFrame 的方法或者等效地 Map apply方法我注意到我传递给这些函数的函数中的任何错误都会被默默地忽略并导致返回的 DynamicFrame 为空假设我有一个这样的作业脚本 import sys

apachespark PySpark awsglue

AWS Glue Python Shell 与 Oracle cx_Oracle 的连接问题

我正在研究 AWS Glue Python Shell 我想将 python shell 与 Oracle 连接我成功安装了 psycopg2 和 mysql 库但是当我尝试使用 cx Oracle 连接 Oracle 时我已成功安装

python Oracle amazonwebservices awsglue

将 Spark fileoutputcommitter.algorithm.version=2 与 AWS Glue 结合使用

我一直无法弄清楚这一点但我正在尝试将直接输出提交器与 AWS Glue 结合使用 spark hadoop mapreduce fileoutputcommitter algorithm version 2 是否可以将此配置与 AWS G

scala amazonwebservices apachespark PySpark awsglue

从 AWS Glue 更新插入到 Amazon Redshift

据我所知没有可以直接从 Glue 到 Redshift 执行的直接 UPSERT 查询是否可以在粘合脚本本身中实现临时表概念所以我的期望是创建临时表将其与目标表合并最后删除它可以在Glue脚本中实现吗通过将 postactio

amazonwebservices amazonredshift awsglue

AWS Glue - 如何使用 BOTO3 更改 Glue Catalog 表中的列名称？

我正在使用 AWS Glue 爬网程序读取 S3 zip 文件无标头并填充 Glue 目录列默认命名为 col 0 col 1 如何使用例如更改这些列名称python boto3 模块并直接与 AWS Glue 目录交互有执行此操作

python amazonwebservices boto3 awsglue

使用 AWS Glue 将非常大的 csv.gz（每个 30-40 GB）转换为 parquet

有很多这样的问题但似乎没有任何帮助我试图将相当大的 csv gz 文件隐藏到镶木地板上并不断收到各种错误例如 Command failed with exit code 1 or An error occurred while ca

amazonwebservices awsglue

如何将 CloudWatch 自定义日志组与 Python Shell Glue 作业结合使用？

我有一些 Python Shell 类型的 Glue 作业我想将作业日志发送到自定义 CloudWatch 日志组而不是默认日志组我可以通过提供如下作业参数来实现 Spark 类型胶水作业 enable continuous cloud

awsglue amazoncloudwatchlogs

无法使用 AWS Glue 中的 cx_oracle 连接 Oracle 数据库

我正在尝试使用 cx oracle 从 AWSglue 连接 Oracle 数据库但收到此错误消息数据库错误 DPI 1047 无法找到 64 位 Oracle 客户端库 libclntsh so 无法打开共享对象文件没有这样的文件或

Oracle amazonwebservices awsglue

当s3数据存储同时具有json和.gz压缩文件时，如何通过Glue爬虫创建AWS Athena表？

我的预期解决方案有两个问题 1 我的S3存储结构如下 mainfolder date 2019 01 01 hour 14 abcd json mainfolder date 2019 01 01 hour 13 abcd2 json gz

amazonwebservices amazons3 amazonathena awsglue