awsglue

AWS Glue 作业 - 写入单个 Parquet 文件

我正在带分区的 S3 存储桶中收集 JSON 格式的数据例子 s3 bucket app events year 2019 month 9 day 30 0001 json s3 bucket app events year 2019 m

amazonwebservices amazons3 awsglue

如何使用 pyspark 在 awsglue 中展平嵌套 json 中的数组？

我正在尝试展平 JSON 文件以便能够将其全部加载到 AWS Glue 中的 PostgreSQL 中我正在使用 PySpark 我使用爬虫抓取 S3 JSON 并生成一个表然后我使用 ETL Glue 脚本来读取爬取的表使用 R

Arrays json PySpark apachesparksql awsglue

如何以编程方式读取 AWS Glue 数据目录表架构

我有一组结构统一的日常 CSV 文件我将其上传到 S3 有一个下游作业将 CSV 数据加载到 Redshift 数据库表中 CSV 中的列数可能会增加从那时起新文件中将包含新列发生这种情况时我想检测更改并自动将该列添加到目标 Re

amazonredshift awsglue

AWS Glue 爬网程序未创建表

我在 AWS Glue 中创建的爬网程序在成功完成后不会在数据目录中创建表爬网程序大约需要 20 秒才能运行日志显示它已成功完成 CloudWatch日志显示基准为爬网程序运行启动爬网基准分类完成将结果写入DB 基准完成写入

amazonwebservices awsglue

胶水作业无法写入文件

我通过粘合作业返回填充一些数据该作业本身是从 s3 读取 TSV 稍微转换数据然后将其以 Parquet 写入 S3 由于我已经拥有数据因此我尝试一次启动多个作业以减少处理所有数据所需的时间当我同时启动多个作业时有时会遇到一个问

amazonwebservices amazons3 PySpark awsglue

从 PySpark 中的 s3 子目录读取数据

我想从 S3 存储桶中读取所有 parquet 文件包括子目录中的所有文件这些实际上是前缀在 S3 URL 中使用通配符仅适用于指定文件夹中的文件例如使用此代码将仅读取下面的镶木地板文件target folder df spar

apachespark parquet awsglue PySpark

在 AWS Glue 中转换其他列的数据类型时，某些列会变为 null

我正在尝试使用 AWS Glue 将 csv 数据从 AWS S3 移动到 AWS Redshift 我正在移动的数据使用非标准格式来记录每个条目的时间戳例如 01 JAN 2020 01 02 03 因此我的胶水爬行程序将此列作为字符串

amazonwebservices apachespark PySpark awsglue

如何停止/退出 AWS Glue 作业 (PySpark)？

我成功运行了一个 AWS Glue 作业可以转换数据以进行预测如果达到特定条件我想停止处理并输出状态消息正在运行 if specific condition is None s3 put object Body json str B

amazonwebservices awsglue awsgluespark

AWS Glue：爬网程序无法识别 CSV 格式的时间戳列

运行 AWS Glue 爬网程序时它无法识别时间戳列我已在 CSV 文件中正确设置 ISO8601 时间戳的格式首先我希望 Glue 能够自动将它们分类为时间戳但事实并非如此我还尝试从此链接中使用自定义时间戳分类器https d

awsglue

如何将 AWS Glue 作业的输出返回到调用 Step Function 工作流程？

AWS Step Functions 允许调用 AWS Glue 作业如下所述 https docs aws amazon com step functions latest dg connect glue html https docs

amazonwebservices awsglue awsstepfunctions

(AWS) Athena：查询结果似乎太短

我的 Athena 查询的结果似乎太短试图找出为什么 Setup 胶水目录尺寸为 118 6 G 数据以 CSV 和 JSON 格式存储在 S3 中 Athena Query 当我查询整个表的数据时每次查询只得到 40K 条结果一

amazonwebservices amazons3 amazonathena awsglue

如何使用 Java 获取 AWS Glue 客户端

我正在尝试从用 Java 编写的 Lambda 代码调用 AWS Glue 中的作业但我无法获得 Glue 客户端就像我们有这样的 DynamoClient AmazonDynamoDB client AmazonDynamoDBCli

Java amazonwebservices awsglue

AWS Glue 中的 AWS 区域

如何获取当前 Glue 作业正在执行的区域当 Glue 作业开始执行时我看到输出 Detected region eu central 1 在 AWS Lambda 中我可以使用以下行来获取当前区域 import os region

python amazonwebservices awsglue

AWS Glue 作业因连接超时错误而失败

我是 AWS Glue 的新手我创建了一个作业它使用两个数据目录表并在它们之上运行简单的 SparkSQL 查询作业在转换步骤失败并出现异常 pyspark sql utils AnalysisException java lang

amazonwebservices awsglue

使用 AWS Glue 时如何查找更新的行？

我正在尝试使用 Glue 对从 RDS 迁移到 Redshift 的数据进行 ETL 据我所知 Glue 书签仅使用指定的主键查找新行而不跟踪更新的行然而我正在处理的数据往往会频繁更新行我正在寻找可能的解决方案我对 pyspark

amazonwebservices PySpark ETL awsglue

在 AWS Glue 作业中写入 S3 时是否可以指定 SSE:KMS 密钥 ID？

如果您按照 AWS Glue 添加作业向导创建一个脚本来将 parquet 文件写入 S3 您最终会生成类似这样的代码 datasink4 glueContext write dynamic frame from options frame

amazonwebservices awsglue amazonkms

使用 AWS Glue ETL 将多个 parquet 文件合并到 AWS S3 中的单个 parquet 文件 python Spark (pyspark)

我每 15 分钟运行一次 AWS Glue ETL 作业每次在 S3 中生成 1 个 parquet 文件我需要创建另一个作业以在每小时结束时运行以使用 AWS Glue ETL pyspark 代码将 S3 中的所有 4 个 par

amazons3 PySpark parquet awsglue

AWS Glue 截断 Redshift 表

我创建了一个 Glue 作业将数据从 S3 csv 文件复制到 Redshift 它可以工作并填充所需的表但是我需要在此过程中清除表因为在该过程完成后我留下了重复的记录我正在寻找一种方法将这种清除添加到胶水过程中任何意见将不

python amazonwebservices PySpark amazonredshift awsglue

如何配置 Spark / Glue 以避免在 Glue 作业成功执行后创建空 $_folder_$

我有一个简单的glue etl 作业它是由Glue 工作流程触发的它从爬虫表中删除重复数据并将结果写回到 S3 存储桶中工作顺利完成然而 spark 的空文件夹会生成 folder 保留在 s3 中它在层次结构中看起来不太好并会

amazonwebservices awsglue awsgluespark awsglueworkflow

在 Glue pythonshell 中使用 pyarrow - ModuleNotFoundError：没有名为“pyarrow.lib”的模块

创建了一个egg and whlpyarrow 文件并将其放在 s3 上以便在 pythonshell 作业中调用它收到这条消息职位代码 import pyarrow raise 错误结构相同whl Traceback most r

python python3x awsglue egg pyarrow