Python
Java
PHP
IOS
Android
Nodejs
JavaScript
Html5
Windows
Ubuntu
Linux
AWS Glue 作业 - 写入单个 Parquet 文件
我正在带分区的 S3 存储桶中收集 JSON 格式的数据 例子 s3 bucket app events year 2019 month 9 day 30 0001 json s3 bucket app events year 2019 m
amazonwebservices
amazons3
awsglue
如何使用 pyspark 在 awsglue 中展平嵌套 json 中的数组?
我正在尝试展平 JSON 文件 以便能够将其全部加载到 AWS Glue 中的 PostgreSQL 中 我正在使用 PySpark 我使用爬虫抓取 S3 JSON 并生成一个表 然后我使用 ETL Glue 脚本来 读取爬取的表 使用 R
Arrays
json
PySpark
apachesparksql
awsglue
如何以编程方式读取 AWS Glue 数据目录表架构
我有一组结构统一的日常 CSV 文件 我将其上传到 S3 有一个下游作业将 CSV 数据加载到 Redshift 数据库表中 CSV 中的列数可能会增加 从那时起 新文件中将包含新列 发生这种情况时 我想检测更改并自动将该列添加到目标 Re
amazonredshift
awsglue
AWS Glue 爬网程序未创建表
我在 AWS Glue 中创建的爬网程序在成功完成后不会在数据目录中创建表 爬网程序大约需要 20 秒才能运行 日志显示它已成功完成 CloudWatch日志显示 基准 为爬网程序运行启动爬网 基准 分类完成 将结果写入DB 基准 完成写入
amazonwebservices
awsglue
胶水作业无法写入文件
我通过粘合作业返回填充一些数据 该作业本身是从 s3 读取 TSV 稍微转换数据 然后将其以 Parquet 写入 S3 由于我已经拥有数据 因此我尝试一次启动多个作业 以减少处理所有数据所需的时间 当我同时启动多个作业时 有时会遇到一个问
amazonwebservices
amazons3
PySpark
awsglue
从 PySpark 中的 s3 子目录读取数据
我想从 S3 存储桶中读取所有 parquet 文件 包括子目录中的所有文件 这些实际上是前缀 在 S3 URL 中使用通配符 仅适用于指定文件夹中的文件 例如 使用此代码将仅读取下面的镶木地板文件target folder df spar
apachespark
parquet
awsglue
PySpark
在 AWS Glue 中转换其他列的数据类型时,某些列会变为 null
我正在尝试使用 AWS Glue 将 csv 数据从 AWS S3 移动到 AWS Redshift 我正在移动的数据使用非标准格式来记录每个条目的时间戳 例如 01 JAN 2020 01 02 03 因此我的胶水爬行程序将此列作为字符串
amazonwebservices
apachespark
PySpark
awsglue
如何停止/退出 AWS Glue 作业 (PySpark)?
我成功运行了一个 AWS Glue 作业 可以转换数据以进行预测 如果达到特定条件 我想停止处理并输出状态消息 正在运行 if specific condition is None s3 put object Body json str B
amazonwebservices
awsglue
awsgluespark
AWS Glue:爬网程序无法识别 CSV 格式的时间戳列
运行 AWS Glue 爬网程序时 它无法识别时间戳列 我已在 CSV 文件中正确设置 ISO8601 时间戳的格式 首先 我希望 Glue 能够自动将它们分类为时间戳 但事实并非如此 我还尝试从此链接中使用自定义时间戳分类器https d
awsglue
如何将 AWS Glue 作业的输出返回到调用 Step Function 工作流程?
AWS Step Functions 允许调用 AWS Glue 作业 如下所述 https docs aws amazon com step functions latest dg connect glue html https docs
amazonwebservices
awsglue
awsstepfunctions
(AWS) Athena:查询结果似乎太短
我的 Athena 查询的结果似乎太短 试图找出为什么 Setup 胶水目录 尺寸为 118 6 G 数据 以 CSV 和 JSON 格式存储在 S3 中 Athena Query 当我查询整个表的数据时 每次查询只得到 40K 条结果 一
amazonwebservices
amazons3
amazonathena
awsglue
如何使用 Java 获取 AWS Glue 客户端
我正在尝试从用 Java 编写的 Lambda 代码调用 AWS Glue 中的作业 但我无法获得 Glue 客户端 就像我们有这样的 DynamoClient AmazonDynamoDB client AmazonDynamoDBCli
Java
amazonwebservices
awsglue
AWS Glue 中的 AWS 区域
如何获取当前 Glue 作业正在执行的区域 当 Glue 作业开始执行时 我看到输出 Detected region eu central 1 在 AWS Lambda 中 我可以使用以下行来获取当前区域 import os region
python
amazonwebservices
awsglue
AWS Glue 作业因连接超时错误而失败
我是 AWS Glue 的新手 我创建了一个作业 它使用两个数据目录表并在它们之上运行简单的 SparkSQL 查询 作业在转换步骤失败并出现异常 pyspark sql utils AnalysisException java lang
amazonwebservices
awsglue
使用 AWS Glue 时如何查找更新的行?
我正在尝试使用 Glue 对从 RDS 迁移到 Redshift 的数据进行 ETL 据我所知 Glue 书签仅使用指定的主键查找新行 而不跟踪更新的行 然而 我正在处理的数据往往会频繁更新行 我正在寻找可能的解决方案 我对 pyspark
amazonwebservices
PySpark
ETL
awsglue
在 AWS Glue 作业中写入 S3 时是否可以指定 SSE:KMS 密钥 ID?
如果您按照 AWS Glue 添加作业向导创建一个脚本来将 parquet 文件写入 S3 您最终会生成类似这样的代码 datasink4 glueContext write dynamic frame from options frame
amazonwebservices
awsglue
amazonkms
使用 AWS Glue ETL 将多个 parquet 文件合并到 AWS S3 中的单个 parquet 文件 python Spark (pyspark)
我每 15 分钟运行一次 AWS Glue ETL 作业 每次在 S3 中生成 1 个 parquet 文件 我需要创建另一个作业以在每小时结束时运行 以使用 AWS Glue ETL pyspark 代码将 S3 中的所有 4 个 par
amazons3
PySpark
parquet
awsglue
AWS Glue 截断 Redshift 表
我创建了一个 Glue 作业 将数据从 S3 csv 文件 复制到 Redshift 它可以工作并填充所需的表 但是 我需要在此过程中清除表 因为在该过程完成后我留下了重复的记录 我正在寻找一种方法将这种清除添加到胶水过程中 任何意见 将不
python
amazonwebservices
PySpark
amazonredshift
awsglue
如何配置 Spark / Glue 以避免在 Glue 作业成功执行后创建空 $_folder_$
我有一个简单的glue etl 作业 它是由Glue 工作流程触发的 它从爬虫表中删除重复数据并将结果写回到 S3 存储桶中 工作顺利完成 然而 spark 的空文件夹会生成 folder 保留在 s3 中 它在层次结构中看起来不太好 并会
amazonwebservices
awsglue
awsgluespark
awsglueworkflow
在 Glue pythonshell 中使用 pyarrow - ModuleNotFoundError:没有名为“pyarrow.lib”的模块
创建了一个egg and whlpyarrow 文件并将其放在 s3 上 以便在 pythonshell 作业中调用它 收到这条消息 职位代码 import pyarrow raise 错误 结构相同whl Traceback most r
python
python3x
awsglue
egg
pyarrow
«
1
2
3
4
»