Python
Java
PHP
IOS
Android
Nodejs
JavaScript
Html5
Windows
Ubuntu
Linux
AWS Glue 爬网程序无法提取 CSV 标头
我已经无计可施了 我有 15 个 csv 文件 它们是通过直线查询生成的 例如 beeline u CONN STR outputformat dsv e SELECT gt data csv I chose dsv因为某些字符串字段包含逗
csv
amazonathena
awsglue
是否可以使用 Jupyter Notebook for AWS Glue 而不是 Zeppelin
我开始使用 AWS Glue 进行数据 ETL 我已将数据源拉入我的 AWS 数据目录 并准备为我用于测试的一个特定 Postgres 数据库中的数据创建一项作业 我在网上读到 在创作自己的作品时 可以使用 Zeppelin 笔记本 我根本
python
jupyter
awsglue
Pythonlogging.getLogger 在 AWS Glue python shell 作业中不起作用
我正在尝试使用 Python 为我的 AWS Glue 作业设置一个记录器logging模块 我有一个使用 Python 版本 3 的类型为 Python Shell 的 Glue 作业 如果我实例化记录器而没有任何记录 则记录工作正常na
python
amazonwebservices
logging
awsglue
使用 AWS Glue 或 PySpark 过滤 DynamicFrame
我的 AWS Glue 数据目录中有一个名为 mytable 的表 该表位于本地 Oracle 数据库连接 mydb 中 我想将生成的 DynamicFrame 过滤为仅 X DATETIME INSERT 列 时间戳 大于特定时间 在本例
python
python27
amazonwebservices
PySpark
awsglue
AWS Glue:如何在输出中添加包含源文件名的列?
有谁知道如何将源文件名添加为粘合作业中的列 我们创建了一个流程 在其中抓取 S3 中的一些文件以创建架构 然后 我们编写了一个作业 将文件转换为新格式 并将这些文件以 CSV 形式写回另一个 S3 存储桶 以供管道的其余部分使用 我们想要做
amazonwebservices
apachespark
PySpark
awsglue
在AWS lambda函数中从s3存储桶读取.mdb或.accdb文件并使用python将其转换为excel或csv
我有一个用例 我需要从放置在 AWS s3 存储桶上的 MS Access 文件 mdb 或 accdb 读取表 并在 AWS lambda 函数中将其转换为 csv 或 excel 文件 然后再次将转换后的文件上传到 s3 存储桶 我通过
python
msaccess
amazons3
awslambda
awsglue
如何配置粘合书签以与 scala 代码一起使用?
考虑 Scala 代码 import com amazonaws services glue GlueContext import com amazonaws services glue util GlueArgParser Job Jso
scala
amazonwebservices
awsglue
AWS Glue DPU 配置
我看到 DPU 由 4 个 vCPU 和 16 GB 内存组成 是否可以更改 vCPU 内存的设置 以便我不会用完 DPU 或超出 DPU 限制 我认为一个开发端点最多有 5 个 DPU 一个帐户最多有 2 个 DEV 端点 Regards
awsglue
如何在AWS-Glue脚本中编写用户定义函数?
我们如何在动态框架或数据框架上使用 PySpark Python 在 AWS Glue 脚本中编写用户定义的函数 Dynamicframe 并不像 Dataframe API 支持 UDF 那样完全支持它 您将获得的最好结果是 MAP ap
python
PySpark
awsglue
pyspark:将字符串转换为结构
我有数据如下 Id 01d3050e Properties choices null object demo database pg timestamp 1581534117303 LastUpdated 1581530000000 Las
apachespark
PySpark
apachesparksql
awsglue
如何在粘合作业中添加当前时间戳(额外列),以便输出数据具有额外列
如何在粘合作业中添加当前时间戳 额外列 以便输出数据具有额外列 在这种情况下 架构源表 第 1 列 第 2 列 涂胶工作后 目的地示意图 Col1 Col2 Update Date 当前时间戳 我们执行以下操作并且无需转换为 DF 即可正常
amazonwebservices
PySpark
ETL
awsglue
如何处理 AWS Glue 中映射函数中的错误?
我正在使用mapDynamicFrame 的方法 或者等效地 Map apply方法 我注意到我传递给这些函数的函数中的任何错误都会被默默地忽略 并导致返回的 DynamicFrame 为空 假设我有一个这样的作业脚本 import sys
apachespark
PySpark
awsglue
AWS Glue Python Shell 与 Oracle cx_Oracle 的连接问题
我正在研究 AWS Glue Python Shell 我想将 python shell 与 Oracle 连接 我成功安装了 psycopg2 和 mysql 库 但是当我尝试使用 cx Oracle 连接 Oracle 时 我已成功安装
python
Oracle
amazonwebservices
awsglue
将 Spark fileoutputcommitter.algorithm.version=2 与 AWS Glue 结合使用
我一直无法弄清楚这一点 但我正在尝试将直接输出提交器与 AWS Glue 结合使用 spark hadoop mapreduce fileoutputcommitter algorithm version 2 是否可以将此配置与 AWS G
scala
amazonwebservices
apachespark
PySpark
awsglue
从 AWS Glue 更新插入到 Amazon Redshift
据我所知 没有可以直接从 Glue 到 Redshift 执行的直接 UPSERT 查询 是否可以在粘合脚本本身中实现临时表概念 所以我的期望是创建临时表 将其与目标表合并 最后删除它 可以在Glue脚本中实现吗 通过将 postactio
amazonwebservices
amazonredshift
awsglue
AWS Glue - 如何使用 BOTO3 更改 Glue Catalog 表中的列名称?
我正在使用 AWS Glue 爬网程序读取 S3 zip 文件 无标头 并填充 Glue 目录 列默认命名为 col 0 col 1 如何使用例如更改这些列名称python boto3 模块并直接与 AWS Glue 目录交互 有执行此操作
python
amazonwebservices
boto3
awsglue
使用 AWS Glue 将非常大的 csv.gz(每个 30-40 GB)转换为 parquet
有很多这样的问题 但似乎没有任何帮助 我试图将相当大的 csv gz 文件隐藏到镶木地板上 并不断收到各种错误 例如 Command failed with exit code 1 or An error occurred while ca
amazonwebservices
awsglue
如何将 CloudWatch 自定义日志组与 Python Shell Glue 作业结合使用?
我有一些 Python Shell 类型的 Glue 作业 我想将作业日志发送到自定义 CloudWatch 日志组而不是默认日志组 我可以通过提供如下作业参数来实现 Spark 类型胶水作业 enable continuous cloud
awsglue
amazoncloudwatchlogs
无法使用 AWS Glue 中的 cx_oracle 连接 Oracle 数据库
我正在尝试使用 cx oracle 从 AWSglue 连接 Oracle 数据库 但收到此错误消息 数据库错误 DPI 1047 无法找到 64 位 Oracle 客户端库 libclntsh so 无法打开共享对象文件 没有这样的文件或
Oracle
amazonwebservices
awsglue
当s3数据存储同时具有json和.gz压缩文件时,如何通过Glue爬虫创建AWS Athena表?
我的预期解决方案有两个问题 1 我的S3存储结构如下 mainfolder date 2019 01 01 hour 14 abcd json mainfolder date 2019 01 01 hour 13 abcd2 json gz
amazonwebservices
amazons3
amazonathena
awsglue
«
1
2
3
4
»