awsgluespark

以编程方式结束/退出粘合作业

我正在使用 Glue 书签来处理数据我的工作是每天安排的但也可以手动启动由于我使用书签有时胶水作业可以在没有新数据要处理的情况下启动然后读取的数据帧为空在这种情况下我想好好地结束我的工作因为它没有什么关系我试过 if

python PySpark awsglue exit awsgluespark

headersAPI Content Type application json accept application json Authorization Bearer XXXXXXXXXXXXXXXXXXXXXXXXXX skill r

python amazons3 awsglue awsgluedatacatalog awsgluespark

我成功运行了一个 AWS Glue 作业可以转换数据以进行预测如果达到特定条件我想停止处理并输出状态消息正在运行 if specific condition is None s3 put object Body json str B

amazonwebservices awsglue awsgluespark

我正在尝试在 Glue 目录中创建一个表其中包含使用 hive 在 EMR 中运行的 Spark 的 s3 路径位置我已尝试以下命令但出现错误 pyspark sql utils AnalysisException u java la

amazonwebservices PySpark hive awsgluedatacatalog awsgluespark

我有一个简单的glue etl 作业它是由Glue 工作流程触发的它从爬虫表中删除重复数据并将结果写回到 S3 存储桶中工作顺利完成然而 spark 的空文件夹会生成 folder 保留在 s3 中它在层次结构中看起来不太好并会

amazonwebservices awsglue awsgluespark awsglueworkflow