如何配置 Spark / Glue 以避免在 Glue 作业成功执行后创建空 $_folder_$

2024-01-12

我有一个简单的glue etl 作业，它是由Glue 工作流程触发的。它从爬虫表中删除重复数据并将结果写回到 S3 存储桶中。工作顺利完成。然而，spark 的空文件夹会生成“$folder$" 保留在 s3 中。它在层次结构中看起来不太好，并会导致混乱。有没有办法配置 Spark 或粘合上下文以在成功完成作业后隐藏/删除这些文件夹？

---------------------S3 image ---------------------

好吧，经过几天的测试我终于找到了解决方案。在粘贴代码之前，让我总结一下我发现的内容......

这些 $folder$ 是通过 Hadoop 创建的。Apache Hadoop 在 S3 存储桶中创建文件夹时会创建这些文件。Source1 https://aws.amazon.com/premiumsupport/knowledge-center/emr-s3-empty-files/它们实际上是目录标记，如路径+/。Source 2 https://www.edureka.co/community/920/difference-between-s3n-s3a-and-s3#:%7E:text=s3%20is%20a%20block%2Dbased,is%20the%20successor%20to%20s3n.
要更改行为，您需要更改 Spark 上下文中的 Hadoop S3 写入配置。读this https://docs.qubole.com/en/latest/user-guide/cloud-filesystem/aws-filesystem.html and this https://towardsdatascience.com/testing-glue-pyspark-jobs-4b544d62106e and
了解 S3 、 S3a 和 S3nhere https://www.edureka.co/community/53425/what-is-the-difference-between-s3n-s3a-and-s3 and here https://forums.databricks.com/questions/35959/what-is-the-difference-between-using-s3a-s3n-and-s.html
感谢@stevel 的评论here https://stackoverflow.com/questions/65125955/dynamically-folder-creation-in-s3-bucket-from-pyspark-job

现在的解决方案是在 Spark 上下文 Hadoop 中设置以下配置。

sc = SparkContext()
hadoop_conf = sc._jsc.hadoopConfiguration()
hadoop_conf.set("fs.s3.impl", "org.apache.hadoop.fs.s3a.S3AFileSystem")

为了避免创建 SUCCESS 文件，您还需要设置以下配置：hadoop_conf.set("mapreduce.fileoutputcommitter.marksuccessfuljobs", "false")

确保使用 S3 URI 写入 s3 存储桶。前任：

myDF.write.mode("overwrite").parquet('s3://XXX/YY',partitionBy['DDD'])

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

如何配置 Spark / Glue 以避免在 Glue 作业成功执行后创建空 $_folder_$ 的相关文章

如何将 kubernetes LoadBalancer Ingress URL 发布到 aws Route53

今天当我通过 aws 使用 kubernetes 启动一个应用程序时它公开了一个公开可见的 LoadBalancer Ingress URL 但是要将其链接到我的域以使公众可以访问该应用程序我需要在每个设备上的浏览器中手动进入 aws
Elastic Beanstalk、Bundler 找不到 gem“bundler”的兼容版本

我已经尝试过将 Elastic Beanstalk 用于 Rails 当我运行 eb deploy 时出现此错误我需要至少安装bundler 1 8 4 知道如何解决这个问题吗 Bundler could not find compati
Amazon Web Services：设置 S3 策略以允许 putObject 和 getObject 但拒绝 listBucket

我在 Amazon S3 上使用 getObject 和 putObject 请求并在创建访问存储桶的策略时发现如果我不允许 listBucket 则会收到访问被拒绝错误这样做的问题是 listBucket 意味着用户可以列出存储
在 Elastic Beanstalk SSH 上运行 Django 命令 -> 缺少环境变量

所以这对我来说是一个长期存在的问题我很想解决它我也认为这会帮助很多其他人我希望在 Elastic Beanstalk EC2 实例上进行 ssh 操作后运行 Django 命令例如 python manage py dumpdata
使用 Terraform 管理访问 RDS 数据库的凭据时出现问题

我通过 Terraform 创建了一个秘密该秘密用于访问也在 Terraform 中定义的 RDS 数据库并且在秘密中我不想包含username and password 因此我创建了一个空密钥然后在 AWS 控制台中手动添加凭证
在 Amazon Redshift COPY 命令中转义分隔符

我正在将数据从 Amazon S3 提取到 Amazon Redshift 中的表中该表包含多个列其中某些列数据可能包含特殊字符复制命令有一个选项称为Delimiter我们可以在将数据拉入表时指定分隔符问题有2个方面当我导出时 u
如何使用对象标记上传到 AWS S3

有没有办法使用标签将文件上传到AWS S3 不将标签添加到S3中的现有文件对象我需要让该文件与我的 Tags 一起出现在 S3 中即在单个 API 调用中我需要这个因为我使用 Lambda 函数使用这些 S3 对象标签由 S3
从本地计算机连接到 AWS 上的 Neptune

我正在尝试从办公室的本地计算机连接到 AWS 实例中的 Neptune DB 就像从办公室连接到 RDS 一样是否可以从本地计算机连接 Neptune 数据库 Neptune 数据库是否公开可用开发人员有什么方法可以从办公室连接 Nep
从 Amazon API 网关终端节点输出纯文本内容

使用 Amazon 的 API Gateway 我可以创建一个端点该端点将调用输出纯文本的 lambda 函数但是当我在端点上发出请求时输出会返回默认内容类型 application json 这将输出用引号括起来的纯文本响应我想
如何使用具有自定义身份验证的 AWS cognito 创建临时 s3 上传安全令牌

因此我对 Cognito 的 Amazon 文档中有关其声明的用例之一的内容感到有点困惑使用您自己的身份系统允许您的应用程序将数据保存到 AWS 云就我而言我想给他们 aws 令牌以便他们从移动客户端直接上传到 s3 而无需将我
AWS Amazon - 登录循环卡住

我已经使用 AWS 亚马逊几年了但是突然当我登录时我进入了此验证部分他们将验证码发送到我的电子邮件我收到了该代码因此我输入收到的代码最终返回登录页面所以我登录后同样的事情一遍又一遍地发生我无法进入我的仪表板它只是不断
今天从 GitHub 操作构建 SAM 突然失败：模块“lib”没有属性“OpenSSL_add_all_algorithms”

昨天我的 SAM 构建正在使用以下 GitHub 操作今天突然开始失败并出现错误 AttributeError 模块 lib 没有属性 OpenSSL add all algorithms 经我验证 SAM 模板没有任何错误还有其他人
如何从 AWS SAM 本地 docker 实例连接到主机 MySQL？

我正在尝试使用调用我的 Lambda 函数sam local invoke但发现无法连接到我的主机MySQL 我尝试添加 docker network host但也无法连接 Traceback most recent call last F
AWS S3 上传的图像已损坏

我正在 AWS ec2 ubuntu 机器上工作我的代码在 cakephp 中当我尝试将任何图像上传到 AWS S3 时它都会损坏虽然它在核心 php 代码中运行良好这是我的控制器代码 if this gt User gt sav
将消息从 AWS Lambda 发布到 AWS IoT

我正在尝试使用 Nodejs 将消息从 AWS Lamba 发布到 AWS IoT 我已压缩该项目并上传到 AWS IoT 下面是代码片段 var awsIot require aws iot device sdk var device a
AWS ElasticSearch Service - 从 CF 模板设置加密选项

我正在创建一个云形成模板来在AWS中配置elasticsearch服务域我想将加密下的此属性设置为 true 域的所有流量都需要 HTTPS 但我无法在 AWS 文档中找到执行此操作的方法用于设置加密属性的其他选项例如启用静态数据加
AWS DynamoDB 写后读一致性 - 理论上它是如何工作的？

大多数nosql解决方案仅使用最终一致性并且考虑到DynamoDB将数据复制到三个数据中心如何保持写后读一致性解决此类问题的通用方法是什么我认为这很有趣因为即使在 MySQL 复制中数据也是异步复制的我将详细告诉您 Dynam
如何使用 jq 从多个嵌套数组中提取键

SETUP 我试图弄清楚 jq 过滤器是如何工作的但在找出嵌套数组时遇到了困难使用下面的数据我无法做出平的 5 键输出我可以得到 1 个键和 4 个空值或者 4 个键和 1 个空值但不能得到所有 5 个键 1 个键 4 个空值 R
AWS S3 GetObject 是否提供随机访问？

I can 提供 HTTP Range 标头 https docs aws amazon com AmazonS3 latest API API GetObject html API GetObject RequestSyntax到 AWS
在 Python 2.7 中出现“ImportError：无法导入名称 HTTPSConnection”错误

我正在尝试在 AWS ElasticBeanstalk 中部署 django 当我按照所示步骤操作时here http docs aws amazon com elasticbeanstalk latest dg create deploy

随机推荐

带有 AbstractClass 通知程序的 MultiProvider

我正在尝试为 Google 和 Facebook 登录创建一个单一界面我的SignInProvider好像 abstract class SignInProvider with ChangeNotifier bool get isSign
没有名为 future 的模块

我正在 python 中运行一个电报机器人并且在 raspbian pi3 上使用 python3 6 以下是我的进口 from future import absolute import division print function
用边框半径隐藏的溢出在图像上显示奇怪的灰色边框

我有一个圆形 div 它包含一个图像和另外两个 div 问题是该 div 周围显示灰色边框所有浏览器 chrome 和 firefox 均存在此问题我尝试过添加浏览器 css vendor prefixes 掩码但没有结果我不能使用
我应该如何“取消”ConcurrentDictionary 中的 AddOrUpdate？

我已阅读 MSDN 文档并这个博客 http blogs msdn com b pfxteam archive 2010 01 08 9945809 aspx我需要以下逻辑 For a ConcurrentDictionary
Optaplanner 中可空的链式规划变量

因此我正在研究对过度约束的路由问题进行建模其中并非所有任务都必须在该特定规划问题中进行相反目标是最大化该规划问题中的任务我想这应该很容易通过允许计划变量可为空来实现但似乎 Optaplanner不允许在链式计划变量上执行此操作
在矩形内绘制线宽 matplotlib

我在使用 Patches 在 matplotlib 中绘制矩形时遇到问题什么时候linewidth提供给patches Rectangle 边框绘制在矩形的外部这是一个例子 import matplotlib pyplot as plt
使用单个 SQL 查询构建层次结构树

我有一个SQL表具有以下结构 id int par int relational to id name varchar Column par包含对id or NULL如果没有参考此表旨在构建一个层次树然后给定数据 id par nam
如何将 TextView 添加到 GridView 布局中的 ImageView 中？

我需要一个 GridView 但在每个网格中其上方内部都会有一个 ImageView 和 TextView 它就像每个网格中的项目图像以及图像上的项目名称我正在尝试 public View getView int position
添加后如何在 Android 中实现下拉导航操作栏？

通过遵循本指南 http wptrafficanalyzer in blog adding drop down navigation to action bar in android http wptrafficanalyzer in bl
将 java String[] 设置为 postgres 准备好的语句时出错

我正在尝试将字符串数组插入 Postgres 中我从 Postgres 收到无效类型错误 public static void main String args throws SQLException String skus 0514 0
从 ipython 导入

如果我将 IDLE 与 python 2 7 一起使用 import cv import cv2 它有效但如果我使用 ipython 笔记本它给了我错误 ImportError Traceback 最近调用最后在 gt 1份导入简历
numPy 中的意外特征向量

我见过this https stackoverflow com questions 13739186 compute eigenvector using a dominant eigenvalue问题这与我尝试使用 numPy 计算 Py
将新节点添加到链表的新方法

void addNewNode struct node head int n struct node temp struct node malloc sizeof struct node temp gt data n temp gt lin
单例bean和原型bean有什么区别？

我是春天的新手我读到了这篇文章基本上 bean 具有定义其在应用程序中存在的范围 Singleton 意味着每个 Spring IOC 容器对单个对象实例的单个 bean 定义原型意味着任意数量的对象实例的单个 bean 定义那么
Postman 上的授权类型 Bearer Token

我正在尝试使用 Postman 测试一些端点所有端点都需要一个可以通过登录获取的令牌所以我这样做了请求 1 登录成功后我可以从响应中访问令牌然后将该令牌存储在全局变量中 let token pm response json loc
旧版应用程序上的 Windows GUI 自动化

我正在尝试自动化一个名为的旧 Windows 应用程序FacTel5 http www movistar es empresas ayuda factel abierto empresas 我已经能够自动化登录部分但下一个表单是一个类似项
消息框错误：外部导入不安全

import Graphics Win32 import System Win32 DLL import Control Exception bracket import Foreign import System Exit main IO
修复 Docker 中的 World-writable MySql 错误

我正在使用 docker compose 对于 db 我定义了这样的容器 db build builds mysql 5 7 environment MYSQL ROOT PASSWORD pass MYSQL DATABASE MYSQL
带有 numpy 掩码数组的 Python 散点图

我一直试图掩盖散点图的数据所有数据似乎都在绘制我正在使用 numpy 数组如下面的代码片段所示我想也许我无法屏蔽 c 数组我似乎找不到任何执行此操作的文档我将尝试使用 s 数组任何帮助是极大的赞赏 yy NP ma array
如何配置 Spark / Glue 以避免在 Glue 作业成功执行后创建空 $_folder_$

我有一个简单的glue etl 作业它是由Glue 工作流程触发的它从爬虫表中删除重复数据并将结果写回到 S3 存储桶中工作顺利完成然而 spark 的空文件夹会生成 folder 保留在 s3 中它在层次结构中看起来不太好并会

如何配置 Spark / Glue 以避免在 Glue 作业成功执行后创建空 $_folder_$

如何配置 Spark / Glue 以避免在 Glue 作业成功执行后创建空 $_folder_$ 的相关文章

随机推荐

热门标签