如何减少使用 AWS Glue 将 parquet 文件写入 s3 所需的时间

2024-06-20

我正在创建一个胶水作业，需要处理来自 s3 路径的每日 4TB 数据量 -s3://<path>/<year>/<month>/<day>/<hour>/。因此，我创建了一个循环，按每小时文件夹（每个 155Gb）将数据读入 Spark df，过滤某些类别，并作为按过滤类别分区的镶木地板文件写回 s3（s3://<path>/category=<category>/year=<year>/month=<month>/day=<day>/hour=<hour>/）。我使用 60 个 G2.X 工作节点，每个节点有（8 个 vCPU、32 GB 内存、128 GB 磁盘）。 S3写入速度极慢，需要10多个小时才能完成。除了增加节点数量之外，是否有办法加快/优化 s3 写入？


def s3_load_job(input_list):

    hour, year, month, day = input_list
    logger.info(f"hour in s3 func {hour}")
    
    # get data from s3
    s3_path = f"s3://<path>/{year}/{month}/{day}/{hour}/"
    logger.info(f"print s3 path {s3_path}")

    #user defined library function that return spark df
    df = get_df_from_s3(glueContext, s3_path)

    df = df.withColumn('category', F.lower(F.col('category')))

    df_rep = df.where(F.col('category').isin({ "A", "B", "C","D"}))

    #write to s3
    datasink4 = DynamicFrame.fromDF(df_rep, glueContext, "datasink4")
    
    glueContext.write_dynamic_frame.from_options(frame = datasink4,
                                                             connection_type = "s3",
                                                             connection_options = 
                                                             {"path":"s3://<path>/"
                                           ,"partitionKeys"["category","year","month","day","hour"]}
                                                             ,format = "glueparquet" )



def main():
    
    year = '2020'
    month = '08'
    day = '01'
    hours = ["%.2d" % i for i in range(24)]

    input_list = [[hour, year, month, day] for hour in hours]
    logger.info(f"input_list {input_list}")

    for i in input_list:
        s3_load_job(i)
    
    job.commit()



if __name__ == "__main__":
    main()

看来你一定已经找到了处理这个问题的方法了。想分享对我有用的东西。我每小时运行一次胶水作业，启用作业书签以不重新处理旧文件。确保您没有创建太多分区，这不仅会导致更长的执行时间，而且如果您想通过 Athena 进行查询，从长远来看，您的查询可能会超时。将分区保持在最低限度。通过重新分区，您的作业可能会花费太多时间来整理数据，这可能会增加作业运行时间。然而，每小时频繁跑步可能会有所帮助。请分享对您有用的方法。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

如何减少使用 AWS Glue 将 parquet 文件写入 s3 所需的时间的相关文章

从数据块中的数组列获取数据，无需交叉连接

假设我有一张桌子 id array col 101 system x value 1 system y value 2 system z value 3 其中 array col 基本上包含一个结构数组 0 系统 x 值 1 1 系统 y
K均值||用于 Spark 上的情感分析

我正在尝试编写基于Spark的情感分析程序为此我使用了 word2vec 和 KMeans 聚类从 word2Vec 我在 100 维空间中得到了 20k 个单词向量集合现在我正在尝试对这个向量空间进行聚类当我使用默认并行实现运
Node JS AWS S3 文件上传。如何获取公共 URL 响应

我正在使用 Node SDK 将文件上传到 Amazon S3 文件上传工作正常但我想获取文件的公共 url 以发送回客户端目前我得到的回应是 Successfully uploaded data ETag 957cd1a335adf5
为什么我必须明确告诉 Spark 要缓存什么？

在 Spark 中每次我们对 RDD 执行任何操作时都会重新计算 RDD 因此如果我们知道 RDD 将被重用我们应该显式地缓存 RDD 比方说 Spark 决定延迟缓存所有 RDD 并使用 LRU 自动将最相关的 RDD 保留在内存
有没有办法使用 s3.putbucketreplication API 为 AWS S3 复制管理启用 ReplicationConfiguration？

我正在尝试通过 s3 putbucketreplication api 启用复制配置我正进入状态 InvalidRequest 优先级不能用于此版本的跨区域复制配置架构请参阅 S3 开发人员指南了解更多信息错误这是什么意思 var
如何将巨大的pandas数据帧保存到hdfs？

我正在使用 pandas 和 Spark 数据框数据帧总是非常大 gt 20 GB 标准 Spark 函数不足以满足这些大小目前我将 pandas 数据框转换为 Spark 数据框如下所示 dataframe spark creat
如何在Python中将HDF5文件直接上传到S3存储桶

我想将使用 h5py 创建的 HDF5 文件上传到 S3 存储桶而不使用 boto3 本地保存 This solution https stackoverflow com questions 48491839 any way to wri
放大发布导致 AccessDenied 错误

我部署了一个简单的网络应用程序S3 via amplify publish 主办方有Cloudfront启用我在设置托管时选择了放大中的 PROD 环境并且我正在工作eu central 1地区但每当我尝试访问Cloudfront网址
通过Listener获取Spark thrift服务器查询中读取的行数

我正在尝试为我们的 ST 服务器构建一个监控系统到目前为止诸如记录查询检索的行红色和花费的时间之类的事情都很好我已经实现了一个自定义侦听器我能够毫无问题地检索查询和时间侦听SparkListenerSQLExecutionSt
如何抑制 EMR 上运行的 Spark-sql 的 INFO 消息？

我正在 EMR 上运行 Spark 如中所述在 Amazon Elastic MapReduce 上运行 Spark 和 Spark SQL https aws amazon com articles 4926593393724923 本教
如何将参数传递给用户定义函数？

我有一个用户定义的函数 calc udf calculate FloatType param1 A result df withColumn col1 calc col type col pos groupBy pk sum events
从单个字符串创建 Spark DataFrame

我正在尝试采用硬编码字符串并将其转换为 1 行 Spark DataFrame 具有单列类型StringType 这样 String fizz buzz 将得到一个 DataFrame 其 show 方法如下 fizz buzz 迄今为止我
我需要比较两个数据帧以进行类型验证并发送非零值作为输出

我正在比较两个数据帧基本上这些是两个不同数据源的模式一个来自 hive 另一个来自 SAS9 2 我需要验证两个数据源的结构因此我将模式转换为两个数据帧它们是 SAS 架构将采用以下格式 scala gt metadata sho
Spark中DataFrame、Dataset、RDD的区别

我只是想知道有什么区别RDD and DataFrame Spark 2 0 0 DataFrame 只是一个类型别名Dataset Row 在阿帕奇火花你能将其中一种转换为另一种吗首先是DataFrame是从SchemaRDD 是的
Spark错误：无效的日志目录/app/spark/spark-1.6.1-bin-hadoop2.6/work/app-20161018015113-0000/3/

我的 Spark 应用程序因上述错误而失败实际上我的 Spark 程序正在将日志写入该目录 stderr 和 stdout 都被写入所有工作人员我的程序以前运行良好但昨天我将 fodler 更改为指向 SPARK WORKER DIR
Instagram 如何使用 Amazon S3？

在将文件上传到 Amazon S3 时我需要深入了解 Instagram 的工程我刚刚开始使用 S3 我认为 Instagram 是一个值得效仿的好模式因为他们每天上传数千张图片我的应用程序有点相似用户上传图片可以删除自己的图片
Java Spark DataFrameReader java.lang.NegativeArraySizeException

学习 Spark for java 并尝试阅读 csv文件为DataFrame使用DataFrameReader 甚至不能得到一个超级简单的 csv文件工作因为我不断收到异常java lang NegativeArraySizeExcep
使用 boto3 从 s3 下载时使用 filename 作为文件名

我正在使用 boto3 上传文件如下所示 client boto3 client s3 aws access key id id aws secret access key key client upload file tmp test
S3 对象级别事件未触发

我在 aws eventsbridge 中使用事件模式创建了一个事件规则 source aws s3 目标是 CloudWatch 日志组现在当我在存储桶级别更改某些内容时例如存储桶权限然后我看到云监视中捕获的事件但是当我在 s3
使用 Scala 在 Apache Spark 中拆分字符串

我有一个数据集其中包含以下格式的行制表符分隔 Title lt t gt Text 现在对于每个单词Text 我想创建一个 Word Title 一对例如 ABC Hello World gives me Hello ABC Worl

随机推荐

如何在aspx页面中的repeater ItemDataBound函数中传递Control.ClientID？

我想调用 JavaScript 函数来折叠展开我在 asp repeater 中使用此代码ItemTemplate在跨度上 onclick javascript funCollExp this 我该如何通过Control ClientI
JavaScript 并行性

好吧首先我想说我在互联网开发领域还是个新手无论如何我想知道是否可以使用 javascript 并行运行两段代码我真正需要的是调用远程服务器中的两个方法我为两者传递了一个回调函数该函数将在我想要的数据准备好后立即执行由于运行这些
无法访问azure webapp url

实际上我创建了一个 Web 应用程序并成功将我的代码部署到该 Web 应用程序中但是当我尝试通过 URL 访问该 Web 应用程序时它显示如下您无权查看此目录或页面我不知道为什么会这样我尝试创建不同的网络应用程序但仍然重复同样
git am 和 git apply 有什么区别？

Both git am https git scm com docs git am and git apply https git scm com docs git apply可用于应用补丁看起来git am自动提交而git apply
wpf，如何限制TextBox的MaxLength？
为什么从网上下载Git 2.0，总是得到1.9.4的安装包？

为什么从网上下载Git 2 0 总是得到1 9 4的安装包为什么你不能在互联网上的任何地方找到一个不仅标记为 2 0 而且你下载的安装存档也标记为这样的 Git 安装程序包例如这个2 1 3 站点 http git scm com d
内置函数将每个单词的第一个字母大写

如果 SQL Server 中已存在此类函数我不想为此创建自定义函数输入字符串 This is my string to convert预期输出 This Is My String To Convert SET ANSI NULLS O
双向链表转 JSON

我有一个三维结构实际上是一个具有六个节点的双向链表即左右上下进出如果一个节点位于另一个节点的右侧那么该节点将毫无疑问位于第一个节点的左侧喜欢实际上这是一个 3D 结构但为了便于理解我给出了一个 2D 示例现在我必
如何在没有分页装饰的情况下渲染 ngTable？

在我的小型 AngularJS 应用程序中我使用 ngTable 库渲染多个表格只有一个可以使用分页其他的内容总是少于一页每个渲染的 ngTable 似乎都在表格下方添加了 10 25 50 100 选择器对于我的大多数桌子来说
具有可变填充的 D3 包布局

我无法使用 d3 layout pack padding 获得变量填充我想在组和叶节点处放置不同的填充 d3 layout pack sort null size this width this height children funct
文件显示在 Visual Studio 的解决方案资源管理器中，并带有快捷方式图标。这意味着什么？

我已经下载了FParsec的库源代码所有文件都带有快捷方式符号这是什么意思当该项目添加到该项目时它被添加为链接Project gt Add Existing Item gt Add as Link 该文件很可能托管在目录结构中的另一
Java：外观和感觉

I am using Netbeans on a Windows machine what happens is that if I run the main java file the look and feel I get is dif
如何通过 SQL 表关联 SQL 中的实体

我是数据库设计的初学者我需要为项目创建数据库我可以用面向对象的术语解释我想要做什么值得庆幸的是数据库专家会很友善地向我解释如何在数据库方面处理这个问题我想创建一个与位置实体州城市有关系的用户 ID 名称实体所以在编程语言
Git撤销本地分支删除

我刚刚删除了错误的分支并进行了一些我需要的实验性更改git branch D branchName 如何恢复分支您可以使用git reflog http git scm com docs git reflog查找分支最后一次提交的 SH
由于 MIME 类型不受支持，拒绝应用样式

我不断收到一条错误消息指出 MIME 类型 text html 不可执行或不是受支持的样式表 MIME 类型并且启用了严格的 MIME 检查我的链接代码是
如何在 Binding Adapter 中将此 java 代码写入 kotlin

我在 lang java 中的 onBindViewHolder 中编写了一些代码行我试图在 Binding Adapter 中的 kotlin 中编写确切的代码但我无法编写该代码地震适配器 JAVA 我尝试过但无法编写相同的代码来
IntelliJ IDEA - 跟踪解决方案资源管理器中的活动项目

我试图在 IDEA 中找到一个不错的 VS 功能在解决方案资源管理器中跟踪活动项目模拟对于那些不知道的人当我在主区域中的文件之间切换时 VS 将突出显示解决方案资源管理器中的相应项目 IDEA 中的项目窗格自 2020 1 版
弹簧隔离支持吗？ SQL快照隔离

我们正在使用 SQL Server 快照隔离可能是提高性能和解决一些死锁问题的好方法假设我们确实需要更改为快照隔离我似乎找不到一种简单的方法来在 Springs 上启用快照隔离 Transactional 我发现以下 hibernate
由于无法加载主类错误，无法运行 JAR 文件

我构建了我的项目并使用 Gradle 构建框架生成了一个 JAR 文件但是输出 jar 文件无法从主类加载主要方法矿工追踪器在这种情况下正如我提到的与 jar选项失败 java jar Backtracker jar Error
如何减少使用 AWS Glue 将 parquet 文件写入 s3 所需的时间

我正在创建一个胶水作业需要处理来自 s3 路径的每日 4TB 数据量 s3

如何减少使用 AWS Glue 将 parquet 文件写入 s3 所需的时间

如何减少使用 AWS Glue 将 parquet 文件写入 s3 所需的时间 的相关文章

随机推荐

热门标签

如何减少使用 AWS Glue 将 parquet 文件写入 s3 所需的时间的相关文章