将 1 亿个文件写入 s3

2023-12-31

我的主要目标是根据每条记录的 id 将记录拆分为文件，目前有超过 150 亿条记录，而且肯定还会增加。我需要一个使用 Amazon EMR 的可扩展解决方案。我已经为一个包含大约 9 亿条记录的较小数据集完成了这项工作。

输入文件采用 csv 格式，其中一个字段需要是输出中的文件名。假设有以下输入记录：

awesomeId1, somedetail1, somedetail2
awesomeID1, somedetail3, somedetail4
awesomeID2, somedetail5, somedetail6

所以现在应该有 2 个文件作为输出，其中一个名为awesomeID1.dat和其他如awesomeID2.dat，每个都有与各自 ID 相关的记录。

输入大小：每月总计 600 GB（gzippef 文件大小），每个文件约为 2 3 GB。我一次需要处理大约 6 个月或更长时间。因此总数据大小将为 6*600 GB（压缩后）。

以前我得到Too many open files我使用的时候报错FileByKeyTextOutputFormat extends MultipleTextOutputFormat<Text, Text>根据id值写入s3。然后正如我所解释的here https://stackoverflow.com/questions/12953251/too-many-open-files-in-emr，我没有将每个文件直接写入 s3，而是在本地写入，然后以 1024 个文件为一批批量移动到 s3。

但现在随着数据量的增加，我从 s3 收到以下消息，然后它会跳过写入有问题的文件："Please reduce your request rate."另外，我必须在包含 200 台 m1.xlarge 机器的集群上运行，这需要大约 2 小时，因此成本也非常高！

我想要一个scalable如果将来数据量再次增加，该解决方案不会失败。

有什么建议么？

以下是有关 SlowDown 错误的一些信息：https://forums.aws.amazon.com/message.jspa?messageID=89722#89816 https://forums.aws.amazon.com/message.jspa?messageID=89722#89816您应该按字母顺序插入到 S3 中。此外，限制是动态的，会随着时间的推移重新调整，因此放慢速度并稍后尝试提高速率。

也许使用数据库比文件系统更好？总数据集有多大？

DynamoDB 可能是一个不错的选择，但可能价格昂贵，为 1 美元/GB/月。（因为它使用 SSD 作为后备存储。）

RDS 是另一种选择。其定价为 0.10 美元/GB/月起。

更好的可能是在 EC2 上托管您自己的 NoSQL 或其他数据存储，例如在新的 hs1.8xlarge 实例上。您可以仅在需要时启动它，并在不需要时将其备份到 S3。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

将 1 亿个文件写入 s3 的相关文章

在没有签名 URL 的情况下使用 CloudFront/S3 设置内容处置

我有一些具有公共读取访问权限的对象这些对象仅限于通过 CloudFront 提供服务当我尝试传递一个response content disposition参数到我的 CloudFront URL 我收到 S3 错误 Request s
具有服务器端加密 s3 存储桶的 AWS Cloudfront

这是对这个问题 https stackoverflow com questions 50166557 how can a cloudfront distribution an aws kms key to get an s3 image e
Hive - 线程安全的自动递增序列号生成

我遇到一种情况需要将记录插入到特定的 Hive 表中其中一列需要是自动递增的序列号即在任何时间点都必须严格遵循 max value 1 规则记录从许多并行的 Hive 作业插入到这个特定的表中这些作业每天每周每月批量运行现在
使用S3上传但不允许公共访问

我的想法是创建一个 S3 存储桶以允许用户上传二进制对象下一步是确认上传然后 API 将启动文件处理为了使其更安全客户端将首先请求上传位置然后 API 会在 S3 上为此上传分配并预先创建一个一次性使用目录并在该目录上设置访问策
X-Amz-Expires 是向 AWS 发出的请求所需的标头/参数吗？

Is X Amz Expires必需的标头参数官方文档不一致用在一些例子 http docs aws amazon com AmazonS3 latest API sigv4 query string auth html 虽然不在ot
纱线上的火花，连接到资源管理器 /0.0.0.0:8032

我正在我的开发机器 Mac 上编写 Spark 程序 hadoop的版本是2 6 spark的版本是1 6 2 hadoop集群有3个节点当然都在linux机器上我在idea IDE中以spark独立模式运行spark程序它运行成功
如何在AWS策略中提供多个StringNotEquals条件？

我正在尝试编写 AWS S3 存储桶策略拒绝所有流量除非来自两个 VPC 的流量我正在尝试编写的策略如下所示两者之间有逻辑与StringNotEquals 除非这是无效的政策 Version 2012 10 17 Id Policy
从 S3 提供 Django 的静态文件和媒体文件

我遇到了一个奇怪的问题我不知道是什么原因造成的这是我当前的配置使用Heroku MEDIA URL media STATIC URL static STATICFILES DIRS os path join PROJECT DIR s
非 hdfs 文件系统上的 hadoop/yarn 和任务并行化

我已经实例化了 Hadoop 2 4 1 集群并且发现运行 MapReduce 应用程序的并行化方式会有所不同具体取决于输入数据所在的文件系统类型使用 HDFS MapReduce 作业将生成足够的容器以最大限度地利用所有可用内存
运行时异常：java.lang.NoSuchMethodException：tfidf$Reduce.()

如何解决这个问题 tfidf是我的主类为什么运行jar文件后会出现这个错误 java lang RuntimeException java lang NoSuchMethodException tfidf Reduce
适用于 Hadoop 的 DynamoDB 输入格式

我必须使用 Hadoop mapreduce 处理保留在 Amazon Dynamodb 中的一些数据我在互联网上搜索 Dynamo DB 的 Hadoop InputFormat 但找不到它我对 Dynamo DB 不熟悉所以我猜测
猪的组连接等效吗？

试图在 Pig 上完成这个任务寻找 MySQL 的 group concat 等效项例如在我的表中我有以下内容 3fields userid clickcount pagenumber 155 2 12 155 3 133 155
如何创建 HIVE 表来读取分号分隔值

我想创建一个 HIVE 表该表将以分号分隔的值读取但我的代码不断给出错误有没有人有什么建议 CREATE TABLE test details Time STRING Vital STRING sID STRING PARTITION
Windows 上的 Apache Pig 在运行“pig -x local”时出现“hadoop-config.cmd”未被识别为内部或外部命令”错误

如果您由于以下错误而无法在 Windows 上运行 Apache Pig hadoop 2 4 0 bin hadoop config cmd is not recognized as an internal or external com
Laravel S3 检索视频以流式传输

我通过 Laravel 应用程序将视频存储到 Amazon S3 效果很好但我无法流式传输它们这是例如 URL https website com video 342 qt api token a5a18c9f f5f6 5d66
处理 oozie 工作流程中的循环

我有一个 oozie 用例用于检查输入数据可用性并根据数据可用性触发 MapReduce 作业所以我编写了一个 shell 脚本来检查输入数据并在 oozie 中为其创建了一个 ssh 操作输入数据检查的重试次数和重试间隔应该是可配
使用 lambda 更新 amazon s3 对象元数据而不执行对象复制？

是否可以使用 lambda 函数添加或更新 s3 对象元数据而不复制对象这篇 2 年前的帖子说我们确实需要复制一份 https stackoverflow com questions 32646646 how do i update m
pyspark.sql.utils.AnalysisException：u'Path不存在

我正在使用标准 hdfs 与 amazon emr 运行 Spark 作业而不是 S3 来存储我的文件我在 hdfs user hive warehouse 有一个配置单元表但当我的 Spark 作业运行时找不到它我配置了 Spar
使用 Boto3 以字符串形式打开 S3 对象

我知道使用 Boto 2 可以使用以下命令将 S3 对象作为字符串打开 get contents as string http boto readthedocs org en latest ref file html highlight c
如何在亚马逊 EC2 上调试 python 网站？

我是网络开发新手这可能是一个愚蠢的问题但我找不到可以帮助我的确切答案或教程我工作的公司的网站用 python django 构建托管在亚马逊 EC2 上我想知道从哪里开始调试这个生产站点并检查存储在那里的日志和数据库我有帐户信

随机推荐

在共享 Web 服务器上安装 PDFTK

我的网站托管在 Total Choice Hosting 上使用某种 Linux 我不知道具体是什么品种和 Apache 我没有命令行访问权限我只能通过 PHP 中的 exec 或通过 CRON 作业运行命令行程序我可以在这样的系统
Web 服务代理设置

在c 4 0 中我有一个名为ManufacturerContactDetails 的Web 服务我使用以下命令从 Windows 应用程序调用该 Web 服务 var ws new ManufacturerContactDetailsW
从 TypeScript 扩展数组

我在下面的代码中做错了什么我正在尝试延长Array在我的课堂上MyNumberList然后尝试使用它我看到的是似乎没有任何项目被添加到列表中我得到一个undefined当我尝试访问列表元素时 P S 我正在使用 TypeScript
使用单独的数据库进行 papertrail 版本控制

我正在尝试使用 papertrail 将模型的更改事件记录在单独的数据库中我在用着导轨 4 1 2 Ruby 2 1 纸迹 4 0 0 下面是我在关注点中添加的代码 module Foo class Base lt ActiveReco
在 Pyspark 中将列类型从字符串更改为日期

我正在尝试将列类型从字符串更改为日期我咨询过以下人士的答案如何将 DataFrame 中的列类型从字符串更改为日期 https stackoverflow com questions 36948012 how to change the
删除了配置门户中的团队配置配置文件：*，该怎么办？

我不小心删除了配置门户中的团队配置配置文件我现在应该做什么我有一台安装了 Xcode 4 2 的 MacBook 我还在熟悉 iOS 配置门户和 Xcode 的过程中删除了 iOS 团队配置配置文件我没有成功地恢复它无论是从 Xc
如何使用 TestCafe 和 Yaml 将屏幕截图和视频保存为 Azure Build Pipeline 中的附件？

我正在尝试在 Azure Devops 中创建一个构建管道运行在 TestCafe Studio 中创建的测试保存错误屏幕截图并保存每次测试的视频保存测试运行的视频将测试结果发布到测试运行将屏幕截图和视频作为附件发布到构建管道和
在经典 ASP 脚本中使用 ADO.NET

我正在编写一些返回单个值的简单查询并且我想从经典 ASP 的 ADO 库中获取 ADO NET ExecuteScalar 方法的行为但是我不想重新发明轮子是否可以在经典 ASP 中实例化 ADO NET 的 Command 对象
码头工人。 MySQL 图像。无法更改 my.cnf 文件

我有这样一个docker compose yml database container name test db image mysql 5 7 volumes docker my cnf etc my cnf environment MY
如何检测 NSString 是否包含特定字符？

我有一个 NSString 对象例如 45 0000 现在我想知道这个字符串是否包含我怎样才能做到这一点您是否想查找它是否至少包含以下一项 or 您可以使用 rangeOfCharacterFromSet NSCharacterSet
复制没有历史记录的 git 存储库

我在 GitHub 上有一个私人存储库我想将其公开但是一些初始提交包含我不想公开的信息硬编码凭据等在不包含部分或全部提交历史记录的情况下公开最新提交我真的不需要或不希望公共存储库中的先前提交的最简单方法是什么您可以限制历史
如何在Web应用程序中使复选框只读

我有一个网格视图每一行都有一个复选框当进入编辑模式时可以选中取消选中复选框但我不希望该复选框在任何其他模式下都是可编辑的用户可能很容易对不反映保存回数据库中的真实值的复选框感到困惑
使用for循环批量重命名文件

我正在尝试使用 for 循环来重命名文件 Echo Off setlocal enableDelayedExpansion Set Date set mydate DATE 10 4 DATE 4 2 DATE 7 2 Rename fil
拆分逗号分隔的字符串并在 C# 中添加引号 - 优雅的解决方案

我有一个string看起来像这样 var v 10 14 18 21 并想将其用作如下所示的东西 10 14 18 21 我写了一个函数它将值分割为comma并将它们作为字符串添加在一起另外我删除了最后一个从结果字符串我把所有东西都
DQL 返回实体数组而不是对象

通常如果我运行如下所示的 DQL 查询它将返回实体对象列表 d this gt getDoctrine gt getRepository xxxWebsiteBundle Locations gt createQueryBuilder
为什么用户可以设置新密码，而无需输入与我的批处理代码正确的旧密码？

我最近写了一个文件夹锁定程序我唯一的问题是当我需要更改密码时例如我去部分newpass 该程序似乎不会将旧密码与新密码进行比较而只是使用给定的任何输入这违背了拥有密码的目的因为每个人都可以更改密码而不是用它解锁文件夹有人可以仔
在 Chrome 中重新加载动画 GIF 时出现问题

我有一个可以重新加载 gif 动画的应用程序它在 Safari 中始终有效但在 Chrome 中时断时续我相信这个问题与提到的问题类似here https groups google com forum topic shiny dis
Excel - 基于ID的工作表值查找[关闭]

很难说出这里问的是什么这个问题是含糊的模糊的不完整的过于宽泛的或修辞性的无法以目前的形式得到合理的回答如需帮助澄清此问题以便重新打开访问帮助中心 help reopen questions 我有两张工作表第一个列出了我的客户
如何获取处理器和硬盘的制造序列号和 ID？

如何使用 Matlab 获取以下硬件属性主板制造序列号处理器 ID 处理器制造序列号硬盘ID 硬盘制造序列号是否有任何函数或类负责检测其他机器硬件组件属性的属性我知道可以使用系统或控制台命令来完成但我不知道如何完成不过我更喜
将 1 亿个文件写入 s3

我的主要目标是根据每条记录的 id 将记录拆分为文件目前有超过 150 亿条记录而且肯定还会增加我需要一个使用 Amazon EMR 的可扩展解决方案我已经为一个包含大约 9 亿条记录的较小数据集完成了这项工作输入文件采用 csv

将 1 亿个文件写入 s3

将 1 亿个文件写入 s3 的相关文章

随机推荐

热门标签