Hadoop：处理大型序列化对象

2024-04-27

我正在开发一个应用程序来使用 Hadoop 框架处理（和合并）几个大型 java 序列化对象（顺序 GB 大小）。 Hadoop 存储将文件块分布在不同的主机上。但由于反序列化需要所有块都存在于单个主机上，因此它会极大地影响性能。我该如何处理这种情况，即与文本文件不同，必须单独处理不同的块？

有两个问题：一个是每个文件必须（在初始阶段）被整体处理：看到第一个字节的映射器必须处理该文件的所有其余部分。另一个问题是局部性：为了获得最佳效率，您希望每个此类文件的所有块都驻留在同一主机上。

整体处理文件：

一个简单的技巧是让第一阶段映射器处理文件名列表，而不是它们的内容。如果您希望运行 50 个映射作业，请使用该部分文件名创建 50 个文件。这很简单，并且可以与 java 或流式 hadoop 一起使用。

或者，使用不可分割的输入格式，例如NonSplitableTextInputFormat.

欲了解更多详情，请参阅“如何处理文件（每个地图一个）？ http://hadoop.apache.org/common/docs/current/streaming.html#How+do+I+process+files%2C+one+per+map%3F" and "如何让我的每一张地图都能在一个完整的输入文件上工作？ http://wiki.apache.org/hadoop/FAQ#A10“在 hadoop wiki 上。

地点：

然而，这留下了一个问题，即您正在读取的块分布在整个 HDFS 中：通常是性能增益，但这里是一个真正的问题。我不相信有任何方法可以链接某些块在 HDFS 中一起传输。

是否可以将文件放在每个节点的本地存储中？这实际上是解决此问题的最高效且最简单的方法：让每台机器启动作业来处理例如中的所有文件。/data/1/**/*.data（尽可能聪明地高效使用本地分区和 CPU 核心数量）。

如果文件源自 SAN 或 s3，请尝试直接从那里拉取：它是为处理集群而构建的。

关于使用第一个技巧的注意事项：如果某些文件比其他文件大得多，请将它们单独放在最早命名的列表中，以避免推测执行的问题。如果任务可靠并且您不希望多次处理某些批次，则无论如何您都可以关闭此类作业的推测执行。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Hadoop：处理大型序列化对象的相关文章

使用 mvel 检查 List 中是否存在元素

我随身带着一份清单清单就像 List
从java程序调用SVN命令

我想从 java 程序调用 SVN 命令 update commit 有什么帮助吗 SVN 乌龟SVN 环境 java程序将在jBoss服务器内运行从应用程序服务器内使用 GUI SVN 客户端是一个非常非常糟糕的主意而Tortoise
使用 Java Config 围绕 Spring Security 匿名访问的混乱

我将以下 Java 配置与 Spring Security 结合使用 protected void configure HttpSecurity http throws Exception http authorizeRequests an
Spring MVC 3 中的表单提交 - 说明

我在理解 Spring 3 MVC 中的表单提交如何工作时遇到问题我想做的是创建一个控制器它将获取用户的名字并将其显示给他不知怎的我已经做到了但我不太明白它是如何工作的所以我有一个看起来像这样的表格
S3 Java 客户端经常失败，并出现“内容长度分隔消息正文过早结束”或“java.net.SocketException 套接字已关闭”

我有一个在 S3 上做很多工作的应用程序主要是从中下载文件我看到很多此类错误我想知道这是否是我的代码中的问题或者服务是否真的像这样不可靠我用来从 S3 对象流读取的代码如下 public static final void wri
@Service 中带有 Kotlin 的 Spring Boot @Autowired 始终为 null

目前我尝试使用 Kotlin 重写我的 Java Spring Boot 应用程序我遇到了一个问题在我所有的类中都用 Service依赖注入无法正常工作所有实例都null 这是一个例子 Service Transactional o
MSMQ 慢速队列读取

我正在使用一个开源 Net 库它在底层使用 MSMQ 大约一两周后服务速度变慢时间不准确但一般猜测看来发生的情况是来自 MSMQ 的消息每 10 秒才被读取一次通常它们会立即被读取因此它们将在 T 10 秒 T 20 秒
不兼容的类型：HomeFragment 无法转换为 Android 中的 Fragment

我在这部分代码中遇到错误 private void displayView int position update the main content by replacing fragments Fragment fragment null
如何在Java中从一组选定的颜色中输出随机颜色？（安卓）

因此我希望每当用户输入答案时都为字符串赋予随机颜色我的问题是我不确定如何使字符串的随机颜色成为特定范围的颜色例如如果我希望字符串随机变成蓝色红色绿色粉色白色或棕色只有这些颜色没有其他颜色到目前为止我已经使用以下代码
如何关闭 Grizzly 日志记录？

如何关闭 Grizzly 的日志记录我想关闭以下日志记录 Okt 18 2018 8 42 24 AM org glassfish grizzly http server NetworkListener start INFORMATION
避免 VBCSCompiler 对 Roslyn 支持的 ASP.NET Razor MVC 视图造成性能影响？

为了在 MVC5 上的 Razor 视图中支持 C 6 我们通过 web config 打开了 Roslyn 编译器平台
Java中的引用变量到底是什么？它与其他变量有何不同？

我一直在研究 Java 中的继承作者声明被引用的对象类型而不是引用变量的类型决定了将执行哪个版本的重写方法这种说法非常令人困惑这本书所指的是多态性更具体地通过动态调度简而言之想象一下以下类 public class Per
jsoup 的奇怪编码行为

我用jsoup从不同页面的html源代码中提取一些信息大多数都是UTF 8编码的其中一个是用 ISO 8859 1 编码的这会导致一个奇怪的错误在我看来包含错误的页面是 http www gudi ch armbanduhr me
Oozie SSH 操作

Oozie SSH 操作问题 Issue 我们正在尝试在集群的特定主机上运行一些命令我们为此选择了 SSH Action 我们面对这个 SSH 问题已经有一段时间了这里真正的问题可能是什么请指出解决方案 logs AUTH FAILE
Java FTPS 无法检索文件列表（FileZilla 客户端工作正常）

我正在使用 Apache Commons Net v3 5 和 Java 8 连接到远程 FTPS 站点即在互联网上我可以轻松连接 Windows 10 计算机上的 FileZilla 客户端但我的 Java 程序无法完成相同的步骤
Java 中的冒号是什么意思？

Java 中的冒号是什么意思我有这个 public static List
Spring MVC 中拦截器和过滤器的区别

我有点困惑Filter and Interceptor目的据我从文档中了解到 Interceptor在请求之间运行另一方面Filter在渲染视图之前运行但在控制器渲染响应之后运行那么两者的区别在哪里postHandle 在拦截器和d
如何在Java中获取具有泛型类型的类

我正在尝试进行这样的方法调用 public class GenericsTest
JavaFX 3D 面孔着色...再次

我研究了这个question https stackoverflow com questions 26831871 coloring individual triangles in a triangle mesh on javafx 但我还
在Java中，如何在每次进入或退出给定对象的监视器时记录一条消息？

我正在尝试调试一些使用一些自定义引用计数锁定的 C Java 绑定我想让 JVM 在每次给定对象进入或退出其监视器时打印一条消息有什么办法可以做到这一点吗基本上我想要这个 synchronized lock System out

随机推荐

并行框架和避免错误共享

最近我回答了一个关于优化可能的并行方法来生成任意基数的每个排列的问题我发布了类似的答案并行化实施不佳代码块列表有人几乎立即指出了这一点这几乎肯定会给你带来错误的共享并且可能会慢很多倍归功于gjvdkamp https stac
Google Apps 脚本 - 访问单元格备注和评论

大家好感谢您花时间查看我的问题我是一名九年级老师正在制作一份定制的成绩表并且刚刚完成了一个 GUI 可以让家长查看孩子的成绩然而在实际的成绩单上我使用单元格注释以前是注释来存储特定于成绩的信息即吉米遗漏了作业的 b 部分
numpy.savetxt“元组索引超出范围”？

我正在尝试将几行写入文本文件这是我使用的代码 import numpy as np Generate some test data data np arange 0 0 1000 0 50 0 with file test txt w a
我应该在 mongodb 中对布尔标志使用稀疏索引吗？

我有一个布尔标志 finished 我是不是该 A index finished 1 B index finished 1 sparse true C use flag unfinished instead to query by that
使用 ASP.Net Core 中间件启动后台任务

我试图在 ASP Net Core 中加载页面时运行异步任务即我希望任务在用户路由到页面后立即运行但要在任务完成之前显示页面看起来使用 ASP Net core 您可以使用中间件来执行此类任务所以我尝试添加以下内容Startup
iOS9，如果使用systemLayoutSizeFittingSize，为什么在dequeueReusableCellWithIdentifier:forIndexPath中调用自定义UITableViewCell的layoutSubviews

a 更具体的描述我的问题在iOS9中为什么layoutSubviews我的自定义 UITableViewCell 的调用方式是dequeueReusableCellWithIdentifier forIndexPath if syste
如何在 Ionic 中创建具有 + 和 - 按钮的输入框

如何创建一个带有和按钮的输入框单击哪个用户可以更改所选产品的数量如下屏幕这是 Ionic 2 的一个快速组合的示例如果您使用 Ionic 1 您应该能够很容易地适应它您只需要几个控制器类函数来递增和递减然后通过按钮调用它们
EF6/SQL Server Compact，基于代码的配置

我正在尝试将我的 EF6 配置从myexe exe config编码作为解决方法empty DbProviderFactories node in machine config 问题此处描述 https stackoverflow com
从 Excel 与 VBA 调用时，VBA UDF 给出不同的答案

以下 VBA 函数计算给定范围内包含公式的单元格数量从 VBA 子程序调用时它可以正常工作从 Excel 调用时它返回区域中的单元格总数来自 Excel 的调用是 CountFormulas A1 C7 即使该范围内只有两个带有公式
jQuery 数据表隐藏头部

如果表没有任何数据我想隐藏数据表标题 oTable topics showTopics dataTable bLengthChange false bStateSave true iDisplayLength 12 bScrollColl
使用api在github中生成个人访问令牌

有什么方法可以通过我的用户名和密码登录我的 github 帐户并使用 api 生成个人访问令牌吗 UPDATE 根据这个博客文章 https developer github com changes 2020 02 14 deprecati
20个问题AI算法是如何运作的？

包含 20 个问题的简单在线游戏由极其准确的人工智能提供支持他们怎么猜得这么好您可以将其视为二分搜索算法在每次迭代中我们都会提出一个问题这应该消除大约一半的可能的单词选择如果总共有 N 个单词那么我们可以期望在 log2 N
从redis中检索大数据集

一台服务器上的应用程序查询另一台服务器上运行的 Redis 查询的结果数据集约为 250kzrangebyscore objects locations inf inf这在应用程序服务器上似乎需要 40 秒当使用命令执行时redis cl
使用负等式表达式进行 resharper 自定义模式替换

我在 resharper 中有一条规则来查找对 Nullable HasValue 的调用 T foo if foo HasValue And it offers to replace with a comparison directly
当所有子记录满足条件时仅选择父记录

我有两个表 A 和 B 当所有子项表 B 中满足条件时我只需要父项 A 的行如果 B 中的一行不符合条件那么我不需要父 A 的行我想我需要在这里使用存在但不展示如何使用以下是数据表 Table A Primary Key L
Dao 和服务接口的需求

我是Spring Mvc的新手在很多教程中我发现有一个像这样的Dao接口 public interface StudentDAO public List
将 Selenium HTML 测试自动转换为 JUnit 的方法？

我在 Mac 10 6 6 上使用 Selenium IDE 1 0 10 for Firefox 我们的 QA 部门已经为 Selenium 创建了一些 HTML 测试我需要将其转换为 Junit 在 IDE 中我可以通过转到文件
使用 javascript/jquery 仅选择特定元素后面的文本

如下面的代码片段所示我有多个文本 div 其中有粗体部分然后是换行符然后是一段文本我可以 find 粗体部分但如何使用 javascript jquery 只获取粗体部分后面换行符后面的文本部分 div class thecont
如何为 Android 应用实施 Google Play 许可？ [关闭]

Closed 这个问题正在寻求书籍工具软件库等的推荐不满足堆栈溢出指南 help closed questions 目前不接受答案 Locked 这个问题及其答案是locked help locked posts因为这个问题是题外话
Hadoop：处理大型序列化对象

我正在开发一个应用程序来使用 Hadoop 框架处理和合并几个大型 java 序列化对象顺序 GB 大小 Hadoop 存储将文件块分布在不同的主机上但由于反序列化需要所有块都存在于单个主机上因此它会极大地影响性能我该如何处理这

Hadoop：处理大型序列化对象

Hadoop：处理大型序列化对象 的相关文章

随机推荐

热门标签

Hadoop：处理大型序列化对象的相关文章