由于 inputStream 过早 EOF，Hadoop MapReduce 作业 I/O 异常

2024-01-13

我使用以下命令运行 MapReduce 程序hadoop jar <jar> [mainClass] path/to/input path/to/output。然而，我的工作却悬在：INFO mapreduce.Job: map 100% reduce 29%.

很久以后，我终止并检查了 datanode 日志（我正在伪分布式模式下运行）。它包含以下异常：

java.io.IOException: Premature EOF from inputStream
at org.apache.hadoop.io.IOUtils.readFully(IOUtils.java:201)
at org.apache.hadoop.hdfs.protocol.datatransfer.PacketReceiver.doReadFully(PacketReceiver.java:213)
at org.apache.hadoop.hdfs.protocol.datatransfer.PacketReceiver.doRead(PacketReceiver.java:134)
at org.apache.hadoop.hdfs.protocol.datatransfer.PacketReceiver.receiveNextPacket(PacketReceiver.java:109)
at org.apache.hadoop.hdfs.server.datanode.BlockReceiver.receivePacket(BlockReceiver.java:472)
at org.apache.hadoop.hdfs.server.datanode.BlockReceiver.receiveBlock(BlockReceiver.java:849)
at org.apache.hadoop.hdfs.server.datanode.DataXceiver.writeBlock(DataXceiver.java:804)
at org.apache.hadoop.hdfs.protocol.datatransfer.Receiver.opWriteBlock(Receiver.java:137)
at org.apache.hadoop.hdfs.protocol.datatransfer.Receiver.processOp(Receiver.java:74)
at org.apache.hadoop.hdfs.server.datanode.DataXceiver.run(DataXceiver.java:251)
at java.lang.Thread.run(Thread.java:745)

5秒后日志中显示ERROR DataXceiver error processing WRITE_BLOCK operation.

什么问题可能导致此异常和错误？

我的 NodeHealthReport 说：

1/1 local-dirs are bad: /home/$USER/hadoop/nm-local-dir; 
1/1 log-dirs are bad: /home/$USER/hadoop-2.7.1/logs/userlogs

I found this http://mail-archives.apache.org/mod_mbox/hadoop-user/201312.mbox/%3CCAF4PTbxFR5AaGJcHBREUSZNgs-qLo2_kyjcYHTMC6FiABGf+fg@mail.gmail.com%3E这表明dfs.datanode.max.xcievers可能需要增加。但是，它已被弃用，新属性称为dfs.datanode.max.transfer.threads默认值 4096。如果更改此值可以解决我的问题，我应该将其设置为什么新值？

This http://mail-archives.apache.org/mod_mbox/hadoop-user/201303.mbox/%3CCADE3u=buJ6V0CAHxBfxkV_EW-rTSU3gUphvsZA6_awcJBYH8fw@mail.gmail.com%3E表明ulimit对于datanode可能需要增加。我的ulimit -n（打开文件）是 1024。如果增加这个值可以解决我的问题，我应该将其设置为什么？

发生过早 EOF 的原因有多种，其中之一是使用 FileOutputCommitter 在一个减速器节点上生成大量线程写入磁盘。 MultipleOutputs 类允许您使用自定义名称写入文件，并为实现这一目标，它为每个文件生成一个线程，并将一个端口绑定到该文件以写入磁盘。现在，这对一个减速器节点上可以写入的文件数量施加了限制。当一个减速器节点上的文件数量大约超过 12000 个时，我遇到了此错误，因为线程被终止并且 _temporary 文件夹被删除，导致出现过多的这些异常消息。我的猜测是 - 这不是内存超调问题，也不能通过允许 hadoop 引擎产生更多线程来解决。减少一个节点一次写入的文件数量解决了我的问题 - 要么减少实际写入的文件数量，要么增加减速器节点。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

由于 inputStream 过早 EOF，Hadoop MapReduce 作业 I/O 异常的相关文章

S3错误线程“main”中的异常java.lang.UnsatisfiedLinkError：org.apache.hadoop.io.nativeio.NativeIO$Windows.access0

我使用了以下依赖项
Kafka Streams 在 HDFS 上查找数据

我正在使用 Kafka Streams v0 10 0 1 编写一个应用程序并希望通过查找数据来丰富我正在处理的记录该数据带时间戳的文件每天或每天 2 3 次写入 HDFS 目录我怎样才能将其加载到Kafka Streams应
org.apache.hadoop.security.AccessControlException：尝试在 EC2 上使用 Hadoop Java API 通过 s3n URI 访问 S3 存储桶时权限被拒绝

Scenario 我创建一个名为 my role 的 AWS IAM 角色将 EC2 指定为可信实体即使用信任关系策略文档 Version 2012 10 17 Statement Sid Effect Allow Principal
Application.Ontime 取消无法调用对象“Application”的“ONTIME”方法

I am 完全地失去了所以任何帮助将不胜感激我试图取消打开工作簿时触发的 2 个计划事件并使用 Application Ontime 方法重复我知道要终止 OnTime 计划循环您必须提供计划运行的确切时间并且拥有多个 Appli
MapReduce 排序和洗牌如何工作？

我正在使用 yelps MRJob 库来实现映射缩减功能我知道 MapReduce 有一个内部排序和洗牌算法它根据键对值进行排序所以如果我在地图阶段后得到以下结果 1 24 4 25 3 26 我知道排序和洗牌阶段将产生以下输出 1
javax.activation.UnsupportedDataTypeException：没有 MIME 类型多部分/混合的对象 DCH；边界

目前我正在编写一段监听目录的代码当使用 apk 文件更新目录时我会将包含此 apk 文件的邮件发送到 gmail 帐户我在我的程序中使用 Jnotify 和 JAVA Mail 我得到的错误是 javax mail Messaging
调试时会忽略依赖项 commons-logging:commons-logging:1.2，因为它可能与 Android 提供的内部版本冲突

我收到以下警告警告依赖 commons logging commons logging 1 2 被忽略调试因为它可能与提供的内部版本冲突安卓如果出现问题请用jarjar重新打包更改类包依赖项 commons logging
使用 Hadoop MapReduce 的计算语言学项目构想

我需要做一个关于计算语言学课程的项目是否有任何有趣的语言问题其数据密集程度足以使用 Hadoop MapReduce 来解决解决方案或算法应尝试分析并提供语言领域的一些见解但是它应该适用于大型数据集以便我可以使用 hado
PySide.QtGui RuntimeError：对象基类的“__init__”方法未调用...但它是

一些环境基础知识 Python版本 3 4 2 操作系统 Windows 8 1 到目前为止的搜索我怀疑这另一个问题 https stackoverflow com questions 12280371 python runtimeerr
在hbase中创建表

我是 hbase 和 hadoop 的新手无论如何我已经成功建立了一个由3台机器组成的hadoop集群现在我需要一些帮助来建立数据库我有一个表评论包含字段 user id comments 对评论的评论可以多个和状态字段相同
HDFS容量：如何阅读“dfsadmin报告”

我使用的是 Hadoop 2 6 0 当我运行 hdfs dfsadmin report 时我得到类似这样的信息简化 Configured Capacity 3 TB Present Capacity 400GB DFS Remaini
Spark 2.0 弃用了“DirectParquetOutputCommitter”，没有它如何生活？

最近我们从 HDFS 上的 EMR gt S3 上的 EMR 启用了一致视图的 EMRFS 迁移我们意识到 Spark SaveAsTable 镶木地板格式写入 S3 的速度比 HDFS 慢约 4 倍但我们发现使用 DirectPa
如何使用新的 Hadoop API 来使用 MultipleTextOutputFormat？

我想编写多个输出文件如何使用 Job 而不是 JobConf 来执行此操作创建基于密钥的输出文件名的简单方法 input data type key value cupertino apple sunnyvale banana cupe
Hive（查找连续 n 列中的最小值）

我在 Hive 中有一个表有 5 列即电子邮件 a first date b first date c first date d first date a b c d 是用户可以执行的 4 个不同操作上表中的 4 列表示用户执行第一个
Sqoop Import --password-file 功能在 sqoop 1.4.4 中无法正常工作

我使用的是hadoop 1 2 1 sqoop版本是1 4 4 我正在尝试运行以下查询 sqoop import connect jdbc mysql IP 3306 database name table clients target d
无法从 JAR 文件加载主类

我有一个 Spark scala 应用程序我尝试显示一条简单的消息 Hello my App 当我编译它时sbt compile并运行它sbt run没关系我成功显示了我的消息但他显示了错误像这样 Hello my applicat
Hive 中字符串数据类型是否有最大大小？

谷歌了很多但没有在任何地方找到它或者这是否意味着只要允许集群 Hive 就可以支持任意大字符串数据类型如果是这样我在哪里可以找到我的集群可以支持的最大字符串数据类型大小提前致谢 Hive 列表的当前文档STRING作为有效的数据类
iOS - Xcode 错误：由于系统完整性保护而无法附加到进程

当我从 XCode 运行按钮运行应用程序共享扩展然后尝试共享文件时 XCode 经常显示以下错误有人知道是什么原因造成的吗错误由于系统完整性保护无法附加到进程系统完整性保护 SIP 又名无根是 OS X 10 11 中的一项新
如何以编程方式区分不同的 IOException？

我正在对写入 Process 对象的 StandardInput 流的代码进行一些异常处理 Process 有点像 unix head 命令它只读取输入流的一部分当进程终止时写入线程会失败并显示 IOException The pip
打开文件选择器对话框时出现 Glib-GIO-ERROR

我在 Windows 7 中使用 GTK3 codeblcks IDE glade3 在我的应用程序中我有一个按钮单击该按钮应打开一个 gtk file chooser dialog 但给出填充错误 Glib GIO 错误系统上未安装

随机推荐

Google Chrome 从缓存加载图像比下载速度慢

我正在构建一个网络应用程序来浏览本地服务器上的大照片奇怪的是 Chrome从缓存加载图像花费了太多时间甚至比从本地服务器下载还要多每张照片大约 5Mb Chome 下载大约花费 200 毫秒但从缓存中花费大约 400 毫秒 Belo
混合defaultdict（dict和int）

我有 2 个示例列表我想要实现的是获得nested带有值总和的默认字典下面的代码效果很好 from collections import defaultdict l1 1 2 3 4 l2 5 6 7 8 dd defaultdict
如何发布到 Facebook 页面（如何获取页面访问令牌 + 用户访问令牌）

当我作为不同的 Facebook 用户不是页面管理员使用我的应用程序时我正在尝试弄清楚如何发布到 Facebook 页面墙我在测试时收到一系列错误消息异常 200 用户尚未授权应用程序执行此操作页面管理员已访问该应用程序并接受以
插入新行而不是更新当前行

您好我对下面的代码有疑问我正在做ajax 如果数据完全相同则不会插入记录但是如果文本区域中的文本发生更改它应该更新记录但会插入新行这是我的模型
函数参数最佳实践

我对函数参数的使用有疑问过去我总是编写代码将函数所需的所有信息作为参数传入 IE 不使用全局参数然而通过查看其他人的代码不带参数的函数似乎是常态我应该注意到这些是类的私有函数并且作为参数传入的值实际上是该类的私有成员变量这
有没有办法删除force_classic_login参数？

当我请求使用我的 IG 应用程序登录时它会自动向用户发送这个奇怪的登录信息并生成此 URL 我注意到如果我删除参数强制经典登录它带我去新品牌有人知道如何通过SDK控制它吗谢谢 None
更改节点后如何更新 XML 文件？ [复制]

这个问题在这里已经有答案了我正在使用 Node setTextContent 编辑节点但它不会更改文件中的任何内容如果我打印文本内容后它会显示为已更改但在程序关闭后它不会保留 for int y 0 y
text-indent: -9999px 是一种用图像替换文本的糟糕技术吗？有哪些替代方法？

本文 http luigimontanez com 2010 stop using text indent css trick 说我们应该避免使用这种技术 This one http aext net 2010 02 css text in
嵌套产生返回 IEnumerable> 并带有惰性求值

我写了一个LINQ扩展方法SplitBetween类似于String Split gt new List
使用 Twitter API - 如何使用不记名令牌获得参与端点的身份验证

我正在尝试为营销仪表板获取我公司推文的参与度数据我能够使用 Tweepy 进行身份验证以获取基本的 Twitter 源数据但参与端点给我带来了麻烦我是否有可能通过使用 Tweepy 进行身份验证然后使用不记名令牌进行身份验证从而搞
使用Python搜索具有各种编码的文本文件内容？

打开文本文件以在文件内容中查找匹配项时我遇到了可变文本编码的问题我正在编写一个脚本来扫描文件系统以查找具有特定内容的日志文件以便将它们复制到存档中名称经常发生变化因此内容是识别它们的唯一方法我需要识别 txt 文件并在其内容中找
如何在 Bash 中运行一个超时的进程？ [复制]

这个问题在这里已经有答案了可能的重复 Bash 脚本在给定的超时后杀死子进程 https stackoverflow com questions 5161193 bash script that kills a child process
使 GCM/CBC 密码在 golang 中可流式传输

Go 中的 GCM 和 CBC AES 密码不能与 StreamWriter 或 StreamReader 一起使用这迫使我将整个文件分配到内存中显然这对于大文件来说并不理想我正在考虑通过将一些固定大小的块分配到内存中并将它们提供给
将大量常量和工作区变量传递给 fsolve 目标函数的最佳方法是什么？

与根本不使用全局变量相比调用全局变量需要花费大量时间来加载考虑一个具有 1000 次迭代的循环对这些变量进行一些计算 0 6 秒没有全局变量约 1000 个变量 2 2 秒一个定义的全局变量和其他变量 6 秒约 1000 个全局变
如何使用 PHP 和 htaccess 创建动态子域？

我有一个问题我想设置 PHP 和 htaccess 来创建动态子域我不知道怎么办目前我的网址如下所示 www exemple com index php subdomain mike component content id 26 t
在 Firebase 中创建新目录并插入数据

我想在 Firebase 中动态创建五个新目录我也想动态地在这些目录中插入数据我为此目的编写了这个 jquery 脚本 for var i 0 i lt 5 i var dataRef new Firebase https blr re
使用 Javascript 获取当前域名（不是路径等）

我计划为同一个网站购买两个域名根据使用的域我计划在页面上提供略有不同的数据有没有办法让我检测页面加载的实际域名以便我知道将内容更改为什么我已经四处寻找类似的东西但大多数都没有按照我想要的方式工作例如当使用 document w
使用 RTSP 的视频流：Android

我正在尝试在我的 Linux 计算机上安装 Wowza 服务器以便为我的 Android 应用程序启用 RTSP 流在 Android 客户端我的应用程序需要进行哪些更改我使用 Videoview 只是播放本地存储的视频文件现在我
Android JNI，如何加载soname libxx.so.1.2.3的库

需要使用来自第 3 方的 Android 共享库该库的 soname 和文件名相同格式为 libxx so 1 2 3 这在 Linux 上很常见我将lib文件重命名为libxx so 并使用ndk build将libxx so链接到
由于 inputStream 过早 EOF，Hadoop MapReduce 作业 I/O 异常

我使用以下命令运行 MapReduce 程序hadoop jar

由于 inputStream 过早 EOF，Hadoop MapReduce 作业 I/O 异常

由于 inputStream 过早 EOF，Hadoop MapReduce 作业 I/O 异常 的相关文章

随机推荐

热门标签

由于 inputStream 过早 EOF，Hadoop MapReduce 作业 I/O 异常的相关文章