Hadoop 无法完成作业，因为“设备上没有剩余空间”

2024-01-01

我正在尝试运行一个非常简单的 hadoop 作业。它是经典 wordCount 的修改版，它不是对单词进行计数，而是对文件中的行进行计数。我想用它来清理一堆我知道有重复的大日志文件（每个大约 70GB）。每一行都是一个“记录”，因此我感兴趣的是只获取每条记录一次。

我知道我的代码可以工作，因为当我使用小型普通文件运行它时，它做了它应该做的事情。当我使用大文件运行它时，Hadoop 的行为非常严格。首先，它在 MAP 阶段开始正确工作，通常可以毫无问题地达到 100%。然而，在处理 REDUCE 时，它永远不会超过 50%。它可能达到 40%，然后在显示一些“设备上没有剩余空间”异常后返回到 0%：

FSError: java.io.IOException: No space left on device

然后它再次尝试执行 REDUCE，当达到 40% 时，它会再次降至 0%，依此类推。当然，它会这样做 2 或 3 次，然后决定以失败告终。

但是，此异常的问题在于它与磁盘上的实际空间无关。磁盘空间永远不会满。不是 HDFS 上的总（全局）空间，也不是每个节点中的各个磁盘。我用以下命令检查 fs 状态：

$ hadoop dfsadmin -report > report

此报告从未显示实际节点达到 100%。事实上，没有任何节点可以接近这一点。

每个节点都有大约 60GB 的可用磁盘，并且我在具有 60 个数据节点的集群中运行它，这给了我超过 3TB 的总空间。我尝试处理的文件只有 70GB。

在互联网上查找，我发现这可能与 Hadoop 在处理大量数据时创建太多文件有关。原始的 wordCount 代码大大减少了数据（因为单词重复很多）。 70GB 的文件可以减少到仅 7MB 的输出。然而，我预计仅减少 1/3，或者输出约为 20-30GB。

Unix 类型的系统每个进程的打开文件数限制为 1024 个：

$ ulimit -n
1024

如果 hadoop 创建的数量超过这个数量，则可能会出现问题。我要求系统管理员将该限制增加到 65K，现在的限制是：

$ ulimit -n
65000

问题仍然存在。我是否需要进一步增加此限制？这里还有其他事情发生吗？

非常感谢你的帮助！

代码在这里：

package ...;

import java.io.IOException;
import java.util.StringTokenizer;

import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.Mapper;
import org.apache.hadoop.mapreduce.Reducer;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;
import org.apache.hadoop.util.GenericOptionsParser;

public class LineCountMR {

  public static class MapperClass 
       extends Mapper<Object, Text, Text, IntWritable>{

    private final static IntWritable one = new IntWritable(1);
    private Text word = new Text();
    private String token = new String();        

    public void map(Object key, Text value, Context context
                    ) throws IOException, InterruptedException {

        token = value.toString().replace(' ', '_');
        word.set(token);
        context.write(word, one);   
    }
  }

  public static class ReducerClass 
       extends Reducer<Text,IntWritable,Text,IntWritable> {
    private IntWritable result = new IntWritable();

    public void reduce(Text key, Iterable<IntWritable> values, 
                       Context context
                       ) throws IOException, InterruptedException {
      int sum = 0;
      for (IntWritable val : values) {
        sum += val.get();
      }
      result.set(sum);
      context.write(key, result);
    }
 }

  public static void main(String[] args) throws Exception {
    Configuration conf = new Configuration();;
    if (args.length != 2) {
      System.err.println("Parameters: <in> <out>");
      System.exit(2);
    }
    Job job = new Job(conf, "line count MR");
    job.setJarByClass(LineCountMR.class);
    job.setMapperClass(MapperClass.class);
    job.setCombinerClass(ReducerClass.class);
    job.setReducerClass(ReducerClass.class);
    job.setOutputKeyClass(Text.class);
    job.setOutputValueClass(IntWritable.class);
    FileInputFormat.addInputPath(job, new Path(args[0]));
    FileOutputFormat.setOutputPath(job, new Path(args[1]));
    System.exit(job.waitForCompletion(true) ? 0 : 1);
  }
}

我在处理 10TB 数据时在集群上看到了这个问题。此问题与 HDFS 上的空间可用性无关，而是与本地文件系统 (df -h) 上用于存储在 Map-Reduce 操作期间生成的中间数据的可用空间有关，这些数据存储在本地而不是 HDFS 中。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Hadoop

IOException

Hadoop 无法完成作业，因为“设备上没有剩余空间” 的相关文章

MapReduce 排序和洗牌如何工作？

我正在使用 yelps MRJob 库来实现映射缩减功能我知道 MapReduce 有一个内部排序和洗牌算法它根据键对值进行排序所以如果我在地图阶段后得到以下结果 1 24 4 25 3 26 我知道排序和洗牌阶段将产生以下输出 1
在 Zookeeper 中创建路径的最有效方法，其中路径的根元素可能存在也可能不存在？

想象一条路径 root child1 child2 child3 想象一下在动物园管理员中可能存在其中的一部分比如 root child1 Zookeeper 中没有等效的 mkdir p 此外如果任何一个操作失败 ZooKeepe
使用自制软件安装hadoop时出错

我正在尝试在 Mac 上本地安装 hadoop 但在尝试 brew install hadoop 时收到以下错误 brew install hadoop gt Downloading http www apache org dyn clos
Hive 上的自定义 MapReduce 程序，规则是什么？输入和输出怎么样？

我被困了几天因为我想根据我在 hive 上的查询创建一个自定义的地图缩减程序在谷歌搜索后我发现没有太多例子而且我仍然对规则感到困惑创建自定义 MapReduce 程序的规则是什么映射器和减速器类怎么样任何人都可以提供任何解决方案
如何在hadoop/map reduce中创建固定行数的输出文件？

假设我们有 N 个具有不同行数的输入文件我们需要生成输出文件使得每个输出文件恰好有 K 行最后一个输出文件可以有是否可以使用单个 MR 作业来完成此操作我们应该打开文件以便在reducer中显式写入输出中的记录应该被打乱 tha
远程执行hadoop作业时出现异常

我正在尝试在远程 hadoop 集群上执行 Hadoop 作业下面是我的代码 Configuration conf new Configuration conf set fs default name hdfs server 9000 c
Hive如何存储数据，什么是SerDe？

当查询表时 SerDe 将将文件中的字节中的一行数据反序列化为 Hive 内部使用的对象来操作该行数据执行 INSERT 或 CTAS 时请参阅第 441 页上的导入数据表的 SerDe 将将 Hive 的一行数据的内部表示序列化为
使用 python 从 HDFS 获取文件名列表

这里是 Hadoop 菜鸟我搜索了一些有关 hadoop 和 python 入门的教程但没有取得太大成功我还不需要使用映射器和缩减器进行任何工作但这更多是一个访问问题作为Hadoop集群的一部分 HDFS 上有一堆 dat 文件
Hive（查找连续 n 列中的最小值）

我在 Hive 中有一个表有 5 列即电子邮件 a first date b first date c first date d first date a b c d 是用户可以执行的 4 个不同操作上表中的 4 列表示用户执行第一个
一个目录下可以有两个oozieworkflow.xml文件吗？

一个目录下可以有两个oozieworkflow xml文件吗如果是这样我如何指示 oozie runner 运行哪一个您可以有两个工作流程文件只需为它们指定唯一的名称然后您可以通过设置oozie wf application pa
将 hadoop fs 路径转换为 EMR 上的 hdfs:// 路径

我想知道如何将数据从 EMR 集群的 HDFS 文件系统移动到 S3 存储桶我认识到我可以直接在 Spark 中写入 S3 但原则上之后执行它也应该很简单到目前为止我还没有发现在实践中这是正确的 AWS 文档建议s3 dist cp
无法从 JAR 文件加载主类

我有一个 Spark scala 应用程序我尝试显示一条简单的消息 Hello my App 当我编译它时sbt compile并运行它sbt run没关系我成功显示了我的消息但他显示了错误像这样 Hello my applicat
在 Hive 中分解一行 XML 数据

我们将 XML 数据作为名为 XML 的单个字符串列加载到 Hadoop 中我们正在尝试检索数据级别并将其标准化或分解为单行进行处理你知道就像表格一样已经尝试过分解功能但没有得到我们想要的示例 XML
Spark MLLib 存在问题，导致概率和预测对于所有内容都相同

我正在学习如何将机器学习与 Spark MLLib 结合使用目的是对推文进行情感分析我从这里得到了一个情感分析数据集 http thinknook com wp content uploads 2012 09 Sentiment Ana
如何以编程方式区分不同的 IOException？

我正在对写入 Process 对象的 StandardInput 流的代码进行一些异常处理 Process 有点像 unix head 命令它只读取输入流的一部分当进程终止时写入线程会失败并显示 IOException The pip
Hadoop安装问题：

我跟着this http www bogotobogo com Hadoop BigData hadoop Install on ubuntu single node cluster phpHadoop 安装教程不幸的是当我运行全部启动
Namenode高可用客户端请求

谁能告诉我如果我使用java应用程序请求一些文件上传下载操作到带有Namenode HA设置的HDFS 这个请求首先去哪里我的意思是客户端如何知道哪个名称节点处于活动状态如果您提供一些工作流程类型图或详细解释请求步骤从开始到结束
hive创建表的多个转义字符

我正在尝试将带有管道分隔符的 csv 加载到配置单元外部表数据值包含单引号双引号括号等使用 Open CSV 版本 2 3 测试文件 csv id name phone 1 Rahul 123 2 Kumar s 456 3 Nee
获取行 HBase 的特定列族中的列

我正在编写一个应用程序通过 JSP 显示 HBase 中特定表中的数据我想获取一行的特定列族中的所有列有什么办法可以做到这一点吗 public String getColumnsInColumnFamily Result r Stri
将数据从 oracle 移动到 HDFS，处理并从 HDFS 移动到 Teradata

我的要求是将数据从 Oracle 移至 HDFS 处理HDFS上的数据将处理后的数据移至 Teradata 还需要每 15 分钟执行一次整个处理源数据量可能接近50GB 处理后的数据也可能相同在网上搜索了很多之后我发现 PRARO

随机推荐

CSS 平台特定的 hack

我想知道是否有一种方法可以使用 CSS 来定位平台即不同的操作系统 Windows 7 Windows 8 Linux 等我有一个样式表带有 ul 列表和边框底部设置当鼠标悬停在菜单元素上时会改变颜色问题是在 Windows 7
使用下拉菜单外键保存表单集：IntegrityError XXX_id 可能不为 NULL

我试图拥有一个表单集其中每个表单 PropertySelector 都有一个下拉菜单 PropertySelector property 而该菜单的每个项目都是对另一个模型 Property 的ForeignKey引用不知何故当我尝试
将RGB图像转换为灰度图像，减少java中的内存

我有一个 RGB bufferedImage bImg 我想将 bImg 转换为灰度图像 BufferedImage grayIm new BufferedImage bImg getWidth null bImg getHeight nu
在 Windows 窗体中获取多个 UI 线程

我正在尝试找出一种方法让用户控件在自己的 UI 线程中运行这可能吗我试图防止基于模块的应用程序因单个模块而崩溃有什么想法吗那是不可能的但是通过一些重要的代码您可以让不同的窗口在单独的线程中运行每个窗口都有自己的消息循环 Up
sqlite SELECT 在查询列中是否存在与该列同名的值时返回所有记录

sqlite3 test db SQLite version 3 6 21 Enter help for instructions Enter SQL statements terminated with a sqlite gt CREAT
ReferenceError：角度通用应用程序中未定义 IDBIndex

我正在使用 ngserve 运行该应用程序它运行良好但是在我使用 npm run build ssr 构建应用程序后应用程序构建成功构建并运行 Angular 7 通用应用程序后我在 dist 文件夹中收到这些错误 home tr
为什么在堆排序中使用平面列表？

In heapsort 数据存储在称为 heap 我见过的几乎所有实现都使用平面列表对于数据结构有人可以向我解释这是为什么吗为什么不使用嵌套数组 or an 二叉树的实例显式不是比隐式更好吗是因为遍历结构等实现困难还是其他原因如
如何使用 XPath 仅选择可见元素？

我有一个GWT http code google com webtoolkit 我正在尝试使用它编写一些测试的应用程序Selenium http seleniumhq org 我使用 XPath 来识别测试页面上的元素使用id不会像id值
php：回显“”，打印（），printf（）

有没有更好的方法用PHP将数据输出到html页面如果我想在 php 中用一些 var 制作一个 div 我会写类似的东西 print div var div or echo div var div 这样做的正确方法是什么或者更好的方法
如何在不修改 jquery.validate.unobtrusive.min.js 的情况下重写 JQuery unobtrusive 方法？

我想重写 jquery validate unobtrusive js 中的 onErrors 方法以将错误消息显示为 html 元素的超链接但是我不想更改 jquery validate unobtrusive js 中的方法因为
VB.NET 中的十六进制到 8 位无符号数组

我有一个十六进制值 07A5953EE7592CE8871EE287F9C0A5FBC2BB43695589D95E76A4A9D37019C8 我想将其转换为字节数组 NET 3 5 中是否有一个内置函数可以完成这项工作或者我是否需要编
有没有办法为我的基于平台的Python应用程序提供条件requirements.txt文件？

我编写了一个与 Linux 和 Windows 平台兼容的 python 应用程序然而有一个问题我需要的 Windows 的 python 软件包之一与 Linux 不兼容幸运的是还有另一个软件包可以在 Linux 上提供相同的功能
如果 char 数组是 Java 中的对象，为什么打印它不显示其哈希码？

打印 char 数组不显示哈希码 class IntChararrayTest public static void main String args int intArray 0 1 2 char charArray a b c Syst
有 BOINC 编程经验吗？

我被 BOINC 吸引是因为我的一个小项目我听说过 BOINC 但没有太多了解它的工作原理主要是因为我现在专注于其他优先事项我想知道的是你们中是否有人真正尝试过为 BOINC 编程并让程序在分布式计算机网络上运行我特别对以下问题感
Kotlin：什么情况下会发生隐式转换？

我是 Kotlin 的初学者我最熟悉Python 刚刚读完基础Java教程https docs oracle com javase tutorial java index html https docs oracle com javase
可以为 jQuery 前置添加动画吗？

我在单击按钮时将一些数据添加到我的页面中而不是立即填充到页面上我想知道是否有一种方法可以对数据进行动画处理prepend using slideToggle或 CSS 动画这是我当前的脚本 var data data html var
为什么Android API中有这么多的浮动？

Java 中默认的浮点类型是 double 如果你硬编码一个常量比如2 5在你的程序中 Java会自动将其变为双精度当您对浮点数或整数执行可能受益于更高精度的操作时该类型将提升为双精度但在 Android API 中从音量到矩
以内容长度分隔的消息正文过早结束（预期：

我正在尝试在 apache httpclient 的帮助下获取 HTTP 响应我成功获取标头但当我尝试获取内容时它会引发异常例外是 org apache http ConnectionClosedException Premature
(xcode 5) ibtool 失败，退出代码为 255

有人能解决这个问题吗我看过其他答案但似乎没有一个对我有用我可以正常运行其他项目但我当前的项目因上述错误而失败我想不出明显的原因 Clean 运行正常没有代码错误构建项目会导致此问题我正在运行 xcode 5 我尝试重新安装模
Hadoop 无法完成作业，因为“设备上没有剩余空间”

我正在尝试运行一个非常简单的 hadoop 作业它是经典 wordCount 的修改版它不是对单词进行计数而是对文件中的行进行计数我想用它来清理一堆我知道有重复的大日志文件每个大约 70GB 每一行都是一个记录因此我感兴趣的是

Hadoop 无法完成作业，因为“设备上没有剩余空间”

Hadoop 无法完成作业，因为“设备上没有剩余空间” 的相关文章

随机推荐

热门标签