远程执行hadoop作业时出现异常

2024-04-22

我正在尝试在远程 hadoop 集群上执行 Hadoop 作业。下面是我的代码。

Configuration conf = new Configuration();
conf.set("fs.default.name", "hdfs://server:9000/");
conf.set("hadoop.job.ugi", "username");

Job job = new Job(conf, "Percentil Ranking");
job.setJarByClass(PercentileDriver.class);
job.setMapperClass(PercentileMapper.class);
job.setReducerClass(PercentileReducer.class);
job.setMapOutputKeyClass(TestKey.class);
job.setMapOutputValueClass(TestData.class);
job.setOutputKeyClass(TestKey.class);
job.setOutputValueClass(BaselineData.class);

job.setOutputFormatClass(SequenceFileOutputFormat.class);

FileInputFormat.addInputPath(job, new Path(inputPath));

FileOutputFormat.setOutputPath(job, new Path(outputPath));

job.waitForCompletion(true);

当作业立即开始执行时，甚至在映射阶段之前都会引发异常。

java.io.IOException: Filesystem closed
at org.apache.hadoop.hdfs.DFSClient.checkOpen(DFSClient.java:226)
at org.apache.hadoop.hdfs.DFSClient.getFileInfo(DFSClient.java:617)
at org.apache.hadoop.hdfs.DistributedFileSystem.getFileStatus(DistributedFileSystem.java:453)
at org.apache.hadoop.fs.FileUtil.copy(FileUtil.java:192)
at org.apache.hadoop.fs.FileUtil.copy(FileUtil.java:142)
at org.apache.hadoop.fs.FileSystem.copyToLocalFile(FileSystem.java:1216)
at org.apache.hadoop.fs.FileSystem.copyToLocalFile(FileSystem.java:1197)
at org.apache.hadoop.mapred.LocalJobRunner$Job.<init>(LocalJobRunner.java:92)
at org.apache.hadoop.mapred.LocalJobRunner.submitJob(LocalJobRunner.java:373)
at org.apache.hadoop.mapred.JobClient.submitJobInternal(JobClient.java:800)
at org.apache.hadoop.mapreduce.Job.submit(Job.java:432)
at org.apache.hadoop.mapreduce.Job.waitForCompletion(Job.java:447)

输入文件确实存在，并且是逗号分隔的文本文件。我可以使用以下命令在 hadoop 集群上执行作业hadoop jar命令具有相同的输入和输出。但我无法远程运行它。我还可以远程运行其他工作。

谁能告诉我这个问题的解决方案是什么？

它似乎conf.set("mapred.job.tracker", "server:9001");解决了这个问题。感谢您的帮助。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Hadoop

MapReduce

HDFS

远程执行hadoop作业时出现异常的相关文章

HDFS 在大量小文件和 128 Mb 块大小上的行为

我有很多多达数十万个小文件每个文件 10 100 Kb 我的 HDFS 块大小等于 128 MB 我的复制因子等于 1 为每个小文件分配 HDFS 块有什么缺点吗我见过相当矛盾的答案答案说最小的文件占用整个块 https stac
Hadoop 构建在 Windows 中失败：native.sln 中缺少 zconf.h？

我正在尝试在使用 Windows 10 家庭版的开发计算机上构建以下 hadoop 版本 hadoop 2 7 3 src 以下是我本地开发环境的详细信息 Windows 10家庭版英特尔酷睿 i5 6200U CPU 2 30GHz 内
使用 Hadoop MapReduce 的计算语言学项目构想

我需要做一个关于计算语言学课程的项目是否有任何有趣的语言问题其数据密集程度足以使用 Hadoop MapReduce 来解决解决方案或算法应尝试分析并提供语言领域的一些见解但是它应该适用于大型数据集以便我可以使用 hado
Amazon MapReduce 日志分析最佳实践

我正在解析 Apache Nginx Darwin 视频流服务器生成的访问日志并按日期引用者用户代理聚合每个交付文件的统计信息每小时都会生成大量日志而且这个数字在不久的将来可能会急剧增加因此通过 Amazon Elastic
java.lang.IllegalArgumentException：错误的 FS：，预期：hdfs://localhost:9000

我正在尝试实现reduce side join 并使用mapfile reader来查找分布式缓存但在stderr中检查时它没有查找值它显示以下错误 lookupfile文件已经存在于hdfs中并且似乎已正确加载进入缓存如标准输出中
Hive如何存储数据，什么是SerDe？

当查询表时 SerDe 将将文件中的字节中的一行数据反序列化为 Hive 内部使用的对象来操作该行数据执行 INSERT 或 CTAS 时请参阅第 441 页上的导入数据表的 SerDe 将将 Hive 的一行数据的内部表示序列化为
Cat 文件与 HDFS 中的模式不匹配？

我正在尝试 cat 与 hadoop HDFS 中的以下模式不匹配的文件 hdfs dfs cat gz 如何捕获所有不以 gz 结尾的文件编辑抱歉但我需要在 Hadoop 中管理文件显然 hdfs 附带的命令非常少编辑2 所有文
无法使用 PDI 步骤连接到 HDFS

我已经配置成功了Hadoop 2 4 in an Ubuntu 14 04 虚拟机 from a 视窗8系统 Hadoop 安装工作绝对正常而且我还可以从 Windows 浏览器查看 Namenode 附图如下所以我的主机名是 ubu
错误：java.io.IOException：错误值类：类 org.apache.hadoop.io.Text 不是类 Myclass

我的映射器和减速器如下但我遇到了某种奇怪的异常我不明白为什么它会抛出这种异常 public static class MyMapper implements Mapper
一个目录下可以有两个oozieworkflow.xml文件吗？

一个目录下可以有两个oozieworkflow xml文件吗如果是这样我如何指示 oozie runner 运行哪一个您可以有两个工作流程文件只需为它们指定唯一的名称然后您可以通过设置oozie wf application pa
Hadoop：处理大型序列化对象

我正在开发一个应用程序来使用 Hadoop 框架处理和合并几个大型 java 序列化对象顺序 GB 大小 Hadoop 存储将文件块分布在不同的主机上但由于反序列化需要所有块都存在于单个主机上因此它会极大地影响性能我该如何处理这
Hadoop 安全模式恢复 - 花费太长时间！

我有一个包含 18 个数据节点的 Hadoop 集群我在两个多小时前重新启动了名称节点并且名称节点仍处于安全模式我一直在寻找为什么这可能花费太长时间但找不到好的答案发帖在这里 Hadoop 安全模式恢复花费大量时间 https
Spark MLLib 存在问题，导致概率和预测对于所有内容都相同

我正在学习如何将机器学习与 Spark MLLib 结合使用目的是对推文进行情感分析我从这里得到了一个情感分析数据集 http thinknook com wp content uploads 2012 09 Sentiment Ana
Spark超时可能是由于HDFS中文件超过100万个的binary Files()

我正在通过以下方式读取数百万个 xml 文件 val xmls sc binaryFiles xmlDir 该操作在本地运行良好但在纱线上失败并显示 client token N A diagnostics Application app
Python - Map/Reduce - 如何在使用 DISCO 计数单词示例中读取 JSON 特定字段

我正在按照 DISCO 示例来计算文件中的单词数将单词数作为 Map Reduce 作业 http discoproject org doc disco start tutorial html 我对此工作没有任何问题但是我想尝试从包含
使用 Hadoop 映射两个数据集

假设我有两个键值数据集数据集A和B 我们称它们为数据集A和B 我想用 B 组的数据更新 A 组中的所有数据其中两者在键上匹配因为我要处理如此大量的数据所以我使用 Hadoop 进行 MapReduce 我担心的是为了在 A 和 B
在 Hadoop 中处理带标头的文件

我想在 Hadoop 中处理很多文件每个文件都有一些头信息后面跟着很多记录每个记录都存储在固定数量的字节中对此有何建议我认为最好的解决方案是编写一个自定义的InputFormat http hadoop apache org co
是否值得购买 Mahout in Action 以跟上 Mahout 的速度，或者还有其他更好的来源吗？

我目前是一个非常随意的用户阿帕奇马胡特 http mahout apache org 我正在考虑购买这本书象夫在行动 http www manning com owen 不幸的是我很难理解这本书的价值并且认为它是一本曼宁早期访问计划 h
这个 Java 语法是什么意思？ [复制]

这个问题在这里已经有答案了可能的重复 java中的是什么意思 https stackoverflow com questions 12649572 what does the type in java mean 在下面的代码中 Itera
hive创建表的多个转义字符

我正在尝试将带有管道分隔符的 csv 加载到配置单元外部表数据值包含单引号双引号括号等使用 Open CSV 版本 2 3 测试文件 csv id name phone 1 Rahul 123 2 Kumar s 456 3 Nee

随机推荐

Racket 中的“match”可以具有带有来自外部作用域的变量的模式吗？

考虑以下示例 lang racket match cat doge a b match b a t f Not a pair 如果我想匹配头部和尾部相同的对我可能会这样写但这不起作用因为第二个a被绑定为一个新变量并且匹配任何内容是
获取进程段的开始和结束 C/C++

我需要获取以下进程段的开始和结束地址代码数据堆栈环境我了解它如何位于内存中但不知道如何使用 api 调用或其他方式获取它我找到了如何使用此代码开始某些片段 include
jquery ajax 从 ashx 处理程序获取返回值时出现问题

问候无论我做什么我都无法让我的 jquery ajax 代码从 ashx 处理程序页面获取除 null 之外的响应这是我的 hmt 页面
MVC 与观察者模式

我最近在 StackoverFlow 上问了一个关于 MVC 的问题 MVC设计模式架构模式可以用于桌面应用程序开发吗 https stackoverflow com questions 305988 can the mvc design
Axios-一次发出多个请求（vue.js）

如何使用 axios 和 vue 并行发出多个请求由于 axios 可以被 React 和 Vue 使用因此代码几乎相同请务必阅读axios 文档 https github com axios axios 你可以从那里理解它无论如何
如何在 Xamarin.Forms 中设置不透明度动画

我想知道如何对屏幕上可见元素的不透明度进行动画处理例如对于 Entry 我得到了这个 this Animate d gt Debug WriteLine anim d Username Opacity AnimationTime d A
没有这样的方法错误：ImmutableList.copyOf()

我正在使用 Guava 05 snapshot 和 Sun 的 JDK 1 6 执行此代码片段时代码会崩溃 List
在没有 UI 导航器控件的 uiviewcontroller 之间切换

我想以编程方式在 2 个 UIViewController 类之间切换而不需要任何额外的 UI 控制例如向应用程序添加 UI 的 UITabBarController 我的 main 使用 addSubView 加载第一个视图控制器 v
Scala 的反射 API

有谁知道 Scala 的全功能反射 API 的状态吗我知道您可以使用 Java 的反射 API 来做简单的事情但这不适用于 Scala 的语言功能我找到了一个有趣的文章 http lamp epfl ch teaching proje
相当于 Cocoa 中的 FileSystemWatcher (.NET)

我正在 Cocoa 中开发一个应用程序我想不断检查特定位置的文件内容是否已更改例如FileSystemWatcher在 NET中请任何人给我一个解决方案请看一下FSEvents http developer apple com do
CLR 使用实体框架检测到无效程序

我正在从 wordpress 数据库中检索数据该数据库将主键定义为decimal我在项目中使用 x64 配置我搜索了一下发现这就是问题所在但我找不到解决方案我需要做什么下载才能使用decimal作为主键 Microsoft Con
在 IntelliJ IDEA 中运行 Jest 测试

我创建了一个 React 应用程序create react app版本 1 4 0 并在 IntelliJ 中打开生成的项目现在我也尝试在 IntelliJ 中运行生成的测试当我这样做时我得到以下输出 usr bin node hom
Angular-Formly：隐藏/禁用服务字段

我有一项服务其中我尝试禁用角度形式字段 formField templateOptions disabled true 即使 templateOption 对象是正确的该字段也不会被禁用 templateOptions type tex
Lambda 表达式中的 OrderBy 降序排列？

我知道在正常的 Linq 语法中 orderby xxx descending很简单但是如何在 Lambda 表达式中做到这一点呢正如布兰农所说这是OrderByDescending http msdn microsoft com e
Visual Studio 中的解决方案文件夹是什么？

我有一个 Visual Studio 2008 解决方案我想在解决方案中包含一个真实的文件夹但不是在项目级别而是在解决方案级别我注意到您可以右键单击该解决方案并添加一个解决方案文件夹但它显示为一些白色文件夹我怀疑它到底应该是什么
Swift 中 CGImage 的 RGB 数据

我尝试过培养阅读能力RGB 像素数据 https stackoverflow com questions 6073259 getting rgb pixel data from cgimage在斯威夫特获取基本图像信息没有问题但我认为指
将系列列表传递给 SetSeries

我将 DotNet Highcharts 与 Visual Studio 2010 结合使用我创建了一个系列数组 List
{} while(0) 在宏中如何工作？

尽管这个话题已经在本论坛和所有其他论坛上讨论过很多次但我仍然心存疑虑请帮忙如何do while 0 Linux内核中的宏工作例如 define preempt disable do while 0 它如何禁用抢占 define mi
尝试使用 Razor 引擎解析模板时，程序集“mscorlib”中的“System.Security.Principal.WindowsImpersonationContext”错误

我必须创建一个能够发送电子邮件的 Asp Net Web Api 我成功发送了电子邮件但仅使用存储在本地变量中的简单模板下一步是从外部文件渲染模板如下所示 string filePath C Data EmailClient Emai
远程执行hadoop作业时出现异常

我正在尝试在远程 hadoop 集群上执行 Hadoop 作业下面是我的代码 Configuration conf new Configuration conf set fs default name hdfs server 9000 c

远程执行hadoop作业时出现异常

远程执行hadoop作业时出现异常 的相关文章

随机推荐

热门标签

远程执行hadoop作业时出现异常的相关文章