我试图在 hadoop 2.2.0 上运行我的 PDF 字数统计 mapreduce 程序,但出现此错误:
13/12/25 23:37:26 INFO mapreduce.Job: Task Id : attempt_1388041362368_0003_m_000009_2, Status : FAILED
Error: java.lang.RuntimeException: java.lang.ClassNotFoundException: Class PDFWordCount$MyMap not found
at org.apache.hadoop.conf.Configuration.getClass(Configuration.java:1720)
at org.apache.hadoop.mapreduce.task.JobContextImpl.getMapperClass(JobContextImpl.java:186)
at org.apache.hadoop.mapred.MapTask.runNewMapper(MapTask.java:721)
at org.apache.hadoop.mapred.MapTask.run(MapTask.java:339)
at org.apache.hadoop.mapred.YarnChild$2.run(YarnChild.java:162)
at java.security.AccessController.doPrivileged(Native Method)
at javax.security.auth.Subject.doAs(Subject.java:415)
at org.apache.hadoop.security.UserGroupInformation.doAs(UserGroupInformation.java:1491)
at org.apache.hadoop.mapred.YarnChild.main(YarnChild.java:157)
Caused by: java.lang.ClassNotFoundException: Class PDFWordCount$MyMap not found
at org.apache.hadoop.conf.Configuration.getClassByName(Configuration.java:1626)
at org.apache.hadoop.conf.Configuration.getClass(Configuration.java:1718)
... 8 more
它说我的地图类别未知。我有一个集群,在 3 个虚拟机上有一个 namenod 和 2 个数据节点。
我的主要功能是这样的:
public static void main(String[] args) throws Exception {
Configuration conf = new Configuration();
@SuppressWarnings("deprecation")
Job job = new Job(conf, "wordcount");
job.setOutputKeyClass(Text.class);
job.setOutputValueClass(IntWritable.class);
job.setMapperClass(MyMap.class);
job.setReducerClass(MyReduce.class);
job.setInputFormatClass(PDFInputFormat.class);
job.setOutputFormatClass(TextOutputFormat.class);
FileInputFormat.addInputPath(job, new Path(args[0]));
FileOutputFormat.setOutputPath(job, new Path(args[1]));
job.setJarByClass(PDFWordCount.class);
job.waitForCompletion(true);
}
如果我使用以下命令运行我的 jar:
yarn jar myjar.jar PDFWordCount /in /out
它需要/in
作为输出路径并在我有时给我错误job.setJarByClass(PDFWordCount.class);
在我的主要功能中,如上所示。
我已经运行了简单的 WordCount 项目,其主函数与此主函数完全相同,为了运行它,我使用了yarn jar wc.jar MyWordCount /in2 /out2
并且运行完美。
我不明白有什么问题!
UPDATE:我试图将我的工作从这个项目转移到我已经成功使用的 wordcount 项目。我构建了一个包,将相关文件从 pdfwordcount 项目复制到这个包并导出该项目(我的 main 没有更改为使用PDFInputFormat
,所以我除了将 java 文件移动到新包之外什么也没做。)它不起作用。我从其他项目中删除了文件,但它不起作用。我将 java 文件移回默认包,但它不起作用!
怎么了?!