加载数据时pig出错

2023-11-21

我使用的是 ubuntu 12.02 32bit 并已安装hadoop2.2.0 and pig 0.12成功地。 Hadoop 在我的系统上运行正常。

但是，每当我运行此命令时：

data = load 'atoz.csv' using PigStorage(',')  as (aa1:int, bb1:int, cc1:int, dd1:chararray);            
dump data;

我收到以下错误：

ERROR org.apache.hadoop.mapreduce.lib.jobcontrol.JobControl - Error whiletrying to run jobs.java.lang.IncompatibleClassChangeError: Found interface org.apache.hadoop.mapreduce.JobContext, but class was expected.

这是完整的堆栈跟踪：

> 2014-01-23 10:41:44,998 [main] INFO  org.apache.pig.backend.hadoop.executionengine.mapReduceLayer.MapReduceLauncher- 1 map-reduce job(s) waiting for submission.
>             2014-01-23 10:41:45,000 [Thread-9] INFO  org.apache.hadoop.metrics.jvm.JvmMetrics - Cannot initialize JVM
> Metrics with processName=JobTracker, sessionId= - already initialized
>             2014-01-23 10:41:45,001 [Thread-9] ERROR org.apache.hadoop.mapreduce.lib.jobcontrol.JobControl - Error while
> trying to run jobs.
>             java.lang.IncompatibleClassChangeError: Found interface org.apache.hadoop.mapreduce.JobContext, but class was expected
>             at org.apache.pig.backend.hadoop.executionengine.mapReduceLayer.PigOutputFormat.setupUdfEnvAndStores(PigOutputFormat.java:225)
>             at org.apache.pig.backend.hadoop.executionengine.mapReduceLayer.PigOutputFormat.checkOutputSpecs(PigOutputFormat.java:186)
>             at org.apache.hadoop.mapreduce.JobSubmitter.checkSpecs(JobSubmitter.java:456)
>             at org.apache.hadoop.mapreduce.JobSubmitter.submitJobInternal(JobSubmitter.java:342)
>             at org.apache.hadoop.mapreduce.Job$10.run(Job.java:1268)
>             at org.apache.hadoop.mapreduce.Job$10.run(Job.java:1265)
>             at java.security.AccessController.doPrivileged(Native Method)
>             at javax.security.auth.Subject.doAs(Subject.java:415)
>             at org.apache.hadoop.security.UserGroupInformation.doAs(UserGroupInformation.java:1491)
>             at org.apache.hadoop.mapreduce.Job.submit(Job.java:1265)
>             at org.apache.hadoop.mapreduce.lib.jobcontrol.ControlledJob.submit(ControlledJob.java:335)
>             at org.apache.hadoop.mapreduce.lib.jobcontrol.JobControl.run(JobControl.java:240)
>             at java.lang.Thread.run(Thread.java:724)
>             at org.apache.pig.backend.hadoop.executionengine.mapReduceLayer.MapReduceLauncher$1.run(MapReduceLauncher.java:260)
>             2014-01-23 10:41:45,498 [main] INFO  org.apache.pig.backend.hadoop.executionengine.mapReduceLayer.MapReduceLauncher
> - 0% complete
>             2014-01-23 10:41:45,502 [main] INFO  org.apache.pig.backend.hadoop.executionengine.mapReduceLayer.MapReduceLauncher
> - job null has failed! Stop running all dependent jobs
>             2014-01-23 10:41:45,503 [main] INFO  org.apache.pig.backend.hadoop.executionengine.mapReduceLayer.MapReduceLauncher
> - 100% complete
>             2014-01-23 10:41:45,507 [main] ERROR org.apache.pig.tools.pigstats.SimplePigStats - ERROR 2997: Unable to
> recreate exception from backend error: Unexpected System Error
> Occured: java.lang.IncompatibleClassChangeError: Found interface
> org.apache.hadoop.mapreduce.JobContext, but class was expected
>             at org.apache.pig.backend.hadoop.executionengine.mapReduceLayer.PigOutputFormat.setupUdfEnvAndStores(PigOutputFormat.java:225)
>             at org.apache.pig.backend.hadoop.executionengine.mapReduceLayer.PigOutputFormat.checkOutputSpecs(PigOutputFormat.java:186)
>             at org.apache.hadoop.mapreduce.JobSubmitter.checkSpecs(JobSubmitter.java:456)
>             at org.apache.hadoop.mapreduce.JobSubmitter.submitJobInternal(JobSubmitter.java:342)
>             at org.apache.hadoop.mapreduce.Job$10.run(Job.java:1268)
>             at org.apache.hadoop.mapreduce.Job$10.run(Job.java:1265)
>             at java.security.AccessController.doPrivileged(Native Method)
>             at javax.security.auth.Subject.doAs(Subject.java:415)
>             at org.apache.hadoop.security.UserGroupInformation.doAs(UserGroupInformation.java:1491)
>             at org.apache.hadoop.mapreduce.Job.submit(Job.java:1265)
>             at org.apache.hadoop.mapreduce.lib.jobcontrol.ControlledJob.submit(ControlledJob.java:335)
>             at org.apache.hadoop.mapreduce.lib.jobcontrol.JobControl.run(JobControl.java:240)
>             at java.lang.Thread.run(Thread.java:724)
>             at org.apache.pig.backend.hadoop.executionengine.mapReduceLayer.MapReduceLauncher$1.run(MapReduceLauncher.java:260)
2014-01-23 10:41:45,507 [main] ERROR org.apache.pig.tools.pigstats.PigStatsUtil - 1 map reduce job(s)
> failed!
>             2014-01-23 10:41:45,507 [main] INFO  org.apache.pig.tools.pigstats.SimplePigStats - Detected Local mode.
> Stats reported below may be incomplete
>             2014-01-23 10:41:45,508 [main] INFO  org.apache.pig.tools.pigstats.SimplePigStats - Script Statistics:
HadoopVersion    PigVersion    UserId    StartedAt    FinishedAt    Features
>             2.2.0    0.10.1    hardik    2014-01-23 10:41:44    2014-01-23 10:41:45    UNKNOWN
 Failed!
Failed Jobs:
JobId    Alias    Feature    Message    Outputs
N/A    aatoz    MAP_ONLY    Message: Unexpected System Error Occured: java.lang.IncompatibleClassChangeError: Found interface
> org.apache.hadoop.mapreduce.JobContext, but class was expected
>             at org.apache.pig.backend.hadoop.executionengine.mapReduceLayer.PigOutputFormat.setupUdfEnvAndStores(PigOutputFormat.java:225)
>             at org.apache.pig.backend.hadoop.executionengine.mapReduceLayer.PigOutputFormat.checkOutputSpecs(PigOutputFormat.java:186)
>             at org.apache.hadoop.mapreduce.JobSubmitter.checkSpecs(JobSubmitter.java:456)
>             at org.apache.hadoop.mapreduce.JobSubmitter.submitJobInternal(JobSubmitter.java:342)
>             at org.apache.hadoop.mapreduce.Job$10.run(Job.java:1268)
>             at org.apache.hadoop.mapreduce.Job$10.run(Job.java:1265)
>             at java.security.AccessController.doPrivileged(Native Method)
>             at javax.security.auth.Subject.doAs(Subject.java:415)
>             at org.apache.hadoop.security.UserGroupInformation.doAs(UserGroupInformation.java:1491)
>             at org.apache.hadoop.mapreduce.Job.submit(Job.java:1265)
>             at org.apache.hadoop.mapreduce.lib.jobcontrol.ControlledJob.submit(ControlledJob.java:335)
>             at org.apache.hadoop.mapreduce.lib.jobcontrol.JobControl.run(JobControl.java:240)
>             at java.lang.Thread.run(Thread.java:724)
>             at org.apache.pig.backend.hadoop.executionengine.mapReduceLayer.MapReduceLauncher$1.run(MapReduceLauncher.java:260)
>             file:/tmp/temp1979716161/tmp-189979005,
Input(s):
Failed to read data from "file:///home/hardik/pig10/bin/input/atoz.csv"
Output(s):
             Failed to produce result in "file:/tmp/temp1979716161/tmp-189979005"
Job DAG:
null
2014-01-23 10:41:45,509 [main] INFO  org.apache.pig.backend.hadoop.executionengine.mapReduceLayer.MapReduceLauncher
 Failed! 2014-01-23 10:41:45,510 [main] ERROR org.apache.pig.tools.grunt.Grunt - ERROR 1066: Unable to open iterator
> for alias aatoz
>             Details at logfile: /home/hardik/pig10/bin/pig_1390453192689.log
>     </i>

默认情况下，Apache Pig 0.12.0 需要旧版本的 Hadoop。您必须重新编译 Pig for Hadoop 2.2.0，并将两个 jar 替换为新的 pig-0.12.1-SNAPSHOT.jar 和 pig-0.12.1-SNAPSHOT-withouthadoop.jar。

要重新编译解压 pig 存档，请转到目录“pig-0.12.0”并运行：

ant clean jar-all -Dhadoopversion=23

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Hadoop

apachepig

加载数据时pig出错的相关文章

是否值得购买 Mahout in Action 以跟上 Mahout 的速度，或者还有其他更好的来源吗？

我目前是一个非常随意的用户阿帕奇马胡特 http mahout apache org 我正在考虑购买这本书象夫在行动 http www manning com owen 不幸的是我很难理解这本书的价值并且认为它是一本曼宁早期访问计划 h
异常：java.lang.Exception：使用 master 'yarn' 运行时，必须在环境中设置 HADOOP_CONF_DIR 或 YARN_CONF_DIR。在火花中

我是新的阿帕奇火花我已经在spark独立模式下测试了一些应用程序但我想运行应用程序yarn模式我正在windows中运行apache spark 2 1 0 这是我的代码 c spark gt spark submit2 master
遍历 ArrayWritable - NoSuchMethodException

我刚刚开始使用 MapReduce 并且遇到了一个奇怪的错误我无法通过 Google 回答该错误我正在使用 ArrayWritable 制作一个基本程序但是当我运行它时在Reduce过程中出现以下错误 java lang Runti
如何在 Scala 中编写 Pig UDF

我正在尝试在 Scala 中编写 Pig UDF 使用 Eclipse 我已将 pig jar 添加为 java 构建路径中的库这似乎解决了以下 2 个导入问题导入 org apache pig EvalFunc 导入 org apac
hadoop中reducer的数量

我正在学习hadoop 我发现减速器的数量非常令人困惑 1 reducer的数量与partition的数量相同 2 reducer 的数量是 0 95 或 1 75 乘以节点数每个节点的最大容器数 3 减速机数量设定为mapred re
如何使用 Amazon 的 EMR 在 CLI 中使用自定义 jar 指定 mapred 配置和 java 选项？

我想知道如何指定mapreduce配置例如mapred task timeout mapred min split size等等当使用自定义 jar 运行流作业时当我们使用 ruby 或 python 等外部脚本语言运行时我们可以使
带有安全 Kafka 抛出的 Spark 结构化流：无权访问组异常

为了在我的项目中使用结构化流我正在 hortonworks 2 6 3 环境上测试 Spark 2 2 0 和 Kafka 0 10 1 与 Kerberos 的集成我正在运行下面的示例代码来检查集成我能够在 Spark 本地模式下的
将 CSV 转换为序列文件

我有一个 CSV 文件我想将其转换为 SequenceFile 我最终将使用它来创建 NamedVectors 以在聚类作业中使用我一直在使用 seqdirectory 命令尝试创建 SequenceFile 然后使用 nv 选项将该输
适用于 Hadoop 的 DynamoDB 输入格式

我必须使用 Hadoop mapreduce 处理保留在 Amazon Dynamodb 中的一些数据我在互联网上搜索 Dynamo DB 的 Hadoop InputFormat 但找不到它我对 Dynamo DB 不熟悉所以我猜测
猪的组连接等效吗？

试图在 Pig 上完成这个任务寻找 MySQL 的 group concat 等效项例如在我的表中我有以下内容 3fields userid clickcount pagenumber 155 2 12 155 3 133 155
HDFS 中的文件数量与块数量

我正在运行单节点 hadoop 环境当我跑的时候 hadoop fsck user root mydatadir block 我真的对它给出的输出感到困惑 Status HEALTHY Total size 998562090 B Tot
Pig 10.0 - 将元组分组并在 foreach 中合并包

我在用着Pig 10 0 我想在 foreach 中合并包假设我有以下内容visitors alias a b 1 2 3 4 a d 1 3 6 a e 7 z b 1 2 3 我想对第一个字段上的元组进行分组并将包与一组语义合并以获
Hadoop 推测任务执行

在Google的MapReduce论文中他们有一个备份任务我认为这与Hadoop中的推测任务是一样的推测任务是如何实现的当我启动一项推测任务时该任务是从一开始就作为较旧且缓慢的任务开始还是从较旧的任务到达的位置开始如果是这样
Talend 和 Apache Spark？

我对 Talend 和 Apache Spark 在大数据生态系统中的定位感到困惑因为 Apache Spark 和 Talend 都可以用于 ETL 有人可以用一个例子解释一下吗 Talend 是一种基于工具的大数据方法通过内置组件支
Spark 和 Python 使用自定义文件格式/生成器作为 RDD 的输入

我想问一下 Spark 中输入的可能性我可以看到从http spark apache org docs latest programming guide html http spark apache org docs latest pro
Hadoop NoSuchMethodError apache.commons.cli

我在用着hadoop 2 7 2我用 IntelliJ 做了一个 MapReduce 工作在我的工作中我正在使用apache commons cli 1 3 1我把库放在罐子里当我在 Hadoop 集群上使用 MapReduceJob
Apache hadoop 版本 2.0 与 0.23

Hadoop 的版本和发行版太多让我很困惑我有几个问题 Apache Hadoop 1 x 是从 0 20 205 开始的 Apache Hadoop 2 0 是从 0 22 还是 0 23 开始根据这个blogpost http b
Hadoop 上的 Sqoop：NoSuchMethodError：com.google.common.base.Stopwatch.createStarted() [重复]

这个问题在这里已经有答案了我在 Google Cloud DataProc 上的 hadoop 上运行 sqoop 以通过 Cloud SQL 代理访问 postgresql 但遇到 Java 依赖项错误 INFO First Cloud
在 Hadoop MapReduce 中为二进制文件创建自定义 InputFormat 和 RecordReader

我正在编写一个 M R 作业该作业处理以二进制格式编写的大型时间序列数据文件如下所示此处换行以提高可读性显然实际数据是连续的 TIMESTAMP 1 TIMESTAMP 1 TIMESTAMP 2 TIMESTAMP 2 TIME
将 Spark 添加到 Oozie 共享库

默认情况下 Oozie 共享 lib 目录提供 Hive Pig 和 Map Reduce 的库如果我想在 Oozie 上运行 Spark 作业最好将 Spark lib jar 添加到 Oozie 的共享库而不是将它们复制到应用程序

随机推荐

查找所选顶点的最小生成树的算法

人们可以使用 Prim 算法或 Kruskal 算法来查找顶点节点和边链接集合的最小生成树图不过我想要的是一种找到该集合的最小生成图的算法但生成的图需要仅包含任意选择的节点而不是所有节点如果结果图包含的节点多于所需的节点也没
如何在 ActiveAdmin 中添加返回应用程序的链接？

我需要在 ActiveAdmin 页面中添加一些指向应用程序某些页面的链接我可以使用侧边栏来完成此操作但我必须为每个资源重复代码无论如何是否可以向标题添加自定义链接或者定义一个针对所有资源显示的侧边栏我也不想忽略在initial
奇怪的 Maven 内存不足错误

我目前正在尝试使用 hudson 调用 Maven 来构建我的项目我不断遇到内存不足错误的问题我在所有环境变量 hudson 配置和 hudson 项目配置中设置了 xmx 和 xms 我将 xmx 设置为 1500 mb 这应该足够了
java中的对象有内存大小限制吗？

我们可以拥有任意大小的 Java 对象而不用担心异常吗我将使用一个类的对象该类包含一个ArrayList数千个其他对象其中包含几个HashMaps and ArrayLists 和许多其他非原始类型谢谢如果你有一个对象我们称之为
使用 devtools 构建 .md vignette

我在用着knitr rmarkdown but knitr knitr和我的一样 VignetteEngine 然后我使用构建我的包小插图devtools build vignettes 这可行但只能在以下位置创建 HTML 和 R 输出
IE Date.parse 方法对于带有时间字符串的日期返回 NaN

我们正在尝试用时间戳字符串解析日期它在 IE 中崩溃但在 FireFox 中工作正常这是代码警报新日期 Date parse 2010 01 31T12 00 00 233467 05 00 有什么办法让它在 IE 浏览器中工作吗
使用sbt编译Java注解

我已经在下面创建了 Java 注释因为我需要运行时保留 PROJECT src main java我的 scala 代码使用了这些 java 注释 PROJECT src main scala 这样创建的 Java 注释也使用 Java
ListView 布局与 RTL 语言（阿拉伯语）渲染不一致

我有简单的 ListView 和 ArrayAdapter 正在工作正好问题始于RTL语言在本例中为阿拉伯语当你第一次打开它时一切看起来都很好但向下滚动并向后滚动后某些项目似乎渲染不正确代码很简单请注意如果我不重复使用视图
缓存 URL 图像 iphone UITableview

我正在寻找有关如何将从 url 加载的图像缓存到 uitableview 单元格中的教程我在这里找到了一个例子 http www ericd net 2009 05 iphone caching images in memory html
如何从 JavaScript 中的 URL 中提取 GET 参数？ [复制]

这个问题在这里已经有答案了可能的重复在javascript中使用url的get参数假设我有这个网址 s http mydomain com q microsoft p next 在这种情况下如何从字符串中提取 microsoft 我
SendGrid 与单个电子邮件的唯一参数

我尝试为每封电子邮件设置一个唯一参数列表 SMTP api 的官方参考非常简单地描述了此功能 here 我正在使用的 SendGrid PHP 库的 API 文档也没有多大帮助 setUniqueArguments Set a list o
尝试在 pgAdmin4 中备份数据库时出现“[Errno 2] 无此类文件或目录”

我终于设法在首选项中手动设置 PostgreSQL 二进制路径为什么用户必须在 pgAdmin3 中不需要时执行此操作老实说我不知道第二个路径字段 EDB Advanced Server Binary Path 的含义是什么但我没有
HAProxy - 后端服务器的基本身份验证

我使用以下配置从本地 127 0 0 1 2000 代理访问互联网 global log 127 0 0 1 local0 log 127 0 0 1 local1 notice log loghost local0 info maxcon
修复重大升级问题

以下是场景 1 安装 1 0 1 1 然后升级到 1 0 2 2 gt 这很好用如预期 2 安装 1 0 2 2 然后降级到 1 0 1 1 gt 这不起作用如预期 3 安装 1 0 1 1 然后安装 1 0 1 1 gt 这将进入修复
Python 字典 vs C++ std:unordered_map (cython) vs cythonized python dict

我试图测量 python 字典 cythonized python 字典和 cythonized cpp std unordered map 之间的性能仅执行 init 过程如果编译 cythonized cpp 代码我认为它应该比纯
.NET 中是否有与进程外 COM EXE 等效的东西？

COM ActiveX 的优点之一是进程外 EXE 您可以有一个 EXE 它以可供其他进程包括 VBScript 和 JScript 使用的形式公开方法和属性同时 EXE 可以拥有自己的功能与其类型库公开的功能相关或无关 NET 的等
合作多重继承问题

这是一个扩展这个问题并提出了一个问题希望您我的 StackOverflowers 同胞能够帮助我解决这个问题从引用的问题中考虑最终的代码示例 class A object def init self print entering A
将任意 R 对象存储到 HDD 上？

据我所知我们可以将数据矩阵导出到csv or xlsx files 对于像这样的复杂对象呢 lm 例如在我的工作中我可能有一个长度为 1000 的列表每个列表都有一个lm 目的每次我加载R我必须等待很长时间才能用这些填充 1000
错误：（-2：未指定错误）该功能未实现。使用 Windows、GTK+ 2.x 或 Cocoa 支持重建库

我正在 jupyter 笔记本上从事手语检测项目在运行活体检测代码时我遇到了如下错误 OpenCV 4 5 1 C Users appveyor AppData Local Temp 1 pip req build 1drr4hl0 o
加载数据时pig出错

我使用的是 ubuntu 12 02 32bit 并已安装hadoop2 2 0 and pig 0 12成功地 Hadoop 在我的系统上运行正常但是每当我运行此命令时 data load atoz csv using PigStor

加载数据时pig出错

加载数据时pig出错 的相关文章

随机推荐

热门标签

加载数据时pig出错的相关文章