如何解决 java.lang.RuntimeException: PipeMapRed.waitOutputThreads(): subprocess failed with code 2？

2024-06-18

我正在尝试在 Hadoop 环境中执行 NLTK。以下是我用于执行的命令。

bin/hadoop jar $HADOOP_HOME/contrib/streaming/hadoop-streaming-1.0.4.jar -input /user/nltk/input/ -output /user/nltk/output1/ -file /home/hduser/softwares/NLTK/unsupervised_sentiment-master.zip -mapper /home/hduser/softwares/NLTK/unsupervised_sentiment-master/sentiment.py

unsupervised_sentiment-master.zip ---包含sentiment.py所需的所有依赖文件

我正进入（状态

java.lang.RuntimeException: PipeMapRed.waitOutputThreads(): subprocess failed with code 2
    at org.apache.hadoop.streaming.PipeMapRed.waitOutputThreads(PipeMapRed.java:362)
    at org.apache.hadoop.streaming.PipeMapRed.mapRedFinished(PipeMapRed.java:576)
    at org.apache.hadoop.streaming.PipeMapper.close(PipeMapper.java:135)
    at org.apache.hadoop.mapred.MapRunner.run(MapRunner.java:57)
    at org.apache.hadoop.streaming.PipeMapRunner.run(PipeMapRunner.java:36)
    at org.apache.hadoop.mapred.MapTask.runOldMapper(MapTask.java:436)
    at org.apache.hadoop.mapred.MapTask.run(MapTask.java:372)
    at org.apache.hadoop.mapred.Child$4.run(Child.java:255)
    at java.security.AccessController.doPrivileged(Native Method)
    at javax.security.auth.Subject.doAs(Subject.java:415)
    at org.apache.hadoop.security.UserGroupInformation.doAs(UserGroupInformation.java:1121)
    at org.apache.hadoop.mapred.Child.main(Child.java:249)

任何帮助将不胜感激！！！

你能发布 python 文件吗？我的猜测是，您需要将 #!/usr/bin/python 添加到 py 文件的顶部。我使用 python 进行流式传输时就是这种情况。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Hadoop

NLTK

hadoopstreaming

如何解决 java.lang.RuntimeException: PipeMapRed.waitOutputThreads(): subprocess failed with code 2？的相关文章

如何有效地将数据从 Kafka 移动到 Impala 表？

以下是当前流程的步骤 Flafka http blog cloudera com blog 2014 11 flafka apache flume meets apache kafka for event processing 将日志写入
对法语文本进行词形还原[关闭]

Closed 这个问题需要多问focused help closed questions 目前不接受答案我有一些法语文本需要以某种方式进行处理为此我需要首先将文本标记为单词然后对这些单词进行词形还原以避免多次处理相同的词根据我
NLTK 可用的停用词语言

我想知道在哪里可以找到 NLTK 停用词支持的语言及其键的完整列表我找到一个列表https pypi org project stop words https pypi org project stop words 但它不包含每个国家
如何对 RDD 进行分区

我有一个文本文件其中包含大量由空格分隔的随机浮动值我正在将此文件加载到 scala 中的 RDD 中这个RDD是如何分区的另外是否有任何方法可以生成自定义分区以便所有分区都具有相同数量的元素以及每个分区的索引 val dRDD
如何在Hadoop中序列化List集合对象？

有没有办法在 Hadoop 中序列化 java 集合 The Writable接口仅适用于 Java 原语我有以下类属性 private String keywords private List
使用 NLTK 生成字典以将推文分类为预定义类别

我有一个 Twitter 用户 screen names 列表我需要根据他们的兴趣领域将他们分为 7 个预定义类别教育艺术体育商业政治汽车技术我用 Python 提取了用户的最后 100 条推文并在清理推文后为每个用户创
为文件中的每个单词创建字典并计算其后面的单词的频率

我正在尝试解决一个难题却迷失了方向这就是我应该做的 INPUT file OUTPUT dictionary Return a dictionary whose keys are all the words in the file br
通过Oozie命令行指定多个过滤条件

我正在尝试通过命令行搜索一些特定的 oozie 作业我使用以下语法进行相同的操作 oozie jobs filter status RUNNING status KILLED 但是该命令仅返回正在运行的作业而不是已杀死的作业需要帮助
匿名类上的 NotSerializedException

我有一个用于过滤项目的界面 public interface KeyValFilter extends Serializable public static final long serialVersionUID 7069537470113
MapReduce 中 1 个任务的减速器数量

在典型的 MapReduce 设置如 Hadoop 中 1 个任务使用多少个减速器例如计算单词数我对 Google MapReduce 的理解意味着只涉及 1 个减速器那是对的吗例如单词计数会将输入分为 N 个块并且 N 个
Hadoop fs 查找块大小？

在 Hadoop fs 中如何查找特定文件的块大小我主要对命令行感兴趣例如 hadoop fs hdfs fs1 data 但看起来这并不存在有Java解决方案吗 The fsck其他答案中的命令列出了块并允许您查看块的数量但是要
org.apache.hadoop.security.AccessControlException：客户端无法通过以下方式进行身份验证：[TOKEN，KERBEROS] 问题

我正在使用 java 客户端通过 Kerberos 身份验证安全访问 HDFS 我尝试打字klist在服务器上它显示已经存在的有效票证我收到的异常是客户端无法通过以下方式进行身份验证 TOKEN KERBEROS 帮助将不胜感激这是一
谷歌的Dremel是什么？它与 MapReduce 有什么不同？

谷歌的 Dremel 是此处描述 http research google com pubs pub36632 html Dremel 和 Mapreduce 有什么区别 Dremel http research google com pu
如何配置Hive仓库路径？

我修改了这部分
Hive 有相当于 DUAL 的东西吗？

我想运行这样的语句 SELECT date add 2008 12 31 1 FROM DUAL Hive 在 Amazon EMR 上运行是否有类似的功能最好的解决方案是不要提及表名 select 1 1 给出结果 2 但是可怜的 H
如何在 HBase 中预分割表

我将数据存储在具有 5 个区域服务器的 HBase 中我使用 url 的 md5 哈希作为我的行键目前所有数据仅存储在一台区域服务器中所以我想预先分割区域以便数据在所有区域服务器上统一传输我希望通过行键的第一个字符将表分成五个区
Spark Driver 内存和 Application Master 内存

我是否正确理解客户端模式的文档客户端模式与驱动程序在应用程序主机中运行的集群模式相反在客户端模式下驱动程序和应用程序主机是单独的进程因此spark driver memory spark yarn am memory一定小于机器内存
PHP中通过Hive/Thrift查询数据库不起作用

我正在尝试通过 PHP 中的 Hive Thrift 查询数据库但是我不断收到错误 TSocket timed out reading 4 bytes from XYZ 我正在使用来自的代码 https cwiki apache org
Pyspark 应用程序仅部分利用 dataproc 集群资源

我的 pyspark 应用程序在 106 36 MB 数据集 817 270 条记录上运行 UDF 使用常规 python lambda 函数大约需要 100 小时我创建了一个 Google Dataproc 集群其中包含 20 个工
python33如何使用nltk3？

我成功安装了 NLTK 2 0 4 但是当我尝试下载 NLTK 软件包时即 nltk download stopwords 它不起作用所以我尝试为 python 3 安装 NLTK 的更新版本但它给出了此错误 gt gt gt imp

随机推荐

android studio 和 netbeans 中输入扫描器和解析的不同行为

我正在使用 NetBeans 测试基本代码和 Android Studio 实际应用程序读取相同的管道分隔文件并得到不同的结果这是有问题的代码 String URL http CalendarUTF8 Dec2016 txt try
Facebook C# SDK，用图片创建事件

我想创建一个事件但我只是不知道如何更改事件图片我知道这是一个非常老的问题但我仍然找不到任何解决方案我很快就会放弃请至少告诉我这是来自 Facebook 的错误还是其他任何东西这是我的代码 Facebook FacebookCli
正则表达式：如何匹配所有大于 954 的数字？

I tried 0 9 d d 4 但它没有给出正确的结果 I 不会使用正则表达式因为你会陷入丑陋的模式链中但是如果仍然必须或想要使用它您可以使用如下正则表达式 1 9 d 3 9 6 9 d 9 5 9 2 工作演示 https r
如何在node.js中同步读取文件或Stream？

请不要讲授关于我应该如何异步完成所有事情的讲座有时我想以简单明显的方式做事这样我就可以继续其他工作由于某种原因以下代码不起作用它与我在 a 上找到的代码匹配最近的问题 https stackoverflow com questio
如何在 apache Spark 作业中执行阻塞 IO？

如果当我遍历 RDD 时我需要通过调用外部阻塞服务来计算数据集中的值怎么办您认为如何才能实现这一目标值 Future RDD Double Future sequence tasks 我尝试创建一个 Futures 列表但由于
在 grails 中使用 mockDomain 时如何覆盖方法的逻辑？

我想像往常一样模拟一个域 mockDomain Class 但我想覆盖域的方法之一 beforeDelete具体来说仅针对该单元测试使用自定义逻辑如何才能实现这一目标您可以使用 Groovy 元类重写域类上的 beforeDelete
在标准化数据库模式中是否可以有多个外键？

Address addressID houseNumber postcode roadName city county Reservation reservationID roomNo leadGuestID guest2ID guest3
redux-observable 中的独立链取消？

我是 RxJS 新手在我的应用程序中我需要独立取消延迟操作 Here s http jsbin com gayoti edit js output一个工作示例延迟为 3 秒但是当我选择删除多个项目并取消其中一项时然后一次全部取消
如何从重定向的查询字符串中删除项目？

在我的基页中我需要从查询字符串中删除一个项目并重定向我不能使用 Request QueryString Remove foo 因为该集合是只读的有没有什么方法可以获取查询字符串除了该一项而无需迭代集合并重新构建它您可以通过处理原
递增字母数字组合

我偶然发现了这篇文章如何在 PHP 中仅使用小写字母和数字来增加字母数字字符串 https stackoverflow com questions 42866349 how to increment alphanumeric string
sklearn ShuffleSplit 出现“__init__() 获得参数 'n_splits' 的多个值”错误

我正进入状态 init 获得参数 n splits 的多个值该行的错误 cv ShuffleSplit n splits 10 test size 0 2 random state 0 在下面的代码中 import matplotlib
如何将 Xcode 指向旧的 SDK，以便将其用作“基础 SDK”？

我的 Mac 的设置 Volume A 操作系统 X 10 8Xcode 4 5 或更高版本 10 6 SDKIS NOT作为基础 SDK 提供 Volume B 操作系统 X 10 7Xcode 4 3 3 10 6 SDKIS作为基础
脚手架 EntityFramework 6 无法将“System.Data.Entity.Core.Objects.ObjectContext”类型的对象强制转换为“System.Data.Objects.ObjectContext”

我想在 EntityFrameWork 6 中使用脚手架但是得到这个无法检索 myNameSpace Models prod 的元数据无法将 System Data Entity Core Objects ObjectContext
将 yaml 中的列表映射到 Scala 中的对象列表（Spring Boot）

背景我已经阅读了很多关于如何使用的示例ConfigurationProperties从配置中读取列表见下文 https github com konrad garus so yaml https github com konrad ga
.NET / C# / WPF 项目的命名约定

NET C WPF 项目广泛接受的命名约定是什么 Microsoft 有一篇关于命名约定的内容广泛的 MSDN 文章here http msdn microsoft com en us library ms229002 aspx
Ruby 的 Faraday - 多次包含相同的参数

我正在使用一个 API 该 API 迫使我多次发送相同的参数名称以级联不同的过滤条件因此示例 api GET 调用如下所示 GET http api site com search a b1 a b2 a b3 a c2 我使用 Far
如何在 Ubuntu 中创建公共 HTML 文件夹？

简单的问题但由于某种原因我无法在谷歌上找到确切的答案我在 Slicehost 上安装了全新的 Ubuntu 并且想在我的主目录中为包含一堆静态 HTML 文件的简单网站创建一个公共目录我该怎么做呢只是打字的问题吗mkdir publ
光照不适用于 gluSphere

这是一个简单的问题我有点羞于寻求帮助我正在对 gluSphere 进行简单调用来渲染球体但是即使我很确定我正确添加了法线和照明它也无法正确照亮但是如果我添加纹理模型会正常点亮但它似乎总是平滑的并且我无法将其更改为平面这
我可以订阅 Meteor Session 来获取反应式模板渲染更新吗？

有没有办法订阅 Meteor Session 对象以便在 Session 对象上设置数据时自动呈现反应式模板视图特别是键名称和值数据我有一个与迭代时渲染 Meteor Session 对象数据相关的类似问题这个问题的目的是特别不同
如何解决 java.lang.RuntimeException: PipeMapRed.waitOutputThreads(): subprocess failed with code 2？

我正在尝试在 Hadoop 环境中执行 NLTK 以下是我用于执行的命令 bin hadoop jar HADOOP HOME contrib streaming hadoop streaming 1 0 4 jar input user

如何解决 java.lang.RuntimeException: PipeMapRed.waitOutputThreads(): subprocess failed with code 2？

如何解决 java.lang.RuntimeException: PipeMapRed.waitOutputThreads(): subprocess failed with code 2？ 的相关文章

随机推荐

热门标签

如何解决 java.lang.RuntimeException: PipeMapRed.waitOutputThreads(): subprocess failed with code 2？的相关文章