Python Hadoop 流错误“ERROR Streaming.StreamJob：作业未成功！”和堆栈跟踪：ExitCodeException exitCode=134

2023-12-05

我正在尝试使用 Hadoop Streaming 在 Hadoop 集群上运行 python 脚本进行情感分析。我在本地计算机上运行的相同脚本运行正常并给出输出。
要在本地计算机上运行，我使用此命令。

$ cat /home/MB/analytics/Data/input/* | ./new_mapper.py

要在 hadoop 集群上运行，我使用以下命令

$ hadoop jar /usr/lib/hadoop-0.20-mapreduce/contrib/streaming/hadoop-streaming-2.5.0-mr1-cdh5.2.0.jar -mapper "python $PWD/new_mapper.py" -reducer "$PWD/new_reducer.py" -input /user/hduser/Test_04012015_Data/input/* -output /user/hduser/python-mr/out-mr-out

我的脚本的示例代码是

#!/usr/bin/env python
import sys


def main(argv):
##    for line in sys.stdin:
##        print line
    for line in sys.stdin:
        line = line.split(',')
        t_text      = re.sub(r'[?|$|.|!|,|!|?|;]',r'',line[7])
        words    = re.findall(r"[\w']+", t_text.rstrip())
        predicted = classifier.classify(feature_select(words))
        i=i+1
        referenceSets[predicted].add(i)
        testSets[predicted].add(i)
        print line[7] +'\t'+predicted

if __name__ == "__main__":
    main(sys.argv)

异常的堆栈跟踪是：

    15/04/22 12:55:14 INFO mapreduce.Job: Task Id : attempt_1429611942931_0010_m_000001_0, Status : FAILED
    Error: java.io.IOException: Stream closed at java.lang.ProcessBuilder$NullOutputStream.write(ProcessBuilder.java:434)
    ...

    Exit code: 134
    Exception message: /bin/bash: line 1:  1691 Aborted 
(core dumped) /usr/lib/jvm/java-7-oracle-cloudera/bin/java
-Djava.net.preferIPv4Stack=true -Dhadoop.metrics.log.level=WARN -Djava.net.preferIPv4Stack=true -Xmx525955249
-Djava.io.tmpdir=/yarn/nm/usercache/hduser/appcache/application_1429611942931_0010/container_1429611942931_0010_01_000016/tmp
-Dlog4j.configuration=container-log4j.properties
-Dyarn.app.container.log.dir=/var/log/hadoop-yarn/container/application_1429611942931_0010/container_1429611942931_0010_01_000016 -Dyarn.app.container.log.filesize=0 
-Dhadoop.root.logger=INFO,CLA org.apache.hadoop.mapred.YarnChild 192.168.0.122 48725 attempt_1429611942931_0010_m_000006_1 16 > /var/log/hadoop-yarn/container/application_1429611942931_0010/container_1429611942931_0010_01_000016/stdout 2> /var/log/hadoop-yarn/container/application_1429611942931_0010/container_1429611942931_0010_01_000016/stderr
    ....

    15/04/22 12:55:47 ERROR streaming.StreamJob: Job not Successful!
    Streaming Command Failed!

I tried to see logs but in hue it shows me this error. enter image description here Please suggest me, what is going wrong.

您好像忘记添加文件了new_mapper.py到你的工作。

基本上，你的工作尝试运行 python 脚本new_mapper.py，但是运行映射器的服务器上缺少此脚本。

您必须使用以下选项将此文件添加到您的作业中-file <local_path_to_your_file>.

请参阅此处的文档和示例：https://hadoop.apache.org/docs/stable/hadoop-mapreduce-client/hadoop-mapreduce-client-core/HadoopStreaming.html#Streaming_Command_Options

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Python Hadoop 流错误“ERROR Streaming.StreamJob：作业未成功！”和堆栈跟踪：ExitCodeException exitCode=134 的相关文章

在 Python 中处理单值元组的最佳实践是什么？

我正在使用第三方库函数它从文件中读取一组关键字并且应该返回一个值的元组只要有至少两个关键字它就能正确执行此操作但是在只有一个关键字的情况下它返回一个原始字符串而不是大小为 1 的元组这是特别有害的因为当我尝试做类似的事情
Python MySQL 模块

我正在开发一个需要与 MySQL 数据库交互的 Web 应用程序但我似乎找不到任何真正适合 Python 的模块我特别寻找快速模块能够处理数十万个连接和查询所有这些都在短时间内完成而不会对速度产生重大影响我想我的答案将是游戏领
将列表传递给 PyCrypto 中的 AES 密钥生成器

我尝试使用 Pycrypto 生成 AES 密钥但收到以下错误类型错误列表不支持缓冲区接口对于以下声明 aescipher AES new mykey AES MODE ECB mykey 属于类型list并包含 18854347
ValueError：在 R 中使用 keras 模型时在用户代码中

我正在尝试使用 R 在 R 中运行一维 CNNkeras包裹我正在使用以下代码 library MASS library keras Create some data data Boston data lt Boston create a
numpy 数组最快的保存和加载选项

我有一个生成二维的脚本numpy数组与dtype float和形状的顺序 1e3 1e6 现在我正在使用np save and np load对数组执行 IO 操作然而这些函数对于每个数组都需要几秒钟的时间是否有更快的方法来保存和加载
如何最好地将包含列表或元组的 Pandas 列提取到多个列中[重复]

这个问题在这里已经有答案了我不小心用错误重复的链接关闭了这个问题这是正确的 Pandas 将列表的列拆分为多列 https stackoverflow com questions 35491274 pandas split column
使用子图绘制 pandas 数据框 (subplots=True)：放置图例并使用紧凑的布局

我真的很喜欢 pandas 来处理和分析大数据集到目前为止我主要使用 matplotlib 进行绘图但现在想使用 pandas 自己的绘图功能基于 matplotlib 因为它需要更少的代码并且在大多数情况下对我来说似乎足够了尤
Python变量赋值问题

a b 0 1 while b lt 50 print b a b b a b 输出 1 2 4 8 16 32 wheras a b 0 1 while b lt 50 print b a b b a b 输出正确的斐波那契数列 1 1
字母表中的加密和解密 - Python GCSE

我目前正在尝试为学校编写一个程序以便加密和解密输入的消息我需要加密或解密的消息仅在字母表中没有其他符号或密钥例如使用消息车加密输入的偏移量为 5 我希望它输出 afs 有人可以帮忙吗这是我目前的代码 def find offse
Python 函数可能会引发哪些异常？ [复制]

这个问题在这里已经有答案了 Python 中有什么方法可以确定内置函数可能引发哪些异常例如文档 http docs python org lib built in funcs html http docs python org li
Cython：为什么 size_t 比 int 快？

更改某些 Cython 变量的类型int输入size t可以显着减少某些功能的时间 30 但我不明白为什么例如 cimport numpy as cnp import numpy as np def sum int cnp int64 t
在 Docker 容器内运行时，如何自动在 API 路由文件中进行 FASTAPI 拾取更改？

我通过 docker 运行 FastApi 在 docker compose 中创建一个名为 ingestion data 的服务我的 Dockerfile FROM tiangolo uvicorn gunicorn fastapi p
如何在树莓派上更新到最新的 python 3.5.1 版本？

我昨天拿到了 Raspberry Pi 我已经在尝试用它来编写代码了我有一个计划在其上运行的程序但它仅与 Python 版本 3 5 0 或 3 5 1 兼容并且我在互联网上找到的所有内容似乎都已经过时与 Python 2 有关或
Hive NVL 不适用于列的日期类型 - NullpointerException

我正在使用 HDFS 上的 MapR Hive 发行版并面临以下问题如果表的列类型是日期类型则NVL https cwiki apache org confluence display Hive LanguageManual UDF
多线程写入文件

前几天刚开始使用 python 对多线程的整个概念还很陌生我在多线程时写入文件时遇到问题如果我按照常规方式执行此操作它会不断覆盖正在写入的内容使用 5 个线程写入文件的正确方法是什么不降低性能的最佳方法是在所有线程之间使用队列每
import numpy 和 import numpy as np 之间的区别

我明白如果可能的话应该使用 import numpy as np 这有助于避免由于命名空间引起的任何冲突但我注意到虽然下面的命令有效 import numpy f2py as myf2py 以下不 import numpy as np
在Python中引用不带换行符的长字符串

我正在尝试在 Python 中编写一个长字符串该字符串显示为 OptParser 选项的帮助项在我的源代码 py 文件中我想放置换行符以便我的代码不会花费新行但是我不希望这些换行符影响代码运行时该字符串的显示方式例如我想写
收到的标签值 1 超出了 [0, 1) 的有效范围 - Python、Keras

我正在使用具有张量流背景的 keras 开发一个简单的 cnn 分类器 def cnnKeras training data training labels test data test labels n dim print Initiat
安排 Asyncio 任务每 X 秒执行一次？

我正在尝试创建一个 python 不和谐机器人它将每隔 X 秒检查一次活跃会员并根据会员的在线时间奖励积分我正在使用 asyncio 来处理聊天命令这一切都正常我的问题是找到一种方法来安排每隔 X 秒异步检查一次活动成员我已经阅
如何从python导入路径中删除当前目录

我想使用 Mercurial 存储库hg本身也就是说我克隆了 Mercurialhttps www mercurial scm org repo hg https www mercurial scm org repo hg并想运行一些h

随机推荐

tryCatch 未捕获 RStudio 中 install.packages 产生的错误

考虑以下用法 tryCatch log a error function e NULL NULL 现在我正在尝试做基本上相同的事情但以更复杂的方式我有两个网络存储库如果第一个网络存储库由于某种原因不可用我想从第二个网络存储库安装软件
从 ng 服务中排除文件夹

我有一个文件夹 project src Backend 我想排除其中ng serve Angular 版本是 6 1 x 我已经尝试过添加一些排除项tsconfig app json tsconfig json and 角度 json 我在
无法从方法组转换为 Int32

我希望我的小数学程序看起来非常时尚我的意思是在Main方法我有以下方法 Greet UserInput1 UserInput2 Result In Greet 我只是说嗨在UserInput1 我想收集第一个数字在UserInput
如何将所有非 www URL 重定向到 https://www。在IIS 中？

我想在 IIS 8 5 中添加正确的 301 永久重定向规则我添加了以下规则但它不起作用
如何在 Fragment 中设置 ViewPager

我需要将 ViewPager 放置在片段内但我有两个片段片段 1 是我的菜单片段 2 我想用作 ViewPagerIndicator 但是一个片段不能有另一个片段我需要为此做什么从 Android 4 2 开始出现了嵌套片段 h
是否有可能在 ngrx-effects 内部抛出错误而不完成 Observable 流？

有什么办法可以使用吗throw在 ngrx effects 流内有一个 Error 对象而没有完成流我读过这些关于为什么流被抛出错误而被终止的很好的答案 ngrx 效果不会第二次运行 ngrx 影响错误处理 https github co
重复过滤后的列表顺序

我正在尝试自学函数式语言思维并编写了一个过程该过程接受一个列表并返回一个已过滤掉重复项的列表这是可行的但是输出列表是按照last在输入列表中找到每个重复项的实例 define inlist L n cond null L f car
给定一个文本区域，有没有办法根据行数限制长度？

我有一个文本区域字段我希望用户能够输入不超过 3 行那可能吗 Fiddle http jsfiddle net nvLBZ 1 我刚刚 2小时创建了一个脚本always将文本区域的高度限制为 3 行为特定文本区域计算字符的最大可能宽
mysql 全文 MATCH,AGAINST 返回 0 个结果

我正在尝试遵循 http dev mysql com doc refman 4 1 en fulltext natural language html 试图提高搜索查询的速度和按分数排序的能力但是当使用此 SQL 时 skitt 用作搜
VBA-使用 Lotus Notes 在签名上方插入电子邮件正文

我想要实现的目标非常简单将电子邮件正文插入到 Lotus Notes 中的签名上方我在 vba 中的代码在运行时会在 Lotus Notes 中打开一个新的电子邮件窗口粘贴到主题发送至和正文字段中一切都很完美但是当插入正
使用 toupper() 函数连接时无法打印字符串

我在使用 toupper 函数时遇到问题 Code include
如何在swift 3中转换xml和json数据

我是 IOS 新手我想使用 swift 3 将从 SOAP Web 服务接收的一些混合数据 xml 和 JSON 混合数据转换为数组我在解析器方法的字符串变量中接收此数据 func connection connection NSUR
JSF 从子类中选择项目

我正在尝试填充列表
TypeScript React.FC 混淆

我正在学习 TypeScript 有些内容让我感到困惑下面一位 interface Props name string const PrintName React FC
Angularjs ui-router 未到达子控制器

我有一个配置函数 function config stateProvider locationProvider locationProvider html5Mode true stateProvider state projectsWs t
复合文字是标准 C++ 吗？

复合文字是 C99 构造即使我可以用 C 做到这一点 include
如何在颤振中没有上下文的情况下导航？

我最终使用了静态函数但我需要进行导航它给了我一个错误没有找到上下文的吸气剂所以我寻找解决方案并找到了 GET 包但当我尝试使用它时它给了我另一个错误 E flutter 6078 ERROR flutter lib ui ui
Angular 8：在子组件中选择浏览器后退按钮时恢复滚动位置

我有一个由许多卡片列表组成的组件如网格格式向下滚动并选择其中一张卡片后我希望在按下浏览器后退按钮时返回到相同的滚动位置我无法使用 Router 的 rollPositionRestoration 方法因为它位于我的子组件中感谢你
如何计算球体上一点到线段的距离？

我在地球上有一条线段大圆部分线段由其端点的坐标定义显然两个点定义了两条线段所以假设我对较短的一条线段感兴趣我得到了第三个点我正在寻找线和点之间的最短距离所有坐标均以经度纬度 WGS 84 给出我如何计算距离任何合理
Python Hadoop 流错误“ERROR Streaming.StreamJob：作业未成功！”和堆栈跟踪：ExitCodeException exitCode=134

我正在尝试使用 Hadoop Streaming 在 Hadoop 集群上运行 python 脚本进行情感分析我在本地计算机上运行的相同脚本运行正常并给出输出要在本地计算机上运行我使用此命令 cat home MB analytics

Python Hadoop 流错误“ERROR Streaming.StreamJob：作业未成功！”和堆栈跟踪：ExitCodeException exitCode=134

Python Hadoop 流错误“ERROR Streaming.StreamJob：作业未成功！”和堆栈跟踪：ExitCodeException exitCode=134 的相关文章

随机推荐

热门标签