未生成 Hadoop 流映射器字节偏移量

2023-12-08

我正在运行流式 Hadoop 作业，并且字节偏移量不会作为映射器的输出（键）生成，就像我所期望的那样。命令：

$HADOOP_INSTALL/bin/hadoop \
jar $HADOOP_INSTALL/contrib/streaming/hadoop-streaming-$HADOOP_VERSION.jar \
-D stream.map.input.ignoreKey=false \
-inputformat org.apache.hadoop.mapred.TextInputFormat \
-file ./mapper.py \
-file ./reducer.py \
-mapper ./mapper.py \
-reducer ./reducer.py \
-input $INPUT_DIR \
-output $OUTPUT_DIR \
-cmdenv REGEX=$REGEX

我的理解是 TextInputFormat 是默认的，所以我也尝试了不带 -inputformat 选项的上述命令。我也尝试删除 -D，但我被告知在使用流 API 时需要将字节偏移量作为密钥。

不管怎样，我只是在一个学生项目中尝试使用 Hadoop。目前，映射器是 HDFS 中文件的一个非常简单的 python grep，将每一行与提供的正则表达式进行匹配：

pattern = re.compile(os.environ['REGEX'])
for line in sys.stdin:
   match = pattern.search(line)
   if (match):
      sys.stdout.write(line)

但现在，唯一输出（到减速器）的是匹配行。我期待制表符或空格分隔的键/值对，其中 key=byte_offset 和 value=regex_line_match。

谁能告诉我或建议为什么会发生这种情况？

另外，我也有兴趣回答这两个（相关）问题：

映射器是否可以手动确定字节偏移量对于它正在处理的与文件相关的每一行数据数据属于哪个？
映射器可以确定文件中数据的总字节数是加工所属？

如果这些问题中的任何一个是肯定的，那么如何？（Python，或者一般的流媒体）。

Edit:
如果我使用-inputformat org.apache.hadoop.mapred.lib.NLineInputFormat然后生成字节偏移量作为映射器输出的键。但这项工作需要一段时间really完成时间很长（我的输入文件只有大约 50 行文本！）。

None

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

Hadoop

MapReduce

hadoopstreaming

mapper

未生成 Hadoop 流映射器字节偏移量的相关文章

从 SHAP 值中获取特征重要性

我想要获得重要功能的数据框通过下面的代码我得到了 shap values 但我不确定这些值的含义是什么在我的 df 中有 142 个特征和 67 个实验但得到了一个带有 ca 的数组 2500 个值 explainer shap T
将 transaction.commit_manually() 升级到 Django > 1.6

我继承了为 Django 1 4 编写的应用程序的一些代码我们需要更新代码库以使用 Django 1 7 并最终更新到 1 8 作为下一个长期支持版本在一些地方它使用旧风格 transaction commit manually and
numpy python 中的“AttributeError：'matrix'对象没有属性'strftime'”错误

我有一个维度为 72000 1 的矩阵该矩阵涉及时间戳我想使用 strftime 如下所示 strftime d m y 为了得到像这样的输出 11 03 02 我有这样一个矩阵 M np matrix timestamps 我使用了
从 Python 下载/安装 Windows 更新

我正在编写一个脚本来自动安装 Windows 更新我可以将其部署在多台计算机上这样我就不必担心手动更新它们我想用 Python 编写这个但找不到任何关于如何完成此操作的信息我需要知道如何搜索更新下载更新并从 python 脚本安
小部件之间的自定义信号

尝试将信号从一个 gtk EventBox 子级发送到另一个在 init HeadMode 第 75 行上出现错误类型错误未知信号名称消息发送 why usr bin env python coding utf8 import p
更改 x 轴比例

我使用 Matlab 创建了这个图使用 matplotlib x 轴绘制大数字例如 100000 200000 300000 我想要 1 2 3 和 10 5 之类的值来指示它实际上是 100000 200000 300000 有没有一
编辑 Jupyter Notebook 时 VS Code 中缺少“在选择中查找”

使用 Jupyter Notebook 时 VSCode 中缺少在选择中查找按钮它会减慢开发速度所以我想请问有人知道如何激活它吗第一张图显示了在 python 文件中的搜索替换第二张图显示了笔记本电脑中缺少的按钮 Python
如何使用 Bokeh 动态隐藏字形和图例项

我正在尝试在散景中实现复选框其中每个复选框应显示隐藏与其关联的行我知道可以通过图例来实现这一点但我希望这种效果同时在两个图中发生此外图例也应该更新在下面的示例中出现了复选框但不执行任何操作我显然不明白如何更新用作源的数据
使用 Conda 更新特定模块会删除大量软件包

我最近开始使用 Anaconda Python 发行版因为它提供了许多开箱即用的数据分析库使用 conda 创建环境和安装软件包也轻而易举但是当我想更新 Python 本身或任何其他模块时我遇到了一些严重的问题我事先被告知我的很多
Werkzeug 中的线程和本地代理。用法

首先我想确保我正确理解了功能的分配分配本地代理功能以通过线程内的模块包共享变量对象我对吗其次用法对我来说仍然不清楚也许是因为我误解了作业我用烧瓶如果我有两个或更多模块 A B 我想将对象C从模块A导入到模块B 但我
为什么我应该使用 WSGI？

使用 mod python 一段时间了我读了越来越多关于 WSGI 有多好的文章但没有真正理解为什么那么我为什么要切换到它呢有什么好处这很难吗学习曲线值得吗为了用 Python 开发复杂的 Web 应用程序您可能会使用更全面
使用 pybtex 将 bibtex 转换为格式化的 HTML 参考书目，例如哈佛风格

我正在使用 Django 并将 bibtex 存储在我的模型中并且希望能够以格式化 HTML 字符串的形式向我的视图传递引用使其看起来像哈佛引用样式使用中描述的方法Pybtex 无法识别 bibtex 条目 https stackov
PIL - 需要抖动，但限制调色板会导致问题

我是 Python 新手正在尝试使用 PIL 来执行 Arduino 项目所需的解析任务这个问题涉及到Image convert 方法以及调色板抖动等选项我有一些硬件能够一次仅显示 16 种颜色的图像但它们可以指定为 RGB 三元
从列表python的单个列表中删除子列表

我已经经历过从列表列表中删除子列表 https stackoverflow com questions 47209786 removing sublists from a list of lists 但当我为我的数据集扩展它时它不适用于我
Python问题：打开和关闭文件返回语法错误

大家好我发现了这个有用的 python 脚本它允许我从网站获取一些天气数据我将创建一个文件和其中的数据集有些东西不起作用它返回此错误 File
计算互相关函数？

In R 我在用ccf or acf计算成对互相关函数以便我可以找出哪个移位给我带来最大值从它的外观来看 R给我一个标准化的值序列 Python 的 scipy 中是否有类似的东西或者我应该使用fft模块目前我正在这样做 xcor
操作错误：(sqlite3.OperationalError) SQL 变量太多，同时将 SQL 与数据帧一起使用

我有一个熊猫数据框如下所示 activity User Id 0 VIEWED MOVIE 158d292ec18a49 1 VIEWED MOVIE 158d292ec18a49 2 VIEWED MOVIE 158d292ec18a4
通过 Web 界面执行 python 单元测试

是否可以通过 Web 界面执行单元测试如果可以如何执行 EDIT 现在我想要结果对于测试我希望它们是自动化的可能每次我对代码进行更改时抱歉我忘了说得更清楚 EDIT 这个答案此时已经过时了 Use Jenkins https j
使用 Python 将对象列表转为 JSON

我在转换时遇到问题Object实例到 JSON ob Object list name scaping myObj base url u number page for ob in list name json string json du
python 中的 after() 与 update()

我是 python 新手开始使用 tkinter 作为画布到目前为止我使用 update 来更新我的画布但还有一个 after 方法谁能给我解释一下这个函数请举个例子两者之间有什么区别 root after integer c

随机推荐

添加 Azure Ad Oauth2 JWT 令牌声明

我只是想知道是否有办法通过 Azure 门户向 Azure Ad OAuth2 JWT 令牌添加或指定自定义声明或者这是唯一可能的代码方面据我所知 Azure AD目前不支持发出自定义声明作为解决方法我们可以使用 Azure AD
通过名称获取 React 组件

有没有办法通过名称访问 React 组件例如使用 React devtools 我可以搜索组件并使用以下命令访问控制台中最近选择的组件 r 有没有办法在没有 React 开发工具的情况下访问这些组件 IE 我可以使用查询来获取这些组件吗
删除R中欧元符号后面的字符

我有一个欧元符号保存在欧元变量中 euro lt u20AC euro 1 并且 eurosearch 变量包含此 SOW 中定义的服务价格为 15 896 80 欧元如果从执行 eurosearch 1 services as
如何使用 iso_c_binding 声明指针的指针？

我正在写一个iso c 绑定在 Fortran 中调用具有以下原型的 C 函数 int zmat run const size t inputsize unsigned char inputstr size t outputsize uns
电源外壳。修改 ascii 文本文件字符串，其中行号字符串已打开。交换机和 .NET 框架或 cmdlet 和管道？哪个更快？

如何使用易于阅读且易于使用 PowerShell 5 添加修改删除的搜索字符串来修改 Windows ascii 文本文件中的字符串 LINE2 行号 LINE2 is on 此脚本将解析 2500 行文件找到 139 个字符串实例
如何过滤 JSON 对象

我有一个 JSON 对象它是包含姓名 FName 城市班级联系人的学生列表现在我只想过滤属于特定城市的对象学生我可以过滤邮件json对象吗 Students id 1 Name Student1 FName FName1 Cla
我无法从 Hadoop 客户端连接到 Hadoop 服务器

Hadoop 服务器位于 Kubernetes 中 Hadoop客户端位于外部网络所以我尝试使用 kubernetes service 来使用 Hadoop 服务器但hadoop fs put不适用于 Hadoop 客户端据我所知 n
R ggplot2 - geom_smooth，具有来自第三个连续变量的渐变颜色

有没有办法绘制平滑曲线 x var1 y var2 并相对于第三个连续变量 z var3 为其着色我正在使用以下代码 library ggplot2 x runif 100 20 20 y 2 x x 2 rnorm 100 0 50 z
多文件上传器仅发送一个文件

我有一个多文件输入我可以选择多个文件但是当我在表单操作页面上 var dump 文件变量时只有一个文件
子查询返回超过 1 个值

我需要在 SQL Server 2008 中设置一个作业以便在每个月的第一天运行向我们的客户发送电子邮件但是我不知道如何循环子查询的结果导致出现此错误消息子查询返回超过 1 个值这是不允许的当子查询后面有 gt 或者当子查
Hibernate 批量大小混乱

该程序一个接一个地执行数万次连续插入我以前从未使用过 Hibernate 我的性能变得非常慢如果我只是手动连接并执行 SQL 我的速度会快 10 12 倍根据许多 hibernate 教程我的 batch size 设置为 50 这
上传到Heroku DB rake：迁移问题

heroku 上传出现问题对于 RoR 来说还很陌生所以请原谅初学者的问题我正在关注 Ruby on Rails 教程 http ruby railstutorial org 在搭建脚手架之后我输入 heroku rake db m
JavaFX 的 TextField 的值更改侦听器

我想添加一种listener to my JavaFX s TextField当用户改变值时TextField 应用程序在控制台上打印一些内容我进行了搜索发现以下非常相似的问题 JTextField 的值更改侦听器提到的问题的答案非常
带有 $.ajax 类型的自定义标头 jnop 或 json

我在使用 jQuery ajax JSON 或 JSONP 请求发送一些自定义标头时遇到问题代码如下所示 ajax beforeSend function xhr xhr setRequestHeader X VER VER xhr se
迭代并打印常规闭包的内容

在一个循环中我创建了 4 个闭包并将它们添加到列表中 closureList for int i 0 i lt 4 i def cl def A i closureList add cl closureList each print it
查找数组中的特殊数字

数组中有很多数字除了一个特殊数字出现一次外每个数字都出现3次那么问题来了如何找到数组中的特殊数字呢现在我只能提出一些基数排序和快速排序的方法无法利用问题的性质所以我需要一些其他的算法感谢您的帮助将数字按位 mod 3 添加
如何向 VBA ListBox 添加水平滚动条

我想向 VBA ListBox 添加水平滚动条看来内置的ListBox不会自动添加水平滚动条我有许多字段其内容超出了列表框的宽度因此用户无法读取 I found 本文但是由于访问 ListBox 的 hwnd 这在 VBA 中显然
如何在for循环中每次更新标签

我正在开发一个 WinForm 项目其中有一个标签for环形我想每次执行后显示标签label text陈述但它并不是每次都显示而是在 for 循环完成后显示我试图通过使用来实现这一点Thread Sleep 但我不能请帮我注意
使用 readr 包中的 tidy-selection 指定跨多个列的列类型

我尝试使用read csv from readr 读一个CSV文件到 R 中为了演示我的真正问题我重置了参数guess max最初为 5 默认为 1000 library readr formals read csv guess max
未生成 Hadoop 流映射器字节偏移量

我正在运行流式 Hadoop 作业并且字节偏移量不会作为映射器的输出键生成就像我所期望的那样命令 HADOOP INSTALL bin hadoop jar HADOOP INSTALL contrib streaming had

未生成 Hadoop 流映射器字节偏移量

未生成 Hadoop 流映射器字节偏移量 的相关文章

随机推荐

热门标签

未生成 Hadoop 流映射器字节偏移量的相关文章