未生成 Hadoop 流映射器字节偏移量

2023-12-08

我正在运行流式 Hadoop 作业,并且字节偏移量不会作为映射器的输出(键)生成,就像我所期望的那样。命令:

$HADOOP_INSTALL/bin/hadoop \
jar $HADOOP_INSTALL/contrib/streaming/hadoop-streaming-$HADOOP_VERSION.jar \
-D stream.map.input.ignoreKey=false \
-inputformat org.apache.hadoop.mapred.TextInputFormat \
-file ./mapper.py \
-file ./reducer.py \
-mapper ./mapper.py \
-reducer ./reducer.py \
-input $INPUT_DIR \
-output $OUTPUT_DIR \
-cmdenv REGEX=$REGEX

我的理解是 TextInputFormat 是默认的,所以我也尝试了不带 -inputformat 选项的上述命令。我也尝试删除 -D,但我被告知在使用流 API 时需要将字节偏移量作为密钥。

不管怎样,我只是在一个学生项目中尝试使用 Hadoop。目前,映射器是 HDFS 中文件的一个非常简单的 python grep,将每一行与提供的正则表达式进行匹配:

pattern = re.compile(os.environ['REGEX'])
for line in sys.stdin:
   match = pattern.search(line)
   if (match):
      sys.stdout.write(line)

但现在,唯一输出(到减速器)的是匹配行。我期待制表符或空格分隔的键/值对,其中 key=byte_offset 和 value=regex_line_match。

谁能告诉我或建议为什么会发生这种情况?

另外,我也有兴趣回答这两个(相关)问题:

  1. 映射器是否可以手动确定字节偏移量 对于它正在处理的与文件相关的每一行数据 数据属于哪个?
  2. 映射器可以 确定文件中数据的总字节数 是加工所属?

如果这些问题中的任何一个是肯定的,那么如何? (Python,或者一般的流媒体)。

Edit:
如果我使用-inputformat org.apache.hadoop.mapred.lib.NLineInputFormat然后生成字节偏移量作为映射器输出的键。但这项工作需要一段时间really完成时间很长(我的输入文件只有大约 50 行文本!)。


None

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

未生成 Hadoop 流映射器字节偏移量 的相关文章

  • 从 SHAP 值中获取特征重要性

    我想要获得重要功能的数据框 通过下面的代码 我得到了 shap values 但我不确定这些值的含义是什么 在我的 df 中有 142 个特征和 67 个实验 但得到了一个带有 ca 的数组 2500 个值 explainer shap T
  • 将 transaction.commit_manually() 升级到 Django > 1.6

    我继承了为 Django 1 4 编写的应用程序的一些代码 我们需要更新代码库以使用 Django 1 7 并最终更新到 1 8 作为下一个长期支持版本 在一些地方它使用旧风格 transaction commit manually and
  • numpy python 中的“AttributeError:'matrix'对象没有属性'strftime'”错误

    我有一个维度为 72000 1 的矩阵 该矩阵涉及时间戳 我想使用 strftime 如下所示 strftime d m y 为了得到像这样的输出 11 03 02 我有这样一个矩阵 M np matrix timestamps 我使用了
  • 从 Python 下载/安装 Windows 更新

    我正在编写一个脚本来自动安装 Windows 更新 我可以将其部署在多台计算机上 这样我就不必担心手动更新它们 我想用 Python 编写这个 但找不到任何关于如何完成此操作的信息 我需要知道如何搜索更新 下载更新并从 python 脚本安
  • 小部件之间的自定义信号

    尝试将信号从一个 gtk EventBox 子级发送到另一个 在 init HeadMode 第 75 行 上出现错误 类型错误 未知信号名称 消息发送 why usr bin env python coding utf8 import p
  • 更改 x 轴比例

    我使用 Matlab 创建了这个图 使用 matplotlib x 轴绘制大数字 例如 100000 200000 300000 我想要 1 2 3 和 10 5 之类的值来指示它实际上是 100000 200000 300000 有没有一
  • 编辑 Jupyter Notebook 时 VS Code 中缺少“在选择中查找”

    使用 Jupyter Notebook 时 VSCode 中缺少 在选择中查找 按钮 它会减慢开发速度 所以我想请问有人知道如何激活它吗 第一张图显示了在 python 文件中的搜索 替换 第二张图显示了笔记本电脑中缺少的按钮 Python
  • 如何使用 Bokeh 动态隐藏字形和图例项

    我正在尝试在散景中实现复选框 其中每个复选框应显示 隐藏与其关联的行 我知道可以通过图例来实现这一点 但我希望这种效果同时在两个图中发生 此外 图例也应该更新 在下面的示例中 出现了复选框 但不执行任何操作 我显然不明白如何更新用作源的数据
  • 使用 Conda 更新特定模块会删除大量软件包

    我最近开始使用 Anaconda Python 发行版 因为它提供了许多开箱即用的数据分析库 使用 conda 创建环境和安装软件包也轻而易举 但是当我想更新 Python 本身或任何其他模块时 我遇到了一些严重的问题 我事先被告知我的很多
  • Werkzeug 中的线程和本地代理。用法

    首先 我想确保我正确理解了功能的分配 分配本地代理功能以通过线程内的模块 包 共享变量 对象 我对吗 其次 用法对我来说仍然不清楚 也许是因为我误解了作业 我用烧瓶 如果我有两个 或更多 模块 A B 我想将对象C从模块A导入到模块B 但我
  • 为什么我应该使用 WSGI?

    使用 mod python 一段时间了 我读了越来越多关于 WSGI 有多好的文章 但没有真正理解为什么 那么我为什么要切换到它呢 有什么好处 这很难吗 学习曲线值得吗 为了用 Python 开发复杂的 Web 应用程序 您可能会使用更全面
  • 使用 pybtex 将 bibtex 转换为格式化的 HTML 参考书目,例如哈佛风格

    我正在使用 Django 并将 bibtex 存储在我的模型中 并且希望能够以格式化 HTML 字符串的形式向我的视图传递引用 使其看起来像哈佛引用样式 使用中描述的方法Pybtex 无法识别 bibtex 条目 https stackov
  • PIL - 需要抖动,但限制调色板会导致问题

    我是 Python 新手 正在尝试使用 PIL 来执行 Arduino 项目所需的解析任务 这个问题涉及到Image convert 方法以及调色板 抖动等选项 我有一些硬件能够一次仅显示 16 种颜色的图像 但它们可以指定为 RGB 三元
  • 从列表python的单个列表中删除子列表

    我已经经历过从列表列表中删除子列表 https stackoverflow com questions 47209786 removing sublists from a list of lists 但当我为我的数据集扩展它时 它不适用于我
  • Python问题:打开和关闭文件返回语法错误

    大家好 我发现了这个有用的 python 脚本 它允许我从网站获取一些天气数据 我将创建一个文件和其中的数据集 有些东西不起作用 它返回此错误 File
  • 计算互相关函数?

    In R 我在用ccf or acf计算成对互相关函数 以便我可以找出哪个移位给我带来最大值 从它的外观来看 R给我一个标准化的值序列 Python 的 scipy 中是否有类似的东西 或者我应该使用fft模块 目前 我正在这样做 xcor
  • 操作错误:(sqlite3.OperationalError) SQL 变量太多,同时将 SQL 与数据帧一起使用

    我有一个熊猫数据框 如下所示 activity User Id 0 VIEWED MOVIE 158d292ec18a49 1 VIEWED MOVIE 158d292ec18a49 2 VIEWED MOVIE 158d292ec18a4
  • 通过 Web 界面执行 python 单元测试

    是否可以通过 Web 界面执行单元测试 如果可以 如何执行 EDIT 现在我想要结果 对于测试 我希望它们是自动化的 可能每次我对代码进行更改时 抱歉我忘了说得更清楚 EDIT 这个答案此时已经过时了 Use Jenkins https j
  • 使用 Python 将对象列表转为 JSON

    我在转换时遇到问题Object实例到 JSON ob Object list name scaping myObj base url u number page for ob in list name json string json du
  • python 中的 after() 与 update()

    我是 python 新手 开始使用 tkinter 作为画布 到目前为止 我使用 update 来更新我的画布 但还有一个 after 方法 谁能给我解释一下这个函数 请举个例子 两者之间有什么区别 root after integer c

随机推荐

  • 添加 Azure Ad Oauth2 JWT 令牌声明

    我只是想知道是否有办法通过 Azure 门户向 Azure Ad OAuth2 JWT 令牌添加或指定自定义声明 或者这是唯一可能的代码方面 据我所知 Azure AD目前不支持发出自定义声明 作为解决方法 我们可以使用 Azure AD
  • 通过名称获取 React 组件

    有没有办法通过名称访问 React 组件 例如 使用 React devtools 我可以搜索组件并使用以下命令访问控制台中最近选择的组件 r 有没有办法在没有 React 开发工具的情况下访问这些组件 IE 我可以使用查询来获取这些组件吗
  • 删除R中欧元符号后面的字符

    我有一个欧元符号保存在 欧元 变量中 euro lt u20AC euro 1 并且 eurosearch 变量包含 此 SOW 中定义的服务 价格为 15 896 80 欧元 如果从 执行 eurosearch 1 services as
  • 如何使用 iso_c_binding 声明指针的指针?

    我正在写一个iso c 绑定在 Fortran 中调用具有以下原型的 C 函数 int zmat run const size t inputsize unsigned char inputstr size t outputsize uns
  • 电源外壳。修改 ascii 文本文件字符串,其中行号字符串已打开。交换机和 .NET 框架或 cmdlet 和管道?哪个更快?

    如何使用易于阅读且易于使用 PowerShell 5 添加 修改 删除的搜索字符串来修改 Windows ascii 文本文件中的字符串 LINE2 行号 LINE2 is on 此脚本将解析 2500 行文件 找到 139 个字符串实例
  • 如何过滤 JSON 对象

    我有一个 JSON 对象 它是包含姓名 FName 城市 班级 联系人的学生列表 现在我只想过滤属于特定城市的对象 学生 我可以过滤邮件json对象吗 Students id 1 Name Student1 FName FName1 Cla
  • 我无法从 Hadoop 客户端连接到 Hadoop 服务器

    Hadoop 服务器位于 Kubernetes 中 Hadoop客户端位于外部网络 所以我尝试使用 kubernetes service 来使用 Hadoop 服务器 但hadoop fs put不适用于 Hadoop 客户端 据我所知 n
  • R ggplot2 - geom_smooth,具有来自第三个连续变量的渐变颜色

    有没有办法绘制平滑曲线 x var1 y var2 并相对于第三个连续变量 z var3 为其着色 我正在使用以下代码 library ggplot2 x runif 100 20 20 y 2 x x 2 rnorm 100 0 50 z
  • 多文件上传器仅发送一个文件

    我有一个多文件输入 我可以选择多个文件 但是当我在表单操作页面上 var dump 文件变量时 只有一个文件
  • 子查询返回超过 1 个值

    我需要在 SQL Server 2008 中设置一个作业 以便在每个月的第一天运行 向我们的客户发送电子邮件 但是 我不知道如何循环子查询的结果 导致出现此错误消息 子查询返回超过 1 个值 这是不允许的 当 子查询后面有 gt 或者当子查
  • Hibernate 批量大小混乱

    该程序一个接一个地执行数万次连续插入 我以前从未使用过 Hibernate 我的性能变得非常慢 如果我只是手动连接并执行 SQL 我的速度会快 10 12 倍 根据许多 hibernate 教程 我的 batch size 设置为 50 这
  • 上传到Heroku DB rake:迁移问题

    heroku 上传出现问题 对于 RoR 来说还很陌生 所以请原谅初学者的问题 我正在关注 Ruby on Rails 教程 http ruby railstutorial org 在搭建脚手架之后 我输入 heroku rake db m
  • JavaFX 的 TextField 的值更改侦听器

    我想添加一种listener to my JavaFX s TextField当用户改变值时TextField 应用程序在控制台上打印一些内容 我进行了搜索 发现以下非常相似的问题 JTextField 的值更改侦听器 提到的问题的答案非常
  • 带有 $.ajax 类型的自定义标头 jnop 或 json

    我在使用 jQuery ajax JSON 或 JSONP 请求发送一些自定义标头时遇到问题 代码如下所示 ajax beforeSend function xhr xhr setRequestHeader X VER VER xhr se
  • 迭代并打印常规闭包的内容

    在一个循环中 我创建了 4 个闭包并将它们添加到列表中 closureList for int i 0 i lt 4 i def cl def A i closureList add cl closureList each print it
  • 查找数组中的特殊数字

    数组中有很多数字 除了一个特殊数字出现一次外 每个数字都出现3次 那么问题来了 如何找到数组中的特殊数字呢 现在我只能提出一些基数排序和快速排序的方法 无法利用问题的性质 所以我需要一些其他的算法 感谢您的帮助 将数字按位 mod 3 添加
  • 如何向 VBA ListBox 添加水平滚动条

    我想向 VBA ListBox 添加水平滚动条 看来内置的ListBox不会自动添加水平滚动条 我有许多字段 其内容超出了列表框的宽度 因此用户无法读取 I found 本文 但是由于访问 ListBox 的 hwnd 这在 VBA 中显然
  • 如何在for循环中每次更新标签

    我正在开发一个 WinForm 项目 其中有一个标签for环形 我想每次执行后显示标签label text陈述 但它并不是每次都显示 而是在 for 循环完成后显示 我试图通过使用来实现这一点Thread Sleep 但我不能 请帮我 注意
  • 使用 readr 包中的 tidy-selection 指定跨多个列的列类型

    我尝试使用read csv from readr 读一个CSV文件到 R 中 为了演示我的真正问题 我重置了参数guess max最初为 5 默认为 1000 library readr formals read csv guess max
  • 未生成 Hadoop 流映射器字节偏移量

    我正在运行流式 Hadoop 作业 并且字节偏移量不会作为映射器的输出 键 生成 就像我所期望的那样 命令 HADOOP INSTALL bin hadoop jar HADOOP INSTALL contrib streaming had