多行文本到单个地图

2023-11-21

我一直在尝试使用 Hadoop 将 N 行发送到单个映射。我不需要分割线。

我尝试使用 NLineInputFormat，但是它将 N 行文本从数据发送到每个映射器，一次一行[在第 N 行后放弃]。

我尝试设置该选项，只需要 N 行输入，一次将 1 行发送到每个地图：

    job.setInt("mapred.line.input.format.linespermap", 10);

我发现一个邮件列表建议我重写 LineRecordReader::next，但这并不是那么简单，因为内部数据成员都是私有的。

我刚刚检查了 NLineInputFormat 的源代码，它对 LineReader 进行了硬编码，因此覆盖不会有帮助。

另外，顺便说一句，我使用 Hadoop 0.18 是为了与 Amazon EC2 MapReduce 兼容。

你必须实现您自己的输入格式。然后您还可以定义自己的记录阅读器。

不幸的是你必须定义一个 getSplits() 方法。在我看来，这比实现记录读取器更困难：此方法必须实现一个逻辑来对输入数据进行分块。

请参阅“Hadoop - 权威指南”（我永远推荐的一本好书！）的以下摘录：

界面如下：

public interface InputFormat<K, V> {
  InputSplit[] getSplits(JobConf job, int numSplits) throws IOException;
  RecordReader<K, V> getRecordReader(InputSplit split,
                                     JobConf job, 
                                     Reporter reporter) throws IOException;
}

JobClient调用getSplits()方法，传递所需数量的map任务作为 numSplits 参数。这个数字被视为一个提示，因为 InputFormat 实现了 mentations 可以自由地将不同数量的分割返回到指定的数量分割数。计算出分割后，客户端将它们发送到 jobtracker，jobtracker 使用它们的存储位置来安排映射任务以在任务跟踪器上处理它们。

在tasktracker上，map任务将分割传递给getRecordReader()方法 InputFormat 获取该拆分的 RecordReader。 RecordReader 只不过是记录上的迭代器，map 任务使用它来生成记录键值对，它传递给地图函数。代码片段（基于MapRunner中的代码）说明了这个想法：

K key = reader.createKey();
V value = reader.createValue();
while (reader.next(key, value)) {
  mapper.map(key, value, output, reporter);
}

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

多行文本到单个地图的相关文章

从我们的 Java 程序执行 Java 程序

I used Runtime getRuntime exec 但它抛出了IOException如下 java io IOException CreateProcess c error 5 at java lang Win32Process
将 for 循环转换为 concat String 为 lambda 表达式

我有以下 for 循环它迭代字符串列表并将每个单词的第一个字符存储在StringBuilder 我想知道如何将其转换为 lambda 表达式 StringBuilder chars new StringBuilder for String
Gradle 发布两次尝试将 RPM 上传到 Artifactory YUM 存储库，第二次失败并显示 403

我正在尝试使用 gradle 和 ivy publish 插件将 RPM 工件发布到 Artifactory 上的本地 YUM 存储库我遇到的问题是发布任务似乎尝试上传工件两次第二次尝试失败正确 HTTP 状态代码为 403 我进行
spring依赖注入会创建单例对象吗？

spring内部是如何管理这些对象的呢单例对象什么时候创建和销毁默认情况下 Spring bean 基本上是单例的 Spring 将为每个类创建一个实例并且通常会在 Spring 初始化时执行此操作然而这几乎是无限可定制的 Spr
如何在 Spring Data MongoDB 中仅返回查询的特定字段？

我们如何在 Spring Data Mongo 中选择特定字段我尝试了以下操作但我得到了强制转换异常Foo to String Using Query Query value path 0 fields path 0 String fi
从枚举返回计算值

我的问题有两个而且很简单按原样误解枚举这个想法在我的代码中缺少一些重要的抽象代码示例其中oprt calc x y 无法编译有警告cannot find symbol public enum Operation PLUS publ
Scala - InvalidClassException：没有有效的构造函数

我创建了一个Serializable番石榴的版本ImmutableRangeMap and Builder在 Scala 中以便在我的 Spark 应用程序中使用我的构造函数中有一个零参数SerializableImmutableRang
请求的操作：声明您的广告 ID 权限

今天我收到这封电子邮件去年 7 月我们宣布了广告政策变更以帮助加强安全和隐私我们对使用的标识符添加了新的限制针对儿童的应用程序当用户选择删除他们的广告 ID 以选择退出个性化广告如果满足以下条件开发人员将收到一串零而不是
信用卡号应该存储为字符串还是整数？

是啊只是想想而已我应该将在我的网站上输入的信用卡号存储为字符串还是整数我的意思是它们由数字组成这让我认为它是一个整数但我不对它们进行数学运算所以也许字符串更合适编辑所以我必须在加密之前存储在某个时刻输入的数字我可能应该更
Java 将字符串拆分为单词逗号和句号

我一直在使用myString split s 得到每个单词但现在我想把逗号和句号也分开例如妈妈总是说生活就像一盒巧克力你永远不知道会得到什么 to Mama always said life was like a box of ch
我在这个正则表达式中做错了什么？

我正在做一个关于正则表达式的学校作业我先解释一下我必须编写一个正则表达式来检查 URL 我必须检查的条件是 URL 是 http s 还是 ftp s 域名是 nl 还是 edu 至少有一个第三级域名但如果该域名以万维网必须有一个
SLF4J 日志级别作为参数[重复]

这个问题在这里已经有答案了我们希望使用 SLF4J 但我们发现的一件事是您无法将级别指定为参数即 Logger log Level INFO messsage 你必须这样做 logger info message 这使得无法通过方法传递
ViewCompat.setOnApplyWindowInsetsListener使状态栏颜色消失

这是我用来检测何时的代码Keyboard Height变化唯一的问题是Statur Bar当此代码运行时颜色消失并变为白色 ViewCompat setOnApplyWindowInsetsListener this getWindow
Python Blowfish 加密

由于我对 Java 的了解不完整我正在努力将此加密代码转换为 Python 代码两者应该得到完全相同的结果帮助将不胜感激 Java函数 import javax crypto Cipher import javax crypto sp
在某一方面，在同一连接点上组合操作前、周围和后建议时，建议优先级不明确

请考虑这个简单的 Java 代码 public class Application public void m int i System out println M with argument i public static void ma
远程数据库的“com.mysql.jdbc.exceptions.jdbc4.CommunicationsException：通信链路故障”

我尝试连接到远程 MySQL 数据库但失败并收到此错误 com mysql jdbc exceptions jdbc4 CommunicationsException Communications link failure 困惑的是当我
Maven build 编译错误：无法在项目 Maven 上执行目标 org.apache.maven.plugins:maven-compiler-plugin:3.1:compile (default-compile)

我有一个 Maven 项目从 git 存储库分叉并克隆到我的 Eclipse 上它是基于 Java 8 构建的我做的第一件事是执行 mvn clean install 但我收到以下失败消息 INFO Scanning for proj
使用Java 8开发的程序可以在Java 7上运行吗？

我有点困惑 Oracle 表示 Java 8 与 Java 7 向后高度兼容但是 Java 8 程序有什么可能性可以在 Java 7 上成功运行 SE EE 呢如果第一点为真 Java 8 应用程序将在 Java 7 服务器支持上部署
Guava Splitter/Joiners 每次使用时都应该创建吗？

Guava 包含用于拆分和连接字符串的实用程序但它需要实例化 Splitter Joiner 对象才能执行此操作这些是小对象通常仅包含要分割合并的字符维护对这些对象的引用以便重用它们是一个好主意还是在需要它们时创建它们并让它们被
从 Eclipse 启动时创建新的 JFrame 时 Java 将关闭。没有抛出异常

我正在开发一个在 Eclipse 中开发的 Java 项目直到今天一切都很好昨天在完成我的项目之前我最后一次运行它以检查一切是否正常并且运行正常但是今天当我启动该项目并按下运行时我的应用程序就神秘地关闭了没有崩溃没有消

随机推荐

在Lua中修改字符串中的字符

有什么办法可以替换Lua中字符串中第N位的字符这是我到目前为止所想出的 function replace char pos str r return str sub pos pos 1 r str sub pos 1 str len en
如何为 UIButton 添加操作

我是 iPhone 技术新手请任何人告诉我如何为 UIButton 添加操作 UIButton btn UIButton buttonWithType UIButtonTypeRoundedRect btn frame CGRectMak
Python3 - Pipenv 安装 mysqlclient？

尝试从 Pipenv 安装 pipenv install mysqlclient 将导致正在安装 mysqlclient 使用缓存收集 mysqlclienthttps files pythonhosted org packages 6f
具有相同 slug 的自定义帖子重定向到具有相同 slug 的错误帖子

我有 2 个自定义帖子类型的帖子视频帖子和城市指南帖子第一篇文章视频文章包含网址 104 130 239 132 里克欧文斯第二个帖子城市指南帖子包含网址 http 104 130 239 132 city guide ri
在 c++20 中删除了默认构造函数的聚合初始化

有一个包含 POD 的结构体和默认构造函数被删除尝试聚合初始化结构体实例会导致 g 9 1 编译时出现编译错误 std c 2a 相同的代码可以很好地编译 std c 17 https godbolt org z xlRHLL struc
在导航栏中添加栏按钮项目

我正在使用导航栏按钮项目我使用以下代码来执行此操作 UIBarButtonItem btnSave UIBarButtonItem alloc initWithTitle Save style UIBarButtonItemStyleBo
原始套接字帮助：为什么内核 UDP 不接收由原始套接字创建的 UDP 数据包？

我正在研究原始套接字我使用 IP HDRINCL 选项构建我自己的 IP 标头在 IP 标头之后我正在构建 UDP 标头然后我将数据包发送到系统的环回地址我正在运行另一个程序它将捕获 UDP 数据包为了检查数据包是否正确形成和
根据 Html.TextBoxFor 的条件设置禁用属性

我想根据 asp net MVC 中 Html TextBoxFor 的条件设置禁用属性如下所示 Html TextBoxFor model gt model ExpireDate new style width 70px maxleng
将 IPv4 字符串更改为 IPv6

桑德史蒂芬中提到的我之前的一个问题像 0000 0000 0000 0000 0000 0000 192 168 0 1 这样的地址写为 0000 0000 0000 0000 0000 0000 c0a8 0001 这是完全相同的地址
Rust 中只分割字符串一次

我只想用分隔符将字符串拆分一次并将其放入元组中我尝试做 fn splitOnce in string str gt str str let mut splitter in string split let first splitter n
如何回显 MySQLi 准备好的语句？

我现在正在研究 MySQLi 试图弄清楚它是如何工作的在我当前的项目中我总是喜欢在编码时回显查询字符串只是为了确保一切正确并快速调试我的代码但是我如何使用准备好的 MySQLi 语句来做到这一点 Example id 1 baz
如何从android中的其他活动获取数据？

我有两项活动例如ActivityA 和 B 我试图使用以下方法将两个不同的字符串从 A 传递到 BBundle and startActivity intent 像那样 Intent intent new Intent A this B
chrome 上的 console.log jquery 元素看起来很奇怪[关闭]

很难说出这里问的是什么这个问题模棱两可含糊不清不完整过于宽泛或言辞激烈无法以目前的形式合理回答如需帮助澄清此问题以便重新打开访问帮助中心 h1 prevObject e fn e init 1 context document
com.google.android.c2dm.intent.REGISTRATION 是否已弃用？

简短版本就是意图com google android c2dm intent REGISTRATION仍然在使用还是已经被 GCM 完全弃用了更长的版本谷歌的gcm demo client在其过滤器中声明此意图但是如果我遵循相同的
Oidc 客户端 js：静默访问令牌更新中断，因为身份服务器身份验证 cookie 滑动过期不起作用

我正在使用 Angular SPA 它通过使用来实现身份验证身份服务器4 and oidc客户端js 在静默访问令牌更新级别有些东西不起作用预期的行为是自动更新访问令牌这要归功于调用 connect authorize端点此调用将身份
使用 PHP 的“注意：未定义的变量”、“注意：未定义的索引”、“警告：未定义的数组键”和“注意：未定义的偏移量”

我正在运行 PHP 脚本并继续收到如下错误注意未定义变量第 10 行 C wamp www mypath index php 中的 my variable name 注意未定义索引 my index C wamp www mypat
如何在 Python 中将多个值追加到列表中

我试图弄清楚如何将多个值附加到Python 中的列表中我知道有几种方法可以做到这一点例如手动输入值或者将追加操作放在for循环或append and extend功能但是我想知道是否有更简洁的方法可以做到这一点也许是某个包或函
使用 PowerShell 从剪贴板保存图像

我正在尝试将图像从剪贴板保存到文件路径我尝试过下面的脚本它返回剪贴板不包含图像数据 Add Type AssemblyName System Windows Forms if System Windows Forms Clipboar
防止用户在 asp.net 模型验证中的表单输入期间输入空格？

我在 asp net MVC 网站中使用模型验证我想要一个功能来阻止用户在测试框中输入空格并提交表单还有其他可用的验证属性但我找不到任何阻止用户在输入文本框中仅输入空格的验证属性我可以为此开发一个自定义属性但还有另一种称为正则表达
多行文本到单个地图

我一直在尝试使用 Hadoop 将 N 行发送到单个映射我不需要分割线我尝试使用 NLineInputFormat 但是它将 N 行文本从数据发送到每个映射器一次一行在第 N 行后放弃我尝试设置该选项只需要 N 行输入一次将

多行文本到单个地图

多行文本到单个地图 的相关文章

随机推荐

热门标签

多行文本到单个地图的相关文章