如何在hadoop/map reduce中创建固定行数的输出文件？

2024-04-22

假设我们有 N 个具有不同行数的输入文件。我们需要生成输出文件，使得每个输出文件恰好有 K 行（最后一个输出文件可以有

是否可以使用单个 MR 作业来完成此操作？
我们应该打开文件以便在reducer中显式写入。
输出中的记录应该被打乱。

thanks,
帕拉梅什

假设输入文件有 990 条记录，必须分为 9 个文件，每个文件有 100 条记录，最后一个文件有 90 条记录。共有10个文件

Use the NLine输入格式 https://hadoop.apache.org/docs/r1.2.1/api/org/apache/hadoop/mapred/lib/NLineInputFormat.html并设置mapred.line.input.format.linespermap到 100。这样每个映射器将处理输入数据集中的 100 行。将reducer的数量设置为10，这是输出文件的数量。

在映射器中发出 1 到 10 之间的键（这是输出文件的数量），并将值作为输入记录发出。确保映射器发出的键在 1 到 10 之间平衡且不倾斜。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Hadoop

MapReduce

如何在hadoop/map reduce中创建固定行数的输出文件？的相关文章

Hive：转换“yyyy-MM-dd'T'HH:mm:ss.SSS'Z'”中缺少秒数的字符串日期时间

我使用以下代码将字符串日期时间变量转换为日期时间但转换后的字符串缺少 SSS 部分使用的代码 cast FROM UNIXTIME UNIX TIMESTAMP oldtime yyyy MM dd T HH mm ss SSS Z y
在 Hive 中获取空值使用 REGEX 创建和加载查询

我有一个日志文件我需要在其中使用 REGEX 存储数据我尝试了下面的查询但加载了所有 NULL 值我已经检查了 REGEXhttp www regexr com http www regexr com 它对我的数据工作正常 CRE
线程“main”中出现异常java.lang.UnsupportedClassVersionError，不支持的major.minor版本52.0

我尝试在 hadoop 1 0 4 上运行 WordCount 示例但收到以下错误 Exception in thread main java lang UnsupportedClassVersionError WordCount Uns
Hive 上的自定义 MapReduce 程序，规则是什么？输入和输出怎么样？

我被困了几天因为我想根据我在 hive 上的查询创建一个自定义的地图缩减程序在谷歌搜索后我发现没有太多例子而且我仍然对规则感到困惑创建自定义 MapReduce 程序的规则是什么映射器和减速器类怎么样任何人都可以提供任何解决方案
如何在hadoop/map reduce中创建固定行数的输出文件？

假设我们有 N 个具有不同行数的输入文件我们需要生成输出文件使得每个输出文件恰好有 K 行最后一个输出文件可以有是否可以使用单个 MR 作业来完成此操作我们应该打开文件以便在reducer中显式写入输出中的记录应该被打乱 tha
远程执行hadoop作业时出现异常

我正在尝试在远程 hadoop 集群上执行 Hadoop 作业下面是我的代码 Configuration conf new Configuration conf set fs default name hdfs server 9000 c
当与curl一起使用--negotiate时，是否需要keytab文件？

The 文档 http hadoop apache org docs stable hadoop project dist hadoop hdfs WebHDFS html描述如何连接到 kerberos 安全端点显示以下内容 curl i
Hadoop setInputPathFilter错误

我正在使用 Hadoop 0 20 2 无法更改并且我想向我的输入路径添加一个过滤器数据如下 path1 test a1 path1 test a2 path1 train a1 path1 train a2 我只想处理所有文件trai
Sqoop Import --password-file 功能在 sqoop 1.4.4 中无法正常工作

我使用的是hadoop 1 2 1 sqoop版本是1 4 4 我正在尝试运行以下查询 sqoop import connect jdbc mysql IP 3306 database name table clients target d
Hadoop：处理大型序列化对象

我正在开发一个应用程序来使用 Hadoop 框架处理和合并几个大型 java 序列化对象顺序 GB 大小 Hadoop 存储将文件块分布在不同的主机上但由于反序列化需要所有块都存在于单个主机上因此它会极大地影响性能我该如何处理这
Hadoop 安全模式恢复 - 花费太长时间！

我有一个包含 18 个数据节点的 Hadoop 集群我在两个多小时前重新启动了名称节点并且名称节点仍处于安全模式我一直在寻找为什么这可能花费太长时间但找不到好的答案发帖在这里 Hadoop 安全模式恢复花费大量时间 https
将多个前缀行过滤器设置为扫描仪 hbase java

我想创建一台扫描仪它可以为我提供带有 2 个前缀过滤器的结果例如我想要其键以字符串 x 开头或以字符串 y 开头的所有行目前我知道只能使用一个前缀方法如下 scan setRowPrefixFilter prefixFiltet 在
在 Hive 中分解一行 XML 数据

我们将 XML 数据作为名为 XML 的单个字符串列加载到 Hadoop 中我们正在尝试检索数据级别并将其标准化或分解为单行进行处理你知道就像表格一样已经尝试过分解功能但没有得到我们想要的示例 XML
Hive ParseException - 无法识别“结束”“字符串”附近的输入

尝试从现有 DynamoDB 表创建 Hive 表时出现以下错误 NoViableAltException 88 at org apache hadoop hive ql parse HiveParser IdentifiersParser
如果 HBase 不是运行在分布式环境中，它还有意义吗？

我正在构建数据索引这将需要以形式存储大量三元组 document term weight 我将存储多达几百万个这样的行目前我正在 MySQL 中将其作为一个简单的表来执行我将文档和术语标识符存储为字符串值而不是其他表的外键我正在重
Hadoop安装问题：

我跟着this http www bogotobogo com Hadoop BigData hadoop Install on ubuntu single node cluster phpHadoop 安装教程不幸的是当我运行全部启动
Oozie SSH 操作

Oozie SSH 操作问题 Issue 我们正在尝试在集群的特定主机上运行一些命令我们为此选择了 SSH Action 我们面对这个 SSH 问题已经有一段时间了这里真正的问题可能是什么请指出解决方案 logs AUTH FAILE
获取 emr-ddb-hadoop.jar 将 DynamoDB 与 EMR Spark 连接

我有一个 DynamoDB 表需要将其连接到 EMR Spark SQL 才能对该表运行查询我获得了带有发行标签 emr 4 6 0 和 Spark 1 6 1 的 EMR Spark Cluster 我指的是文档使用 Spark 分
从 Eclipse 在 AWS-EMR 上运行 MapReduce 作业

我在 Eclipse 中有 WordCount MapReduce 示例我将其导出到 Jar 然后将其复制到 S3 然后我在 AWS EMR 上运行它成功地然后我读到了这篇文章 http docs aws amazon com El
遍历 ArrayWritable - NoSuchMethodException

我刚刚开始使用 MapReduce 并且遇到了一个奇怪的错误我无法通过 Google 回答该错误我正在使用 ArrayWritable 制作一个基本程序但是当我运行它时在Reduce过程中出现以下错误 java lang Runti

随机推荐

禁用 libxml2 和 xmlsec 中的调试输出

在我的软件中我使用libxml2 http xmlsoft org and xmlsec http www aleksey com xmlsec 操作显然 XML 数据结构我主要使用 XSD 模式验证到目前为止它运行良好当客户端
错误：Zlib._handle.onerror (zlib.js:355:17) 错误号：-3，代码：'Z_DATA_ERROR' 处的标头检查不正确

我的 HTTP 请求有 content encoding gzip 标头我正在尝试使用node js 读取数据我使用下面的代码来解压缩数据但我明白了错误 Zlib handle onerror zlib js 355 17 错误号 3
如何下载 Rev. 9 第三方附加组件？

The Rev 9 附加站点 URL https dl ssl google com android repository addons list xml in SDK Manager不再有效唯一的出路到目前为止我发现的是接受强制升级
Chrome 中的窗口 onload 事件失败

我添加一些来自 javascript 的标签来加载一些库例如 jquery 加载所有库后我执行主代码为了等到一切准备就绪我使用类似于中的解决方案这个答案 https stackoverflow com questions 55915
不知道如何一次打印整个日历[关闭]

Closed 这个问题需要细节或清晰度 help closed questions 目前不接受答案 cseg segment assume cs cseg ds cseg org 100H begin mov es cs video mov
“呈现为弹出窗口”segues 和视图大小

任何人都可以指出有关如何将项目放置在将显示为弹出窗口的视图控制器中的任何指南文档以便使用自动布局适当地定位组件吗具体来说我正在 Xcode 8 3 中使用新的 Present as Popover segue 和新的 univers
如何使用python将pdf文件的页面合并为单个垂直组合页面

我已经在 pypdf 和 pdfrw 中尝试过 merge page 方法但它们将一页固定在另一页上我该如何继续下面的代码我尝试过与两个模块类似 from pdfrw import PdfReader PdfWriter PageM
Amazon Kubernetes AWS-EKS 未正确创建或未与 kubectl 同步

一步步遵循本文档 https docs aws amazon com eks latest userguide getting started html shortFooter true https docs aws amazon com
如何链接Intel MKL库，只需使用cblas_dgemm函数

我想测试Intel MKL矩阵乘法所以我包括并且只使用 cblas dgemm 函数但它总是说 undefined reference to cblas dgemm 我还链接了 lmkl core lmkl blas95 lp64 lm
Oracle中如何通过XPath获取第一个元素

在我的 Oracle 数据库中我有这样的记录
Heroku 找不到 Postgres JDBC 驱动程序

使用 Maven 为 Heroku 编写纯 Java 服务器应用程序连接到 Heroku 的 Postgres 数据库运行时一切正常locally 使用 IntelliJ 的配置来运行 Java 应用程序将 Heroku 的 DB U
wp 作业管理器自定义日期过滤器

我正在使用 wp job manager 并尝试按开始日期进行过滤搜索这是我的代码它对我不起作用 add filter job manager get listings filter by date field query args
如何访问 nvd3 中 d3 图的 x 和 y 比例？

我正在使用 nvd3 绘制一些系列并想向图中添加一些任意矩形如何访问 d3 图的底层 x 和 y 比例以便将矩形坐标转换为 svg 像素坐标以便与现有数据的比例相同 function d3 render response nv ad
在 IE 中使用 html 音频：MEDIA12899：音频/视频：未知的 MIME 类型

html如下
mysql中可以使用if语句吗？

我正在尝试创建一个查询该查询将生成取决于价格的总使用量我不知道这是否可以在查询中实现所以就在这里主表这个表是所有人的所以这个是连续的这个可以添加 ID列是唯一的 id price date created 25 8 5 201
PHP CodeSniffer 有多有用？代码标准的总体执行情况？ [关闭]

就目前情况而言这个问题不太适合我们的问答形式我们希望答案得到事实参考资料或专业知识的支持但这个问题可能会引发辩论争论民意调查或扩展讨论如果您觉得这个问题可以改进并可能重新开放访问帮助中心 help reopen questi
从 android 连接到 PrestaShop Web 服务时出现 401 错误

我试图在 PrestaShop 中调用 Web 服务但收到 401 未授权错误即使我已经通过了用户名密钥我也尝试了身份验证器但收到错误 HttpRetryingError 在下面找到我所做的代码片段方法一 final String
将 SSL 连接到子域 [关闭]

Closed 这个问题是无关 help closed questions 目前不接受答案我已为我的主域分配了 SSL 我想知道是否可以将 SSL 用于我的子域我坦白地尝试了一下但它显示警告页面说该页面不安全等等有没有解决方案以便
如何使用故事板通过自定义图像设置 iPhone 选项卡栏图标

我是 iphone 开发的新手我需要在标签栏中放置一个自定义图像图标但它只显示默认颜色黑色和蓝色帮助我克服这个错误朋友在应用程序中添加图像并参见附图
如何在hadoop/map reduce中创建固定行数的输出文件？

假设我们有 N 个具有不同行数的输入文件我们需要生成输出文件使得每个输出文件恰好有 K 行最后一个输出文件可以有是否可以使用单个 MR 作业来完成此操作我们应该打开文件以便在reducer中显式写入输出中的记录应该被打乱 tha

如何在hadoop/map reduce中创建固定行数的输出文件？

如何在hadoop/map reduce中创建固定行数的输出文件？ 的相关文章

随机推荐

热门标签

如何在hadoop/map reduce中创建固定行数的输出文件？的相关文章