Hadoop 减少多种输入格式

2024-03-11

我在 HDFS 中有两个数据格式不同的文件。如果我需要减少两个数据文件，那么作业设置会是什么样子？

例如想象一下常见的字数统计问题，在一个文件中使用空格作为世界分隔符，在另一个文件中使用下划线。在我的方法中，我需要针对各种文件格式使用不同的映射器，然后将其输入到通用的减速器中。

怎么做？或者有比我更好的解决方案吗？

查看MultipleInputs http://hadoop.apache.org/docs/stable/api/org/apache/hadoop/mapred/lib/MultipleInputs.html解决这个问题的类。这非常整洁——你传入InputFormat以及可选的Mapper class.

如果您正在谷歌上寻找代码示例，请搜索“Reduce-side join”，这是通常使用此方法的地方。

另一方面，有时我发现使用 hack 更容易。例如，如果您有一组以空格分隔的文件，另一组以下划线分隔，则使用相同的映射器加载这两个文件并TextInputFormat并对两个可能的分隔符进行标记。计算两个结果集中的标记数量。在字数统计示例中，选择具有更多标记的那个。

如果两个文件具有相同的分隔符但具有不同数量的标准列，这也适用。您可以对逗号进行标记，然后查看有多少个标记。如果是 5 个令牌，则来自数据集 A，如果是 7 个令牌，则来自数据集 B。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Hadoop 减少多种输入格式的相关文章

使用 Powershell 在单独的单独行上列出完全路径文件名？

如果我执行 Get ChildItem ext recurse 输出由一系列目录部分组成后跟由所述目录部分分隔的每个匹配文件的一列或多列信息有类似 Unix find 命令的东西吗其中每个匹配的文件名及其完整的相对路径都出现在一行中
HBase：创建多个表或包含多个列的单个表？

什么时候创建多个表而不是创建具有大量列的单个表才有意义据我了解表通常只有几个列族 1 2 每个列族可以支持 1000 多个列当 HBase 似乎在单个表中可能存在大量列时表现良好时什么时候创建单独的表才有意义在回答问题本身之前让
如何以良好的格式结果格式化 python 列表

我有很多列表如下所示通过打印data并将其与字符串连接起来check str如下最后一条语句所示需要帮助以在字符串连接后更好地格式化列表值如预期所示 print data printing lists in this variabl
Hive：转换“yyyy-MM-dd'T'HH:mm:ss.SSS'Z'”中缺少秒数的字符串日期时间

我使用以下代码将字符串日期时间变量转换为日期时间但转换后的字符串缺少 SSS 部分使用的代码 cast FROM UNIXTIME UNIX TIMESTAMP oldtime yyyy MM dd T HH mm ss SSS Z y
org.apache.hadoop.security.AccessControlException：尝试在 EC2 上使用 Hadoop Java API 通过 s3n URI 访问 S3 存储桶时权限被拒绝

Scenario 我创建一个名为 my role 的 AWS IAM 角色将 EC2 指定为可信实体即使用信任关系策略文档 Version 2012 10 17 Statement Sid Effect Allow Principal
HDFS 在大量小文件和 128 Mb 块大小上的行为

我有很多多达数十万个小文件每个文件 10 100 Kb 我的 HDFS 块大小等于 128 MB 我的复制因子等于 1 为每个小文件分配 HDFS 块有什么缺点吗我见过相当矛盾的答案答案说最小的文件占用整个块 https stac
格式字符串参数不足

我在Python中有这样的代码 def send start self player for p in self players player socket send cmd
Hive 表的默认分隔符是什么？

如果我们在创建表时不提及任何分隔符 hive 是否有默认分隔符创建表日志 ts bigint 行字符串按 dt 字符串国家地区字符串分区默认分隔符 001 如果创建hive表时没有设置您可以将其更改为其他分隔符例如 hive
使用 python 字符串格式插入制表符

我正在尝试使用 format 形成一个字符串但无法弄清楚这一点 lems scaena persona improbus for i in lems print format i t whatever 但拉环并没有像我想象的那样拉紧实际
使用自制软件安装hadoop时出错

我正在尝试在 Mac 上本地安装 hadoop 但在尝试 brew install hadoop 时收到以下错误 brew install hadoop gt Downloading http www apache org dyn clos
Hive 上的自定义 MapReduce 程序，规则是什么？输入和输出怎么样？

我被困了几天因为我想根据我在 hive 上的查询创建一个自定义的地图缩减程序在谷歌搜索后我发现没有太多例子而且我仍然对规则感到困惑创建自定义 MapReduce 程序的规则是什么映射器和减速器类怎么样任何人都可以提供任何解决方案
Hive - 通过聚合跨组的值来创建映射列类型

我有一个看起来像这样的表 customer category room date 1 A aa d1 1 A bb d2 1 B cc d3 1 C aa d1 1 C bb d2 2 A aa d3 2 A bb d4 2 C bb d4
java.lang.IllegalArgumentException：错误的 FS：，预期：hdfs://localhost:9000

我正在尝试实现reduce side join 并使用mapfile reader来查找分布式缓存但在stderr中检查时它没有查找值它显示以下错误 lookupfile文件已经存在于hdfs中并且似乎已正确加载进入缓存如标准输出中
Hive如何存储数据，什么是SerDe？

当查询表时 SerDe 将将文件中的字节中的一行数据反序列化为 Hive 内部使用的对象来操作该行数据执行 INSERT 或 CTAS 时请参阅第 441 页上的导入数据表的 SerDe 将将 Hive 的一行数据的内部表示序列化为
Cat 文件与 HDFS 中的模式不匹配？

我正在尝试 cat 与 hadoop HDFS 中的以下模式不匹配的文件 hdfs dfs cat gz 如何捕获所有不以 gz 结尾的文件编辑抱歉但我需要在 Hadoop 中管理文件显然 hdfs 附带的命令非常少编辑2 所有文
错误：java.io.IOException：错误值类：类 org.apache.hadoop.io.Text 不是类 Myclass

我的映射器和减速器如下但我遇到了某种奇怪的异常我不明白为什么它会抛出这种异常 public static class MyMapper implements Mapper
Curl下载到HDFS

我有这个代码 curl o fileName csv url xargs hdfs dfs moveFromLocal 1 somePath 当我执行此代码时 curl 将请求中的值放入 fileName csv 中该文件将移动到 HDF
解决 emacs 错误的想法：“应用：生成子进程：exec 格式错误”

我正在尝试将 rdebug 与 emacs 和 cygwin 一起使用但遇到了麻烦每当我执行 M x rdebug 并为其提供适当的脚本来运行时它都会因错误而停止 apply Spawning child process exec f
Hadoop 安全模式恢复 - 花费太长时间！

我有一个包含 18 个数据节点的 Hadoop 集群我在两个多小时前重新启动了名称节点并且名称节点仍处于安全模式我一直在寻找为什么这可能花费太长时间但找不到好的答案发帖在这里 Hadoop 安全模式恢复花费大量时间 https
HDP 3.1.0.0-78 升级后无法使用 ResourceManager UI 终止 YARN 应用程序

我最近将 HDP 从 2 6 5 升级到 3 1 0 它运行 YARN 3 1 0 并且我无法再使用旧的 8088 cluster apps 或新的 8088 从 YARN ResourceManager UI 终止应用程序 ui2 ind

随机推荐

Spring可以在抽象类中自动装配吗？

Spring 无法自动装配我的对象是否可以在抽象类中自动装配对象假设所有模式都在 application context xml 中提供问题基类和扩展类如果有 Service Component 上应该使用什么注释 Example
Azure 存储 403 禁止异常是 32 位问题吗？

我们花了相当多的时间来定位出现以下异常的原因 The remote server returned an error 403 Forbidden 堆栈跟踪 at Microsoft WindowsAzure Storage Core Exe
PC 客户端上的 C# Crystal Report 总是要求登录提示 SQL Server

创建setup我的程序程序运行良好可以增删改查数据库当我打开报告时总是出现登录提示的问题但在数据库字段中为空禁用在服务器计算机上报告没有问题在我建立连接的代码中像这样 cnn ServerName 179 15 30 74
map() get() 混淆

我刚刚浏览了 jQuery API 我有点困惑map get 方法我知道我错了但是map 方法看起来很像 each 陈述除了文档说它返回一个新的 jQuery 对象我一直在 jsfiddle 上玩这个试图弄清楚它但我还不太明白 h
日志文件监视器

是否可以在另一个应用程序更新文件时打开文本文件并读取内容这样就不会导致锁定冲突我需要监视一个应用程序的日志文件每次发生事件时该日志文件都会由另一个应用程序更新在尝试读取文件之前我会检查该文件是否正在使用但这似乎并不在所有情况下都
在 Qt Creator 中使用 Qt 标准图标

我想使用 Qt Standard 图标 as here http standards freedesktop org icon naming spec icon naming spec latest html 我发现了很多例子如何以编程方式
Thymeleaf 不解释 sec 标签

我遇到了一个问题 thymleaf 无法识别我的 Spring Boot 项目中的 sec 标签例如下面的 sec authentication 未被解释并按浏览器中的 html 中的形式显示 div Roles span span d
从 Elasticsearch 文档中删除字段

我需要删除索引到 Elasticsearch 的所有文档中的一个字段我该怎么做 backtrack 所说的是 true 但是在 Elasticsearch 中有一种非常方便的方法可以做到这一点 Elasticsearch 会抽象出删除的内
SQLite .NET，ExecuteScalarAsync，如何知道何时没有结果？

SQL 语句正在检索行的 ID 但可能不存在这样的行当我在 GUI 工具中执行特定 SQL 语句时它返回 0 行在 0 毫秒内返回但是当我执行相同的 SQL 语句时ExecuteScalarAsync
Spark Scala UDP 在侦听端口上接收

中提到的例子http spark apache org docs latest streaming programming guide html http spark apache org docs latest streaming pro
curl 重新使用 https 连接会话

我已经使用 openssl 构建了curl 并且能够执行https 连接现在每次当curl建立TLS连接时它都会再次握手我需要利用客户端与服务器的先前连接会话ID 并在下一个请求中使用它我已经尝试过以下选项但每次尝试仍然会进行新
当您有列名的字符向量时，如何不使用 select() dplyr 选择列？

我正在尝试使用 dplyr 取消选择数据集中的列但自昨晚以来我无法实现这一目标我很清楚解决方法但我正在严格尝试通过 dplyr 找到答案 library dplyr df lt tibble x c 1 2 3 4 y c a b c
Angular 2 HTTP 响应拦截器

在 Angular 1 中全局处理 HTTP 响应状态是通过 httpProvider angular module app service httpResponseInterceptor q function q this respon
Node.js 开发人员的高级文档 [关闭]

Closed 这个问题正在寻求书籍工具软件库等的推荐不满足堆栈溢出指南 help closed questions 目前不接受答案最近我们的团队正在使用 Node js 开发一个新项目开始使用 Node js 并不难但现在我们才
检查范围内唯一单元格的数量

我有一张 Excel 表格在 E 列下我有 425 个包含数据的单元格我想检查相同的数据即单元格内的文本是否在 E 列下剩余 424 个单元格中的任何其他位置重复我该如何执行此操作例如在 E54 中我有 Hello Jack
UITextField 文本上的阴影

是否可以在文本中添加阴影UITextField 从 3 2 开始您可以使用 CALayer 阴影属性 textField layer shadowOpacity 1 0 textField layer shadowRadius 0 0 t
错误：错误 1005：无法创建表“cat10e.recording”（错误号：150）[重复]

这个问题在这里已经有答案了我正在尝试对我的数据库进行正向工程该数据库有 7 个表但其中一个向我发送了错误我真的不知道从这里做什么因为它的设置就像我的其他表一样所以我不确定是什么导致了错误谷歌返回了许多不同的答案专辑SQL p
代码不适用于 matlab 中的图像处理

我想在matlab中计算这个公式 m n d size img1 matrix1 sum abs img1 img2 a matrix1 m n b a 100 其中img1 img2是尺寸为512 512 3的两张图像目标是获得单个数值
Linux 中断与轮询

我正在开发一个带有 DSP 和 ARM 的系统 ARM上有一个linux操作系统我有一个 DSP 向 ARM Linux 发送数据在 Linux 中有一个内核模块读取从 DSP 接收到的数据内核模块被唤醒以读取数据使用 DSP 和
Hadoop 减少多种输入格式

我在 HDFS 中有两个数据格式不同的文件如果我需要减少两个数据文件那么作业设置会是什么样子例如想象一下常见的字数统计问题在一个文件中使用空格作为世界分隔符在另一个文件中使用下划线在我的方法中我需要针对各种文件格式使用不同的映

Hadoop 减少多种输入格式

Hadoop 减少多种输入格式 的相关文章

随机推荐

热门标签

Hadoop 减少多种输入格式的相关文章