向 Hadoop MapReduce 中的单个映射提供多个非文本文件

2023-11-30

我目前正在编写分布式应用程序，它在 Hadoop MapReduce 的帮助下解析 Pdf 文件。 MapReduce 作业的输入是数千个 Pdf 文件（大部分范围从 100KB 到 ~2MB），输出是一组解析的文本文件。

出于测试目的，最初我使用WholeFileInputFormat汤姆·怀特 (Tom White) 提供Hadoop。权威指南书，它提供单个文件到单个地图。这对于少量的输入文件来说工作得很好，但是，由于明显的原因，它不能正常地处理数千个文件。需要大约一秒钟才能完成的任务的单个地图效率很低。

因此，我想做的是将多个 Pdf 文件提交到一个 Map 中（例如，将多个文件组合成单个块，该块的 HDFS 块大小约为 64MB）。我发现CombineFileInputFormat对我的案例很有用。但是我不知道如何扩展该抽象类，以便我可以将每个文件及其文件名作为单个键值记录进行处理。

任何帮助表示赞赏。谢谢！

我认为 SequenceFile 可以满足您的需求：http://wiki.apache.org/hadoop/SequenceFile

本质上，您将所有 PDF 放入一个序列文件中，映射器将接收适合序列文件的一个 HDFS 块的尽可能多的 PDF。创建序列文件时，您将键设置为 PDF 文件名，值将设置为 PDF 的二进制表示形式。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Hadoop

MapReduce

向 Hadoop MapReduce 中的单个映射提供多个非文本文件的相关文章

如何有效地将数据从 Kafka 移动到 Impala 表？

以下是当前流程的步骤 Flafka http blog cloudera com blog 2014 11 flafka apache flume meets apache kafka for event processing 将日志写入
无法在 Presto 中读取数据 - 在 Hive 中可以读取数据

我有一个 Hive DB 我创建了一个与 Parquet 文件类型兼容的表 CREATE EXTERNAL TABLE default table date date udid string message token string PAR
Hive NVL 不适用于列的日期类型 - NullpointerException

我正在使用 HDFS 上的 MapR Hive 发行版并面临以下问题如果表的列类型是日期类型则NVL https cwiki apache org confluence display Hive LanguageManual UDF
MongoDB/PyMongo：如何在 Map 函数中使用点表示法？

我正在尝试计算每个邮政编码中找到的记录数在我的 MongoDB 中嵌入了邮政编码使用点表示法它位于 a res z a 代表地址 res 代表住宅 z 代表邮政编码例如这工作得很好 db NY count a res z 141
如何对 RDD 进行分区

我有一个文本文件其中包含大量由空格分隔的随机浮动值我正在将此文件加载到 scala 中的 RDD 中这个RDD是如何分区的另外是否有任何方法可以生成自定义分区以便所有分区都具有相同数量的元素以及每个分区的索引 val dRDD
如何在Hadoop中序列化List集合对象？

有没有办法在 Hadoop 中序列化 java 集合 The Writable接口仅适用于 Java 原语我有以下类属性 private String keywords private List
更改spark_temporary目录路径

是否可以更改 temporarySpark在写入之前保存临时文件的目录特别是由于我正在编写表的单个分区因此我希望临时文件夹位于分区文件夹内是否可以由于其实现原因无法使用默认的 FileOutputCommiter FileOut
在 Google Cloud Dataproc 环境中使用 Hadoop 流式处理运行 python map reduce 作业时出错

我想使用 hadoop 流方法在 Google Cloud Dataproc 中运行 python map reduce 作业我的map reduce python脚本输入文件和作业结果输出位于Google Cloud Storage中
为什么在我的例子中 For 循环比 Map、Reduce 和 List 理解更快

我编写了一个简单的脚本来测试速度这就是我发现的结果实际上 for 循环在我的例子中是最快的这真的让我感到惊讶请查看下面正在计算平方和这是因为它在内存中保存列表还是有意为之谁能解释一下这一点 from functools imp
Protobuf RPC 在 Hadoop 2.2.0 单节点服务器上不可用？

我正在尝试在按照本教程安装的本地单节点集群上运行 hadoop 2 2 0 mapreduce 作业 http codesfusion blogspot co at 2013 10 setup hadoop 2x 220 on ubuntu
Mongodb 聚合数组中的子文档

我正在使用 mongodb 作为后端实现一个小型应用程序在此应用程序中我有一个数据结构其中文档将包含一个包含子文档数组的字段我使用以下用例作为基础 http docs mongodb org manual use cases inv
为什么 Spark 比 Hadoop MapReduce 更快

有人可以使用字数统计示例解释一下为什么 Spark 比 MapReduce 更快吗 bafna的答案提供了故事的记忆方面但我想补充另外两个重要事实 DAG和生态系统 Spark 使用惰性求值来形成连续计算阶段的有向无环图 DAG 通过
如何修复“任务尝试_201104251139_0295_r_000006_0 未能报告状态 600 秒”。

我编写了一个 MapReduce 作业来从数据集中提取一些信息该数据集是用户对电影的评分用户数量约25万电影数量约30万地图的输出是
匿名类上的 NotSerializedException

我有一个用于过滤项目的界面 public interface KeyValFilter extends Serializable public static final long serialVersionUID 7069537470113
“错误：无法找到或加载主类 org.apache.hadoop.util.RunJar”是什么意思？

我正在尝试运行一个示例因为它指出 Hadoop 实践一书 http www manning com lam 第 15 页这是需要运行的命令 bin hadoop jar hadoop examples jar 但我收到这个错误 Err
Spark中如何获取map任务的ID？

Spark中有没有办法获取map任务的ID 例如如果每个映射任务都调用用户定义的函数我可以从该用户定义的函数中获取该映射任务的 ID 吗我不确定您所说的地图任务 ID 是什么意思但您可以使用以下方式访问任务信息TaskContext
通过 Java 连接 Apache Drill

在 Apache Drill 的 Wiki 中我只能看到通过 SqlLine 客户端运行的查询除了 REST API 之外是否有任何编程方式可以在 Drill 中运行查询有任何示例或指示吗或者它与使用 JDBC 驱动程序运行 SQ
Hive：为现有文件夹结构添加分区

我在 HDFS 中有一个文件夹结构如下所示但是实际上没有使用以下命令在表上创建分区ALTER TABLE ADD PARTITION命令即使文件夹结构的设置就像表有分区一样如何自动将所有分区添加到Hive表中 Hive 1 0 外
如何从 Python 中指定运行程序的输入文件？

我正在编写一个外部脚本以通过笔记本电脑上的 Python mrjob 模块而不是在 Amazon Elastic Compute Cloud 或任何大型集群上运行 mapreduce 作业我读自mrjob文档 http packag
Spark Driver 内存和 Application Master 内存

我是否正确理解客户端模式的文档客户端模式与驱动程序在应用程序主机中运行的集群模式相反在客户端模式下驱动程序和应用程序主机是单独的进程因此spark driver memory spark yarn am memory一定小于机器内存

随机推荐

如何在 Nuxt 中使用私有 API 密钥（在客户端）？

问题解决了如果您遇到同样的问题请查看已接受的答案这是使用 serverMiddleware 实现它的一种方法我正在使用需要私钥的 API 我已将密钥存储在 env 文件中并在 nuxt 配置文件中调用它如下所示 privateR
如何使用 R 中的最大似然模型将非线性函数拟合到 ggplot2 中的数据？

数据集 x test y test 是指数拟合我正在尝试适应自定义非线性函数并附上代码常规点图很好但我无法使拟合线发挥作用有什么建议么 x test lt runif 50 2 8 y test lt 0 5 x test df
如何处理 socket.io 客户端聊天应用程序中的页面重新加载

我正在实现一个聊天应用程序我不在服务器中包含 javascript 文件的页面可以是文件系统上嵌入了 javascript socket io 的任何 html 页面现在的问题是根据定义页面重新加载总是会触发新的请求从而产生新的
如何从辅助方法设置变量以包含在 SASS SCSS 样式表中？

我有一个辅助方法可以检索需要进入 SASS scss 样式表的字符串如果我在视图中调用该方法它工作正常但似乎 sass 需要一个变量似乎如果我尝试在控制器中设置一个 var 并认为这最初是正确的方法我无法在任何地方看到该 var
Perl：匹配时空 $1 正则表达式值？

读者们我有以下正则表达式问题 code usr bin perl w use 5 010 use warnings my filename input txt open my FILE lt filename or die while m
剂量响应 - 使用 R 进行全局曲线拟合

我有以下剂量反应数据希望绘制剂量反应模型和全局拟合曲线 xdata 药物浓度 ydata 0 5 不同药物浓度下的响应值我毫无问题地绘制了标准曲线标准曲线数据拟合 df lt data frame xdata c 1000 00 30
从 C# 代码调用 delphi DLL 方法

我正在尝试从 C ASP NET 代码调用 Delphi 函数该函数的声明如下所示 function SomeFunction const someString SomeOtherString string OleVariant 从我的
我如何洗牌并向玩家一次一张发牌？

这就是我到目前为止所得到的发现自己陷入困境 Private Sub Dealbtn Click sender As Object e As EventArgs Handles Dealbtn Click Dim Suits As Stri
如果数组包含 2 或 3，则返回 True

我遇到了这个 CodingBat 问题给定一个长度为 2 的 int 数组如果它包含 2 或 3 则返回 True 我尝试了两种不同的方法来解决这个问题谁能解释我做错了什么 This one says index is out of
ValueError：地下矩形外表面积

我正在制作一款相机跟随玩家的平台游戏我试图通过在整个地图上拥有一个大的表面并且只传输放大的部分来实现这一点但是我只能获得 30 fps 最小化和 8 fps 全屏所以我尝试优化它是在位块传输之前裁剪它但我得到ValueError
是否有用于电话状态的 NSNotification

当设备打开关闭手机时我们是否可以观察到 NSNotification The NotificationCenter不会发出任何有关此的通知但请看一下CTCallCenteriOS 4 中引入的类它有一个callEventHandle
R 按键分组获取多列的最大值

我想做这样的事情如何使R中的A列唯一并保留B列中具有最大值的行除了我的data table有一个键列和多个值列所以说我有以下内容 a b c 1 1 1 1 2 1 2 1 3 1 2 2 4 2 1 1 5 2 2 5 6 2 3
Perl - 在关联数组单词和单词上下文中查找并保存

我有一个像这样的数组这只是一个小概述但它有 2000 行及更多这样的行 list affaire chose question cause chose mati re 我想要这样的输出 te affaire gt chose quest
当对象大于视口时，CSS 居中

我试图让 jquery 轮播位于屏幕中央即使剪切区域比视口更宽这基本上总是给元素一个负的左边距我该如何指定呢剪切区域的宽度是固定的但视口区域当然是可变的这是我能找到的最佳解决方案在固定宽度内容周围使用环绕元素然后在内容本身上
Android：BroadcastReceiver 重新启动被杀死/崩溃的应用程序

我有一个应用程序我希望能够在发生错误或崩溃应用程序关闭时重新启动它我熟悉如何注册BroadcastReceivers 使用闹钟等我是否可以拦截应用程序关闭时发出的任何信号或者当任何应用程序关闭时操作系统会发送出去我是否可以拦截应
如果需要，允许使用 Cleartext 流量 Android Studio

我有 2 部手机 api 28 17 所以当请求 HTTP 时它与 api 17 一起使用但不是在 api 28 中朋友说我必须使用 android usesCleartextTraffic true 在清单中但是当构建它在手机中
将 template.js.erb 重写为 template.js.slim

下面的 js erb 模板重写为 slim 后会是什么样子 new reservation hide after Slim 提供了一种多行方法 var html j render new reservation new reservatio
从输入文件路径logstash中提取字段？

我想从各个目录读取日志文件例如 Server1 Server2 Server1子目录为cron auth 这些子目录中是log file分别所以我正在考虑读取这样的文件 input file path to folders server
有没有办法使用 javascript 从 tiff 图像中提取地理标签？

我正在开展一个项目需要使用正射马赛克地图该地图采用 tiff 格式我想从该地图中提取地理信息以便我可以将其正确覆盖在谷歌地图上我在这个项目中使用平均堆栈所以我的最后一个问题是有没有办法使用 javascript 从 tiff
向 Hadoop MapReduce 中的单个映射提供多个非文本文件

我目前正在编写分布式应用程序它在 Hadoop MapReduce 的帮助下解析 Pdf 文件 MapReduce 作业的输入是数千个 Pdf 文件大部分范围从 100KB 到 2MB 输出是一组解析的文本文件出于测试目的最初我使用

向 Hadoop MapReduce 中的单个映射提供多个非文本文件

向 Hadoop MapReduce 中的单个映射提供多个非文本文件 的相关文章

随机推荐

热门标签

向 Hadoop MapReduce 中的单个映射提供多个非文本文件的相关文章