Hadoop 在一个文件中搜索另一个文件中的单词

2024-01-12

我想构建一个 hadoop 应用程序，它可以从一个文件读取单词并在另一个文件中搜索。

如果该单词存在 - 它必须写入一个输出文件如果该单词不存在 - 它必须写入另一个输出文件

我在hadoop中尝试了一些例子。我有两个问题

两个文件每个大约 200MB。检查另一个文件中的每个单词可能会导致内存不足。有没有其他方法可以做到这一点？

由于hadoop的reduce阶段的输出只写入一个文件，如何将数据写入不同的文件。是否可以有一个用于减少阶段的过滤器将数据写入不同的输出文件？

谢谢。

我会怎么做：

按单词拆分“map”中的值，发出 (, ) (*1)
你会得到“reduce”：(, )
检查源列表（两个/所有源可能都很长）
如果并非所有源都在列表中，则每次都会发出 (, )
job2: job.setNumReduceTasks()
job2：在“map”中发出（，）
作业 2：在 'reduce' all (null, ) 中发出 foreach

您最终会得到与不同一样多的归约输出，每个输出都包含文档中缺失的单词。您可以在“reduce”开头写出 ONCE 来标记文件。

(*1) 如何在地图 (0.20) 中查找来源：

private String localname;
private Text outkey = new Text();   
private Text outvalue = new Text();
...
public void setup(Context context) throws InterruptedException, IOException {
    super.setup(context);

    localname = ((FileSplit)context.getInputSplit()).getPath().toString();
}

public void map(Object key, Text value, Context context)
    throws IOException, InterruptedException {
...
    outkey.set(...);
    outvalue.set(localname);
    context.write(outkey, outvalue);
}

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Hadoop

MapReduce

Hadoop 在一个文件中搜索另一个文件中的单词的相关文章

http://localhost:50070/ 的 hadoop Web UI 不起作用

命令 jps 显示以下详细信息第5144章 5464 节点管理器 5307 资源管理器 5800 Jps 显然namenode和datanode丢失了网络用户界面位于http 本地主机 50070 http localhost 5007
这个 Java 语法是什么意思？ [复制]

这个问题在这里已经有答案了可能的重复 java中的是什么意思 https stackoverflow com questions 12649572 what does the type in java mean 在下面的代码中 Itera
hive创建表的多个转义字符

我正在尝试将带有管道分隔符的 csv 加载到配置单元外部表数据值包含单引号双引号括号等使用 Open CSV 版本 2 3 测试文件 csv id name phone 1 Rahul 123 2 Kumar s 456 3 Nee
遍历 ArrayWritable - NoSuchMethodException

我刚刚开始使用 MapReduce 并且遇到了一个奇怪的错误我无法通过 Google 回答该错误我正在使用 ArrayWritable 制作一个基本程序但是当我运行它时在Reduce过程中出现以下错误 java lang Runti
hadoop中reducer的数量

我正在学习hadoop 我发现减速器的数量非常令人困惑 1 reducer的数量与partition的数量相同 2 reducer 的数量是 0 95 或 1 75 乘以节点数每个节点的最大容器数 3 减速机数量设定为mapred re
Hive“添加分区”并发

我们有一个外部 Hive 表用于处理原始日志文件数据这些文件每小时一次并按日期和源主机名分区目前我们正在使用简单的 python 脚本导入文件这些脚本每小时触发几次该脚本根据需要在 HDFS 上创建子文件夹从临时本地存储复制
MiniDFSCluster UnsatisfiedLinkError org.apache.hadoop.io.nativeio.NativeIO$Windows.access0

做时 new MiniDFSCluster Builder config build 我得到这个异常 java lang UnsatisfiedLinkError org apache hadoop io nativeio NativeIO
纱线上的火花，连接到资源管理器 /0.0.0.0:8032

我正在我的开发机器 Mac 上编写 Spark 程序 hadoop的版本是2 6 spark的版本是1 6 2 hadoop集群有3个节点当然都在linux机器上我在idea IDE中以spark独立模式运行spark程序它运行成功
如何将SQL数据加载到Hortonworks中？

我已在我的电脑中安装了 Hortonworks SandBox 还尝试使用 CSV 文件并以表结构的方式获取它这是可以的 Hive Hadoop nw 我想将当前的 SQL 数据库迁移到沙箱 MS SQL 2008 r2 中我将如何做
猪的组连接等效吗？

试图在 Pig 上完成这个任务寻找 MySQL 的 group concat 等效项例如在我的表中我有以下内容 3fields userid clickcount pagenumber 155 2 12 155 3 133 155
如何创建 HIVE 表来读取分号分隔值

我想创建一个 HIVE 表该表将以分号分隔的值读取但我的代码不断给出错误有没有人有什么建议 CREATE TABLE test details Time STRING Vital STRING sID STRING PARTITION
Hive：如何分解嵌入 CSV 文件中的 JSON 列？

从 CSV 文件带有标题和管道分隔符中我得到了以下两个内容其中包含一个 JSON 列内部有一个集合如下所示第一种情况使用没有名称的 JSON 集合 ProductId IngestTime ProductOrders 918
Flume将数据从MySQL迁移到Hadoop

请分享您的想法需求是将MySQL db中的数据迁移到Hadoop HBase进行分析数据应该实时或接近实时地迁移 Flume可以支持这个吗有什么更好的方法据我了解 Flume 并不是为此而设计的 Flume 基本上用于读取日志如数
名称节点处于安全模式

我提到了这些问题名称节点处于安全模式无法离开 https stackoverflow com questions 15803266 name node is in safe mode not able to leave and SafeM
pyspark.sql.utils.AnalysisException：u'Path不存在

我正在使用标准 hdfs 与 amazon emr 运行 Spark 作业而不是 S3 来存储我的文件我在 hdfs user hive warehouse 有一个配置单元表但当我的 Spark 作业运行时找不到它我配置了 Spar
如何直接将一个mapper-reducer的输出发送到另一个mapper-reducer而不将输出保存到hdfs中

问题最终解决检查底部的我的解决方案最近我尝试运行 Mahout in Action 的第 6 章列表 6 1 6 4 中的推荐示例但我遇到了一个问题我用谷歌搜索但找不到解决方案问题是我有一对映射器减速器 public fina
Sqoop 导出分区的 Hive 表

我在尝试导出分区的 Hive 表时遇到了一些问题这是否完全受支持我尝试用谷歌搜索并找到一张 JIRA 票证 sqoop export connect jdbc mysql localhost testdb table sales exp
Hadoop 上的 Sqoop：NoSuchMethodError：com.google.common.base.Stopwatch.createStarted() [重复]

这个问题在这里已经有答案了我在 Google Cloud DataProc 上的 hadoop 上运行 sqoop 以通过 Cloud SQL 代理访问 postgresql 但遇到 Java 依赖项错误 INFO First Cloud
在 Hadoop MapReduce 中为二进制文件创建自定义 InputFormat 和 RecordReader

我正在编写一个 M R 作业该作业处理以二进制格式编写的大型时间序列数据文件如下所示此处换行以提高可读性显然实际数据是连续的 TIMESTAMP 1 TIMESTAMP 1 TIMESTAMP 2 TIMESTAMP 2 TIME
HBase、Hadoop：如何估计 HBase 表或 Hadoop 文件系统路径的大小？

我有多个 HBase 表如何估计在 java 中使用的表的大致大小一种方法是你必须使用java客户端访问hdfs 通常在 hbase文件夹所有表格信息将在场 Hadoop 外壳你可以检查使用hadoop fs du h path

随机推荐

如何将 TextView 添加到 GridView 布局中的 ImageView 中？

我需要一个 GridView 但在每个网格中其上方内部都会有一个 ImageView 和 TextView 它就像每个网格中的项目图像以及图像上的项目名称我正在尝试 public View getView int position
添加后如何在 Android 中实现下拉导航操作栏？

通过遵循本指南 http wptrafficanalyzer in blog adding drop down navigation to action bar in android http wptrafficanalyzer in bl
将 java String[] 设置为 postgres 准备好的语句时出错

我正在尝试将字符串数组插入 Postgres 中我从 Postgres 收到无效类型错误 public static void main String args throws SQLException String skus 0514 0
从 ipython 导入

如果我将 IDLE 与 python 2 7 一起使用 import cv import cv2 它有效但如果我使用 ipython 笔记本它给了我错误 ImportError Traceback 最近调用最后在 gt 1份导入简历
numPy 中的意外特征向量

我见过this https stackoverflow com questions 13739186 compute eigenvector using a dominant eigenvalue问题这与我尝试使用 numPy 计算 Py
将新节点添加到链表的新方法

void addNewNode struct node head int n struct node temp struct node malloc sizeof struct node temp gt data n temp gt lin
单例bean和原型bean有什么区别？

我是春天的新手我读到了这篇文章基本上 bean 具有定义其在应用程序中存在的范围 Singleton 意味着每个 Spring IOC 容器对单个对象实例的单个 bean 定义原型意味着任意数量的对象实例的单个 bean 定义那么
Postman 上的授权类型 Bearer Token

我正在尝试使用 Postman 测试一些端点所有端点都需要一个可以通过登录获取的令牌所以我这样做了请求 1 登录成功后我可以从响应中访问令牌然后将该令牌存储在全局变量中 let token pm response json loc
旧版应用程序上的 Windows GUI 自动化

我正在尝试自动化一个名为的旧 Windows 应用程序FacTel5 http www movistar es empresas ayuda factel abierto empresas 我已经能够自动化登录部分但下一个表单是一个类似项
消息框错误：外部导入不安全

import Graphics Win32 import System Win32 DLL import Control Exception bracket import Foreign import System Exit main IO
修复 Docker 中的 World-writable MySql 错误

我正在使用 docker compose 对于 db 我定义了这样的容器 db build builds mysql 5 7 environment MYSQL ROOT PASSWORD pass MYSQL DATABASE MYSQL
带有 numpy 掩码数组的 Python 散点图

我一直试图掩盖散点图的数据所有数据似乎都在绘制我正在使用 numpy 数组如下面的代码片段所示我想也许我无法屏蔽 c 数组我似乎找不到任何执行此操作的文档我将尝试使用 s 数组任何帮助是极大的赞赏 yy NP ma array
如何配置 Spark / Glue 以避免在 Glue 作业成功执行后创建空 $_folder_$

我有一个简单的glue etl 作业它是由Glue 工作流程触发的它从爬虫表中删除重复数据并将结果写回到 S3 存储桶中工作顺利完成然而 spark 的空文件夹会生成 folder 保留在 s3 中它在层次结构中看起来不太好并会
检查字符串是否是标点符号

假设我有一个包含一些字母和标点符号的字符串数组 String letter a b c a 在字母 3 中我们有如何检查字符串是否是标点符号我们知道有很多可能的标点符号等到目前为止我的进展 for int a 0 a lt let
当退出 C 应用程序时，分配的内存是否会自动释放？

假设我有以下 C 代码 int main int p malloc 10 sizeof p p 42 return 0 Exiting without freeing the allocated memory 当我编译并执行该C程序时即在
如何更改Spyder中Python的路径？

我正在使用Debian 我安装了Python 3 2 3 Python 3的路径是 usr bin python3 如何在 Spyder 中更改它 Press CTRL SHIFT ALT P打开首选项窗口在此窗口中选择Console左
Android SIP 堆栈 - 使用什么？ [关闭]

Closed 这个问题正在寻求书籍工具软件库等的推荐不满足堆栈溢出指南 help closed questions 目前不接受答案我需要在 Android 上创建使用 SIP 堆栈它将与 asterix 一起使用并使用户能够更改
为什么 makefile 有时会将“true ”作为构建脚本的一部分？

例如 Some stuff all some dependencies CC o foo o foo c true foo o some other operation true foo o 行有什么作用通常这是 Makefile 生成器
MinGW GCC 4.9.1 和浮点确定性

我编写了一个小程序来计算 3 坐标向量的欧几里得范数这里是 include
Hadoop 在一个文件中搜索另一个文件中的单词

我想构建一个 hadoop 应用程序它可以从一个文件读取单词并在另一个文件中搜索如果该单词存在它必须写入一个输出文件如果该单词不存在它必须写入另一个输出文件我在hadoop中尝试了一些例子我有两个问题两个文件每个大约 200

Hadoop 在一个文件中搜索另一个文件中的单词

Hadoop 在一个文件中搜索另一个文件中的单词 的相关文章

随机推荐

热门标签

Hadoop 在一个文件中搜索另一个文件中的单词的相关文章