Hadoop 从零开始学习系列-wordCount

2023-05-16

学习基于hadoop2.5.2版本

WordCount做为hadoop的hello world程序，今天花了半天时间，终于跑出了结果，以下记录过程:

1.建立maven工程，加载hadoop相关jar包。

目录结构如下：

pom.xml配置如下：

<project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"
  xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache.org/xsd/maven-4.0.0.xsd">
  <modelVersion>4.0.0</modelVersion>

  <groupId>hadoop_test</groupId>
  <artifactId>hadoop_test</artifactId>
  <version>0.0.1-SNAPSHOT</version>
  <packaging>jar</packaging>

  <name>hadoop_test</name>
  <url>http://maven.apache.org</url>
	
  <properties>
    <project.build.sourceEncoding>UTF-8</project.build.sourceEncoding>
    <hbase.version>0.94.2</hbase.version>
	<hadoop.version>2.5.2</hadoop.version>
  </properties>

  <dependencies>
    <dependency>
      <groupId>junit</groupId>
      <artifactId>junit</artifactId>
      <version>3.8.1</version>
      <scope>test</scope>
    </dependency>
    
    <dependency>
		<groupId>org.apache.hadoop</groupId>
		<artifactId>hadoop-client</artifactId>
		<version>${hadoop.version}</version>
		<exclusions>
			<exclusion>
				<groupId>jdk.tools</groupId>
				<artifactId>jdk.tools</artifactId>
			</exclusion>
			<exclusion>
				<groupId>org.apache.hadoop</groupId>
				<artifactId>hadoop-yarn-api</artifactId>
			</exclusion>
			<exclusion>
				<groupId>org.apache.hadoop</groupId>
				<artifactId>hadoop-yarn-client</artifactId>
			</exclusion>
			<exclusion>
				<groupId>org.apache.hadoop</groupId>
				<artifactId>hadoop-yarn-common</artifactId>
			</exclusion>
			<exclusion>
				<groupId>org.apache.hadoop</groupId>
				<artifactId>hadoop-yarn-server-common</artifactId>
			</exclusion>
		</exclusions>
	</dependency>
	<dependency>
	    <groupId>org.apache.hadoop</groupId>
	    <artifactId>hadoop-common</artifactId>
	    <version>${hadoop.version}</version>
	</dependency>
	<dependency>
	    <groupId>org.apache.hadoop</groupId>
	    <artifactId>hadoop-mapreduce-client-core</artifactId>
	    <version>${hadoop.version}</version>
	</dependency>
	<dependency>
		<groupId>org.apache.hbase</groupId>
		<artifactId>hbase</artifactId>
		<version>${hbase.version}</version>
		<exclusions>
			<exclusion>
				<groupId>jdk.tools</groupId>
				<artifactId>jdk.tools</artifactId>
			</exclusion>
		</exclusions>
	</dependency>
  </dependencies>
  
  <build>
   <plugins>
    <plugin>
    <groupId>org.apache.maven.plugins</groupId>
     <artifactId>maven-jar-plugin</artifactId>
      <configuration>
       <archive>
         <manifest>
           <mainClass>org.apache.hadoop.examples.WordCount</mainClass>
         </manifest>
       </archive>
     </configuration>
    </plugin>

   </plugins>
   </build>
</project>

其中WordCount程序从hadoop源码，路径为：hadoop-2.5.2-src\hadoop-mapreduce-project\hadoop-mapreduce-examples\src\main\java\org\apache\hadoop\examples拷贝，具体代码在附件中。

2.打包成jar

上传jar包到服务器

3.建立WordCount的input文件

4.运行程序

5.查看运行结果

可以看到Hadoop个数为1

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Hadoop

wordcount

从零开始学习系列

Hadoop 从零开始学习系列-wordCount 的相关文章

Hadoop 分布式缓存类路径

我有一个 Hadoop 0 20 2 集群我正在考虑使用分布式缓存 http hadoop apache org common docs r0 20 2 api org apache hadoop filecache Distribute
Hadoop 顺序数据访问

根据 Hadoop 权威指南 HDFS 是一个文件系统设计用于存储非常大的文件流式或顺序数据访问模式什么是流式或顺序数据访问它如何减少磁盘的寻道时间这并不是 Hadoop 特有的顺序访问模式是指按顺序读取数据通常是从开始到结束
FAILED 错误：java.io.IOException：所有收集器的初始化失败

我在运行 MapReduce WordCount 作业时遇到一些错误错误 java io IOException 所有收集器的初始化失败的最后一个收集器中的错误是 class wordcount wordmapper at org a
HBase如何实现对HDFS的随机访问？

鉴于HBase是一个数据库其文件存储在HDFS中那么它如何实现对HDFS中单个数据的随机访问呢这是通过什么方法实现的呢 From Apache HBase 参考指南 http hbase apache org book archite
Hadoop 性能

我安装了hadoop 1 0 0并尝试了字数统计示例单节点集群完成时间为 2 分 48 秒然后我尝试了标准的 Linux 字数统计程序该程序在同一组 180 kB 数据上运行只需 10 毫秒是我做错了什么还是 Hadoop 非
为什么Hadoop文件系统不支持随机I/O？

分布式文件系统例如 Google 文件系统和 Hadoop 不支持随机 I O 不能修改之前写入的文件只能写入和追加他们为什么要这样设计文件系统该设计有哪些重要优点 P S 我知道 Hadoop 将支持修改写入的数据但他们表示它
如何读取 RCFile

我正在尝试将一个小的 RCFile 约 200 行数据读入 HashMap 中以进行 Map Side 连接但是在将文件中的数据变为可用状态时遇到了很多麻烦这是我到目前为止所拥有的其中大部分来自这个例子 http sumit1001
大师必须从纱线、火花开始

当我想要运行 SparkPi 示例时我收到此错误 beyhan beyhan spark 1 2 0 bin hadoop2 4 home beyhan spark 1 2 0 bin hadoop2 4 bin spark submit
HBase 作为 Web 应用程序后端

任何人都可以建议将 HBase 作为基于 Web 的应用程序的主要数据源是否是一个好主意我主要关心的是 HBase 对查询的响应时间是否有可能实现亚秒级响应编辑有关应用程序本身的更多详细信息数据量约500GB文本数据预计很快将
S3错误线程“main”中的异常java.lang.UnsatisfiedLinkError：org.apache.hadoop.io.nativeio.NativeIO$Windows.access0

我使用了以下依赖项
Hadoop YARN 作业陷入映射 0% 并减少 0%

我正在尝试运行一个非常简单的作业来测试我的 hadoop 设置所以我尝试使用 Word Count Example 它陷入了 0 所以我尝试了一些其他简单的作业并且每个作业都陷入了困境 52191 0003 14 07 14 23 55
HDFS 在大量小文件和 128 Mb 块大小上的行为

我有很多多达数十万个小文件每个文件 10 100 Kb 我的 HDFS 块大小等于 128 MB 我的复制因子等于 1 为每个小文件分配 HDFS 块有什么缺点吗我见过相当矛盾的答案答案说最小的文件占用整个块 https stac
使用 Hadoop MapReduce 的计算语言学项目构想

我需要做一个关于计算语言学课程的项目是否有任何有趣的语言问题其数据密集程度足以使用 Hadoop MapReduce 来解决解决方案或算法应尝试分析并提供语言领域的一些见解但是它应该适用于大型数据集以便我可以使用 hado
线程“main”中出现异常java.lang.UnsupportedClassVersionError，不支持的major.minor版本52.0

我尝试在 hadoop 1 0 4 上运行 WordCount 示例但收到以下错误 Exception in thread main java lang UnsupportedClassVersionError WordCount Uns
如何在hadoop/map reduce中创建固定行数的输出文件？

假设我们有 N 个具有不同行数的输入文件我们需要生成输出文件使得每个输出文件恰好有 K 行最后一个输出文件可以有是否可以使用单个 MR 作业来完成此操作我们应该打开文件以便在reducer中显式写入输出中的记录应该被打乱 tha
Hive如何存储数据，什么是SerDe？

当查询表时 SerDe 将将文件中的字节中的一行数据反序列化为 Hive 内部使用的对象来操作该行数据执行 INSERT 或 CTAS 时请参阅第 441 页上的导入数据表的 SerDe 将将 Hive 的一行数据的内部表示序列化为
无法使用 PDI 步骤连接到 HDFS

我已经配置成功了Hadoop 2 4 in an Ubuntu 14 04 虚拟机 from a 视窗8系统 Hadoop 安装工作绝对正常而且我还可以从 Windows 浏览器查看 Namenode 附图如下所以我的主机名是 ubu
错误：java.io.IOException：错误值类：类 org.apache.hadoop.io.Text 不是类 Myclass

我的映射器和减速器如下但我遇到了某种奇怪的异常我不明白为什么它会抛出这种异常 public static class MyMapper implements Mapper
Hadoop：处理大型序列化对象

我正在开发一个应用程序来使用 Hadoop 框架处理和合并几个大型 java 序列化对象顺序 GB 大小 Hadoop 存储将文件块分布在不同的主机上但由于反序列化需要所有块都存在于单个主机上因此它会极大地影响性能我该如何处理这
无法从 JAR 文件加载主类

我有一个 Spark scala 应用程序我尝试显示一条简单的消息 Hello my App 当我编译它时sbt compile并运行它sbt run没关系我成功显示了我的消息但他显示了错误像这样 Hello my applicat

随机推荐

C语言——整型和浮点型混合运算

1 int和double混合运算 C语言int和double混合运算时 xff0c 会自动将int类型的数据转换为double类型的数据 xff0c 最后得到的结果也是double类型如下例 xff1a double a 61 4 0 9
C语言——函数指针

目录 1 函数指针概念 1 1 函数指针的声明 1 2 函数指针的定义 1 3 使用typedef定义函数指针的别名 1 4 将常数转换为函数指针 1 5 函数指针的调用 1 6 将函数指针作为函数的传入参数 2 简单的例子 1 函数指针概
C语言——多线程基础（pthread）

目录 1 线程的定义以及线程的创建 1 1 线程和进程的概念 1 2 使用pthread create 函数创建进程 2 使用pthread join 等待线程结束 2 1 使用pthread join 等待线程结束 2 1 使用pthre
C++——双端队列（deque）

1 双端队列 xff08 deque xff09 双端队列 xff08 deque xff09 是队列的一种变形 xff0c 一般队列只能在队尾添加元素 xff08 push xff09 xff0c 在队首删除元素 xff08 pop xf
Linux|集群初始化脚本--osiniit.sh简介

前言 xff1a 不管是什么部署 xff0c 前期的准备工作通常都是比较繁琐的 xff0c 但同时这些工作又具有程式化的特征 xff0c 也就是说都是有一定的流程的 xff0c 固定的步骤的 OK xff0c shell脚本处理这样的程式问
C++——优先级队列（priority_queue）

目录 1 优先级队列 xff08 priority queue xff09 1 1 基本概念 1 2 优先级队列的定义 1 3 通过重写仿函数来支持自定义数据类型 1 4 通过运算符重载来支持自定义比较函数 1 5 优先级队列的基本操作 2
操作系统——进程状态

进程从创建到执行 xff0c 再到执行完毕销毁的过程中 xff0c 经历了不同的进程状态 xff0c 进程状态部分取决于进程当前的活动 xff0c 可以将进程状态分为 xff08 1 xff09 三状态模型 xff1b xff08 2 xf
操作系统——进程调度

目录 1 基本概念 1 1 CPU I O执行周期 1 2 CPU调度程序 xff08 CPU scheduler xff09 1 3 进程状态模型 1 4 抢占调度 1 5 调度程序 xff08 dispatcher xff09 1 6
C++实现优先级队列模板类

1 优先级队列 1 1 基本原理仿照C 43 43 STL 中的优先级队列priority queue xff0c 主要实现以下功能 xff1a 向队列中添加元素后 xff0c 队列自动调整 xff0c 保证队列中优先级最高的元素在队列头
C++通过WMI获取计算机电池电压的程序以及我出现的问题解决

C 43 43 通过WMI获取计算机电池电压的程序以及我出现的问题解决 ConsoleApplication1 cpp 定义控制台应用程序的入口点 include stdafx h include DXGI h include vector
深度学习——批量归一化（笔记）

主流的卷积网络基本都设计批量归一化这个层 1 为什么要批量归一化 xff1f 网络层很深 xff0c 数据在底层 xff0c 损失函数在最顶层反向传播后 xff0c 顶层的梯度大 xff0c 所以顶层训练的较快数据在底层 xff0c 底
Mininet连接ONOS的一些问题

Mininet连接ONOS的一些问题一启动ONOS二简单小问题1 Mininet创建最简拓扑后连接不上远程控制器2 Mininet创建最简拓扑后主机之间ping不通3 不启动fwd应用自己通过REST API下发流表发现两台主机间pi
关于codeblocks找不到路径从而无法编译的解决方法

下载完codeblocks后 xff0c 可能会出现像下面的情况解决方法是 xff1a 点击codeblocks里的settings的Compiler xff08 1 xff09 可能是中间箭头蓝色的那里出错 xff0c 有些人可能会在安
如何获取维普免费账号--在校外下载维普万方等全文

如何获取维普免费账号在校外下载维普万方等全文如何获取维普免费账号在校外下载维普万方等全文 1 马上就要工作了 xff0c 觉得学校里面图书馆资料很多 xff0c 并且很有用 xff0c 都可以在CNKI 万方维普等中文数据库 xff0
京东网络开放之路——自研交换机探索与实践

相比传统商业交换机 xff0c 白盒交换机具有更好的开放性和灵活性 xff0c 解决了运维管理方面的诸多痛点 xff0c 随着SONiC的不断完善和白盒交换机市场的成熟 xff0c 京东基于SONiC研发了自己的白盒交换机 xff0c 更加
Linux|sed命令花式批量修改文件

前言 xff1a sed命令 xff0c 流式修改文本文件的强大工具 xff0c 比如 xff0c 最常用的关闭selinux时通常采用sed命令快速修改 OK xff0c 其实sed命令虽然强大 xff0c 但它修改文件的方式是非常多的
Python列表详解_List()

Python列表一了解列表二列表的创建三访问列表中的值四对列表进行更新五删除列表元素一了解列表什么是列表 xff1f 列表能干什么 xff1f 今天我们几分钟统统解决他 xff01 1 首先我们先来了解一下列表列表是Py
Linux（Deepin、Ubuntu）安装Citrix receiver教程

Deepin20 6安装Citrix receiver教程安装的deepin20 6想要安装Citrix receiver xff0c 发现要么装不上 xff0c 要么装上了不能用 xff0c 找了好多资料 xff0c 最终找到可以使用的
服务器（一）：VNC view 无法打开终端问题

1 VNC view 无法打开终端问题参考链接 xff1a Ubuntu 的终端打不开 xff0c gnome terminal没反应 ubuntu 打开不了gnome terminal 显示错误提示exited status 8 Ubu
Hadoop 从零开始学习系列-wordCount

学习基于hadoop2 5 2版本 WordCount做为hadoop的hello world程序 xff0c 今天花了半天时间 xff0c 终于跑出了结果 xff0c 以下记录过程 1 建立maven工程 xff0c 加载hadoop相关

Hadoop 从零开始学习系列-wordCount

Hadoop 从零开始学习系列-wordCount 的相关文章

随机推荐

热门标签