hadoop支持lzo完整过程

2023-11-04

简介
部署

简介

启用lzo

启用lzo的压缩方式对于小规模集群是很有用处，压缩比率大概能降到原始日志大小的1/3。同时解压缩的速度也比较快。

安装lzo

lzo并不是linux系统原生支持，所以需要下载安装软件包。这里至少需要安装3个软件包：lzo, lzop, hadoop-gpl-packaging。

增加索引

gpl-packaging的作用主要是对压缩的lzo文件创建索引，否则的话，无论压缩文件是否大于hdfs的block大小，都只会按照默认启动2个map操作。

部署

安装lzop native library

[root@localhost ~]#  wget http://www.oberhumer.com/opensource/lzo/download/lzo-2.06.tar.gz

[root@localhost ~]#  tar -zxvf lzo-2.06.tar.gz

[root@localhost ~]#  cd lzo-2.06

[root@localhost ~]#  export CFLAGS=-m64

[root@localhost ~]#  ./configure -enable-shared -prefix=/usr/local/hadoop/lzo/

[root@localhost ~]# make && sudo make install

编译完lzo包之后，会在/usr/local/hadoop/lzo/生成一些文件。

将/usr/local/hadoop/lzo目录下的所有文件打包，并同步到集群中的所有机器上。

在编译lzo包的时候，需要一些环境，可以用下面的命令安装好lzo编译环境

[root@localhost ~]#  yum -y install  lzo-devel  zlib-devel  gcc autoconf automake libtool

安装hadoop-lzo

    这里下载的是Twitter hadoop-lzo，可以用Maven(如何安装Maven请参照本博客的《Linux命令行下安装Maven与配置》)进行编译。

[root@localhost ~]#  wget https://github.com/twitter/hadoop-lzo/archive/master.zip

下载后的文件名是master，它是一个zip格式的压缩包，可以进行解压：

[root@localhost ~]#  unzip master

解压后的文件夹名为hadoop-lzo-master

当然，如果你电脑安装了git，你也可以用下面的命令去下载

[root@localhost ~]#  git clone https://github.com/twitter/hadoop-lzo.git

hadoop-lzo中的pom.xml依赖了hadoop2.1.0-beta，由于我们这里用到的是Hadoop 2.2.0，所以建议将hadoop版本修改为2.2.0：

<properties>
    <project.build.sourceEncoding>UTF-8</project.build.sourceEncoding>
    <hadoop.current.version>2.2.0</hadoop.current.version>
    <hadoop.old.version>1.0.4</hadoop.old.version>
</properties>

然后进入hadoop-lzo-master目录，依次执行下面的命令

[root@localhost ~]# export CFLAGS=-m64

[root@localhost ~]# export CXXFLAGS=-m64

[root@localhost ~]# export C_INCLUDE_PATH=/usr/local/hadoop/lzo/include

[root@localhost ~]# export LIBRARY_PATH=/usr/local/hadoop/lzo/lib

[root@localhost ~]# mvn clean package -Dmaven.test.skip=true

[root@localhost ~]# cd target/native/Linux-amd64-64

[root@localhost ~]# tar -cBf - -C lib . | tar -xBvf - -C ~

[root@localhost ~]# cp ~/libgplcompression* $HADOOP_HOME/lib/native/

[root@localhost ~]# cp target/hadoop-lzo-0.4.18-SNAPSHOT.jar $HADOOP_HOME/share/hadoop/common/

其实在tar -cBf – -C lib . | tar -xBvf – -C ~命令之后，会在~目录下生成一下几个文件：

[root@localhost ~]# ls -l
1-rw-r--r--  1 libgplcompression.a
2-rw-r--r--  1 libgplcompression.la
3lrwxrwxrwx  1 libgplcompression.so -> libgplcompression.so.0.0.0
4lrwxrwxrwx  1 libgplcompression.so.0 -> libgplcompression.so.0.0.0
5-rwxr-xr-x  1 libgplcompression.so.0.0.0

其中libgplcompression.so和libgplcompression.so.0是链接文件，指向libgplcompression.so.0.0.0，将刚刚生成的libgplcompression*和target/hadoop-lzo-0.4.18-SNAPSHOT.jar同步到集群中的所有机器对应的目录。

配置hadoop环境变量

1、在Hadoop中的$HADOOP_HOME/etc/hadoop/hadoop-env.sh加上下面配置：
export LD_LIBRARY_PATH=/usr/local/hadoop/lzo/lib
2、在$HADOOP_HOME/etc/hadoop/core-site.xml加上如下配置：
<property>
    <name>io.compression.codecs</name>
    <value>org.apache.hadoop.io.compress.GzipCodec,
           org.apache.hadoop.io.compress.DefaultCodec,
           com.hadoop.compression.lzo.LzoCodec,
           com.hadoop.compression.lzo.LzopCodec,
           org.apache.hadoop.io.compress.BZip2Codec
        </value>
</property>

<property>
    <name>io.compression.codec.lzo.class</name>
    <value>com.hadoop.compression.lzo.LzoCodec</value>

</property>
3、在$HADOOP_HOME/etc/hadoop/mapred-site.xml加上如下配置
<property>
    <name>mapred.compress.map.output</name>
    <value>true</value>
</property>

<property>
    <name>mapred.map.output.compression.codec</name>
    <value>com.hadoop.compression.lzo.LzoCodec</value>
</property>

<property>
    <name>mapred.child.env</name>
    <value>LD_LIBRARY_PATH=/usr/local/hadoop/lzo/lib</value>
</property>

将刚刚修改的配置文件全部同步到集群的所有机器上，并重启Hadoop集群，这样就可以在Hadoop中使用lzo。

验证lzo（通过hive测试）

创建lzo表

CREATE TABLE lzo (
ip STRING,
user STRING,
time STRING,
request STRING,
status STRING,
size STRING,
rt STRING,
referer STRING,
agent STRING,
forwarded String
)
partitioned by (
date string,
host string
)
row format delimited
fields terminated by '\t'
STORED AS INPUTFORMAT "com.hadoop.mapred.DeprecatedLzoTextInputFormat"
OUTPUTFORMAT "org.apache.hadoop.hive.ql.io.HiveIgnoreKeyTextOutputFormat";

导入数据

LOAD DATA Local INPATH '/home/hadoop/data/access_20151230_25.log.lzo' INTO TABLE lzo PARTITION(date=20151229,host=25);
/home/hadoop/data/access_20151219.log文件的格式如下:

xxx.xxx.xx.xxx  -       [23/Dec/2015:23:22:38 +0800]    "GET /ClientGetResourceDetail.action?id=318880&token=Ocm HTTP/1.1"   200     199     0.008   "xxx.com"        "Android4.1.2/LENOVO/Lenovo A706/ch_lenovo/80"   "-"
直接采用lzop  /home/hadoop/data/access_20151219.log即可生成lzo格式压缩文件/home/hadoop/data/access_20151219.log.lzo

索引LZO文件

  1. 批量lzo文件修改

$HADOOP_HOME/bin/hadoop jar 
/home/hadoop/hadoop-2.2.0/share/hadoop/common/hadoop-lzo-0.4.20-SNAPSHOT.jar 
com.hadoop.compression.lzo.DistributedLzoIndexer 
/user/hive/warehouse/lzo

  2. 单个lzo文件修改

$HADOOP_HOME/bin/hadoop jar 
/home/hadoop/hadoop-2.2.0/share/hadoop/common/hadoop-lzo-0.4.20-SNAPSHOT.jar
com.hadoop.compression.lzo.LzoIndexer
/user/hive/warehouse/lzo/20151228/lzo_test_20151228.lzo

利用hive执行mr任务

set hive.exec.reducers.max=10;
set mapred.reduce.tasks=10;
select ip,rt from nginx_lzo limit 10;
在hive的控制台能看到类似如下格式输出，就表示正确了!
hive> set hive.exec.reducers.max=10;
hive> set mapred.reduce.tasks=10;
hive> select ip,rt from lzo limit 10;
Total MapReduce jobs = 1
Launching Job 1 out of 1
Number of reduce tasks is set to 0 since there's no reduce operator
Starting Job = job_1388065803340_0009, Tracking URL = http://mycluster:8088/proxy/application_1388065803340_0009/
Kill Command = /home/hadoop/hadoop-2.2.0/bin/hadoop job -kill job_1388065803340_0009
Hadoop job information for Stage-1: number of mappers: 1; number of reducers: 0
2013-12-27 09:13:39,163 Stage-1 map = 0%, reduce = 0%
2013-12-27 09:13:45,343 Stage-1 map = 100%, reduce = 0%, Cumulative CPU 1.22 sec
2013-12-27 09:13:46,369 Stage-1 map = 100%, reduce = 0%, Cumulative CPU 1.22 sec
MapReduce Total cumulative CPU time: 1 seconds 220 msec
Ended Job = job_1388065803340_0009
MapReduce Jobs Launched:
Job 0: Map: 1 Cumulative CPU: 1.22 sec HDFS Read: 63570 HDFS Write: 315 SUCCESS
Total MapReduce CPU Time Spent: 1 seconds 220 msec
OK
xxx.xxx.xx.xxx "XXX.com"
Time taken: 17.498 seconds, Fetched: 10 row(s)

修改使用中hive表的输入输出格式

ALTER TABLE lzo SET FILEFORMAT 
INPUTFORMAT 'com.hadoop.mapred.DeprecatedLzoTextInputFormat' 
OUTPUTFORMAT "org.apache.hadoop.hive.ql.io.HiveIgnoreKeyTextOutputFormat" 
SERDE "org.apache.hadoop.hive.serde2.lazy.LazySimpleSerDe";

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

大数据之Hadoop

Hadoop

hive

hadoop支持lzo完整过程的相关文章

如何通过Python访问Hive？

https cwiki apache org confluence display Hive HiveClient HiveClient Python https cwiki apache org confluence display Hi
YARN UNHEALTHY 节点

在我们的 YARN 集群已满 80 的情况下我们看到一些纱线节点管理器被标记为不健康在深入研究日志后我发现这是因为数据目录的磁盘空间已满 90 出现以下错误 2015 02 21 08 33 51 590 INFO org apach
如何在蜂巢中的每个组中按计数 desc 进行排序？

这是 HQL select A B count as cnt from test table group by A B order by cnt desc 示例输出如下 a1 b1 5 a2 b1 3 a1 b2 2 a2 b2 1 但我想
hive sql查找最新记录

该表是 create table test id string name string age string modified string 像这样的数据 id name age modifed 1 a 10 2011 11 11 11 1
将数据从 oracle 移动到 HDFS，处理并从 HDFS 移动到 Teradata

我的要求是将数据从 Oracle 移至 HDFS 处理HDFS上的数据将处理后的数据移至 Teradata 还需要每 15 分钟执行一次整个处理源数据量可能接近50GB 处理后的数据也可能相同在网上搜索了很多之后我发现 PRARO
运行时异常：java.lang.NoSuchMethodException：tfidf$Reduce.()

如何解决这个问题 tfidf是我的主类为什么运行jar文件后会出现这个错误 java lang RuntimeException java lang NoSuchMethodException tfidf Reduce
适用于 Hadoop 的 DynamoDB 输入格式

我必须使用 Hadoop mapreduce 处理保留在 Amazon Dynamodb 中的一些数据我在互联网上搜索 Dynamo DB 的 Hadoop InputFormat 但找不到它我对 Dynamo DB 不熟悉所以我猜测
HDFS 中的文件数量与块数量

我正在运行单节点 hadoop 环境当我跑的时候 hadoop fsck user root mydatadir block 我真的对它给出的输出感到困惑 Status HEALTHY Total size 998562090 B Tot
更改 Spark Streaming 中的输出文件名

我正在运行一个 Spark 作业就逻辑而言它的性能非常好但是当我使用 saveAsTextFile 将文件保存在 s3 存储桶中时输出文件的名称格式为 part 00000 part 00001 等有没有办法更改输出文件名谢谢
Hive：如何分解嵌入 CSV 文件中的 JSON 列？

从 CSV 文件带有标题和管道分隔符中我得到了以下两个内容其中包含一个 JSON 列内部有一个集合如下所示第一种情况使用没有名称的 JSON 集合 ProductId IngestTime ProductOrders 918
在 Windows 7 64 位中删除 Spark 临时目录时出现异常

我正在尝试在 Windows 7 64 位中运行 Spark 作业的单元测试我有 HADOOP HOME D winutils winutils path D winutils bin winutils exe 我运行了以下命令 winu
Pig 10.0 - 将元组分组并在 foreach 中合并包

我在用着Pig 10 0 我想在 foreach 中合并包假设我有以下内容visitors alias a b 1 2 3 4 a d 1 3 6 a e 7 z b 1 2 3 我想对第一个字段上的元组进行分组并将包与一组语义合并以获
名称节点处于安全模式

我提到了这些问题名称节点处于安全模式无法离开 https stackoverflow com questions 15803266 name node is in safe mode not able to leave and SafeM
Spark 写入 hdfs 无法使用 saveAsNewAPIHadoopFile 方法

我在 CDH 5 2 0 上使用 Spark 1 1 0 并试图确保我可以读取和写入 hdfs 我很快意识到 textFile 和 saveAsTextFile 调用旧的 api 并且似乎与我们的 hdfs 版本不兼容 def testHD
Spark 和 Python 使用自定义文件格式/生成器作为 RDD 的输入

我想问一下 Spark 中输入的可能性我可以看到从http spark apache org docs latest programming guide html http spark apache org docs latest pro
Hadoop NoSuchMethodError apache.commons.cli

我在用着hadoop 2 7 2我用 IntelliJ 做了一个 MapReduce 工作在我的工作中我正在使用apache commons cli 1 3 1我把库放在罐子里当我在 Hadoop 集群上使用 MapReduceJob
使用字符串数组在 Hive 表上加载 CSV 文件

我正在尝试将 CSV 文件插入 Hive 其中一个字段是 string 数组这是 CSV 文件 48 Snacks that Power Up Weight Loss Aidan B Prince Health Fitness Trave
java.io.IOException: EnsureRemaining: 仅剩余 0 个字节，尝试读取 1

我在 giraph 中的自定义类方面遇到一些问题我制作了 VertexInput 和 Output 格式但总是收到以下错误 java io IOException ensureRemaining Only bytes remaining
运行 Sqoop 导入和导出时如何找到最佳映射器数量？

我正在使用 Sqoop 版本 1 4 2 和 Oracle 数据库运行 Sqoop 命令时例如这样 sqoop import fs
HBase、Hadoop：如何估计 HBase 表或 Hadoop 文件系统路径的大小？

我有多个 HBase 表如何估计在 java 中使用的表的大致大小一种方法是你必须使用java客户端访问hdfs 通常在 hbase文件夹所有表格信息将在场 Hadoop 外壳你可以检查使用hadoop fs du h path

随机推荐

数字电路和模拟电路-8触发器

前言掌握锁存器原理及应用基本SR锁存器钟控SR锁存器钟控D锁存器钟控D锁存器的动态参数掌握触发器原理及应用主从触发器维持阻塞触发器其它功能的触发器目录一基本SR锁存器 1 双稳态电路 Bistate Elements
Android系统Unity使用HttpWebRequest访问Https请求出现连接超时

多渠道版本配置网络地址时 http地址替换为了https 由于粗心大意之前同事遗留的请求框架代码没有对https协议进行处理导致在android手机下unity访问https地址进行配置文件下载更新时出现连接超时问题解决方案 if
word vba设置表格样式

Sub 表格处理功能光标在表格中处理当前表格否则处理所有表格 Application ScreenUpdating False 关闭屏幕刷新 Application DisplayAlerts False 关闭提示 On Error
java连接db2数据库示例代码_java实现连接db2数据库的代码实例

java实现连接db2数据库的代码实例第一种目前ibm一直都没有提供type 1的jdbc驱动程序第二种类型2驱动 com ibm db2 jdbc app db2driver 该驱动也位于包db2java zip中 jdk必须能访
uniapp 微信小程序长按识别二维码，跳转小程序、个人微信

前言业务要求是小程序放一个二维码图片长按可以识别二维码进而识别出个人微信添加个人微信我们可以通过uni previewImage OBJECT 或者 wx previewImage Object object 预览当前图片去实现
24-系统自带的 Win+R 功能

Win 运行窗口 Win R 开始菜单 gt 运行是 Windows 的一个原生的功能从 XP 到 Windows 10 都自带了当用户按下快捷键 Win R Win 为键盘上Windows图标键后系统会弹出一个小窗口让你输入命令
用户态虚拟化IO通道实现概览及实践（上）

自虚拟化技术诞生起提升虚拟化场景中IO设备性能和驱动的兼容性可扩展性一直是备受关注和追求的目标随着半虚拟化技术的出现 virtio设备及驱动也很快流行并逐步变成了虚拟化应用中的主要IO通道形态例如 virtio现已支持实现的设备涵盖
Dell IDRAC服务器重装系统详解（远程连接）

主要的操作步骤文末附上的那篇博客写的比较详细了不足的地方是有一些小问题没有说明白导致新手可能不太清楚操作而无法复现安装过程 TIPS 1 远程连接登录的时候用户名root 密码calvin不一定可行如果不行的话看一下服务器机
研一Python基础课程第四周课后习题分享（含源代码）

代码写的较多有问题可以私聊我第四周作业分享一题目前言二题目分享 1 问题1 2 问题2 3 问题3 4 问题4 5 问题5 6 问题6 7 问题7 8 问题8 9 问题9 10 问题10 11 问题11 12 问题12 13 问
深度学习之经典案例 CIFAR10 图形识别（jupyter）

图像识别 CIFAR10图形识别 1 CIFAR10数据集共有60000张彩色图像这些图像式32 32 3 分为10个类每个类6000张 2 这里面有50000张用于训练构成5个训练批每一批10000张图另外10000张用于测试
Centos7网卡配置——动态与静态

Centos7网卡配置一自动获取动态IP地址二配置静态IP地址三修改网卡注意事项四基础知识以下实例全部基于VM虚拟机操作一自动获取动态IP地址 1 输入命令 ip addr 查看IP地址右下图可以发现只有一张名为en
git版本回退到某一次提交

背景今天一个前端女同事问我她如何才能回退到上一次她提交的版本她网上找了方法却没有起作用问题虽然简单但是还是记录下来解决问题使用命令 git log查看提交记录并复制下想要回退到那个版本的commitId 就是commit后面
医学图像肝脏分割(一)---预处理

预处理是肝脏分割重要的一步良好的预处理过程可以有效的提高分割的准确度此博文主要记录肝脏分割过程中常见的预处理方法及相关代码一标准的预处理过程 1 Kaggle LUNA16 competition preprocessing tut
创建Component的方式

createClass createClass 组件的props state等都是以对象属性的方式组合在一起其中默认属props和初始state都是返回对象的函数 component component state是通过在构造函数中对th
php通过递归获取分公司的上下级数据

1 表结构 2 php核心代码 param branches 全部分公司数据 param parentId 查询的分公司id 传0则全部排序大于0 则查询该分公司下的下级 param int level 层级方便界面特效 param i
html怎么给背景图固定位置,css实现固定背景图像的方法

css实现固定背景图像的方法发布时间 2020 08 29 11 26 59 来源亿速云阅读 81 作者小新小编给大家分享一下css实现固定背景图像的方法相信大部分人都还不怎么了解因此分享这篇文章给大家参考一下希望大家阅读完
重磅！《2022中国开源发展蓝皮书》正式发布

作为数字时代的新趋势开源正以开放共享协同商业模式的新型生产方式以自由的传播形式成为全球信息技术发展的强大推动力在全世界开源大发展的背景下近年来中国开源的发展速度已成为全球最快局部领域已接近或达到世界先进水平其迸发
Ubuntu上通过android toolchain交叉编译Valgrind操作步骤

关于Valgrind的介绍可以参考 https blog csdn net fengbingchun article details 50196189 这里介绍下在Ubuntu 16 04上通过android toolchain如andro
一套简单的基本生活财富自由方案

前言之前一直觉得财富自由似乎遥不可及但今年学习理财以来至今已有一年的样子了读完了100本书再加上实操经验发现虽然成为富豪依然遥不可及但一些基本的财富自由方案已经可以实现了试算了一下按照保守收益估计其实是完全可以实现的经
hadoop支持lzo完整过程

简介部署安装lzop native library 安装hadoop lzo 配置hadoop环境变量验证lzo通过hive测试创建lzo表导入数据索引LZO文件利用hive执行mr任务修改使用中hive表的输入输出格式简

hadoop支持lzo完整过程

简介

部署

安装lzop native library

安装hadoop-lzo

配置hadoop环境变量

验证lzo（通过hive测试）

创建lzo表

导入数据

索引LZO文件

利用hive执行mr任务

修改使用中hive表的输入输出格式

hadoop支持lzo完整过程 的相关文章

随机推荐

热门标签

hadoop支持lzo完整过程的相关文章