Flume实战

2023-05-16

前言

在一个完整的大数据处理系统中，除了hdfs+mapreduce+hive组成分析系统的核心之外，还需要数据采集、结果数据导出、任务调度等不可或缺的辅助系统，而这些辅助工具在hadoop生态体系中都有便捷的开源框架，如图所示：
总体的开源辅助工具框架

Flume的一些简介

Flume是一个分布式、可靠、和高可用的海量日志采集、聚合和传输的系统。
Flume可以采集文件，socket数据包等各种形式源数据，又可以将采集到的数据输出到 * HDFS、hbase、hive、kafka等众多外部存储系统中
一般的采集需求，通过对flume的简单配置即可实现
Flume针对特殊场景也具备良好的自定义扩展能力，因此，flume可以适用于大部分的日常数据采集场景

flume如何搜集日志？

我们把flume比作情报人员
（1）搜集信息
（2）获取记忆信息
（3）传递报告间谍信息
flume是怎么完成上面三件事情的，三个组件：
source：搜集信息
channel：传递信息
sink：存储信息

Flume架构

Flume基础架构，如下图：

单个agent节点的构造
这是一个flume-ng 最简单的图。flume-ng 是由一个个agent组成的。一个agent就像一个细胞一样。

Flume的多agent架构，如下图：

多个节点的构造
上面是两个agent链接在一起的，再看看更多的……

Flume的合并（合作）架构，如下图：

合并的flume的节点

你是不是觉得这种设计是不是吊炸天了，可以随意组合，跟搭积木一样。跟Storm的设计思想是差不多的，何止吊炸天啊，简直就是吊炸天、、、

Flume的多路复用架构，如下图：

这里写图片描述

agent的构造

每个agent里都有三部分构成：source、channel和sink。
就相当于source接收数据，通过channel传输数据，sink把数据写到下一端。这就完了，就这么简单。其中source有很多种可以选择，channel有很多种可以选择，sink也同样有多种可以选择，并且都支持自定义。饿靠！太灵活了。想怎么玩就怎么玩，这你妹的！
同时，如上上图所示，agent还支持选择器，就是一个source支持多个channel和多个sink，这样就完成了数据的分发，就是这么牛逼的感觉。
这里写图片描述

基本思路我们了解了，下面就开始我们的安装吧

1、Flume的安装非常简单，只需要解压即可，当然，前提是已有hadoop环境
上传安装包到数据源所在节点上
然后解压 tar -zxvf apache-flume-1.6.0-bin.tar.gz

2、然后进入flume的目录，修改conf下的flume-env.sh，在里面配置JAVA_HOME

export JAVA_HOME=/usr/local/jdk1.7.0

修改 flume-site.xml 配置文件（貌似没有该步骤，貌似也可以修改，研究后再来弄吧！）

3、验证 flume是否安装成功

要是你的有问题，请检查flume的版本和hadoop的版本是不是对应。本教程不适合Flume-NG旧版本

[hadoop@master conf]$ ../bin/flume-ng version
Flume 1.5.0Flume 1.6.0
Source code repository: https://git-wip-us.apache.org/repos/asf/flume.git
Revision: 2561a23240a71ba20bf288c7c2cda88f443c2080
Compiled by hshreedharan on Mon May 11 11:15:44 PDT 2015
From source with checksum b29e416802ce9ece3269d34233baf43f

出现这样的信息表示安装成功了

4、根据数据采集的需求配置采集方案，描述在配置文件中(文件名可任意自定义)
5、指定采集方案配置文件，在相应的节点上启动flume agent

下面就是我们最喜爱的Demo源码时间了

1、在/usr/local/hadoop/logs/目录下创建test.log文件夹。用shell的循环一直不停的向log文件中输入数据，模仿一个真实的日志来源，实时不断的使用flume上传文件。

while true; 
do  echo 1111111111111111111 >> /usr/local/hadoop/logs/test.log; 
sleep 0.5; 
done

然后在Flume的文件夹下创建tail-hdfs.conf采集配置信息文件。

Demo的思路就是将用shell写的循环的打入的脚本信息以我想要的规则导入HDFS：

规则：
1、打入我指定的Hdfs中/flume/lzq/%y-%m-%d/%H%M/的目录
2、3秒换一个目录
3、传入数据达到50重新创建目录
4、10分钟更换一个大目录
5、一个小目录中只能保存20个文件
6、只创建5个大目录

# Name the components on this agent
a1.sources = r1
a1.sinks = k1
a1.channels = c1

#exec 指的是命令
# Describe/configure the source
a1.sources.r1.type = exec
#F根据文件名追中, f根据文件的nodeid追中
a1.sources.r1.command = tail -F /usr/local/hadoop/logs/test.log
a1.sources.r1.channels = c1

# Describe the sink
#下沉目标
a1.sinks.k1.type = hdfs
a1.sinks.k1.channel = c1
#指定目录, flum帮做目的替换
a1.sinks.k1.hdfs.path = /flume/lzq/%y-%m-%d/%H%M/
#文件的命名, 前缀
a1.sinks.k1.hdfs.filePrefix = lzq-

#10 分钟就改目录
a1.sinks.k1.hdfs.round = true
a1.sinks.k1.hdfs.roundValue = 10
a1.sinks.k1.hdfs.roundUnit = minute

#文件滚动之前的等待时间(秒)
a1.sinks.k1.hdfs.rollInterval = 3

#文件滚动的大小限制(bytes)
a1.sinks.k1.hdfs.rollSize = 50

#写入多少个event数据后滚动文件(事件个数)
a1.sinks.k1.hdfs.rollCount = 20

#5个事件就往里面写入
a1.sinks.k1.hdfs.batchSize = 5

之后我们就可以执行需要的Flume采集配置信息

bin/flume-ng agent -c conf -f conf/tail-hdfs.conf -n a1

之后就去查看HDFS的/flume/lzq有没有相应的文件

不停的刷新，一直有诶（建议用HDFS网页刷，命令行的速度承受不了我的心）
小文件图片
出去撒个尿，回来。小目录的20个文件满了，出去看，大目录也床架了诶。。。

大文件
这里写图片描述

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

flume

Flume实战的相关文章

flume报错java.net.ConnectException: 拒绝连接；

flume报错记录 java net ConnectException 拒绝连接 For more details see http wiki apache org hadoop ConnectionRefused 文章目录具体信息解决方
Flume EmbeddedAgent

flume flume 二次开发对EmbeddedAgent的简易改造动态控制agent 实现启动关闭等功能模块结构如下所示 flume parent github地址 1 用途 1 1 本地调试对flume不是特别熟悉的开发者
几十条业务线日志系统如何收集处理？

在互联网迅猛发展的今天各大厂发挥十八般武艺的收集用户的各种信息甚至包括点击的位置我们也经常发现自己刚搜完一个东西再打开网页时每个小广告都会出现与之相关联的商品或信息在感叹智能的同时不惊想什么时候泄露的行踪许多公司的业务平台每天
Flume系统搭建和使用的一些经验总结-搭建篇

对于很多公司来说日志的收集和集中管理是一个必然要经历的阶段我们公司在经历了一拖再拖之后终于不得不开始搭建日志收集系统了对于日志收集系统我们的首选就是Flume 为何这么坚决呢难道没有其他工具能做个这个事情么当然有不过考虑到
大数据技术面试-Flume、kafka

大数据技术面试 Flume kafka 1 Flume组成有哪些 2 Flume拦截器有哪些知识点 3 Flume采集数据会丢失吗 4 FileChannel如何优化 5 如何控制Kafka丢不丢数据 6 Kafka分区分配策略默认哪两种
基于Flume日志收集系统架构和设计(一)

问题导读 1 Flume NG与Scribe对比 Flume NG的优势在什么地方 2 架构设计考虑需要考虑什么问题 3 Agent死机该如何解决 4 Collector死机是否会有影响 5 Flume NG可靠性 reliability
JConsole&VisualVM监控总结

简介 JConsole 以下写作jconsole VisualVM 以下写作jvisualvm 都是比较好的JVM调优工具且都为JDK自带可在命令行直接启动监控示例 Server端需要监控的主机配置设置临时JAVA参数 expo
Flink Table API 与 Flink SQL 实现Kafka To Kafka 版本1.12

Table API版本 0 前提 1 创建流和表执行环境 2 连接Source并创建Table 3 筛选Table对象中的数据 4 连接Sink并创建临时表 5 将Table对象写入临时表测试杠精打住 SQL 版本最近有铁汁问我一闪
hadoop学习——flume的简单介绍

flume介绍概述 Flume最早是Cloudera提供的日志收集系统后贡献给Apache 所以目前是Apache下的项目 Flume支持在日志系统中定制各类数据发送方用于收集数据 Flume是一个高可用的高可靠的鲁棒性 robu
自定义flume拦截器-实现了多种功能

1 自定义拦截器实现说明 1 实现interceptor接口并实现其方法接口完全限定名为 org apache flume interceptor Interceptor 2 自定义拦截器内部添加静态内部类实现Builder接口并实
大数据组件-Flume集群环境的启动与验证

大数据学习记录篇持续更新中个人主页 beixi 本文章收录于专栏点击传送大数据学习持续更新中感谢各位前辈朋友们支持学习上一篇文章写到了Flume集群环境的安装这篇文章接着上篇文章延伸Flume集群环境的启动与验证如果Flu
Flume之：二、企业开发案例

Flume之二企业开发案例文章目录 Flume之二企业开发案例三企业开发案例 1 监控端口数据官方案例 2 实时读取本地文件到HDFS案例 3 实时读取目录文件到HDFS案例 4 flume监控Kafka gt Spark知识
如何在flume中同时使用regex_extractor选择器和多路复用拦截器？

我正在测试 Flume 将数据加载到 hHase 中并考虑使用 Flume 的选择器和拦截器进行并行数据加载因为源和接收器之间的速度差距所以我想要用 Flume 做的是使用拦截器 regexp extract 类型创建事件标头使
Flume HDFS Sink 在 HDFS 上生成大量小文件

我有一个使用 Flume 向 HDFS 发送 log4j 消息的玩具设置我无法配置 hdfs 接收器以避免出现许多小文件我以为我可以配置 hdfs 接收器在每次文件大小达到 10mb 时创建一个新文件但它仍然创建大约 1 5KB 的文
2023_Spark_实验二十九：Flume配置KafkaSink

实验目的掌握Flume采集数据发送到Kafka的方法实验方法通过配置Flume的KafkaSink采集数据到Kafka中实验步骤一明确日志采集方式一般Flume采集日志source有两种方式 1 Exec类型的Source 可
在接收器发生故障后，如何强制 Flume-NG 处理积压的事件？

我正在尝试设置 Flume NG 从一组服务器主要运行 Tomcat 实例和 Apache Httpd 收集各种日志并将它们转储到 5 节点 Hadoop 集群上的 HDFS 中设置如下所示每个应用程序服务器将相关日志跟踪到一个执行
由于 JAR 冲突，无法运行 Flume

我已经手动安装了 Flume 和 Hadoop 我的意思是不是 CDH 并且我正在尝试运行 twitterexample https github com cloudera cdh twitter example来自Cloudera In
使用具有正斜杠的密钥连接到 s3 接收器时出现无效主机名错误

我有一个forward slash在 aws 密钥中当我尝试连接到 s3 接收器时 Caused by java lang IllegalArgumentException Invalid hostname in URI s3 xxxx
是否可以将 Flume 标头写入 HDFS 接收器并删除主体？

text with headers 序列化器 HDFS 接收器序列化器允许保存 Flume 事件标头而不是丢弃它们输出格式由标头后跟空格和正文有效负载组成我们想删除正文并仅保留标题对于 HBase 接收器 RegexHbaseEv
为 Flume-ng 编写自定义 HTTPSource 处理程序

是否有任何资源可以帮助我为 Flume ng 的 HTTPSource 编写自定义处理程序我阅读了文档其中有一个 Json 示例处理程序但我想知道是否有人需要编写一个处理程序来从 XML 消息正文创建 Flume 事件 HttpSou

随机推荐

C++ 多线程detach()操作的坑以及传参

detach 的作用是将子线程和主线程的关联分离 xff0c 也就是说detach 后子线程在后台独立继续运行 xff0c 主线程无法再取得子线程的控制权 xff0c 即使主线程结束 xff0c 子线程未执行也不会结束当主线程结束时 xf
SpringCloud: FeignClient注解，使用url来进行http接口调用时，必须给注解加上name或value属性，否则报错

64 FeignClient name 61 34 asYouLike 34 url 61 34 http 139 198 29 xxx 9986 34 public interface TestService 64 RequestMapp
条件变量中的唤醒丢失问题分析

本文是在其他作者博文的基础上进行了部分补充原文 xff1a https zhuanlan zhihu com p 55123862 0 前言条件变量 xff08 condition variable xff09 和互斥锁 xff08 m
C++类对象的赋值与=运算符重载

本文主要介绍C 43 43 中的赋值运算符重载函数 xff08 operator 61 xff09 的相关知识 1 概述 1 1 why 首先介绍为什么要对赋值运算符 61 进行重载某些情况下 xff0c 当我们编写一个类的时候 xff0
rtp载荷H264解包过程分析，ffmpeg解码qt展示

网络抽象层单元 NALU NALU头 NALU 头由1个byte组成它的语法如下 43 43 0 1 2 3 4 5 6 7 43 43 43 43 43 43 43 43 43 F NRI Type 43 43 F 1 个比特 for
（1）redis基础知识

redis数据库默认有16个数据库 xff0c redis conf有配置database 16数据库相关操作 span class token keyword select span 2 span class token comment
chown -R 用户名:组名 ./ 及 chown用法介绍

当我们在不通过 yum CentOS apt get Ubuntu 来安装 MySQL 的时候 xff0c 通常执行以下命令来改变目录的拥有者 xff1a root 64 localhost chown R mysql mysql 这两个
Java中main函数调用同类中的方法

1 需要创建这个类的实例 xff0c 再进行调用 br public class Test public static void main String args Test t 61 new Test t train void train
java开发工具IntelliJ或eclipse中maven项目pom文件错误failed to read artifact descriptor for xx.jar问题解决办法

下载安装好开发软件之后 xff0c IntelliJ会自动对maven插件进行配置 xff0c file setting 输入maven可查看到配置信息 xff1a pom文件的编写过程会出现project错误 xff0c 第一种想法 xf
idea maven路径maven_repository老是自己改成默认的路径C:\Users\Ad\.m2\repository

intellij中的maven项目 xff0c 打包部署 xff1a 1 程序入口类 extends SpringBootServletInitializer xff0c 并重写configure方法 xff0c builder sourc
大数据在时代下的应用前景

版权声明 xff1a 本文为博主原创文章 xff0c 未经博主允许不得转载 https blog csdn net garyond article details 81229199 1 概述近年来 xff0c 随着大数据云计算区块链
远程服务器上 tar方式安装MySQL

1 下载tar gz xff0c 解压到 usr local mysql 2 设置环境变量 vim etc profile export PATH 61 usr local mysql bin usr local mysql lib PAT
vue:从一个vue页面引入另一个vue页面的内容

1 编写被引入的页面 xff1a span class token generics span class token punctuation lt span template span class token punctuation gt
Kafka彻底删除topic

前言 xff1a 删除kafka topic及其数据 xff0c 严格来说并不是很难的操作但是 xff0c 往往给kafka 使用者带来诸多问题项目组之前接触过多个开发者 xff0c 发现都会偶然出现无法彻底删除kafka的情况本文总
cas + tomcat 配置步骤详细笔记（一）

首先需要准备资源如下 xff1a cas server 4 0 0 release zip xff0c cas client 2 0 11 zip xff0c apache tomcat 6 0 29 下面操作在dos下操作 xff08 开
Java泛型详解

1 概述在引入范型之前 xff0c Java类型分为原始类型复杂类型 xff0c 其中复杂类型分为数组和类引入范型后 xff0c 一个复杂类型就可以在细分成更多的类型例如原先的类型List xff0c 现在在细分成List lt
HDFS上传的文件保存再本机的什么位置？

在hdfs中创建文件 xff0c 文件会被存储在哪里 xff1f 会就近存储在相应的子节点中的Datanode文件夹中 xff08 如果没有特殊说明的话 xff09 xff0c 主节点中不会有因为主节点中没有Datanode usr loc
namenode和secondary namenode之间的联系和区别

1 namenode是存储客户端想hdfs发送增删改查的要求的元数据的 2 secondary namenode是存储namenode的元数据的 xff0c 防止namenode宕机产生的数据丢失 3 一条元数据打大小是150byte xf
Hive读取文件

hive读取文件教会hive怎么读文本数据这样直接读数据就是将文本文件上传到该数据表所在的hdfs的文件夹中 hadoop fs span class hljs built in put span studen dat user hiv
Flume实战

前言在一个完整的大数据处理系统中 xff0c 除了hdfs 43 mapreduce 43 hive组成分析系统的核心之外 xff0c 还需要数据采集结果数据导出任务调度等不可或缺的辅助系统 xff0c 而这些辅助工具在hadoop生