几十条业务线日志系统如何收集处理?

2023-10-29

  在互联网迅猛发展的今天 各大厂发挥十八般武艺的收集用户的各种信息,甚至包括点击的位置,我们也经常发现自己刚搜完一个东西,再打开网页时每个小广告都会出现与之相关联的商品或信息,在感叹智能的同时不惊想 什么时候泄露的行踪。

  许多公司的业务平台每天都会产生大量的日志数据。收集业务日志数据,供离线和在线的分析系统使用,正是日志收集系统的要做的事情。

  用户的数据除了这种后台默默的收集外,还有各种运行的日志数据和后台操作日志,因此每个业务可以算是一种类型的日志,那稍大点的公司就会有几十种日志类型要收集,而且业务都分布到不同的服务器上,这就导致了日志的汇集的困难,

   在此可以用Flume来解决此类问题,参考以下架构。

  Flume是Cloudera提供的一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的系统,目前已经是Apache的一个子项目。

  Flume作为一个日志收集工具,非常轻量级,基于一个个Flume Agent,能够构建一个很复杂很强大的日志收集系统,它的灵活性和优势, 高可用性,高可靠性和可扩展性是日志收集系统所具有的基本特征。主要体现在如下几点:

  1. 模块化设计:在其Flume Agent内部可以定义三种组件:Source、Channel、Sink
  2. 组合式设计:可以在Flume Agent中根据业务需要组合Source、Channel、Sink三种组件,构建相对复杂的日志流管道
  3. 插件式设计:可以通过配置文件来编排收集日志管道的流程,减少对Flume代码的侵入性
  4. 可扩展性:我们可以根据自己业务的需要来定制实现某些组件(Source、Channel、Sink)
  5. 支持集成各种主流系统和框架:像Hadoop、HBase、Hive、Kafka、ElasticSearch、Thrift、Avro等,都能够很好的和Flume集成
  6. 高级特性:Failover、Load balancing、Interceptor等
  Flume支持在日志系统中定制各类数据发送方,用于收集数据;同时,Flume提供对数据进行简单处理,并写到各种数据接受方(可定制)的能力。
  注:当前Flume有两个版本Flume 0.9X版本的统称Flume-og,Flume1.X版本的统称Flume-ng。由于Flume-ng经过重大重构,与Flume-og有很大不同,使用时请注意区分。

Flume的优势

      1.  Flume可以将应用产生的数据存储到任何集中存储器中,比如HDFS,HBase

      2.  当收集数据的速度超过将写入数据的时候,也就是当收集信息遇到峰值时,这时候收集的信息非常大,甚至超过了系统的写入数据能力,这时候,Flume会在数据生产者和数据收容器间做出调整,保证其能够在两者之间提供一共平稳的数据.

     3.   提供上下文路由特征

     4.   Flume的管道是基于事务,保证了数据在传送和接收时的一致性.

     5.   Flume是可靠的,容错性高的,可升级的,易管理的,并且可定制的。 

Flume具有的特征:

    1. Flume可以高效率的将多个网站服务器中收集的日志信息存入HDFS/HBase中

    2. 使用Flume,我们可以将从多个服务器中获取的数据迅速的移交给Hadoop中

    3. 除了日志信息,Flume同时也可以用来接入收集规模宏大的社交网络节点事件数据,比如facebook,twitter,电商网站如亚马逊,flipkart等

    4. 支持各种接入资源数据的类型以及接出数据类型

    5. 支持多路径流量,多管道接入流量,多管道接出流量,上下文路由等

    6. 可以被水平扩展

Flume的结构

  Agent主要由:source,channel,sink三个组件组成.

Source:

    从数据发生器接收数据,并将接收的数据以Flume的event格式传递给一个或者多个通道channal,Flume提供多种数据接收的方式,比如Avro,Thrift,twitter1%等

Channel:

   channal是一种短暂的存储容器,它将从source处接收到的event格式的数据缓存起来,直到它们被sinks消费掉,它在source和sink间起着一共桥梁的作用,channal是一个完整的事务,这一点保证了数据在收发的时候的一致性. 并且它可以和任意数量的source和sink链接. 支持的类型有: JDBC channel , File System channel , Memort channel等.

sink:

    sink将数据存储到集中存储器比如Hbase和HDFS,它从channals消费数据(events)并将其传递给目标地. 目标地可能是另一个sink,也可能HDFS,HBase.

它的组合形式举例:

  以上介绍的flume的主要组件

下面介绍一下Flume插件:

1. Interceptors拦截器

   用于source和channel之间,用来更改或者检查Flume的events数据

2. 管道选择器 channels Selectors

   在多管道是被用来选择使用那一条管道来传递数据(events). 管道选择器又分为如下两种:

   默认管道选择器:  每一个管道传递的都是相同的events

  多路复用通道选择器:  依据每一个event的头部header的地址选择管道.

3.sink线程

 用于激活被选择的sinks群中特定的sink,用于负载均衡.

由于Flume的日志源可以来自另外一个Flume,可以同时发送给多个目标,且Flume自身可以做负载,由此可以设计出高可用,可扩展,高负载的日志架构。

应用场景

     比如我们在做一个电子商务网站,然后我们想从消费用户中访问点特定的节点区域来分析消费者的行为或者购买意图. 这样我们就可以更加快速的将他想要的推送到界面上,实现这一点,我们需要将获取到的她访问的页面以及点击的产品数据等日志数据信息收集并移交给Hadoop平台上去分析.而Flume正是帮我们做到这一点。现在流行的内容推送,比如广告定点投放以及新闻私人定制也是基于次,不过不一定是使用FLume,毕竟优秀的产品很多,比如facebook的Scribe,还有Apache新出的另一个明星项目chukwa,还有淘宝Time Tunnel。

flume+kafka+storm+mysql构建大数据实时系统

 

Flume+HDFS+KafKa+Strom实现实时推荐,反爬虫服务等服务在美团的应用

Flume+Hadoop+Hive的离线分析网站用户浏览行为路径

 Flume+Logstash+Kafka+Spark Streaming进行实时日志处理分析

Flume+Spark + ELK新浪数据系统实时监控平台

 列举不完了 ……………………………………………………………………

本文永久更新链接地址http://www.linuxidc.com/Linux/2017-05/144382.htm

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

几十条业务线日志系统如何收集处理? 的相关文章

  • flume日志收集系统常见配置

    前面介绍了flume入门实例 xff0c 介绍了配置netcat信源 xff0c 以及memory信道 xff0c logger信宿 xff0c 其实flume常见的信源信道信宿有很多 xff0c 这里介绍flume常用信源的三种方式 xf
  • flume自定义拦截器实现定制收集日志需求

    flume默认提供了timestamp host static regex等几种类型的拦截器 xff0c timestamp host static等拦截器 xff0c 其实就是在消息头中增加了时间戳 xff0c 主机名 xff0c 键值对
  • flume报错java.net.ConnectException: 拒绝连接;

    flume报错记录 java net ConnectException 拒绝连接 For more details see http wiki apache org hadoop ConnectionRefused 文章目录 具体信息解决方
  • Flume中 File Channel 的优化

    Flume中 File Channel 的优化 文章目录 Flume中 File Channel 的优化File Channel 的特点File Channel 的优化索引索引备份 Flume官方优化设计概述 xff08 Overview
  • 记flume部署过程中遇到的问题以及解决方法(持续更新)

    项目需求是将线上服务器生成的日志信息实时导入kafka xff0c 采用agent和collector分层传输 xff0c app的数据通过thrift传给agent xff0c agent通过avro sink将数据发给collector
  • Flume基础知识(个人总结)

    声明 1 本文为我的个人复习总结 并非那种从零基础开始普及知识 内容详细全面 言辞官方的文章 2 由于是个人总结 所以用最精简的话语来写文章 3 若有错误不当之处 请指出 概述 Flume用于离线日志的 采集与传输 Agent 单台机器a1
  • Flume EmbeddedAgent

    flume flume 二次开发 对EmbeddedAgent的简易改造 动态控制agent 实现启动 关闭等功能 模块结构如下所示 flume parent github地址 1 用途 1 1 本地调试 对flume不是特别熟悉的开发者
  • flume采集log4j日志到kafka

    简单测试项目 1 新建Java项目结构如下 测试类FlumeTest代码如下 package com demo flume import org apache log4j Logger public class FlumeTest priv
  • Flume 数据流监控——Ganglia的安装与部署

    1 Ganglia的安装 1 安装 dhttpd 服务与 php yasin hadoop102 flume sudo yum y install httpd php 2 安装其他依赖 atguigu hadoop102 flume sud
  • Flink Table API 与 Flink SQL 实现Kafka To Kafka 版本1.12

    Table API版本 0 前提 1 创建流和表执行环境 2 连接Source并创建Table 3 筛选Table对象中的数据 4 连接Sink并创建临时表 5 将Table对象写入临时表 测试 杠精打住 SQL 版本 最近有铁汁问我 一闪
  • 自定义flume拦截器-实现了多种功能

    1 自定义拦截器实现说明 1 实现interceptor接口 并实现其方法 接口完全限定名为 org apache flume interceptor Interceptor 2 自定义拦截器内部添加静态内部类 实现Builder接口 并实
  • 【大数据入门核心技术-Impala】(一)Impala简介

    目录 一 Impala介绍 二 Impala优势 三 Impala主要功能 一 Impala介绍 Impala是Cloudera公司主导开发的新型查询系统 它提供SQL语义 能查询存储在Hadoop的HDFS和HBase中的PB级大数据 已
  • Flume 学习

    开始启动flume的学习 todo
  • Flume之:二、企业开发案例

    Flume之 二 企业开发案例 文章目录 Flume之 二 企业开发案例 三 企业开发案例 1 监控端口数据官方案例 2 实时读取本地文件到HDFS案例 3 实时读取目录文件到HDFS案例 4 flume监控Kafka gt Spark知识
  • Flume-ng 拖尾文件

    我试图了解如何使用 Flume ng 尾部文件 以便可以将数据推送到 HDFS 中 在第一个实例中 我设置了一个简单的conf文件 tail1 sources source1 tail1 sinks sink1 tail1 channels
  • 2023_Spark_实验二十九:Flume配置KafkaSink

    实验目的 掌握Flume采集数据发送到Kafka的方法 实验方法 通过配置Flume的KafkaSink采集数据到Kafka中 实验步骤 一 明确日志采集方式 一般Flume采集日志source有两种方式 1 Exec类型的Source 可
  • 在接收器发生故障后,如何强制 Flume-NG 处理积压的事件?

    我正在尝试设置 Flume NG 从一组服务器 主要运行 Tomcat 实例和 Apache Httpd 收集各种日志 并将它们转储到 5 节点 Hadoop 集群上的 HDFS 中 设置如下所示 每个应用程序服务器将相关日志跟踪到一个执行
  • 是否可以将 Flume 标头写入 HDFS 接收器并删除主体?

    text with headers 序列化器 HDFS 接收器序列化器 允许保存 Flume 事件标头而不是丢弃它们 输出格式由标头 后跟空格和正文有效负载组成 我们想删除正文并仅保留标题 对于 HBase 接收器 RegexHbaseEv
  • java.io.IOException:无法获取 LocationBlock 的块长度

    我正在使用 HDP 2 1 对于集群 我遇到了以下异常 并且 MapReduce 作业因此失败 实际上 我们定期使用 Flume 版本的数据创建表 1 4 我检查了映射器尝试读取的数据文件 但我找不到任何内容 2014 11 28 00 0
  • 为 Flume-ng 编写自定义 HTTPSource 处理程序

    是否有任何资源可以帮助我为 Flume ng 的 HTTPSource 编写自定义处理程序 我阅读了文档 其中有一个 Json 示例处理程序 但我想知道是否有人需要编写一个处理程序来从 XML 消息正文创建 Flume 事件 HttpSou

随机推荐

  • 计算机中常见英文术语对照表

    win Windows 操作系统 mac macOS 操作系统 英文 English 中文一 港台地区 中文二 Abstract 摘要 抽象的 摘要 抽象的 Abstraction 抽象 抽象 Access 存取 访问 Accessibil
  • Brup suite使用指南之正确安装

    这篇文章整理自 https blog csdn net LUOBIKUN article details 87457545 安装完成之后配置代理 下载地址 来自大佬的分享 提取码为 w5lg 安装教程 配置Java环境 下载好上面的分享之后
  • 刚开工,就用Python兼职赚了2800!

    前言 今天是节后开工第3天 有 节后综合症 的朋友们感觉好点了吗 lt gt 每年春节后 都会迎来Python兼职接单的高潮期 近段时间各行业对爬虫类和数分类的需求量在暴增 且很多朋友过完年也需要接单 回血 往年春节开工后 两天接单赚上万的
  • 在win10上安装go语言环境

    1 下载go环境安装包 由于官方的安装包可能很多人没办法下载到 但是可以在https golang google cn dl 下载 2 选择windows64位版下载 3 安装go 一直next 可以改文件路径 4 设置开发环境变量 右键此
  • 绝对布局优势_小米价值回归,IoT领域的规模优势和持续投入是关键

    进入2020年 手机行业特别是国内市场的竞争已经接近尾声 作为稳居全球出货量第四的小米而言 国内市场的表现并不令人满意 不过 从去年10月份开始 小米公司的股价却一直呈现出不错的上涨势头 消费者和市场逐渐认可了小米的价值 并且这种认可的趋势
  • leetcode150–逆波兰表达式求值(栈/后缀表达式)

    根据 逆波兰表示法 求表达式的值 有效的算符包括 每个运算对象可以是整数 也可以是另一个逆波兰表达式 说明 整数除法只保留整数部分 给定逆波兰表达式总是有效的 换句话说 表达式总会得出有效数值且不存在除数为 0 的情况 示例 输入 toke
  • 解决执行shell命令时出现argument list too long错误的问题

    如果执行shell命令时出现argument list too long的错误 其原因是需要操作的目标文件过多 比如超过2万个文件 解决方式就是分批甚至逐个处理目标文件 1 grep命令 命令行执行 grep Java l 如果返回 zsh
  • 三角形

    Description 一天mingming问了Flying一个数学问题 给出一个整数 存在多少个直角三角 它的某一条边等于这个整数 而且其它边也是整数 Flying是做ACM的 他就写了个程序解决了这个问题 你也能写个程序解决吗 Inpu
  • 调试设置断点出现:当前不会命中断点还未为文档加载任何符号

    第一种情况 大多数 检查VS的调试模式 VS的调试分为两种 Debug和Release Debug是专门真对检查程序的bug而设置的一种模式 Release模式对程序的编译进行了优化 一般用于程序发布 首先确保是在Debug模式下设置的断点
  • win10安装hdf5,C++读写h5文件测试(一)

    前言 在TensorFlow训练好的数据模型 需要放到C 中使用 也就是将 h5文件中的数据拿出来 读入内存 然后读入图片 用模型数据去预测图像 得出结果 下面按照需求 如何去读取 h5 的数据 进行操作 下载 选择 HDF5 1 8 18
  • 一分钟解决Android调用系统分享给微信,出现分享失败,分享多文件必须为图片格式

    解决Android调用系统分享图片给微信 出现分享失败 分享多文件必须为图片格式 近期应公司需求 分享多图片到微信的功能 之前一直是用微信自己家SDK实现分享 但是查看微信的原生SDK是不具备多图分享的 在网上查找解决办法 直接调用手机系统
  • 提示ModuleNotFoundError: No module named ‘flask‘

    如果你运行 Python 代码时出现了 ModuleNotFoundError No module named flask 的错误提示 这意味着 Python 解释器无法找到 Flask 模块 通常 这个错误是由以下几个原因造成的 Flas
  • 网易云音乐UI界面

    网易云音乐UI界面 接着上期的网易云音乐搜索和下载 现在再添加一个功能 用pyqt5制作一个UI界面 效果展示 主窗口中有个控件 行编辑输入框 搜索按钮 表格 代码 class MyQLabel QLabel 自定义标签 自定义信号 cli
  • IDA调试小技巧

    IDA脚本 MakeNameEX IDA官方链接 实际运用 MakeNameEX MakeNameEx long ea string name long flags SN CHECK ea linear address name new n
  • Harbor使用HTTPS访问

    说明 本脚本只创建密钥 脚本是借鉴所有各个大神 自己重新书写一份 官方的已经写的狠清楚了 直接粘贴过来变一些变量就可以了 如有不对 欢迎指正 binsh Date 2021 6 25 Author Desc Harbor v2 2 1 Th
  • 使用Pycharm快速在字典中添加单引号

    选中要添加单引号的数据 使用Ctrl R快捷键打开Pycharm中的正则表达式 输入 1 2 选中一些配置选项 Match case Regex Search in Selection 点击Replace All即可
  • 【华为OD机试真题 JAVA】欢乐的周末

    JS版 华为OD机试真题 JS 欢乐的周末 标题 欢乐的周末 时间限制 1秒 内存限制 262144K 语言限制 不限 小华和小为是很要好的朋友 他们约定周末一起吃饭 通过手机交流 他们在地图上选择了多个聚餐地点 由于自然地形等原因 部分聚
  • python与C语言socket通信--发送、接收(解析)结构体数据

    from importlib resources import path import socket import struct import ctypes import time os tcp socket socket socket s
  • 利用STM32的FLASH模拟 EEPROM(F103)系列

    STM32的FLASH是用来存储主程序的 ST公司为了节约成本 没有加入 EEPROM 但是许多场合下我们需要用EEPROM 不过FLASH的容量还是可观的 我们可以利用FLASH模拟EEPROM 根据 STM32F10X闪存编程 中的介绍
  • 几十条业务线日志系统如何收集处理?

    在互联网迅猛发展的今天 各大厂发挥十八般武艺的收集用户的各种信息 甚至包括点击的位置 我们也经常发现自己刚搜完一个东西 再打开网页时每个小广告都会出现与之相关联的商品或信息 在感叹智能的同时不惊想 什么时候泄露的行踪 许多公司的业务平台每天