logstash grok插件语法介绍

2023-11-03

原文地址,转载请注明出处: https://blog.csdn.net/qq_34021712/article/details/79746413     ©王赛超 

介绍

logstash拥有丰富的filter插件,它们扩展了进入过滤器的原始数据,进行复杂的逻辑处理,甚至可以无中生有的添加新的 logstash 事件到后续的流程中去!Grok 是 Logstash 最重要的插件之一。也是迄今为止使蹩脚的、无结构的日志结构化和可查询的最好方式。Grok在解析 syslog logs、apache and other webserver logs、mysql logs等任意格式的文件上表现完美。
官网地址:https://www.elastic.co/guide/en/logstash/current/plugins-filters-grok.html#_getting_help_116

使用grok前注意

grok 模式是正则表达式,因此这个插件的性能受到正则表达式引擎严重影响。尽管知道 grok 模式与日志条目可以多快匹配非常重要,但是了解它在什么时候匹配失败也很重要。匹配成功和匹配失败的性能可能会差异很大。
原文地址:https://www.elastic.co/blog/do-you-grok-grok
翻译地址:https://segmentfault.com/a/1190000013051254

grok基础

grok模式的语法如下:

%{SYNTAX:SEMANTIC}

SYNTAX:代表匹配值的类型,例如3.44可以用NUMBER类型所匹配,127.0.0.1可以使用IP类型匹配。
SEMANTIC:代表存储该值的一个变量名称,例如 3.44 可能是一个事件的持续时间,127.0.0.1可能是请求的client地址。所以这两个值可以用 %{NUMBER:duration} %{IP:client} 来匹配。

你也可以选择将数据类型转换添加到Grok模式。默认情况下,所有语义都保存为字符串。如果您希望转换语义的数据类型,例如将字符串更改为整数,则将其后缀为目标数据类型。例如%{NUMBER:num:int}将num语义从一个字符串转换为一个整数。目前唯一支持的转换是int和float。

例子: 通过这种语法和语义的思想,我们可以从一个示例日志中抽出有用的字段,就像这个虚构的http请求日志:

55.3.244.1 GET /index.html 15824 0.043

可以使用如下grok pattern来匹配这种记录:

%{IP:client} %{WORD:method} %{URIPATHPARAM:request} %{NUMBER:bytes} %{NUMBER:duration}

我们在logstash.conf中添加过滤器配置:

filter {
  grok {
    match => { "message" => "%{IP:client} %{WORD:method} %{URIPATHPARAM:request} %{NUMBER:bytes} %{NUMBER:duration}" }
  }
}

以下是filter结果:

● client: 55.3.244.1
● method: GET
● request: /index.html
● bytes: 15824
● duration: 0.043

Logstash附带约120个模式。你可以在这里找到它们https://github.com/logstash-plugins/logstash-patterns-core/tree/master/patterns

正则表达式

Grok位于正则表达式之上,所以任何正则表达式在grok中都是有效的。正则表达式库是Oniguruma,您可以在Oniguruma网站上看到完整支持的regexp语法。
中文学习正则表达式网站:http://www.runoob.com/regexp/regexp-tutorial.html

自定义类型

更多时候logstash grok没办法提供你所需要的匹配类型,这个时候我们可以使用自定义

第一种

直接使用Oniguruma语法来命名捕获,它可以让你匹配一段文本并保存为一个字段:

(?<field_name>the pattern here)

例如,日志有一个queue_id 为一个长度为10或11个字符的十六进制值。使用下列语法可以获取该片段,并把值赋予queue_id

(?<queue_id>[0-9A-F]{10,11})
第二种

创建自定义 patterns 文件。
①创建一个名为patterns其中创建一个文件postfix (文件名无关紧要,随便起),在该文件中,将需要的模式写为模式名称,空格,然后是该模式的正则表达式。例如:

#contents of ./patterns/postfix:
POSTFIX_QUEUEID [0-9A-F]{10,11}

②然后使用这个插件中的patterns_dir设置告诉logstash目录是你的自定义模式。这是一个完整的示例的示例日志:

Jan  1 06:25:43 mailserver14 postfix/cleanup[21403]: BEF25A72965: message-id=<20130101142543.5828399CCAF@mailserver14.example.com>
filter {
  grok {
    patterns_dir => ["./patterns"]
    match => { "message" => "%{SYSLOGBASE} %{POSTFIX_QUEUEID:queue_id}: %{GREEDYDATA:syslog_message}" }
  }
}

匹配结果如下:

  ● timestamp: Jan 1 06:25:43
  ● logsource: mailserver14
  ● program: postfix/cleanup
  ● pid: 21403
  ● queue_id: BEF25A72965
  ● syslog_message: message-id=<20130101142543.5828399CCAF@mailserver14.example.com>

Grok过滤器配置选项

break_on_match
● 值类型是布尔值
● 默认是true
● 描述:match可以一次设定多组,预设会依照顺序设定处理,如果日志满足设定条件,则会终止向下处理。但有的时候我们会希望让Logstash跑完所有的设定,这时可以将break_on_match设为false。

keep_empty_captures
● 值类型是布尔值
● 默认值是 false
● 描述:如果为true,捕获失败的字段将设置为空值

match
● 值类型是数组
● 默认值是 {}
● 描述:字段⇒值匹配
例如:

filter {
  grok { match => { "message" => "Duration: %{NUMBER:duration}" } }
}
#如果你需要针对单个字段匹配多个模式,则该值可以是一组,例如:
filter {
  grok { match => { "message" => [ "Duration: %{NUMBER:duration}", "Speed: %{NUMBER:speed}" ] } }
}

named_captures_only
● 值类型是布尔值
● 默认值是 true
● 描述:If true, only store named captures from grok.(暂不清楚有什么用)

overwrite
● 值类型是 array
● 默认是[]
● 描述:覆盖字段内容
例如:

filter {
  grok {
    match => { "message" => "%{SYSLOGBASE} %{DATA:message}" }
    overwrite => [ "message" ]
  }
}

如果日志是May 29 16:37:11 sadness logger: hello world经过match属性match => { “message” => “%{SYSLOGBASE} %{DATA:message}” }处理后,message的值变成了hello world。这时如果使用了overwrite => [ “message” ]属性,那么原来的message的值将被覆盖成新值。

pattern_definitions
● 值类型是 数组
● 默认值是 {}
● 描述:模式名称和模式正则表达式,也是用于定义当前过滤器要使用的自定义模式。匹配现有名称的模式将覆盖预先存在的定义。可以将此视为仅适用于grok定义的内联模式,patterns_dir是将模式写在外部。
例如:

filter {
    grok {
        patterns_dir => "/usr/local/elk/logstash/patterns"
        pattern_definitions => {"MYSELFTIMESTAMP" => "20%{YEAR}-%{MONTHNUM}-%{MONTHDAY} %{HOUR}:?%{MINUTE}(?::?%{SECOND})"}
        match => {"message" => ["%{MYSELFTIMESTAMP:timestamp} %{JAVACLASS:message}","%{MYSELF:content}"]}
    }
}

patterns_dir
● 值类型是数组
● 默认值是 []
● 描述:一些复杂的正则表达式,不适合直接写到filter中,可以指定一个文件夹,用来专门保存正则表达式的文件,需要注意的是该文件夹中的所有文件中的正则表达式都会被依次加载,包括备份文件。

patterns_dir => ["/opt/logstash/patterns", "/opt/logstash/extra_patterns"]

正则文件以文本格式描述:

NAME PATTERN
#空格前是正则表达式的名称,空格后是具体的正则表达式

例如:这是一个数字的表达式

NUMBER \d+

patterns_file_glob
● 属性值的类型:string
● 默认值:“*”
● 描述:针对patterns_dir属性中指定的文件夹里哪些正则文件,可以在这个filter中生效,需要本属性来指定。默认值“*”是指所有正则文件都生效。

tag_on_failure
● 值类型是数组
● 默认值是 [“_grokparsefailure”]
●描述:没有成功匹配时,将值附加到字段

tag_on_timeout
● 值类型是字符串
● 默认值是 “_groktimeout”
● 描述:如果Grok正则表达式超时,则应用标记。

timeout_millis
● 值类型是数字
● 默认值是 30000
● 描述: 尝试在这段时间后终止正则表达式。如果应用了多个模式,则这适用于每个模式。这将永远不会提前超时,但超时可能需要一些时间。实际的超时时间是基于250ms量化的近似值。设置为0以禁用超时。

常用选项

所有过滤器插件都支持以下配置选项:
add_field
● 值类型是散列
● 默认值是 {}
● 描述:在匹配日志中增加一个 field,可以通过%{field}动态命名field名或field的值。例如:

filter {
  grok {
    add_field => { "foo_%{somefield}" => "Hello world, from %{host}" }
  }
}
# 你也可以一次添加多个字段
filter {
  grok {
    add_field => {
      "foo_%{somefield}" => "Hello world, from %{host}"
      "new_field" => "new_static_value"
    }
  }
}

add_tag
● 值类型是数组
● 默认值是 []
● 描述:如果此过滤器成功,请向该事件添加任意标签。标签可以是动态的,并使用%{field} 语法包含事件的一部分。
例如:

filter {
  grok {
    add_tag => [ "foo_%{somefield}" ]
  }
}
# 你也可以一次添加多个标签
filter {
  grok {
    add_tag => [ "foo_%{somefield}", "taggedy_tag"]
  }
}

enable_metric
● 值类型是布尔值
● 默认值是 true
● 描述:禁用或启用度量标准

id
● 值类型是字符串
● 此设置没有默认值。
● 描述:向插件实例添加唯一ID,此ID用于跟踪插件特定配置的信息。
例如:

filter {
  grok {
    id => "ABC"
  }
}

periodic_flush
● 值类型是布尔值
● 默认值是 false
● 描述:如果设置为ture,会定时的调用filter的更新函数(flush method)

remove_field
● 值的类型:array
● 默认值:[]
● 描述:删除当前文档中的指定filted

filter {
  grok {
    remove_field => [ "foo_%{somefield}" ]
  }
}
# 你也可以一次移除多个字段:
filter {
  grok {
    remove_field => [ "foo_%{somefield}", "my_extraneous_field" ]
  }
}

remove_tag
● 值类型是数组
● 默认值是 []
● 描述:如果此过滤器成功,请从该事件中移除任意标签。标签可以是动态的,并使用%{field} 语法包括事件的一部分。
例如:

filter {
  grok {
    remove_tag => [ "foo_%{somefield}" ]
  }
}
# 你也可以一次删除多个标签
filter {
  grok {
    remove_tag => [ "foo_%{somefield}", "sad_unwanted_tag"]
  }
}
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

logstash grok插件语法介绍 的相关文章

  • elasticsearch script实战

    写在前面 大家在开发elasticsearch的时候都会遇到很多去怪的需求 如果我们已知的RestAPI无法帮助我们完成搜索 是就需要我们自己动手写脚本来辅助搜索 完成需求 浅谈elasticsearch script脚本使用机制 通过阅读
  • docker-compose编排ELK,kibana报错Unable to revive connection: http://172.16.23.126:9200/

    问题描述 使用docker compose方式编排ELK环境 启动elasticsearch没有问题 浏览器访问内网es环境http 172 16 23 126 9200 cluster health pretty正常 但是kibana启动
  • ES7.7中highlight的结果丢失部分文本的bug

    本bug在windows版本 ES 7 7 0 和 7 15 2 中都可以再现 ik分词器已安装 并导入了扩展停止词 extra stopword dic Step1 先建立一个索引 在此之前 请确保已经安装分词器插件ik PUT test
  • 使用docker搭建elk

    一 安装前须知 以下步骤在 VMware 中的 centos 7 中操作 ip 地址为 192 168 161 128 注意安装的时候最好统一版本 否则后面会出现许多问题 进官网搜索对应镜像 查看 Tags 标签下的版本 目前我这最新的 T
  • ELK日志平台搭建(一)

    ELK企业级日志分析系统 ELK是由Elasticsearch Logstash Kiban三个开源软件的组合 在实时数据检索和分析场合 三者通常是配合共用 而且又都先后归于 Elastic co 公司名下 故有此简称 ELK中日志处理步骤
  • 物理机重启后ES无法访问

    问题 机房断电 重启机器后 Elasticsearch 集群无法访问 集群状态访问如下 可以访问 9200 端口 目测 Elasticsearch 是正常的 但是查看集群状态报错 报错内容 error root cause type mas
  • ElasticSearch 单机、集群安装

    文章目录 ElasticSearch 基本概念 安装启动 集群配置 快速启动一个集群节点实例 集群的状态 ElasticSearch 基本概念 索引 含有相同属性的文档集合 类型 索引可以定义一个或多个类型 文档必须属于一个类型 文档 文档
  • ES的java接口调用异常信息:java.lang.RuntimeException: Request cannot be executed; I/O reactor status: STOPPED

    我的处理方法是重启了连接ES的服务接口 我专门写的一个供APP调用的服务 这个服务去连接ES 出现了这个错误 估计还是客户端连ES的出了问题
  • Docker——搭建ELK

    安装Elasticsearch 1 拉取镜像 docker box home box docker pull elasticsearch 7 14 2 2 在宿主机准备配置文件 创建目录 docker box mkdir p server0
  • Elasticsearch 中文分词&多词搜索&权重

    目录 中文分词器 一 安装中文分词器ik 二 使用中文分词器 多词搜索 权重 中文分词器 一 安装中文分词器ik 源码地址 https github com medcl elasticsearch analysis ik 根据提示 进行安装
  • 2023最新ELK搭建教程,基于ES 8

    一 ELK介绍 ELK的应用 ELK的应用场景 日志查询 问题排查 上线检查服务器监控 应用监控 错误报警Bug管理性能分析 用户行为分析 安全漏洞分析 企业 行业 ELK用途 阿里巴巴 电子商务 云计算 用于日志管理和实时监控 腾讯 互联
  • Centos7安装elasticsearch及kibana并进行安全设置

    Centos7安装elasticsearch及kibana并进行安全设置 每天多学一点点 话不多说 这就开始吧 文章目录 Centos7安装elasticsearch及kibana并进行安全设置 1 前言 2 环境要求 3 安装elasti
  • Elasticsearch 相关度评分TF&IDF算法揭秘

    1 算法介绍 relevance score算法 简单来说 就是计算出 一个索引中的文本 与搜索的文本 他们之间的关联匹配程序 ElasticSearch使用的是term frequency inverse document frequen
  • ELK详解(十七)——filebeat输出到Redis和Elasticsearch实战

    今天继续给大家介绍Linux运维相关知识 本文主要内容是使用filebeat将日志输出到Redis和Elasticsearch的实战配置 在ELK详解 十六 filebeat安装与使用一文中 我们介绍了filebeat的安装 部署和简单应用
  • elasticsearch部署过程中各种报错解析

    elasticsearch bootstrap StartupException java lang RuntimeException can not run elasticsearch as root ES不能能使用root用户直接运行
  • 分布式日志收集(ELK)

    ELK简介 ELK Elasticsearch Logstash Kibana 是同一家公司开发的3个开源工具 可组合起来搭建海量日志分析平台 目前很多公司都在使用这种方式搭建日志分析平台进行大数据分析 参考 初识ES数据库 Logstas
  • [分布式] zookeeper集群与kafka集群

    目录 一 Zookeeper 概述 1 1 Zookeeper定义 1 2 Zookeeper 工作机制 1 3 Zookeeper 特点 1 4 Zookeeper 数据结构 1 5 Zookeeper 应用场景 1 6 Zookeepe
  • elk之查询(单个或多个)type所有数据,条件查询,分页查询,排序

    java连接es 1 接口 查询 单个或多个 type所有数据 条件查询 分页查询 排序 param client param indexName param typeName public void searchAllStudent Tr
  • SpringBoot整合ELK教程

    SpringBoot整合ELK教程 1 基础概念 ELK 即 Elasticsearch Logstash Kibana 组合起来可以搭建线上日志系统 本文主要讲解使用 ELK 来收集测试框架产生的日志 Elasticsearch 用于存储
  • Kibana 服务器尚未准备好甚至启动

    我有1个主节点 master 和1个数据节点 node 1 我使用centos7作为操作系统 主控 9200 root localhost kibana curl localhost 9200 name master cluster nam

随机推荐

  • android GMS认证之CTS 常用命令

    http blog csdn net hfreeman2008 article details 51084821 前面的一篇文章 lt
  • 转:SKLearn中预测准确率函数介绍

    SKLearn中预测准确率函数介绍 1 在使用Sklearn进行机器学习算法预测测试数据时 常用到classification report函数来进行测试的准确率的计算输 开始预测 y pred clf predict X test pri
  • THREE.JS 使用CUBECAMERA相机创建反光效果

    THREE JS 使用CUBECAMERA相机创建反光效果 先看下效果 源码
  • 22_PWM输出实验

    目录 通用定时器PWM概述 PWM模式 PWM输出配置步骤 计算频率和占空比 实验源码 通用定时器PWM概述 STM32PWM工作过程 从APB1 2的时钟在到预分频器在到计数器再到比较寄存器最后在到输出控制 假设我们的计数值是100 比较
  • Java基础-接口和抽象类

    接口与抽象类 什么是接口 什么是抽象类 接口与抽象类的相同点 接口与抽象类的不同点 常见面试题 1 什么是接口 Java接口是一种特殊的Java数据类型 其中只定义了方法签名而没有实现 用于标准化类之间的交互 它定义了一个契约 规定实现类需
  • socket closed怎么解决_从表象到根源-一个软件系统JVM内存溢出问题分析解决全过程...

    非结构化问题解决流程 作者 人月神话 新浪博客同名 简介 长期从事IT信息化建设和管理工作 对思维框架和个人管理多年兴趣和研究 今天准备结合一个案例再详细说明下技术问题分析诊断的全过程 自己从事软件开发和架构设计多年 虽然已经较长时间没有参
  • Java程序员必看经典书籍,助你早日打通任督二脉

    一 Java四大神兽 神兽在手 天下我有 1 Java核心技术卷一 唯一可以和 Java编程思想 媲美的一本Java入门书籍 单从技术的角度来看 前者更好一些 但上升到思想层面嘛 自然后者更好 两者的偏重点不同 2 Java编程思想 Jav
  • OpenGL/GLSL数据传递小记(3.x)

    OpenGL GLSL规范在不断演进着 我们渐渐走进可编程管道的时代的同时 崭新的功能接口也让我们有点缭乱的感觉 本文再次从OpenGL和GLSL之间数据的传递这一点 记录和介绍基于OpenGL3 x的新方式 也会适时介绍Unform Bu
  • Android 最全的AES加密算法及其实现(前所未有的震撼)

    一 什么是AES加密 AES高级加密标准 英语 Advanced Encryption Standard 缩写 AES 在密码学中又称Rijndael加密法 是美国联邦政府采用的一种区块加密标准 这个标准用来替代原先的DES 已经被多方分析
  • java socket异常总结

    Java Socket 网络编程常见异常 1 java net SocketTimeoutException 这 个异 常比较常见 socket 超时 一般有 2 个地方会抛出这个 一个是 connect 的 时 候 这 个 超 时 参 数
  • 为什么Roop运行时快时慢(版本1.1.0)

    文章目录 一 时快时慢 二 解决 三 分析 最早的 接触和介绍 而后的 讨论和加速 以及 同DFL Simswap对比视频 然后 1 0 1新版本的变化 安装 运行参数等 始终有个奇怪的问题 就是笔记本上Roop运行的速度 时快时慢 相差几
  • 物联网毕设选题 单片机智能识别机器人设计与实现 - 图像分类 深度学习 AI

    文章目录 0 前言 1 项目背景 2 在 Arduino IDE 上安装 ESP32 Cam 3 用 BLINK 测试电路板 4 测试 WiFi 5 测试相机 6 运行你的网络服务器 7 水果与蔬菜 图像分类 8 结论 9 最后 0 前言
  • 【python】删除远程服务器的某些文件

    背景 判断远程服务器指定路径下是否有test文件夹 如果有 遍历文件夹下的所有文件 删除文件名字中有 data 字符串的所有文件 代码如下 import paramiko import stat def run host port user
  • 还在手动阅卷?教你用python实现自动阅卷,解放自己的双手

    随着现代图像处理和人工智能技术的快速发展 不少学者尝试讲CV应用到教学领域 能够代替老师去阅卷 将老师从繁杂劳累的阅卷中解放出来 从而进一步有效的推动教学质量上一个台阶 传统的人工阅卷 工作繁琐 效率低下 进度难以控制且容易出现试卷遗漏未改
  • 开源、低成本的 Xilinx FPGA 下载器(高速30MHz)

    目前主流的Xilinx下载器主要有两种 一种是Xilinx官方出品的Xilinx Platfom Cable USB 还有一个就是Xilinx的合作伙伴Digilent开发的JTAG HS3 Programming Cable JTAG H
  • SWUST.OJ #274:函数求值

    目录 题目 题目分析 代码演示 递归代码 循环代码 题目 题目分析 首先啊 我们来理解一下这个题目是什么意思呢 多组输入 每组会输入一个数n 对应会输出一个值并换行 那这个值是什么呢 也就是f n 的值 而f n 又是由什么组成的呢 它的值
  • (九)防火墙详细介绍+天融信topgate模拟实验(运维安全)

    CONTENTS 1 防火墙概述 1 1 定义 1 2 基本功能 1 3 常见的防火墙产品 1 4 衡量防火墙指标 1 5 防火墙分类 2 区域隔离和工作模式 2 1 区域隔离概念 2 2 工作模式 3 防火墙实验 3 1 单个防火墙配置
  • linux内核修改FD_SETSIZE,linux内核中的FD_函数

    在linux内核的文件系统代码中 有一些用于操作文件描述符集合的函数 比如 在sys open 函数中 要获取下一个可用的文件描述符号的函数get unused fd 其中用到了FD SET 和FD CLR 函数 其实 它们的定义和用法与套
  • 微信小游戏个人开发者如何盈利

    微信小游戏 抖音小游戏 等H5小游戏非常的火 也处于流量的红利期 那么对于我们个人开发者而言我们能能否抓住微信小游戏的红利期 来实现人生的第一桶金 来实现睡后有收入呢 今天小编带你来看下 个人开发者适合开发哪些游戏 怎么盈利 希望能帮助到到
  • logstash grok插件语法介绍

    原文地址 转载请注明出处 https blog csdn net qq 34021712 article details 79746413 王赛超 介绍 logstash拥有丰富的filter插件 它们扩展了进入过滤器的原始数据 进行复杂的