elk 笔记15--mapping

2023-11-02

1 mapping 简介

1.1 什么是mapping

mapping 是定义一个文档包含哪些字段、如何存储和索引的过程。例如,我们可以用mapping定义:
1 哪些字符串字段可以当作全文字段;
2 哪些字段包含数字、日期或者地理位置;
3 日期数据的格式;
4 自定义规则,以便于控制mapping动态添加字段;

简单来说,当向es中插入数据时候,es会自动创建索引,同时建立type以及对应的mapping,mapping 定义了不同的数据类型;在es中既可以通过dynamic mapping,让索引自动建立mapping,自动设置数据类型,又可以根据业务需求提前手动创建mapping,对各个字段进行设置(字段类型、索引行为、分词器等)。

1.2 为何移除多type

es 6.0前,每个索引下可以有多个type字段,如blog/usr,blog/article 等,但官方发现其不合理之处,7.0之后便废弃了索引的多type,每个索引只能有一个type。

es 最初设置index 类似于关系型数据库的一个数据库,type 类似与sql的表,但后来发现这是一个不合理的类比。
在sql db中,同名字段可以在多个不同表中,且在不同表中具有不同的数据类型;然而,在es 同名字段在多个type中必须要有相同的定义,这和sql的表述不符合,而且容易造成误解;此外es中多type的存在会影响Lucene 扽文档压缩效率,基于上述原因es官方决定移除 mapping types 的概念。

当前每个index 都有一个mapping type,mapping type包括Meta-fileds和Fields(或properties) 两部分;meta-fields用来定义一个文档相关的元数据(每个索引都内置这些字段),包括_index,_type,_id, _source 等,properties可以理解为除了meta-fileds外的一系列字段,properties 可以自定义,但是该字段不能和已有的meta-fileds冲突(自定义meta字段会报错)。

2 mapping 数据类型

一个文档中支持多个不同数据类型,具体如下:

  • core datatypes
    string: text and keyword
    Numeric: long, integer, short, byte, double, float, half_float, scaled_float
    Date: date
    Date nanoseconds: date_nanos
    Boolean: boolean
    Binary: binary
    Range: integer_range, float_range, long_range, double_range, date_range
  • complex datatypes
    Object: object for single JSON objects
    Nested: nested for arrays of JSON objects
  • geo datatypes
    Geo-point: geo_point for lat/lon points
    Geo-shape: geo_shape for complex shapes like polygons
  • specialised datatypes
    IP, Completion datatype, Token count, mapper-murmur3, mapper-annotated-text, Percolator, Join, Alias, Rank feature, Rank features, Dense vector, Sparse vector, Search-as-you-type
  • arrays
    数组字段不要去具体类型,但是数组中的值必须要有相同的数据类型
  • multi-fields
    当把一个字段用于多种不同的方式,从而达到不同的目的的时候,该方法就非常有用;例如字符串类型的字段被设置为text用于全文检索,设置为keyword的时候用于排序、聚合。
    个人理解如下:
    PUT example/_doc/1
    {
      "addr":{
        "street":"001",
        "mail":11132
      },
      "name":"xiaoming is boy"
    }
    得到name的mapping如下,包括text和keyword类型,可以直接通过name字段就行全文检索,通过name.keyword进行排序聚合等功能。
          "name" : {
            "type" : "text",
            "fields" : {
              "keyword" : {
                "type" : "keyword",
                "ignore_above" : 256
              }
            }
          }
    

3 mapping 元字段

每个文档都有一些与之相关的元字段,例如 _index, mapping _type, and _id 等常见的meta-fields。
文档身份识别相关的元字段 :_index, _type, _id
文档资源相关的元字段:_source, _size
索引相关的元字段:_field_names, _ignored
路由相关的元字段: _routing
其它元字段: _meta

4 mapping 参数

mapping 参数用于对部分或者全部字段进行限制,使文档能按照要求写入;7.2版本包括如下常见参数:
7.2/mapping-params
analyzer
normalizer
boost
coerce
copy_to
doc_values
dynamic
enabled : 只能用于最上层mapping和object 字段, 设置false后该字段将不可搜索,但是会保存在_source中。
fielddata
eager_global_ordinals
format
ignore_above
ignore_malformed
index_options
index_phrases
index_prefixes
index
fields
norms
null_value
position_increment_gap
properties
search_analyzer
similarity
store
term_vector

5 动态 mapping

es 最重要的一个特征之一:它可以让我们摆脱我们自己的方式,尽快地探索数据。当写入一个数据的文档的时候,我们既不需要提前创建一个索引,又不需要定义一个mapping type,还不需要定义多个字段;我们只需要写入文档到指定的index和type中,es会自动给我创建各种字段, 用es官方表达即:各字段会自动焕发生机(fields will spring to life automatically)。

es 中称 自动检测和添加新字段 为动态mapping。在实际中,我们也可以通过业务需要自定义动态mapping规则,具体包括如下两种方式:

  • Dynamic field mappings
    可以设置规则用于管理动态字段检测
  • Dynamic templates
    也可以自定义规则,为动态添加的字段配置mapping

7.2/dynamic-mapping

6 常见 mapping 异常处理

  1. keyword 类型字段超出某个值
    keyword类型字段,其字符串长度又最大限制,因此超过长度会导致报错,此时将字段设置为text, 或者设置"ignore_above":1000 (1000可根据需要更改实际解析的数量)
  2. boolean 类型字段报错 not of boolean type
    解决方法: 设置"enabled":false 或"type": “keyword”
  3. text 或keyword 类型解析出错
    这类解析出错,一般优先设置"enabled":false,确保数据能正确写入
  4. long 解析出错
    假如 mapping中num为long类型,但是写入了字符串,则会报错,错误内容如下:
     "type": "mapper_parsing_exception",
     "reason": "failed to parse field [num] of type [long] in document with id '1'",
     "caused_by": {
       "type": "illegal_argument_exception",
       "reason": "For input string: \"number\""
     }
    
    解决方法:
    方法一 设置字段为keyword,
    方法二 设置 “ignore_malformed”: true ,该方法非自动忽略掉不符合要求的字段,导致该字段无法索引,但是会在 _source中,如下所示:在这里插入图片描述
  5. object mapping for [num] tried to parse field [num] as object, but found a concrete value
    当num为object类型时候,可以正常写入json数据,但此时如果写入非json数据则会报错,如写入222就就导致报错
    解决方法:设置"enabled":false
  6. Limit of total fields [1000] in index [xxx] has been exceeded
    es 中一个索引默认1000个字段,超过1000个字段会导致写入出错,出现该问题时需要在mapping的最顶层设置dynamic为false,从而关闭动态mapping。
    实际业务中,一般关闭动态mapping,并让用户给出常见字段的mapping类型,只对指定字段进行解析。
    当然也可以更改配置参数,增加最大field的数量,但是会导致写入效率很低的问题;实际业务中,如果字段超多,不仅会导致写入报错,还会严重影响索引的写入性能(如:从几十K的写入速度,降低到几百的写入速度),因此正常情况下不推荐增加最大field数量。
  7. json 解析异常处理方法
    异常json解析会导致解析失败,甚至导致pipeline stop,从而无法解析如何数据。
    报错:
    Exception in pipelineworker, the pipeline stopped processing new events, please check your filter configuration and restart Logstash
    或者
    Error parsing json {:source=>"main_log", :raw=>"xxx", :exception=>#<LogStash::Json::ParserError: Unrecognized token 'peekaboo': was expecting ('true', 'false' or 'null')
     at [Source: (byte[])"peekaboo 125.210.57.176 [23/Oct/2020:15:42:05 +0800] "GET /app/v1/user/ping HTTP/1.1" 200 47 "" "okhttp/4.8.1" 0.004 0.007"; line: 1, column: 10]>}
    解决方法:skip 掉不合规的json
        json {
         source => "message"
             remove_field => [ "message" ]
             skip_on_invalid_json => true
     }
    
  8. mapping 删除思路
    mapping 一旦创建了就不能删除,如果需要删除一个索引的mapping,则可以按照如下方式操作:
    创建新索引 ->新索引创建新mapping ->原索引导出数据到新索引 ->新索引创建原索引一致的别名 ->删除原索引

7 说明

参考文档:
7.2/mapping
参考环境:
本文使用的是 es7.2.1 版本

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

elk 笔记15--mapping 的相关文章

  • 如何将2个匹配查询加入到elasticsearch的查询中?

    我想查询以下数据user id is 1 and name is John 写一个常用的SQL很容易 select from t where user id 1 and name John 但对我来说进行elasticsearch的查询并不
  • C# 如何使用反射调用字段初始值设定项?

    假设我有这个 C 课程 public class MyClass int a int b new int 6 现在假设我使用反射发现了这个类 并且在查看字段时我发现其中一个是数组类型 即 b foreach FieldInfo fieldi
  • Sqoop mysql错误-通信链路故障

    尝试运行以下命令 sqoop import connect jdbc mysql 3306 home credit risk table bureau target dir home sqoop username root password
  • 将区间映射到更小的区间的算法

    我尝试搜索 但由于问题的性质 我无法找到满意的内容 我的问题如下 我试图将 0 到 2000 范围内的数字 尽管理想情况下上限是可调的 映射到 10 到 100 范围内的更小的区间 上限将映射 2000 gt 100 和下限也是如此 除此之
  • 如何编写Elasticsearch多个必须脚本查询?

    我想使用查询来比较多个字段 我有字段 1 到 4 我想搜索字段 1 大于字段 2 的数据 并且下面的查询工作正常 size 0 source field1 field2 field3 field4 sort query bool filte
  • C# Elasticsearch NEST 无法转换 lambda 表达式

    我遇到了与此处描述的完全相同的问题 但未得到解答 ElasticSearch NEST 搜索 https stackoverflow com questions 24615676 elasticsearch nest search I us
  • 如何在不更改设置的情况下不区分大小写排序

    我的索引名称是 data new 下面是插入索引的代码 test id 1 name A professor Bill Cage accounting id 2 name AB professor Gregg Payne engineeri
  • 将 ElasticSearch SearchResponse 对象转换为 JsonObject

    我想将elasticsearch搜索结果转换为Json对象 我还没有找到任何直接转换的正确方法 SearchResponse response client prepareSearch index setExplain true execu
  • 如何通过模板中的变量访问对象字段?

    我有一个嵌套循环 columns columns range dx dataList range c columns index dx c end end dataList是orm模型数组 和ID Title字段 那么columns is
  • 使用 Hibernate 映射 Map

    似乎在我看来 到处都有过时的版本 不再起作用 我的问题看起来很简单 我有一个 Java 类 它映射到 derby 数据库 我正在使用注释 并成功地在数据库中创建了所有其他表 但在这个特定的示例中 我只需要一个 Map 它不使用任何其他类 只
  • 我们可以同时使用拼音标记和同义词吗?

    我正在尝试同时启用语音分析器和同义词 这似乎不起作用 它们一起使用有错吗 在下面的实现中 我希望使用同义词转换搜索查询 然后使用语音分析器来检索结果 但我的同义词在这里完全被忽略了 如果我在创建索引时删除语音分析器 那么同义词就可以正常工作
  • 弹性搜索文档计数

    我正在运行 2 2 版本的 Elastic 搜索 我已经创建了索引并加载了示例文档 我发现其中有些问题 当我给予 GET index type count 我得到了正确的答案 count 9998 shards total 5 succes
  • 两个日期/时间字段之间的差异 - Lotus Notes

    我有三个可编辑的日期 时间字段 前两个是 field1 和 field2 样式 日历 时间控件 两者都显示时间 小时和分钟 例如 15 51 第三个字段也是 可编辑的 我想显示 field1 和 field2 之间的区别 例如 如果 fie
  • 从 node.js 创建对 AWS ES 实例的有效签名请求

    我试图找到一个示例 说明如何连接到 Node js 中的 AWS ES 实例 然后通过一个简单的请求访问 ES 集群 我正在尝试使用elasticsearch节点包 https www npmjs com package elasticse
  • Elasticsearch:根据类型对不同字段进行排序

    我的索引中有两种类型 Event and City 我正在尝试按日期将它们全部排序 但是 每种类型的日期字段名称都不同 为了Event该值是在updated at领域和City日期是在update at其嵌套对象之一中的字段city eve
  • Elasticsearch Nest 通配符查询(带空格)

    简洁版本 我想使用 Nest 编写一个弹性搜索查询来获取完整的索引项 ContentIndexables在我的例子中作为我的自定义类型 已被索引 该查询受 some string 术语查询的约束 即 String StartsWith 其中
  • Spark 有没有办法捕获执行器终止异常?

    在执行我的 Spark 程序期间 有时 其原因对我来说仍然是个谜 yarn 会杀死容器 执行器 并给出超出内存限制的消息 我的程序确实恢复了 但 Spark 通过生成一个新容器重新执行任务 但是 在我的程序中 任务还会在磁盘上创建一些中间文
  • ElasticSearch - 尝试在 Windows 上启动服务时出错

    昨天 我在 Windows Server 2012 R2 上完成了 ElasticSearch 的安装 并且能够正常启动 ElasticSearch 服务 今天 我安装了 Kibana 和 X Pack 但在尝试启动 ElasticSear
  • 从架构上来说,我应该如何用更易于管理的内容替换非常大的 switch 语句?

    EDIT 1 忘记添加嵌套属性曲线球 UPDATE 我选择了 mtazva 的答案 因为这是我的具体案例的首选解决方案 回想起来 我用一个非常具体的例子提出了一个一般性问题 我相信这最终让每个人 或者也许只是我 对问题到底是什么感到困惑 我
  • 聚合多个递归logstash

    我正在使用带有输入 jdbc 的 Logstash 并且希望通过聚合将一个对象嵌入到另一个对象中 如何使用添加递归 即在另一个对象中添加一个对象 这是一个例子 index my index type test id 1 version 1

随机推荐

  • ETL日志数据采集&商品数据采集

    01 结构化数据模型选择 理解 问题1 原生python中有没有数据库中的表类型 没有 问题2 我们一般会使用什么数据类型存储数据库中读取到的数据值 列表嵌套字典 记录数据和书写数据 非常方便 但是我们需要记住每一个键 字段 的含义 如果字
  • 基于OpenCV的气体泵扫描仪数字识别系统

    点击上方 小白学视觉 选择加 星标 或 置顶 重磅干货 第一时间送达 综述 2012年iOS应用商店中发布了一个名为FuelMate的Gas跟踪应用 小伙伴们可以使用该应用程序跟踪汽油行驶里程 以及有一些有趣的功能 例如Apple Watc
  • 基于蜜蜂优化算法优化的卷积神经网络(CNN)图像分类——附代码

    目录 摘要 1 蜜蜂优化算法 2 卷积神经网络 CNN 输入层 隐含层 输出层 3 本文Matlab代码 摘要 本文通过蜜蜂优化算法 优化了卷积神经网络 CNN 中的超参数 主要是网络的权重和偏差等关键参数 使CNN可以达到更加优秀的性能表
  • 整数四则运算 (10分)

    练习2 9 整数四则运算 10分 本题要求编写程序 计算2个正整数的和 差 积 商并输出 题目保证输入和输出全部在整型范围内 输入格式 输入在一行中给出2个正整数A和B 输出格式 在4行中按照格式 A 运算符 B 结果 顺序输出和 差 积
  • kali 火狐访问不了网页

    问题描述 因为一些原因使用kali的firefox来访问一些东西 但是突然发现火狐出问题了 访问不了网页之类的了 问题解决 1 网卡问题 使用命令ifconfig查看自己的网卡有没有问题 有问题按顺序执行 dhclient r eth0 d
  • Pycharm连接远程服务器(图解、简洁高效)

    这不是最好的方式 但绝对是你首次使用和日后使用最快 最有效的方式 本文示例为 pycharm2021专业版 1 前提 你安装的是pycharm专业版 必要 为了方便你的开发 你的远程服务器创建了多个虚拟环境来运行多个不同的项目 非必要 但推
  • 看完这篇文章你就可以告诉领导你精通Zookeeper了

    一 Zookeeper概述 1 概述 Zookeeper 是一个开源的为分布式框架提供协调服务的 Apache 项目 在分布式系统中 扮演注册中心的角色 Zookeeper数据模型的结构与Linux文件系统很像 整体上可以看做一棵树 从根节
  • mono 编译

    git clone https github com mono mono git cd mono git checkout 3b34235086446239d81347d1ee35644c0f2c3369
  • uni.switchTab跳转失败的原因

    检查url是否是pages里面的tabBar注册的页面 路径前面必须以 开头 uni switchTab url pages cate cate success fail console log 失败了吗 没有这个 就会走到fail
  • JS数组去重的12种方法

    一 利用ES6 Set去重 ES6中最常用 Set对象是ES6中新定义的数据结构 类似数组 它允许存储任何类型的唯一值 不管是原始值还是对象引用 Array from 方法就是将一个类数组对象或者可遍历对象转换成一个真正的数组 functi
  • Kubernetes基础2

    二进制部署kubenetes 1 环境介绍 角色 主机名 IP 备注 k8s master1 kubeadm master1 haostack com 172 16 62 201 k8s master2 kubeadm master2 ha
  • unity UGUI之Button按钮多种触发方式实现(有参无参函数)

    UGUI之Button按钮有多种触发方式 下面讲两种 第一种方法是在依靠属性面板绑定物体然后找到物体脚本上的方法触发 第二种是用纯代码的方式是用onClick方法 第一种 首先建立一个button 之后看button属性 如图右下角 那里的
  • 【DL】第 4 章:目标检测和图像分割

    大家好 我是Sonhhxg 柒 希望你看完之后 能对你有所帮助 不足请指正 共同学习交流 个人主页 Sonhhxg 柒的博客 CSDN博客 欢迎各位 点赞 收藏 留言 系列专栏 机器学习 ML 自然语言处理 NLP 深度学习 DL fore
  • 【HBZ分享】Redis的缓存雪崩+穿透+击穿如何解决

    缓存雪崩 现象 大量热点key设置了相同过期时间 导致同时过期 或 Redis宕机 使请求瞬间大量打到DB上 解决方案 1 搭建高可用集群环境 防止某台Redis服务宕机 2 存数据的过期时间设置随机数 防止同一时间大量数据过期 3 设置k
  • cmd命令查询硬盘序列号,磁盘ID,MAC地址

    查询单位计算机基础信息 需要查询 硬盘序列号 磁盘ID MAC地址等计算机相关信息 不需要专业的软件如AIDA 用cmd命令行就可以实现这些信息的查询 之前就经常把硬盘序列号和磁盘ID搞混乱 win r 输入cmd 打开cmd命令 1 硬盘
  • ABAP 访问REST服务设置Auth2的Token

    DATA json ser TYPE REF TO cl trex json serializer json des TYPE REF TO cl trex json deserializer DATA lv url TYPE string
  • Latex 希腊字母大写

    大写 小写 LaTeX 大写 大写 LaTeX A A quad alpha A A alpha N
  • 程序访问的局部性原理

    程序访问的局部性原理 程序访问的局部性原理包括时间局部性和空间局部性 时间局部性是指在最近的未来要用到的信息 很可能是现在正在使用的信息 因为程序中存在循环 空间局部性是指在最近的未来要用到的信息 很可能与现在正在使用的信息在存储空间上是连
  • OD华为机试 32

    组成最大数 描述 小组中每位都有一张卡片 卡片上是6位内的正整数 将卡片连起来可以组成多种数字 计算组成的最大数字 输入描述 号分割的多个正整数字符串 不需要考虑非数字异常情况 小组最多25个人 输出描述 最大的数字字符串 示例一 输入 2
  • elk 笔记15--mapping

    elk 笔记15 mapping 1 mapping 简介 1 1 什么是mapping 1 2 为何移除多type 2 mapping 数据类型 3 mapping 元字段 4 mapping 参数 5 动态 mapping 6 常见 m