7.4.3-elasticsearch索引字段类型参数

2023-11-06

fielddata
大多数字段默认情况下都会建立索引方便查询,但是针对排序,聚合以及脚本访问字段值则需要另外的访问方式;
查询操作需要回答’哪些doc包含查询的词’,而排序和聚合则需要回答’doc中该字段的值是多少’;
大多数字段可以通过文档索引在磁盘上默认设置的doc_values进行数据访问,但是text字段不支持doc_values;
text取而代之的是使用查询时内存数据结构–fielddata,该结构在将字段用于聚合、排序或脚本中时构建;其通过从磁盘中读取每个段的整个反向索引,然后反转分词与文档的关系并将结果存储在jvm堆内存当中;

fielddata在text字段中默认未启用
因为fielddata会消耗大量的堆内存,特别是当加载大量的text字段时;fielddata一旦加载到堆中,在segment的生命周期之内都将一致保持在堆中,另外加载fielddata也是一个比较耗时的过程,这可能会导致用户遇到延迟,故而默认情况下禁用fielddata参数;
若尝试针对text字段进行排序、聚合或脚本操作时,将会抛出以下异常:

PUT param_fielddata_index
{
  "mappings": {
    "properties": {
      "field_data":{
        "type": "text"
      }
    }
  }
}

PUT param_fielddata_index/_doc/1
{
  "field_data":"aaa"
}

PUT param_fielddata_index/_doc/2
{
  "field_data":"bbb"
}

PUT param_fielddata_index/_doc/3
{
  "field_data":"ccc"
}

GET param_fielddata_index/_search
{
  "sort": [
    {
      "field_data": {
        "order": "desc"
      }
    }
  ]
}

可能会出现的异常信息:
Text fields are not optimised for operations that require per-document field data like aggregations and sorting, so these operations are disabled by default. Please use a keyword field instead. Alternatively, set fielddata=true on [field_data] in order to load field data by uninverting the inverted index. Note that this can use significant memory.

在考虑配置fielddata参数之前需要考虑这样做是否值得,在一般的text字段问题处理中是针对text字段额外映射一个keyword字段,使用keyword字段来进行排序、聚合和脚本操作;

PUT param_fielddata_index/_mapping
{
  "properties":{
    "field_data":{
      "type":"text",
      "fields":{
        "keyword":{
          "type":"keyword"
        }
      }
    }
  }
}

若考虑再三确实需要配置fielddata,参考以下:

PUT param_fielddata_index
{
  "mappings": {
    "properties": {
      "field_data":{
        "type": "text",
        "fielddata": true
      }
    }
  }
}

fielddata过滤可减少加载到内存中的分词量,从而减少内存的使用;
频率过滤允许加载分词相关文档频率介于最小和最大值之间,数值可以使用精确值或者百分比表示,频率是按segment计算的,百分比是基于具有该字段值的文档数量,而不是segment中的所有文档;
通过使用min_segment_size指定该segment包含的最小文档数就可以排除掉小的segment:

PUT param_fielddata_index
{
  "mappings": {
    "properties": {
      "field_data":{
        "type": "text",
        "fielddata": true,
        "fielddata_frequency_filter": {
          "min":0.001,
          "max":0.1,
          "min_segment_size":500
        }
      }
    }
  }
}

format
用于指定字段类型为date的格式化形式

ignore_above
用于指定类型(字符串或数组)长度超过参数指定大小时不会建立索引或存储,该参数可以通过api进行修改,修改后的只会对新增的生效,之前已生成的文档不会生效(除非进行更新);

//指定message字段为keyword类型且其ignore_above长度限制20个字符
PUT param_ignore_above_index
{
  "mappings": {
    "properties": {
      "message":{
        "type": "keyword",
        "ignore_above": 20
      }
    }
  }
}
//文档会建立索引,message字符少于20同样会建立索引
PUT /param_ignore_above_index/_doc/1
{
  "message":"Syntax error"
}
//文档会建立索引,但是message字段不会建立索引
PUT param_ignore_above_index/_doc/2
{
  "message":"Syntax error with some long stacktrace"
}
//可正常查询两条记录,但是聚合查询中只会有一条命中
GET param_ignore_above_index/_search
{
  "aggs": {
    "message": {
      "terms": {
        "field": "message",
        "size": 10
      }
    }
  }
}

ignore_malformed
默认情况下尝试将错误的数据类型索引到字段中会引发异常,整个文档也将无法建立索引; 若将ignore_malformed参数置为true,则可忽略类型不匹配造成的异常,不匹配的字段不会建立索引,其他的字段会被正常处理;

PUT param_ignore_malformed_index
{
  "mappings": {
    "properties": {
      "age":{
        "type": "integer",
        "ignore_malformed": true
      },
      "level":{
        "type": "integer"
      }
    }
  }
}
//正常创建,age字段不会建立索引
PUT param_ignore_malformed_index/_doc/1
{
  "text":"test ignore_malformed",
  "age":"foo"
}
//创建异常
PUT param_ignore_malformed_index/_doc/2
{
  "text":"test ignore_malformed",
  "level":"foo"
}
//标记ignore_malformed的字段因为不建立索引,故而查询也是不被允许的
//异常信息:number_format_exception
GET param_ignore_malformed_index/_search
{
  "query": {
    "term": {
      "age": {
        "value": "foo"
      }
    }
  }
}

ignore_malformed参数可以在以下类型字段上配置

类型	相关类型值
numeric	long,integer,short,byte,double,float,half_float,scaled_float
date	date,date_nanos
geo	geo_point,geo_shape
ip	IPv4,IPv6

索引级别的参数设置
可以在索引上设置index.mapping.ignore_malformed参数,在全局上忽略类型不匹配的字段,但是若在具体字段上设置了ignore_malformed参数,则会重载全局设置(以字段设置为准);

//全局配置ignore_malformed参数,若字段明确指定该参数则以字段上的配置为准
PUT param_global_ignore_malformed_index
{
  "settings": {
    "index.mapping.ignore_malformed":true
  },
  "mappings": {
    "properties": {
      "age":{
        "type": "byte"
      },
      "level":{
        "type": "integer",
        "ignore_malformed": false
      }
    }
  }
}
//查看字段映射
GET param_global_ignore_malformed_index/_mapping

//正常,age字段ignore_malform参数使用全局定义
PUT param_global_ignore_malformed_index/_doc/1
{
  "text":"global ignore malformed param setting",
  "age":"foo"
}
//报错,level字段ignore_malform参数取字段上定义
PUT param_global_ignore_malformed_index/_doc/2
{
  "text":"global ignore malformed param setting",
  "level":"foo"
}

不可使用ignore_malformed参数的类型:
1)、nested类型;
2)、object类型;
3)、range类型;

//报错,Mapping definition for [limit] has unsupported parameters:  [ignore_malformed : true]
PUT param_ignore_malformed_limit_index
{
  "mappings": {
    "properties": {
      "limit":{
        "type": "object",
        "ignore_malformed": true
      }
    }
  }
}

index
index参数控制字段是否会建立索引,接受true/false值,默认为true,置为false情况下将无法进行查询

PUT param_index_set_index
{
  "mappings": {
    "properties": {
      "limit":{
        "type": "keyword",
        "index": false
      }
    }
  }
}

PUT /param_index_set_index/_doc/1
{
  "limit":"index param test"
}

//报错,Cannot search on field [limit] since it is not indexed.
GET param_index_set_index/_search
{
  "query": {
    "term": {
      "limit": {
        "value": "index param test"
      }
    }
  }
}

index_options
该参数用于控制将那些信息添加到倒排索引以进行搜索和高亮显示,index_options参数仅适用于text字段,应避免该参数与其他类型字段一起使用;
该参数只是以下参数:

类型	说明
docs	仅对文档编号建立索引,可以回答’这个词是否在这个字段当中存在’的问题
freqs	对文档编号和分词频率建立索引,分词频率用于计算分词相关度分数(分词重复次数越多,其分数将越高)
positions	默认值,对文档编号、分词频率及分词位置建立索引,可用于短语查询
offsets	对文档编号、分词频率、分词位置及分词起始位置(用于将分词字符串映射回原始字符串)建立索引,可用于加速高亮显示的查询

tips:词元位置与分词元始位置区别:文档在经过分词器切分之后产生多个词元,词元位置是相对其他词元而言的,而起始位置则是相对文档中所有词而言的;

//不支持phraseQuery
PUT param_index_options_index_1
{
  "mappings": {
    "properties": {
      "text":{
        "type": "text",
        "index_options": "docs"
      }
    }
  }
}

PUT param_index_options_index_1/_doc/1
{
  "text":"hello world"
}

GET param_index_options_index_1/_search
{
  "query": {
    "match": {
      "text": "hello world"
    }
  },
  "highlight": {
    "fields": {
      "text": {}
    }
  }
}


PUT param_index_options_index_2
{
  "mappings": {
    "properties": {
      "text":{
        "type": "text",
        "index_options": "freqs"
      }
    }
  }
}

PUT param_index_options_index_2/_doc/1
{
  "text":"hello world"
}

//报错,freqs不支持PhraseQuery,field:[text] was indexed without position data; cannot run PhraseQuery
GET param_index_options_index_2/_search
{
  "query": {
    "match_phrase": {
      "text": "hello world"
    }
  }
}

GET param_index_options_index_2/_search
{
  "query": {
    "match": {
      "text": "hello world"
    }
  }
}

PUT param_index_options_index_3
{
  "mappings": {
    "properties": {
      "text":{
        "type": "text",
        "index_options": "positions"
      }
    }
  }
}

PUT param_index_options_index_3/_doc/1
{
  "text":"hello world"
}

GET param_index_options_index_3/_search
{
  "query": {
    "match": {
      "text": "hello world"
    }
  },
  "highlight": {
    "fields": {
      "text": {}
    }
  }
}


PUT param_index_options_index_4
{
  "mappings": {
    "properties": {
      "text":{
        "type": "text",
        "index_options": "offsets"
      }
    }
  }
}

PUT param_index_options_index_4/_doc/1
{
  "text":"hello world"
}

GET param_index_options_index_4/_search
{
  "query": {
    "match": {
      "text": "hello world"
    }
  },
  "highlight": {
    "fields": {
      "text": {}
    }
  }
}

index_phrases
该参数可以将两个词元(term)组合成一个词组映射到单独字段中,接受true/false,默认为false,这可以使精确的短语查询更有效地运行(需要额外付出索引的代价);
另外这参数最好要在不删除停用词的情况下使用,因为包含停止词的短语将不会使用该组合字段并退而使用标准短语查询;

index_prefixes
index_prefixed参数可对词元进行前缀索引以提升词元前缀查询速度,可选以下参数:

类型	说明
min_chars	最小索引字符长度,必须大于0,默认为2(包含)
max_chars	最大索引字符长度,必须小于20,默认为5(包含)

PUT param_index_prefix_index
{
  "mappings": {
    "properties": {
      "text":{
        "type": "text",
        "index_prefixes":{
          "min_chars":2,
          "max_chars":10
        }
      }
    }
  }
}

PUT param_index_prefix_index/_doc/1
{
  "text":"Once the RestClient has been created, requests can be sent by calling either performRequest or performRequestAsync"
}

PUT param_index_prefix_index/_doc/2
{
  "text":"performRequest is synchronous and will block the calling thread and return the Response when the request is successful or throw an exception if it fails"
}

GET param_index_prefix_index/_search
{
  "query": {
    "prefix": {
      "text": {
        "value": "perform"
      }
    }
  }
}

//报错,当prefix的字符长度低于min_chars报null_pointer_exception
GET param_index_prefix_index/_search
{
  "query": {
    "prefix": {
      "text": {
        "value": "p"
      }
    }
  }
}

//当prefix的字符长度高于max_chars则无法查询出结果,返回结果为空
GET param_index_prefix_index/_search
{
  "query": {
    "prefix": {
      "text": {
        "value": "performRequest"
      }
    }
  }
}

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

ELK

elasticsearch

7.4.3-elasticsearch索引字段类型参数的相关文章

在 ElasticSearch 7+ 中，如何搜索所有文本字段？

我想在 Elasticsearch 7 3 中存储的文档中搜索单词我希望在以前版本的 Elasticsearch 上运行的一个示例是 query bool must match all oliver must not should fro
为什么我在elasticsearch中需要“store”：“yes”？

我真的不明白为什么核心类型链接 http www elasticsearch org guide reference mapping core types 它在属性描述中说例如对于数字 store 设置为 yes 将实际字段存储在索引中
从中间部分匹配完成建议elasticsearch

我有一个名为搜索建议具有以下 search suggest type completion analyzer simple payloads true preserve separators false preserve position
ElasticSearch 多滚动 Java API

我想从索引中获取所有数据由于项目数量对于内存来说太大我使用滚动很好的功能 client prepareSearch index setTypes myType setSearchType SearchType SCAN setScro
全文搜索 DynamoDB

以下情况我正在为我的客户将元素存储在 DyanmoDb 中 HashKey 是元素 ID Range Key 是客户 ID 除了这些字段之外我还存储一个字符串数组 gt 标签例如 Pets House 和多行文本我想在我的应用程序中
如何使用 django-haystack 和 elasticsearch 后端进行模糊搜索？

看起来好像elasticsearch支持模糊查询 http www elasticsearch org guide reference query dsl fuzzy query http www elasticsearch org gui
ElasticSearch 定义自定义映射与默认“_doc”映射冲突

尝试创建自定义映射类型时会发生此问题为第一个插入弹性创建自定义映射后想要创建 doc映射类型和冲突就发生在这里第一步我创建一个映射 mappings properties field1 type keyword field2 type
Elasticsearch 单个字段的多个分析器

我使用严格的预定义映射将不同类型的文档存储在单个索引中它们都有一些字段例如 body 但我希望在索引时对它们进行稍微不同的分析例如对特定文档使用不同的标记过滤器并在搜索时以相同的方式处理据我所知分析器不能按文档指定我还考虑使
在 ElasticSearch API 应用程序中找不到 NodeBuilder

我正在尝试实现 Elasticsearch API 我的系统接受 nodeBuilder 时出现错误这是代码 import org elasticsearch action index IndexResponse import org e
无法使用docker在Apple Mac芯片M1上启动elasticsearch

在发布这个问题之前我浏览了许多链接例如 Kibana 无法在 Mac M1 上使用 docker 连接到 ElasticSearch https stackoverflow com questions 73160632 kibana c
如何修复从 React 对 Elasticsearch 进行 API 调用时的“混合内容：”错误

我正在使用 firebase 的 elasticsearch 的 bitnami 版本我发现它只能连接到http并不是https当我使用邮递员尝试时我的create react app已部署到 firebase 我得到Mixed Con
search_after 在弹性搜索中如何工作？

我一直在尝试在我们的应用程序中使用 Elasticsearch 但分页限制为 10k 对我们来说实际上是一个问题并且由于必须超时问题滚动 API 也不是推荐的选择我发现 Elasticsearch 有一个叫做 search after
从 node.js 创建对 AWS ES 实例的有效签名请求

我试图找到一个示例说明如何连接到 Node js 中的 AWS ES 实例然后通过一个简单的请求访问 ES 集群我正在尝试使用elasticsearch节点包 https www npmjs com package elasticse
如何增加vm.max_map_count？

我正在尝试在 Ubuntu EC2 计算机 t2 medium 中运行弹性搜索但我收到消息最大虚拟内存区域 vm max map count 65530 太低至少增加到 262144 我怎样才能增加vm max map count v
Elasticsearch Nest 通配符查询（带空格）

简洁版本我想使用 Nest 编写一个弹性搜索查询来获取完整的索引项 ContentIndexables在我的例子中作为我的自定义类型已被索引该查询受 some string 术语查询的约束即 String StartsWith 其中
在 Elasticsearch Java API 中使用 slop 维护匹配短语查询的序列顺序

我正在尝试执行一个查询该查询应该与短语查询类似只是连续标记内可能存在间隙例子 Document a b c d Search a c gt gt This should return the document Search c a g
我可以在 ids 过滤器或一般查询子句中指定的值数量的最大限制？

在elasticsearch中指定可以执行匹配的值数量的最大限制是多少我在某处读到它是 1024 但也是可配置的真的吗它如何影响性能 curl XPOST localhost 9200 my index search pretty d
如何在 Spring Boot 上针对 Openshift（基于云的 Kubernetes）部署的 Elasticsearch 实施带有自签名证书的 SSL

有谁知道如何在 Spring Boot 应用程序上使用 SSL 与以 https 形式部署在 Openshift 上的 ElasticSearch 连接我的 Spring Boot 应用程序中有一个 config java 如下所示 Co
在 ElasticSearch 中，我应该对单独但相关的实体使用多个索引吗？

添加索引的开销有详细记录但我无法找到有关何时针对要建立索引的各种文档类型使用多个索引的良好信息这是一个说明问题的通用示例假设我们有以下实体产品名称产品 ID 产品类别 ID 商店列表产品类别名称 ProductCategor
如何在elasticsearch索引中一起使用ngram和edge ngram tokenizer？

我有一个包含 3 个文档的索引 firstname Anne lastname Borg firstname Leanne lastname Ray firstname Anne middlename M

随机推荐

DOS下的winrar批处理解压命令合集大全!

C Program Files WinRAR gt rar RAR 3 40 版权 C 1993 2004 Alexander Roshal 8 九月 2004 已注册给 Virtual 用法 rar lt 命令 gt lt 开关 1 gt
简单的光线追踪--GPU高性能编程CUDA实战第六章

光线跟踪Ray Traceing是本章的一个例子用来讲什么是常量内存 Constant memory 之前的实验给分配的内存都是在全局内存里线程读取数据的时候是每个线程分别进行一次读取操作也就是说运行时间都用在了读取上这就大大的降低
人人学 Python，为什么拿高薪的那么少？

Python语言相关的岗位非常多有运维有自动化测试有后端开发有机器学习人工智能 python无所不能市场上需要的Python人员非常多而且按照现在的势头以后会需要更多的Python开发人员理由是以后每个人公司都会有自己的网
机器学习20：基于ResNet50和FaceNet实现人脸识别

说明这是优达学城的一个机器学习作业项目我觉得还比较典型综合了几个常见的深度学习技术值得分享一下实现包括数据增广迁移学习网络模型构建训练评估方法等这里只是做了一个迁移学习的实现重在实践过程其原理没做分析缺点由于训练
AI赋能：华院计算智能焦化方案入选2023通用人工智能创新应用案例

目前十四五国家信息化规划已提出了构建产业数字化转型发展体系的重大任务而企业数智化转型是其中不可缺少的一环中国信通院高度关注企业数智化转型中遇到的痛点启动了2023年通用人工智能创新应用案例征集根据申报项目的产品能力技术创
Cocos2d-X中的节点类CCNode

有过iOS开发经验的人应该对UIView不陌生在Cocos2d X中也有属于它的 UIIView CCNode 接下来我们在比较中了解2d X中的CCNode 节点类CCNode是Cocos2d X中的主要类继承自CCObject UI
阿里云、华为云、百度云等比较

几个朋友的亲身经历也期望国内毛蟹厂家可以捉的更加好阿里云功能对LINUX支持很好有基本的小区防火墙 5个快照管理有自定义镜像管理价格最低700 配置 1U 512 可以退款吗可以使用情况非常好还有短信报警很稳定公
html实现旅游网站代码_HTML+CSS实现头部head和导航的制作--源代码
单机诛仙3服务器正在维护,【运营版】诛仙3单机版天界一键MSSQL端修复大量BUG+视频教程+GM工具...

游戏版本诛仙3单机天界一键MSSQL端经安全测试以下修改均可用 1 增加物品销售NPC 周一仙小环河阳飞天月老轩辕祖师清风明月交造化元神任务黑市商人礼品兑换使者河阳炼器师有大量物品销售 2 修改SecureCR
yarn遇到的问题啦，This may cause things to work incorrectly. Make sure to use the same version for both

yarn的时候出错 This may cause things to work incorrectly If you are using vue loader lt 10 0 or vueify re installing vue load
django下载csv文件笔记

下载小的csv文件这里将用一个生成小的CSV文件为例来把生成CSV文件的技术要点讲到位我们用Python内置的csv模块来处理csv文件并且使用HttpResponse来将csv文件返回回去示例代码如下 1 在templates目
LeetCode：189. 轮转数组（Java）

方法1 跳序轮转法带标记时间复杂度和空间复杂度均为O n 因为有些特殊情况会陷入循环比如这个例子我不知道怎么处理这种情况所以直接搞个标记数组falgs 来看看这个位置的数字是否被处理过方法二来改进这个陷入循环的问题 clas
Redis使用hmset利用相同key存数据时不完全覆盖问题

首先说一下这篇博文得目的昨天在使用redis时用到了hmset hmset简单说下是reids同时将多个键值对设置到哈希表中按照key唯一得规则相同key值进行赋值时肯定会对value值进行覆盖但hmset却有些不同之处接下来我做
TS复习-------TS中的泛型

目录概念初识泛型泛型类型泛型类泛型约束泛型工具类型 Partial Record ReturnType Pick Exclude 概念泛型 Generics 是指在定义函数接口或类的时候不预先指定具体的类型而在使用的时候
电商平台商品爬虫+django可视化分析

1 简介今天向大家介绍一个帮助往届学生完成的毕业设计项目电商平台商品爬虫 django可视化分析计算机毕业生设计课程设计需要帮助的可以找我 2 设计概要 21世纪是信息化时代随着信息技术和网络技术的发展信息化已经渗透到人们日常生
GinCMS 使用golang Gin框架xorm开发的小型内容管理系统

系统介绍服务器端使用GoLang 基于Gin框架 MySQL数据库用到的组件xorm 前端展示使用基于LayUI的layuicms 用到的第三方组件authtree treeTable GinCMS是我学习golang 使用Gin开
hdu 1210 Eddy's 洗牌问题

题目连接 http acm hdu edu cn showproblem php pid 1210 题目思路很简单只要保证1在第一个位置的时候就说明牌的顺序达到要求输出M就可以了代码 include
Unity3d——UI（血条制作）

血条 Health Bar 制作具体要求如下分别使用 IMGUI 和 UGUI 实现使用 UGUI 血条是游戏对象的一个子元素任何时候需要面对主摄像机分析两种实现的优缺点 IMGUI 效果图血条红色不是很明显为了显示IMGUI
python包安装相关-conda，pip-虚拟环境

运行python的时候一定要注意当前运行所在环境位置环境位置不同包含的依赖包是不同的然后不注意的话就是出很多莫名其妙的问题比如一个pycharm里面不能运行的东西命令行又能运行啥的 PIP使用的一些点 pip安装包的时候加上后缀
7.4.3-elasticsearch索引字段类型参数

fielddata 大多数字段默认情况下都会建立索引方便查询但是针对排序聚合以及脚本访问字段值则需要另外的访问方式查询操作需要回答哪些doc包含查询的词而排序和聚合则需要回答 doc中该字段的值是多少大多数字段可以通过文档索引在

7.4.3-elasticsearch索引字段类型参数

7.4.3-elasticsearch索引字段类型参数 的相关文章

随机推荐

热门标签

7.4.3-elasticsearch索引字段类型参数的相关文章