ES的DSL语句

2023-11-06

1.相关概念

mysql与elasticsearch的概念对比：

MySQL	Elasticsearch	说明
Table	Index	索引(index)，就是文档的集合，类似数据库的表(table)
Row	Document	文档（Document），就是一条条的数据，类似数据库中的行（Row），文档都是JSON格式
Column	Field	字段（Field），就是JSON文档中的字段，类似数据库中的列（Column）
Schema	Mapping	Mapping（映射）是索引中文档的约束，例如字段类型约束。类似数据库的表结构（Schema）
SQL	DSL	DSL是elasticsearch提供的JSON风格的请求语句，用来操作elasticsearch，实现CRUD

Mysql：擅长事务类型操作，可以确保数据的安全和一致性
Elasticsearch：擅长海量数据的搜索、分析、计算

因此在企业中，往往是两者结合使用：

对安全性要求较高的写操作，使用mysql实现
对查询性能要求较高的搜索需求，使用elasticsearch实现
两者再基于某种方式，实现数据的同步，保证一致性

2.索引操作

2.1 mapping映射属性

mapping是对索引库中文档的约束，常见的mapping属性包括：

type：字段数据类型，常见的简单类型有：
- 字符串：text（可分词的文本）、keyword（精确值，例如：品牌、国家、ip地址）
- 数值：long、integer、short、byte、double、float、
- 布尔：boolean
- 日期：date
- 对象：object
index：参与搜索则需要创建索引，默认为true
analyzer：使用哪种分词器
properties：该字段的子字段

2.2 创建索引库

2.3 查询、删除索引库

GET /example

DELETE /example

2.4 修改索引库

3.文档操作

3.1 新增文档

3.2 查询、删除文档

GET /example/_doc/ 1

DELETE /example/_doc/ 1

3.3 修改文档

3.4 查询文档

3.4.1 基本语法

3.4.2 查询所有

查询出所有数据，一般测试用。例如：match_all
size控制每页展示数量，默认为20，size与query平级

3.4.3 全文检索查询

利用分词器对用户输入内容分词，然后去倒排索引库中匹配。例如：
- match：根据一个字段查询
- multi_match：根据多个字段查询，参与查询字段越多，查询性能越差
- 搜索字段多，对查询性能影响大，因此建议采用copy_to，然后单字段查询的方式。

3.4.4 精确查询

根据精确词条值查找数据，一般是查找keyword、数值、日期、boolean等类型字段。例如：
- range：根据值的范围查询
- term：根据词条精确值查询

3.4.5 地理（geo）查询

根据经纬度查询。例如：
- geo_distance：附近查询，查询到指定中心点小于某个距离值的所有文档
- geo_bounding_box：矩形范围查询，指定矩形的左上、右下两个点的坐标

3.4.6 复合（compound）查询

复合查询可以将上述各种查询条件组合起来，合并查询条件。例如：
- bool：布尔查询，利用逻辑关系组合多个其它的查询，实现复杂搜索
- function_score：算分函数查询，可以控制文档相关性算分，控制文档排名

（1）算分函数查询

语法说明：

function score的运行流程如下：

1）根据原始条件查询搜索文档，并且计算相关性算分，称为原始算分（query score）
2）根据过滤条件，过滤文档
3）符合过滤条件的文档，基于算分函数运算，得到函数算分（function score）
4）将原始算分（query score）和函数算分（function score）基于运算模式做运算，得到最终结果，作为相关性算分。

（2）布尔查询

布尔查询是一个或多个查询子句的组合，每一个子句就是一个子查询。子查询的组合方式有：

must：必须匹配每个子查询，类似“与”
should：选择性匹配子查询，类似“或”
must_not：必须不匹配，不参与算分，类似“非”
filter：必须匹配，不参与算分

需要注意的是，搜索时，参与打分的字段越多，查询的性能也越差。因此这种多条件查询时，建议这样做：

搜索框的关键字搜索，是全文检索查询，使用must查询，参与算分
其它过滤条件，采用filter查询。不参与算分

3.5 搜索结果处理

查询之后对结果进行处理，和 “query” 是并列关系

3.5.1 排序

普通排序：

地理坐标排序：

3.5.2 分页

深度分页问题:

当查询分页深度较大时，汇总数据过多，对内存和CPU会产生非常大的压力，因此elasticsearch会禁止from+ size 超过10000的请求。
针对深度分页，ES提供了两种解决方案：
- search after：分页时需要排序，原理是从上一次的排序值开始，查询下一页数据。官方推荐使用的方式。
- scroll：原理将排序后的文档id形成快照，保存在内存。官方已经不推荐使用。

分页查询的常见实现方案以及优缺点：

from + size：
- 优点：支持随机翻页
- 缺点：深度分页问题，默认查询上限（from + size）是10000
- 场景：百度、京东、谷歌、淘宝这样的随机翻页搜索
after search：
- 优点：没有查询上限（单次查询的size不超过10000）
- 缺点：只能向后逐页查询，不支持随机翻页
- 场景：没有随机翻页需求的搜索，例如手机向下滚动翻页
scroll：
- 优点：没有查询上限（单次查询的size不超过10000）
- 缺点：会有额外内存消耗，并且搜索结果是非实时的
- 场景：海量数据的获取和迁移。从ES7.1开始不推荐，建议用 after search方案。

3.5.3 高亮

注意：

高亮是对关键字高亮，因此搜索条件必须带有关键字，而不能是范围这样的查询。
默认情况下，高亮的字段，必须与搜索指定的字段一致，否则无法高亮
如果要对非搜索字段高亮，则需要添加一个属性：required_field_match=false，例如对copy_to了的字段

4. 聚合

聚合是对文档数据的统计、分析、计算

聚合常见的有三类：

桶（Bucket）聚合：用来对文档做分组
- TermAggregation：按照文档字段值分组，例如按照品牌值分组、按照国家分组
- Date Histogram：按照日期阶梯分组，例如一周为一组，或者一月为一组
度量（Metric）聚合：用以计算一些值，比如：最大值、最小值、平均值等
- Avg：求平均值
- Max：求最大值
- Min：求最小值
- Stats：同时求max、min、avg、sum等
管道（pipeline）聚合：其它聚合的结果为基础做聚合

参与聚合的字段类型必须是： keyword 、数值、日期、布尔

4.1 bucket 聚合

aggs与query，size，bool平级

默认情况下，Bucket聚合会统计Bucket内的文档数量，并且按照count降序排序，可以自定义。

添加query条件，可以对限定条件的结果聚合。

结果：

4.2 Metric聚合

还可以给聚合结果做个排序，方式同上。

聚合类型可以指定为某一个，也可以直接写stats，min max avg count 都会显示

5. 设计索引库数据结构范例

#查询索引库
GET /hmall
#删除索引库
DELETE /hmall
# 查一个值
GET /hmall/_search
{
  "size": 1
}
# 创建索引库
PUT /hmall
{
   "settings":{
  "analysis":{
   "analyzer":{
    "my_analyzer":{
     "tokenizer":"ik_max_word",
      "filter":"py"
    },
    "completion_analyzer":{
      "tokenizer":"keyword",
      "filter":"py"
    }
   },
"filter":{
  "py":{
    "type":"pinyin",
    "keep_full_pinyin":false,
    "keep_joined_full_pinyin":true,
    "keep_original":true,
    "limit_first_letter_length":16,
    "remove_duplicated_term":true,
    "none_chinese_pinyin_tokenize":false
    }
   }
  }
 },
  "mappings": {
    "properties": {
      "category":{
        "type": "text",
        "index": true,
        "copy_to": "all"
      },
      "brand":{
        "type": "text",
        "index": true,
        "copy_to": "all"
      },
      "price":{
        "type": "long",
        "index": true
      },
      "sold":{
        "type": "integer",
        "index": true
      },
      "id":{
        "type": "long",
        "index": true
      },
      "name":{
        "type": "text",
        "index": true,
        "copy_to": "all"
      },
      "commentCount":{
        "type": "integer",
        "index": true
      },
      "image":{
        "type": "keyword",
        "index": false
      },
      "all":{
        "type": "text",
        "analyzer": "my_analyzer",
        "search_analyzer": "ik_max_word"
      },
      "suggestion":{
        "type":"completion",
        "analyzer": "completion_analyzer",
        "search_analyzer": "keyword"
      }
    }
  }
}

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

elasticsearch

搜索引擎

大数据

ES的DSL语句的相关文章

Nest Elastic - 构建动态嵌套查询

我必须使用 Nest 查询嵌套对象但是查询是以动态方式构建的下面的代码演示了以静态方式对嵌套书籍进行查询 QueryContainer qry qry new QueryStringQuery DefaultField name D
无法使用 java 8 在 Windows 10 上安装 elasticsearch 5.1.1

我正在尝试在安装了 java 8 111 的 Windows 10 笔记本电脑上安装 ElasticSearch 5 1 1 当我尝试安装 Elastic search 时触发错误 C Users 用户名 Downloads elastic
Elasticsearch - 使用“标签”索引来发现给定字符串中的所有标签

我有一个 elasticsearch v2 x 集群其标签索引包含大约 5000 个标签 tagName tagID 给定一个字符串是否可以查询标签索引以获取在该字符串中找到的所有标签我不仅想要精确匹配而且还希望能够控制模糊匹配
NEST 1.0：请参阅 Fiddler 上的请求

我刚刚更新到 NEST 1 0 我在远程服务器不是本地主机上有 Elastic Search 通常我在使用 Fiddler 发送和接收请求时没有任何问题更新后 bammm 没有检测到任何请求但我的应用程序发出这些请求没有任何问题你
Elasticsearch：根据类型对不同字段进行排序

我的索引中有两种类型 Event and City 我正在尝试按日期将它们全部排序但是每种类型的日期字段名称都不同为了Event该值是在updated at领域和City日期是在update at其嵌套对象之一中的字段city eve
在 Elasticsearch Java API 中使用 slop 维护匹配短语查询的序列顺序

我正在尝试执行一个查询该查询应该与短语查询类似只是连续标记内可能存在间隙例子 Document a b c d Search a c gt gt This should return the document Search c a g
设置 verify_certs=False 但 elasticsearch.Elasticsearch 因证书验证失败而引发 SSL 错误

self host KibanaProxy 自我端口 443 self user 测试 self password 测试我需要禁止证书验证使用选项时它与curl一起使用 k在命令行上但是在使用 Elasticsearch pytho
AWS ElasticSearch Service - 从 CF 模板设置加密选项

我正在创建一个云形成模板来在AWS中配置elasticsearch服务域我想将加密下的此属性设置为 true 域的所有流量都需要 HTTPS 但我无法在 AWS 文档中找到执行此操作的方法用于设置加密属性的其他选项例如启用静态数据加
在“spring-data-elasticsearch”4.0.4.RELEASE中，如何将SearchHits转换为Page？

In spring data elasticsearch4 0 4 发布 ElasticsearchRestTemplate s queryForPage 方法已弃用需要使用search 相反它返回SearchHits代替Page 那么
Facet从elasticsearch中的对象获取所有键

假设我有以下文档 title Some Title options key5 1 key3 0 key1 1 title Some Title options key2 0 key3 0 key5 1 我想从中获取所有钥匙options使用
使用文件的 AWS Elasticsearch 同义词

我正在尝试使用文件将同义词添加到弹性搜索如本链接所示但它给了我以下错误https www elastic co guide en elasticsearch reference 5 2 analysis synonym tokenfil
如何在 Spring Boot 上针对 Openshift（基于云的 Kubernetes）部署的 Elasticsearch 实施带有自签名证书的 SSL

有谁知道如何在 Spring Boot 应用程序上使用 SSL 与以 https 形式部署在 Openshift 上的 ElasticSearch 连接我的 Spring Boot 应用程序中有一个 config java 如下所示 Co
当我使用完成建议器时，如何获得没有重复的独特建议？

我在我的环境中使用弹性 5 1 1 我在字段名称上选择了完成建议器post hashtags带有一个字符串数组来提供建议我收到前缀 inv 的响应如下 Req POST hashtag search pretty filter path
如何将停用词添加到 ElasticSearch 中的默认列表

我想在默认值中添加更多单词 english 停止例如 inc incorporated ltd 和 limited 我怎样才能实现这一目标我当前创建索引的代码如下谢谢 PUT my index settings analysis fi
在elasticsearch中存储聊天消息的最佳方式

我们目前正在实施一项即时通讯系统在我们的平台上我们需要为我们的用户提供聊天记录并能够显示用户最近进行的 5 次对话像 Facebook 上的预览一样事实上我们必须考虑如何才能存储所有这些数据我们正在使用弹性搜索我们认为这可能是存储
如何使用 monolog ElasticSearchHandler 登录 Laravel 应用程序

Monolog 包含弹性搜索处理程序和格式化程序但它作为自定义通道对 Laravel 的实现并不像 Laravel 文档网站上描述的那么简单以下是如何执行此操作的简要分步说明为您的弹性搜索日志记录创建一个配置文件 config ela
ElasticSearch：从 Painless 脚本中的嵌套字段计算 arcDistance

我需要计算 Painless 脚本内的弧距但在这种情况下还没有找到访问 geo API 的方法即第一点作为参数传递给脚本这意味着我只获得原始值第二点是从嵌套文档中读取的这意味着我无法使用doc myGeoField value
ElasticSearch：设置 search_analyzer 时必须设置字段分析器

我读过有关 ES 的早期版本 type mapper parsing exception reason analyzer on field email must be set when search analyzer is set 这是当我
字段中的点不用于分解分析器的单词

我有以下索引文档映射简化 documents mappings document properties filename type string fields lower case sort type string
为什么这个 ElasticSearch 扫描和滚动不断返回相同的滚动 id？

所以首先我运行以下命令 curl s XGET http localhost 9200 my index search scroll 1m search type scan size 10 这会返回一个滚动 ID 然后我在第一个滚动请求中使

随机推荐

(四) 区块链数据结构 – 脚本

脚本是交易数据中的核心部分可用于锁定输出和解锁输入当向某人支付比特币时我们要为交易输入设置解锁脚本向别人证明我们有全力使用该输入同时我们还需要对交易输出添加锁定脚本确保只有接收者能解锁该输出脚本比特币系统专门设计了一套脚本语
games101——作业1

文章目录作业要求代码框架已有代码解读作业部分代码进阶部分代码编译结果作业要求在接下来的三次作业中我们将要求你去模拟一个基于 CPU 的光栅化渲染器的简化版本这次作业简要来说就是补全两个函数的内容一个是 get mod
数据结构实验9：并查集的使用

问题描述给定一个图图中有N个顶点 1 lt N lt 500 编号依次为1 2 3 N 部分顶点之间存在一条无向边请找出图中所有的极大连通子图其中极大联通子图可以描述为该子图中任意两个顶点之间都存在一条路径且加入任何一个不在该子
会议论文_干货

研鹿论文沿路有我写好论文就找我有很多同学对会议论文和期刊论文的界定并不是那么明确那么小鹿今天就为大家详细介绍一下吧 1 会议论文是针对某个学术会议投稿的且由学术会议的会务组决定是否录用期刊论文则是针对某学术期刊投稿的且是由期刊
python并发编程：协程asyncio、多线程threading、多进程multiprocessing

python并发编程协程多线程多进程 CPU密集型计算与IO密集型计算多线程多进程与协程的对比多线程创建多线程的方法多线程实现的生产者消费者爬虫 Lock解决线程安全问题使用线程池ThreadPoolExecutor 多
深度学习的局部响应归一化LRN(Local Response Normalization)理解

1 其中LRN就是局部响应归一化这个技术主要是深度学习训练时的一种提高准确度的技术方法其中caffe tensorflow等里面是很常见的方法其跟激活函数是有区别的 LRN一般是在激活池化后进行的一中处理方法 AlexNet将LeN
github 配置了公钥依旧提示git@github.com‘s password: Permission denied, please try again. 的解决办法

最近在给新电脑配置GitHub的ssh时一切都是按照流程进行github上文档的配置流程进行配置但是把公钥配置到github后在对仓库进行操作的时候依旧出现一下提示 git github com s password Permissi
c++链表实现多项式相加

文章目录链表实现多项式相加数据结构结构体定义链表多项式初始化 Insert 插入单个节点多项式的某一项 input 输入 sum 求和函数 print 输出函数测试代码测试结果链表实现多项式相加例如已知多项式 L 1
良心分享：基于Java+SpringBoot+Netty+WebSocket+Uniapp轻松搭建准实时聊天问答程序

一步一步教你搭建准实时聊天问答程序微信小程序 H5网页本文将详细介绍如何基于你自己的开源项目搭建一个准实时聊天问答程序包括微信小程序和H5网页版该项目服务端主要使用了Java Spring Boot Netty WebSocket等
傻瓜式鸿蒙3.0使用Google(无需电脑)

首先声明此文仅做交流学术及为出国用户提供微不足道的帮助用请遵守我国相关法律法规此文仅做交流学术及为出国用户提供微不足道的帮助用请遵守我国相关法律法规此文仅做交流学术及为出国用户提供微不足道的帮助用请遵守我国相关法律法规可以先给
jsp+mysql分页技巧：巧用limit 进行分页查询

发现问题今天检查web程序浏览彩信xxxx日志时突然发现该web程序中不能浏览了出错了如下 500 Servlet Exception java lang OutOfMemoryError Resin 3 0 6 built
文件描述符的阻塞与非阻塞设置

默认文件描述符是阻塞的即文件IO是阻塞的设置为非阻塞 int setNonBlock int fd int flags fcntl fd F GETFL if flags 1 return flags flags O NONBLOCK
Qt递归获取指定文件夹下的所有文件

方法一使用类QDirIterator来进行遍历简介大概是说适合于大目录遍历支持递归但是不支持排序 QDirIterator NoIteratorFlags默认值没有标志迭代器将返回path符合QDir Filters的条目 Q
Android图形显示系统6　图像缓冲区(下)

一概述我们再次回顾下上一篇文章 Android图形显示系统5 图像缓冲区上描述的图像缓冲区 Android 图形缓冲区由哪些部分组成 Android 的图形缓冲区由 Surface BufferQueue Layer Graphic
树14--二叉搜索树的第k个结点

树14 二叉搜索树的第k个结点 jz62 题目概述解析参考答案注意事项说明题目概述算法说明给定一棵二叉搜索树请找出其中的第k小的TreeNode结点测试用例输入 5 3 7 2 4 6 8 3 返回值 4 说明按节点数
JSP 页面传值方法总结

1 URL 链接后追加参数 a href next jsp paramA A paramB B URL 后面追加参数 a
【华为面试题】空间换时间

题目代码 function findCenterIndex nums 当数组只有一个元素时该元素即为中心位置 if nums length 1 return 0 初始化左侧乘积和右侧乘积 let leftProduct 1 let to
Unity笔记—7（Unity常用API整理之Transform组件）

Unity笔记 7 Unity常用API整理之Transform组件文章目录 Unity笔记 7 Unity常用API整理之Transform组件前言一 Transform类位置转换核心知识点属性方法继承的方法和属性来自C
各类配置文件格式简介(ini,yaml,conf,xml...)和nb的Viper

目录配置文件 ini 介绍语法 demo 库 json 语法 demo 库 xml 介绍语法 demo yaml demo toml properties HOCON plist plist 是捆上了手脚的 xml Viper 22k
ES的DSL语句

1 相关概念 mysql与elasticsearch的概念对比 MySQL Elasticsearch 说明 Table Index 索引 index 就是文档的集合类似数据库的表 table Row Document 文档 Docume