什么是相关性

2023-10-31

我们曾经讲过，默认情况下，返回结果是按相关性倒序排列的。但是什么是相关性？相关性如何计算？

每个文档都有相关性评分，用一个正浮点数字段 _score 来表示。 _score 的评分越高，相关性越高。

查询语句会为每个文档生成一个 _score 字段。评分的计算方式取决于查询类型不同的查询语句用于不同的目的： fuzzy 查询会计算与关键词的拼写相似程度，terms 查询会计算找到的内容与关键词组成部分匹配的百分比，但是通常我们说的 relevance 是我们用来计算全文本字段的值相对于全文本检索词相似程度的算法。

Elasticsearch 的相似度算法被定义为检索词频率/反向文档频率， TF/IDF ，包括以下内容：

检索词频率 检索词在该字段出现的频率？出现频率越高，相关性也越高。字段中出现过 5 次要比只出现过 1 次的相关性高。 反向文档频率 每个检索词在索引中出现的频率？频率越高，相关性越低。检索词出现在多数文档中会比出现在少数文档中的权重更低。 字段长度准则 字段的长度是多少？长度越长，相关性越低。检索词出现在一个短的 title 要比同样的词出现在一个长的 content 字段权重更大。

单个查询可以联合使用 TF/IDF 和其他方式，比如短语查询中检索词的距离或模糊查询里的检索词相似度。

相关性并不只是全文本检索的专利。也适用于 yes|no 的子句，匹配的子句越多，相关性评分越高。

如果多条查询子句被合并为一条复合查询语句，比如 bool 查询，则每个查询子句计算得出的评分会被合并到总的相关性评分中。

我们有一️整章着眼于相关性计算和如何让其配合你的需求 控制相关度。

理解评分标准

当调试一条复杂的查询语句时，想要理解 _score 究竟是如何计算是比较困难的。Elasticsearch 在每个查询语句中都有一个 explain 参数，将 explain 设为 true 就可以得到更详细的信息。

GET /_search?explain 
{
   "query"   : { "match" : { "tweet" : "honeymoon" }}
}

explain 参数可以让返回结果添加一个 _score 评分的得来依据。

增加一个 explain 参数会为每个匹配到的文档产生一大堆额外内容，但是花时间去理解它是很有意义的。如果现在看不明白也没关系 — 等你需要的时候再来回顾这一节就行。下面我们来一点点的了解这块知识点。

首先，我们看一下普通查询返回的元数据：

{
    "_index" :      "us",
    "_type" :       "tweet",
    "_id" :         "12",
    "_score" :      0.076713204,
    "_source" :     { ... trimmed ... },

这里加入了该文档来自于哪个节点哪个分片上的信息，这对我们是比较有帮助的，因为词频率和文档频率是在每个分片中计算出来的，而不是每个索引中：

    "_shard" :      1,
    "_node" :       "mzIVYCsqSWCG_M_ZffSs9Q",

然后它提供了 _explanation 。每个入口都包含一个 description 、 value 、 details 字段，它分别告诉你计算的类型、计算结果和任何我们需要的计算细节。

"_explanation": { 
   "description": "weight(tweet:honeymoon in 0)
                  [PerFieldSimilarity], result of:",
   "value":       0.076713204,
   "details": [
      {
         "description": "fieldWeight in 0, product of:",
         "value":       0.076713204,
         "details": [
            {  
               "description": "tf(freq=1.0), with freq of:",
               "value":       1,
               "details": [
                  {
                     "description": "termFreq=1.0",
                     "value":       1
                  }
               ]
            },
            { 
               "description": "idf(docFreq=1, maxDocs=1)",
               "value":       0.30685282
            },
            { 
               "description": "fieldNorm(doc=0)",
               "value":        0.25,
            }
         ]
      }
   ]
}

	`honeymoon` 相关性评分计算的总结
	检索词频率
	反向文档频率
	字段长度准则

输出 explain 结果代价是十分昂贵的，它只能用作调试工具。千万不要用于生产环境。

第一部分是关于计算的总结。告诉了我们 honeymoon 在 tweet 字段中的检索词频率/反向文档频率或 TF/IDF，（这里的文档 0 是一个内部的 ID，跟我们没有关系，可以忽略。）

然后它提供了权重是如何计算的细节：

检索词频率:

检索词 `honeymoon` 在这个文档的 `tweet` 字段中的出现次数。

反向文档频率:

检索词 `honeymoon` 在索引上所有文档的 `tweet` 字段中出现的次数。

字段长度准则:

在这个文档中， `tweet` 字段内容的长度 -- 内容越长，值越小。

复杂的查询语句解释也非常复杂，但是包含的内容与上面例子大致相同。通过这段信息我们可以了解搜索结果是如何产生的。

JSON 形式的 explain 描述是难以阅读的，但是转成 YAML 会好很多，只需要在参数中加上 format=yaml 。

理解文档是如何被匹配到的

当 explain 选项加到某一文档上时， explain api 会帮助你理解为何这个文档会被匹配，更重要的是，一个文档为何没有被匹配。

请求路径为 /index/type/id/_explain ，如下所示：

GET /us/tweet/12/_explain
{
   "query" : {
      "bool" : {
         "filter" : { "term" :  { "user_id" : 2           }},
         "must" :  { "match" : { "tweet" :   "honeymoon" }}
      }
   }
}

不只是我们之前看到的充分解释，我们现在有了一个 description 元素，它将告诉我们：

"failure to match filter: cache(user_id:[2 TO 2])"

也就是说我们的 user_id 过滤子句使该文档不能匹配到。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

elasticsearch

什么是相关性的相关文章

如何编写Elasticsearch多个必须脚本查询？

我想使用查询来比较多个字段我有字段 1 到 4 我想搜索字段 1 大于字段 2 的数据并且下面的查询工作正常 size 0 source field1 field2 field3 field4 sort query bool filte
在 ElasticSearch API 应用程序中找不到 NodeBuilder

我正在尝试实现 Elasticsearch API 我的系统接受 nodeBuilder 时出现错误这是代码 import org elasticsearch action index IndexResponse import org e
Nest Elastic - 构建动态嵌套查询

我必须使用 Nest 查询嵌套对象但是查询是以动态方式构建的下面的代码演示了以静态方式对嵌套书籍进行查询 QueryContainer qry qry new QueryStringQuery DefaultField name D
如何使用ElasticSearch来实现社交搜索？

我正在尝试使用 ElasticSearch 创建具有社交功能的商业搜索我有一个企业目录用户可以通过不同的方式与这些企业进行交互通过查看它们检查它们等当用户搜索商家时我希望能够在结果顶部向他们显示他们的朋友与之互动过的商家或根据
search_after 在弹性搜索中如何工作？

我一直在尝试在我们的应用程序中使用 Elasticsearch 但分页限制为 10k 对我们来说实际上是一个问题并且由于必须超时问题滚动 API 也不是推荐的选择我发现 Elasticsearch 有一个叫做 search after
Elasticsearch 数组必须和must_not

我的 elasticsearch 数据库中有一个如下所示的文档 tags gt tag 1 tag 2 tag 3 tag A created at gt 2013 07 02 12 42 19 UTC label gt Mon super
Elasticsearch 关于“空索引”的查询

在我的应用程序中我使用了几个elasticsearch索引它们在初始状态下不包含索引文档我认为这可以称为空该文档的映射是正确且有效的该应用程序还有一个包含实体的关系数据库这些实体可能具有在 elasticsearch 中关联的
Elasticsearch：根据类型对不同字段进行排序

我的索引中有两种类型 Event and City 我正在尝试按日期将它们全部排序但是每种类型的日期字段名称都不同为了Event该值是在updated at领域和City日期是在update at其嵌套对象之一中的字段city eve
设置 verify_certs=False 但 elasticsearch.Elasticsearch 因证书验证失败而引发 SSL 错误

self host KibanaProxy 自我端口 443 self user 测试 self password 测试我需要禁止证书验证使用选项时它与curl一起使用 k在命令行上但是在使用 Elasticsearch pytho
AWS ElasticSearch Service - 从 CF 模板设置加密选项

我正在创建一个云形成模板来在AWS中配置elasticsearch服务域我想将加密下的此属性设置为 true 域的所有流量都需要 HTTPS 但我无法在 AWS 文档中找到执行此操作的方法用于设置加密属性的其他选项例如启用静态数据加
在“spring-data-elasticsearch”4.0.4.RELEASE中，如何将SearchHits转换为Page？

In spring data elasticsearch4 0 4 发布 ElasticsearchRestTemplate s queryForPage 方法已弃用需要使用search 相反它返回SearchHits代替Page 那么
用于全文搜索和 2 亿多条记录的数据库

我即将创建一个包含至少 2 亿个条目的庞大数据库数据库需要可使用全文进行搜索并且速度应该很快我的数据库从许多不同的数据源获取数据我需要定期导入新的或更新的数据将我的所有数据存储在像 mysql 这样的关系数据库中然后创建一个 n
ElasticSearch bool should_not 过滤器

我是elasticsearch的新手所以我的问题是 bool 过滤器有 3 个部分 must All of these clauses must match The equivalent of AND must not All of th
脚本参数不支持 ElasticSearch v7.3 更新脚本中的 START_ARRAY 类型的值

我正在尝试更新索引文档但通过 Postman 更新 API 脚本时出现以下错误 error root cause type x content parse exception reason 5 15 script params doesn
NEST 搜索整个文档 C# Elasticsearch

我想使用 Nest 在 Elasticsearch 中查询超过一百万个文档我的代码 var response client Search
在elasticsearch中存储聊天消息的最佳方式

我们目前正在实施一项即时通讯系统在我们的平台上我们需要为我们的用户提供聊天记录并能够显示用户最近进行的 5 次对话像 Facebook 上的预览一样事实上我们必须考虑如何才能存储所有这些数据我们正在使用弹性搜索我们认为这可能是存储
Elasticsearch 错误：cluster_block_exception [FORBIDDEN/12/index 只读/允许删除 (api)]，超出洪水阶段磁盘水位线

当尝试正常将文档发布到 Elasticsearch 时我收到此错误 cluster block exception FORBIDDEN 12 index read only allow delete api 我还在 Elasticsear
Elasticsearch NodeBuilder 与 TransportClient

对于其他 Elasticsearch 开发人员来说这可能是一个非常简单而且愚蠢的问题这两者之间有什么区别我正在从 Java Web 应用程序连接到远程 Elasticsearch 服务器到目前为止我一直在使用 Transport
Elasticsearch 文档的最大大小是多少？

我读到有关 Lucene 仅限于 2Gb 文档的注释对于可在 Elasticsearch 中建立索引的文档大小是否有其他限制 Lucene 内部使用字节缓冲区该缓冲区使用 32 位整数进行寻址根据定义这限制了文档的大小所以理论上2
ElasticSearch：从 Painless 脚本中的嵌套字段计算 arcDistance

我需要计算 Painless 脚本内的弧距但在这种情况下还没有找到访问 geo API 的方法即第一点作为参数传递给脚本这意味着我只获得原始值第二点是从嵌套文档中读取的这意味着我无法使用doc myGeoField value

随机推荐

Spring MVC中如何进行转发和重定向呢？

转自 Spring MVC中如何进行转发和重定向呢重定向我们将用户的定向到另一个视图 jsp 中处理此操作是一个客户端行为类似与url的链接操作转发将用户的请求转发到另一个视图或controller处理此操作是一个服务器端行为
【日常遇坑总结】类成员变量的空间分配和初始化顺序

遇坑今天在用QT的时候传从主ui页面创建的一个指针到建模ui页面在运行时程序发生奔溃经过测试发现问题主页面的指针和传进建模页面的指针不是同一个导致在调用类指针方法时发生错误测试以下代码仅展示测试代码的部分不可运行但能从下
spring+ jcaptcha(spring框架下的彩色验证码)

从jcaptcha官方网站下载jcaptcha的发行包并将其发行包中的jar文件考贝到本地项目WEB INF目录下的lib目录中官方网址http jcaptcha sourceforge net 在web xml文件中配置 Java代码
嵌入式知识图谱WiKi（嵌入式开发/研发入门教程和路线图）

嵌入式知识图谱WiKi 作者将狼才鲸创建时间 2022 02 18 因图床更新不方便最新版请跳转到Gitee文档源文件仓库网址才鲸嵌入式知识图谱WiKi CSDN有图的文档阅读网址嵌入式知识图谱WiKi Bilibili视频讲解
数据结构--二叉树

前言关于二叉树知识的考察主要分两部分第一部分在初赛中体现一般考察二叉树的节点个数树高和遍历问题 1 二叉树定义在计算机科学中二叉树是每个结点最多有两个子树的树结构通常子树被称作左子树 left subtree 和右子树 r
Log4j2日志框架

Log4j2日志框架 1 简介及入门示例 1 背景介绍官网地址 https logging apache org log4j 2 x Maven 仓库地址 https search maven org artifact org apach
机器学习心得体会总结

第一线性代数是把复杂问题简单化解决但是简单问题已经很复杂了第二国内还没有一本关于机器学习讲得连老百姓都能看得明白的书籍第三克拉默法则逆矩阵初等变换都可以求解方程Ax b 后者方法更简单
C语言

目录一实验环境二黑白圣诞树三 windows h简介四 windows h实现彩色圣诞树 1 设置用户窗口 2 移动光标 3 修改字体颜色 4 绘制圣诞树 5 绘制雪景 6 完整代码 7 运行一实验环境编译环境 vc 6
【因果推断与机器学习】带入坑——之辛普森悖论

因果推断与机器学习 Why you might Care Simpson s Paradox 考虑一个纯粹假设的未来那里有一种被称为COVID 27的新疾病在人类中普遍存在在这个纯粹假设的未来中已经开发了两种治疗方法治疗A和治疗B
西门子dcs系统组态手册下载_PLC/DCS/HMI 知识普及

什么是PLC 可编程控制器简称PLC Programmable logic Controller 是指以计算机技术为基础的新型工业控制装置在1987年国际电工委员会颁布的PLC标准草案中对PLC做了如下定义 PLC是一种专门为在工业环境
原版安装Win10 1909专业版 64位MSDN镜像2020 05

原版安装Win10 1909专业版 64位MSDN镜像2020 05 一更新内容 1 去除预装kms激活未激活的可以通过桌面自行激活 2 提升商店购买应用的速度性能 3 解决在IE浏览器中阻碍下载和安装 NET组件的问题 4 更新修复补
Qt5.14.2 MInGW静态编译配置教程

Qt5 14 2 MinGW静态编译教程 1 安装Qt 1 1 下载安装包 1 2 安装 2 工具的下载安装 3 检查上述配置是否成功 4 静态编译qmake 4 1 静态编译配置 4 2 编译 4 3 安装静态库 4 4新增静态编译 1
SQL Server(五)-视图

与表一样视图也是由字段和记录组成的只是这些字段和记录来源于其他被引用的表或视图所以视图并不是真实存在的而是一张虚拟的表视图中的数据并不是存在于视图中的而是存在于被引用的数据表当中的当被引用的数据表中的记录内容改变时视图中的记
临沂地区的OLED拼接屏有哪些独特优点？

临沂oled拼接屏是一种高清晰度的显示屏由多个oled屏幕拼接而成它可以用于商业广告展览会议演出等场合具有高亮度高对比度高色彩饱和度高刷新率等优点能够吸引人们的眼球提高信息传递效果临沂oled拼接屏的优点之一是高亮度
虚拟偶像是未来趋势吗?

Hello 我的朋友这里是古希伯今天聊聊虚拟偶像行业是不是未来的趋势虚拟偶像零都知道吧日本初音未来洛天依诸多的日本虚拟偶像行业市场是最为发达的日漫这一块本身具有先天优势存在乃至于国内诸多公司都没有能力完全复刻虚拟偶像目前
slot-插槽的基本使用-具名插槽的使用（重要）

slot 插槽的基本使用具名插槽的使用为什么使用slot slot翻译为插槽 1 在生活中很多地方都有插槽电脑的USB插槽插板当中的电源插槽 2 插槽的目的是让我们原来的设备具有更多的扩展性 3 比如电脑的USB我们可以插入U盘硬
手撸，自定义application.yml配置项

文章目录前言教程 1 加入配置依赖及maven插件 2 元注解分析 3 配置文件 4 测试能不能用 5 怎么从配置里面取值并加载呢第一我们在配置中加入值第二编写一个自动配置类前言我们现在在springboot中极其简
Spring Dynamic Modules - DMserver

spring dm server 官网 http static springsource com projects dm server 1 0 x programmer guide htmlsingle programmer guide h
英语发音规则---gh

英语发音规则 gh 一总结一句话总结 gh字母组合的读音在中学英语课本中归纳起来主要有发音和不发音两种情况 gh字词首是发 g 因为需要开头啊例如 ghost g st n 鬼幽灵 gh在词尾读作 f 因为需要尾巴例如 l
什么是相关性

我们曾经讲过默认情况下返回结果是按相关性倒序排列的但是什么是相关性相关性如何计算每个文档都有相关性评分用一个正浮点数字段 score 来表示 score 的评分越高相关性越高查询语句会为每个文档生成一个 score 字段评

什么是相关性

什么是相关性 的相关文章

随机推荐

热门标签

什么是相关性的相关文章