Elasticsearch - 如果术语出现频率越高，得分越高

2024-03-28

我有 2 个文档，正在搜索关键字“Twitter”。假设两个文档都是带有“标签”字段的博客文章。

文档 A 在“标签”字段中只有 1 个术语，它是“Twitter”。文档 B 在“标签”字段中有 100 个术语，但其中 3 个是“Twitter”。

尽管文档 B 的频率较高，但 Elastic Search 给文档 A 的评分较高。但分数被“稀释”了，因为它有更多的术语。由于文档 B 的搜索词出现频率较高，我如何给它更高的分数？

我知道 ElasticSearch/Lucene 根据文档中的术语数量执行一些标准化。如何禁用此标准化，以便文档 B 获得更高的分数？

正如另一个答案所说，看看在单个分片上是否有相同的结果会很有趣。我认为你会的，这取决于标签字段的规范，在使用 tf/idf 相似度（默认）计算分数时会考虑到该规范。

事实上，lucene 确实考虑了术语频率，换句话说，术语在字段中出现的次数（在您的例子中为 1 或 3），以及倒排文档频率，换句话说，术语在字段中出现的频率如何。索引，以便将其与查询中的其他术语进行比较（在您的情况下，如果您搜索单个术语，则没有任何区别）。

但是还有另一个称为规范的因素，它奖励较短的字段并考虑最终的索引时间提升，这可以是每个字段（在映射中）甚至每个文档。您可以验证规范是否是结果的原因，在搜索请求中启用解释选项并查看解释输出。

我想第一个文档仅包含该标签这一事实使得它比多次包含该标签但也包含很多标签的其他文档更重要。如果您不喜欢这种行为，您可以在标记字段的映射中禁用规范。如果该字段是，则应默认启用"index":"analyzed"（默认）。您可以切换到"index":"not_analyzed"如果您不希望分析您的标签字段（这通常是有意义的，但取决于您的数据和域）或添加"omit_norms": true标签字段映射中的选项。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Lucene

elasticsearch

Elasticsearch - 如果术语出现频率越高，得分越高的相关文章

ElasticSearch 脚本：检查数组是否包含值

假设我创建了一个这样的文档 PUT idx type 1 the field 1 2 3 我可以使用 GET idx type 1 检索我的文档 index idx type type id 1 version 1 found true s
ElasticSearch Nest BulkAll 在收到无法从 _bulk 重试的失败后停止

Using BulkAll 批量插入时我收到这个奇怪的错误 BulkAll halted after receiving failures that can not be retried from bulk 但是当我检查异常时我仍然得到
Elasticsearch 6.2 / Kibana查询：一字段必须存在，一字段不能存在

我的愿望是搜索 field 存在且 fields b 不存在的文档有没有办法使用 Kibana 中的 Lucene 查询语法 Kibana 的发现部分中的搜索字段来执行此操作我尝试过使用缺失字段 b没有成功 exists
elasticsearch - 具有多个条件的术语过滤器

我想实现一次对ES的搜索具有2个或更多条件的多个值 For Eg customer index has 2 fields userid and order 我使用下面的查询来搜索与这两个字段匹配的结果 query filtered quer
深层嵌套类型的Elasticsearch聚合

之前我问过this https stackoverflow com questions 31841542 elasticsearch metric aggregation number of elements in array 318464
将 json 请求 POST 到 Solr，请求中带有cursorMark

是否可以包括cursorMarkPOST 请求正文中的值而不是将其作为查询字符串参数发送以下查询 query val abc limit 10 cursorMark sort id asc 返回一条错误消息 JSON 请求中未知的顶级键
在 lucene 中搜索 UUID 不起作用

我有一个 UUID 字段以以下格式添加到我的文档中 372d325c e01b 432f 98bd bc4c949f15b8 但是当我尝试通过 UUID 查询文档时无论我如何尝试转义表达式它都不会返回它们例如 uuid 372d3
排除elasticsearch结果数据中的_id和_index字段

如果简单地点击 api 每个文档中有 5 个字段但我只想要这两个字段 user id 和 loc code 所以我在字段列表中提到但它仍然返回一些不必要的数据如 shards hits time out等使用下面的查询在 chrom
每个领域都有不同的分析仪

如何为使用 Lucene 索引的文档中的每个字段启用不同的分析器例子 RAMDirectory dir new RAMDirectory IndexWriter iw new IndexWriter dir new StandardAna
如何按单个字段对 Elasticsearch 中的文档进行分组？

如果我在elaticsearch中有一堆文档我想按文档的一个字段分组返回我该怎么做我还需要它始终返回固定数量的结果使用 set maxresults 例如如果我有一堆文档每个文档代表一个人并且文档的字段包含该人的属性假设每个
Lucene 上打开的文件太多错误

我正在进行的项目是对一定数量的数据长文本建立索引并将它们与每个时间间隔大约 15 到 30 分钟的单词列表进行比较一段时间后比如说第 35 轮在开始索引第 36 轮的新数据集时发生了此错误 ERROR 2011 06 01
lucene：如何添加不重复的文档

就我而言插入 lucene 索引的每个文档都有其唯一的 ID 当向lucene索引添加新文档时如果该文档已经存在于索引中则不应将该文档插入到索引中如何实施这一战略我想我应该先用docId搜索文档如果lucene找不到该文档那么
当结果少于scrollSize设置时，Scroll SearchResponse不可迭代

我有一个这样的循环 while true scrollResp client prepareSearchScroll scrollResp getScrollId setScroll new TimeValue 600000 execute
如何在elasticsearch中配置synonym_path

我对 elasticsearch 很陌生我想使用同义词我在配置文件中添加了这些行 index analysis analyzer synonym type custom tokenizer whitespace filter synon
如何在 Elasticsearch NEST 中序列化 JToken 或 JObject 类型的属性？

我正在将 Elasticsearch 引入 C API 项目我想利用现有的 API 模型作为搜索文档其中许多模型允许添加自定义数据点这些是使用JObject https www newtonsoft com json help htm
Elasticsearch批量设置_id

当我使用 id 设置将文档添加到 elasticsearch 时我得到 Field id is a metadata field and cannot be added inside a document Use the index AP
Elasticsearch 对字符串排序未返回预期结果

当对包含多个单词的字符串字段进行排序时 Elasticsearch 会拆分字符串值并使用最小值或最大值作为排序值即当对值为老虎之眼的字段进行升序排序时排序值为 Eye 当按降序排序时排序值为 Tiger 假设我的索引中有老虎之
如何在弹性搜索（aws）中存储日期范围数据并搜索范围？

我正在尝试在弹性搜索中存储酒店房间可用性然后我需要搜索从某个日期到另一个日期可用的房间我想出了存储数据以确保可用性的两种方式如下这里可用性字典存储了所有日期每个日期键的值是 true 或 false 代表其可用那天与否 id
LogStash 无法从许可证中检索许可证信息。响应代码“401”通过 URL“http://elasticsearch:9200/_xpack”联系 Elasticsearch

我正在努力让 Docker LogStash 连接到 Docker ElasticSearch 并启用 xpack 安全性主要日志有 logstash 1 2020 05 20T22 41 03 950 WARN deprecation
在elasticsearch中过滤facet

我有一个如下查询 query query query string query s q filter ids values list ids facets destination terms field destination en hot

随机推荐

HttpWebRequest 抛出 404 异常

我发现 HttpWebRequest 对不存在的资源抛出 WebException 在我看来这很奇怪因为 HttpWebResponse 有 StatusCode 属性 NotFount 项存在您认为这有什么原因吗或者这只是开发人员
为什么 .append() 方法不适用于字符串，它们的行为不像列表吗？

即使字符串实际上是字符常量列表为什么此语句会产生错误 string name string name append hello word 我希望它能起作用的原因是当我们使用 for 循环时我们可以使用以下语句 for i in str
方案按引用传递

如何在方案中通过引用传递变量我想要的功能的示例 define foo lambda x set x 5 define y 2 foo y display y outputs 5 另外有没有办法通过引用返回 See http commun
oAuth 实现：当前域重要吗？

我是一名前端开发人员帮助用户体验团队开发浏览器插件的界面该插件基于 HTML CSS JS 需要身份验证目前我们的线路中有标准的 u p 字段但客户想知道是否可以进行社交登录由于插件的接口被注入到用户访问的每个页面中这意味着身
“copyfiles”是标准的 Ant 任务吗？

我有一个 NetBeans 项目我正在尝试从命令行手动编译ant 当在安装了 NetBeans 的同一台计算机上运行时它可以完美运行但是如果我跑ant在中央持续集成服务器未安装 NetBeans 上它在
WordPress 获取自定义帖子类型的分类列表

我正在为我的 WordPress 网站使用视频主题在此主题中定义了视频帖子类型和视频类别分类法这是分类法的注册代码 add action init custom posttype menu wp admin1 function
状态模式与 ENUM

有时需要支持对象的状态据我了解有两种方法枚举简单 STATE模式 OC原理显然需要使用状态模式来达到这样的目的我不确定但是阅读其他代码时我经常遇到的只是枚举而不是状态模式状态模式有权力吗通常 ENUM 方法涉及某种状态和转
在保护模式下读取键盘

我正在尝试制作 PS 2 键盘控制器但无法正常工作 outb 0x60 0xED outb 0x60 2 Turn on CapsLock LED doesn t works char c 0 while c 1 if inb 0x60
如何正确清除singleTop Activity中的意图数据？

场景是在清单中声明了 singleTop 的活动这个活动被称为带有一些额外的内容我能够清除意图数据并能够翻转屏幕等而无需调用原始意图问题是当系统终止该活动并且用户返回该活动时它会使用创建该活动的原始意图重新启动我该如何删除这
获取用于 Azure Web PubSub Rest API 的 JWT 承载令牌进行身份验证

我正在开发一个项目其中我通过 Azure Web PubSub 服务构建一个发布订阅系统 JavaScript 客户端订阅者通过套接字连接能够接收 Hub 上和 Group 中发布的消息为此我遵循了本教程 https lear
如何指定浮点数的舍入模式？

我想将浮点数四舍五入到最接近的整数当存在最接近的整数时趋向正无穷大 use std num Float fn main assert eq 0 0 0 5 round fails 但是文档round say 将中途情况舍入到远离
Windows XP 性能监视器应用程序 (perfmon) 中缺少处理器/内存计数器

Perfmon 是一个 Windows 实用程序可通过测量系统计数器帮助开发人员找到应用程序中的瓶颈我正在读一本性能监控教程 http adminfoo net 2007 04 windows perfmon top ten count
使用串口通过 Arduino 将多个值发送到 Raspberry

我有一个关于 Arduino 和 Raspberry Pi 之间串行通信的问题事实上我想使用 Arduino 将 2 个变量发送到 Raspberry Pi 并以不同的方式使用它们这是我的 Arduino 草图 int one 1 i
格式化 HDFS 时出现 UnknownHostException

我已经使用以下命令在伪分布式模式下在 CentOS 6 3 64 位上安装了 CDH4指示 https ccp cloudera com display CDH4DOC Installing CDH4 on a Single Linux N
如何使用 Python 在网格中创建 10 个随机 x、y 坐标

我需要创建一个 8x8 网格并将 10 个硬币分布在网格上的随机位置我面临的问题是 randint 函数有时会生成相同的随机坐标因此只生成 9 或 8 个硬币并放置在网格上我怎样才能确保这种情况不会发生干杯这是我到目前为止的代码
在 SpannableStringBuilder 中对齐位图

如何将位图与 SpannableString 中的文本对齐 SpannableStringBuilder ssb new SpannableStringBuilder arr messages get position String msg
CloudFront 分配未显示为 Route53 别名目标

我正在尝试添加指向我的 Cloudfront 分发的路线 53 记录集但是当我在路由 53 中选择创建记录集并单击后续面板中的别名目标时未列出云前端分布我得到的只是没有可用的目标我的发行版已创建并已启用并且正在运行我已在
ChromeDriver 2.33 的 driver.manage().window().maximize() 问题

ChromeDriver 2 33 的发行说明表示修复了导致调整大小定位窗口命令在 Chrome 62 上失败的错误但是当我使用 Chrome 62 浏览器时这似乎仍然是一个问题使用 chrome 驱动程序最大化 chrome 窗口
如何在 PHP 中设置 $PATH？

我目前正在开发自己的小项目但有一个小问题我想将 PATH 环境变量设置为 bin 这样当我使用exec 和类似的功能它只会搜索该目录中的二进制文件除非我明确告诉它我已经尝试过了putenv 除非我启用了安全模式否则它将无法工作
Elasticsearch - 如果术语出现频率越高，得分越高

我有 2 个文档正在搜索关键字 Twitter 假设两个文档都是带有标签字段的博客文章文档 A 在标签字段中只有 1 个术语它是 Twitter 文档 B 在标签字段中有 100 个术语但其中 3 个是 Twitter

Elasticsearch - 如果术语出现频率越高，得分越高

Elasticsearch - 如果术语出现频率越高，得分越高 的相关文章

随机推荐

热门标签

Elasticsearch - 如果术语出现频率越高，得分越高的相关文章