Elasticsearch 集群中相同查询的不同结果

2024-01-06

我创建了一个具有 3 个节点、3 个分片和 2 个副本的 Elasticsearch 集群。当使用相同的数据命中相同的索引时，相同的查询会获取不同的结果。现在，结果基本上按 _score 字段 desc 排序（我认为这是默认的排序方式），并且要求还希望结果按分数的 desc 顺序排序。所以这里我的问题是为什么相同的查询会产生不同的结果，然后如何纠正这个问题以便每次使用相同的查询都有相同的结果。

附查询

    {
"from": 0,
"size": 10,
"query": {
    "bool": {
        "must": {
            "bool": {
                "must": {
                    "terms": {
                        "context": [
                            "my name"
                        ]
                    }
                },
                "should": {
                    "multi_match": {
                        "query": "test",
                        "fields": [
                            "field1^2",
                            "field2^2",
                            "field3^3"
                        ]
                    }
                },
                "minimum_should_match": "1"
            }
        },
        "filter": {
            "bool": {
                "must": [
                    {
                        "terms": {
                            "audiencecomb": [
                                "1235"
                            ]
                        }
                    },
                    {
                        "terms": {
                            "consumablestatus": [
                                "1"
                            ]
                        }
                    }
                ],
                "minimum_should_match": "1"
            }
        }
    }
}

}

可能的原因之一可能是分布式 IDF，默认情况下 Elastic 在每个分片上使用本地 IDF，以节省一些性能，这将导致整个集群的 idf 不同。所以，你应该尝试?search_type=dfs_query_then_fetch，这将明确要求 Elastic 计算全局 IDF。

然而，出于性能原因，Elasticsearch 不会计算 IDF 涵盖索引中的所有文档。相反，每个分片都会计算该分片中包含的文档的本地 IDF。

因为我们的文档分布良好，所以两个分片的 IDF 会是一样的。现在想象一下五个 foo 文档位于分片 1 上，第六个文档位于分片 2 上。在此场景中，术语 foo 在一个分片上非常常见（因此很少重要性），但在其他分片上很少见（而且更重要）。 IDF 中的这些差异可能会产生不正确的结果。

实际上，这不是问题。本地和本地的区别添加到索引的文档越多，全局 IDF 就会减少。和由于现实世界的数据量很大，当地的以色列国防军很快就达到了平衡。问题并不是相关性被破坏了，而是数据太少了。

出于测试目的，我们可以通过两种方法解决此问题问题。第一个是创建一个包含一个主分片的索引，就像我们在介绍匹配查询的部分中做了。如果你只有一个 shard，那么本地 IDF 就是全局 IDF。

第二个解决方法是将 ?search_type=dfs_query_then_fetch 添加到您的搜索请求。 dfs 代表分布式频率搜索，它告诉 Elasticsearch 首先从每个中检索本地 IDF 分片以便计算整个索引的全局 IDF。

欲了解更多信息，请查看here https://www.elastic.co/guide/en/elasticsearch/guide/current/relevance-is-broken.html

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

elasticsearch

elasticsearchplugin

Elasticsearch 集群中相同查询的不同结果的相关文章

如何在elasticsearch中配置synonym_path

我对 elasticsearch 很陌生我想使用同义词我在配置文件中添加了这些行 index analysis analyzer synonym type custom tokenizer whitespace filter synon
AWS Elasticsearch 和 CORS

我正在试用 AWS Elasticsearch 服务 https aws amazon com elasticsearch service https aws amazon com elasticsearch service 设置非常简单
Elasticsearch 中的分析器有什么用？

我在理解弹性搜索分析器时遇到一些问题它的用途是什么以及如何使用它 From 本文 https www elastic co blog found text analysis part 1 有来自源文本的分词器和分词过滤器我是否无法理解来
Elasticsearch批量设置_id

当我使用 id 设置将文档添加到 elasticsearch 时我得到 Field id is a metadata field and cannot be added inside a document Use the index AP
Elasticsearch 对字符串排序未返回预期结果

当对包含多个单词的字符串字段进行排序时 Elasticsearch 会拆分字符串值并使用最小值或最大值作为排序值即当对值为老虎之眼的字段进行升序排序时排序值为 Eye 当按降序排序时排序值为 Tiger 假设我的索引中有老虎之
为什么我在elasticsearch中需要“store”：“yes”？

我真的不明白为什么核心类型链接 http www elasticsearch org guide reference mapping core types 它在属性描述中说例如对于数字 store 设置为 yes 将实际字段存储在索引中
在elasticsearch中过滤facet

我有一个如下查询 query query query string query s q filter ids values list ids facets destination terms field destination en hot
Python elasticsearch DSL 聚合/每个文档嵌套值的度量

我试图找到 2 级嵌套中的最小值每个文档单独的最小值到目前为止我能够进行聚合计算搜索结果中所有嵌套值的最小值但无需按文档进行分隔我的示例架构 class MyExample DocType myexample id Intege
如何在logstash.conf文件中创建多个索引？

我使用以下代码在logstash conf中创建索引 output stdout codec gt rubydebug elasticsearch host gt localhost protocol gt http index gt tr
如何使用elasticsearch进行分页？来自 vs 滚动 API

我使用elasticsearch作为数据库来存储大量日志数据我知道有两种方法可以进行分页使用大小并来自 API 使用滚动API 现在我使用 from 进行分页从前端和后端获取页面和大小参数 Java searchSourceBuild
全文搜索 DynamoDB

以下情况我正在为我的客户将元素存储在 DyanmoDb 中 HashKey 是元素 ID Range Key 是客户 ID 除了这些字段之外我还存储一个字符串数组 gt 标签例如 Pets House 和多行文本我想在我的应用程序中
如何使用 django-haystack 和 elasticsearch 后端进行模糊搜索？

看起来好像elasticsearch支持模糊查询 http www elasticsearch org guide reference query dsl fuzzy query http www elasticsearch org gui
如何编写Elasticsearch多个必须脚本查询？

我想使用查询来比较多个字段我有字段 1 到 4 我想搜索字段 1 大于字段 2 的数据并且下面的查询工作正常 size 0 source field1 field2 field3 field4 sort query bool filte
ElasticSearch 嵌套查询 - 排除父文档

尝试排除其中子文档之一与查询不匹配的顶级文档对于下面的示例我尝试排除其嵌套作业之一具有的所有文档current true 并与company name Elastic 但由于嵌套作业文档之一与current false和公司name E
ElasticSearch 定义自定义映射与默认“_doc”映射冲突

尝试创建自定义映射类型时会发生此问题为第一个插入弹性创建自定义映射后想要创建 doc映射类型和冲突就发生在这里第一步我创建一个映射 mappings properties field1 type keyword field2 type
在弹性搜索中使用 GET/POST 时的不同结果

我正在通过 Elastic Search Head 插件尝试弹性搜索当我通过 POST 提交查询时结果符合预期但是当我使用 GET 尝试相同的查询时我总是会返回索引中的所有值那么如何通过 GET 将查询传递到弹性搜索服务器以
无法使用docker在Apple Mac芯片M1上启动elasticsearch

在发布这个问题之前我浏览了许多链接例如 Kibana 无法在 Mac M1 上使用 docker 连接到 ElasticSearch https stackoverflow com questions 73160632 kibana c
如何修复从 React 对 Elasticsearch 进行 API 调用时的“混合内容：”错误

我正在使用 firebase 的 elasticsearch 的 bitnami 版本我发现它只能连接到http并不是https当我使用邮递员尝试时我的create react app已部署到 firebase 我得到Mixed Con
NEST 1.0：请参阅 Fiddler 上的请求

我刚刚更新到 NEST 1 0 我在远程服务器不是本地主机上有 Elastic Search 通常我在使用 Fiddler 发送和接收请求时没有任何问题更新后 bammm 没有检测到任何请求但我的应用程序发出这些请求没有任何问题你
Elasticsearch 在 Mac 上存储数据的位置

类似的问题this one https stackoverflow com questions 24694201 where are data files of elasticsearch on a standard debian inst

随机推荐

为什么这个关于字典的 Python 片段有效？ [复制]

这个问题在这里已经有答案了说我们有这个 gt gt gt x a 1 b 2 gt gt gt y gt gt gt for k y k in x items pass gt gt gt y a 1 b 2 为什么这有效注我第一次看到
将嵌套 JSON 展平为 R 中的数据帧

我正在尝试从 R 中展平嵌套的 JSON 文件这是我当前的代码 library jsonlite json file lt json file json data fromJSON json file flatten FALSE flat
Google 地图反向地理编码 API 返回最近的陆地地址（给定海上纬度）

在我的项目中我使用 Google 地理编码和反向地理编码 API 来验证最终用户提供的地址和纬度给定 latlng 37 857866 144 950706 反向地理编码 API https maps googleapis com ma
std::this_thread::yield() 用法？

有人可以提供现实生活中的例子吗std this thread yield 在C 应用程序中的用法我在 std lock 的实现中使用了yield 在这里找到 http llvm org svn llvm project libcxx tr
如何在pyspark中使用foreach接收器？

我该如何使用foreach在 Python Spark 中结构化流式传输可在输出上触发操作 query wordCounts writeStream outputMode update foreach func start def fun
我们怎样才能防止 OpenX 阻塞页面加载？

我们使用 OpenX 在许多网站上投放广告但是如果 OpenX 服务器出现问题它会阻止这些站点上的页面加载我宁愿让网站优雅地失败即加载没有广告的页面并在它们可用时填充它们我们正在使用 OpenX单页调用 http www op
如何从 Lua 中连接和查询 MySQL？

如何使用 Lua 编程语言连接到 MySQL 数据库如果存在一个好的流行的图书馆它是什么最小工作示例LuaSQL https keplerproject github io luasql manual html 从 Lua 到 DB
使用 H.264 的 FFmpeg 流式传输（带音频） - Red5 媒体服务器（Ubuntu 操作系统）

我正在尝试使用 RTMP 将带有 FFmpeg 的网络摄像头流式传输到我的 Red5 服务器我已经使用 FLV 格式通过以下行成功完成了此操作 ffmpeg f video4linux2 i dev video0 f flv rtmp l
如何检查注释是否聚类（MKMarkerAnnotationView 和 Cluster）

我正在尝试使用 ios11 中添加到地图视图的新功能我正在使用圆形碰撞对所有 MKAnnotationView 进行聚类但当注释聚类时我必须实时检查我不知道该怎么做编辑 2018 年 4 月 1 日更多信息当我选择注释时我会在
合并两个 Guava Multimap

有没有办法在java 8中优雅地合并两个具有相同键值对的番石榴多重映射我尝试使用 collect Multimaps toMultimap 但没有成功有几种方法这是我能找到的最干净的 list stream collect Array
绑定套接字时为什么要将端口号转换为网络字节顺序？

我遇到了这段代码它出现在设置套接字的内部 define PORT xxxx struct sockaddr in self self sin family PF INET self sin port htons PORT 我知道我们需要将
如何使用 Swift Playground 来显示带有绘图的 NSView？

基本上我想在 NSView 的 Swift Playground 中测试图表绘制这是我现在正在使用的 class CustomView NSView init frame NSRect super init frame frame ove
XML 命名空间和 DTD 验证

我用 xml 和 dtd 制作了一些文档我在 xml html 命名空间中使用来插入图像但我可以使用 xmllint 验证我的文档但我不知道为什么 validator 在第一行停止 XML 文件
Unique 不再使用键作为默认值

我主要在 Mac 中使用 Rstudio 最近我不得不开始使用Windows 但是我发现 unique 不根据键在 data table 中提供唯一行这是一个例子 a c 2 3 3 3 3 5 6 7 b c a a f g a d
如何避免在 CMake 安装步骤中删除 RPATH？

我正在使用 CMake 开发一个 C 项目在其中构建一个可执行文件foo使用共享库libbar 正在通过添加ExternalProject add 可执行文件build src foo在构建目录中工作得很好但是如果我跑make ins
分配给用户时，Django Auth Token ValueError

我目前正在遵循 Django 指南并使用接收器分配身份验证令牌但是以下内容返回错误 Cannot assign
事件监听器的范围

我已为此按钮添加了一个事件侦听器
在 iOS 中将开源代码嵌入静态库的稳定方法？

我正在制作一个静态库以供其他开发人员分发换句话说是一种API 我必须使用一堆开源库例如SBJSON ASIHTTPRequest 我认为如果我在源代码级别将这些类嵌入到我的库中将会产生名称冲突问题据我所知 Objective C
将 Bitstring（1 和 0 的字符串）转换为 numpy 数组

我有一个包含 1 列的 pandas Dataframe 其中包含一串位例如 100100101 我想将此字符串转换为 numpy 数组我怎样才能做到这一点 EDIT Using features df bit apply lambda
Elasticsearch 集群中相同查询的不同结果

我创建了一个具有 3 个节点 3 个分片和 2 个副本的 Elasticsearch 集群当使用相同的数据命中相同的索引时相同的查询会获取不同的结果现在结果基本上按 score 字段 desc 排序我认为这是默认的排序方式并且要

Elasticsearch 集群中相同查询的不同结果

Elasticsearch 集群中相同查询的不同结果 的相关文章

随机推荐

热门标签

Elasticsearch 集群中相同查询的不同结果的相关文章