ElasticSearch 随机得分与 boost 相结合？

2024-03-22

我正在使用 Firebase 构建 iOS 应用程序，并使用 ElasticSearch 作为搜索引擎来获取更高级的查询。

我正在尝试实现一个可以根据查询从索引中获取随机记录的系统。我已经使用带有种子的“random_score”函数完成了这项工作。

因此，现在所有文件都应该有平等的被选中的机会。是否可以添加增强功能或其他东西（抱歉，我是 ES 新手）？

假设文档具有“boost_enabled”字段并将其设置为 true，则该文档被选择的可能性将增加 3 倍，因此“增加”被随机选择的机会？

所以理论上它应该是这样的：

与查询匹配的文档：

"document1"
"document2"
"document3"

他们都有平等的机会被选中（33%）

我希望实现的是如果“document1”具有字段“boost_enabled”= true

它应该看起来像这样：

"document1"
"document1"
"document1"
"document2"
"document3"

因此，现在“document1”被选为随机记录的可能性增加了 3 倍。

非常感谢一些帮助。

EDIT:

我想出了这样的东西，这是否正确？我很确定这不是...

"query" : {
        "function_score": {
            "query": {
                "bool" : {
                    "must": {
                        "match_all": {}
                    },
                    "should": [
                        { "exists" : {
                            "field" : "boost_enabled",
                            "boost" : 3
                            }
                        }
                    ]
                    "filter" : filterArray
                 }
            },

            "functions": [
                {
                    "random_score": {"seed": seed}
                }
            ]
        }
    }

/ Mads

是的，Elasticsearch 有类似的东西 - 参考Elasticsearch：查询时间提升 https://www.elastic.co/guide/en/elasticsearch/guide/current/query-time-boosting.html.

在您的情况下，您的查询的一部分会注意到您所描述的标志的存在，并且此“子查询”将会有所提升。bool以其should条款可能会有用。

注意：这并不完全像说匹配文档是n结果的可能性有几倍

EDITS:

EDIT 1:

Elasticsearch 会告诉您它是如何通过以下方式得出分数的解释API https://www.elastic.co/guide/en/elasticsearch/reference/current/search-explain.html这可能有助于调整参数。

EDIT 2:

我对我上面发布的内容表示歉意。经过进一步的思考和探索，我认为boost参数并不完全是这里所需要的。function_score已经有了重量的概念，但即使这样也还不够。我发现其他用户的要求与您类似，但似乎还没有为此提出任何好的解决方案。

参考：

关于加权随机采样的 Elasticsearch Github 问题 https://github.com/elastic/elasticsearch/issues/7783#issuecomment-64880008
Stackoverflow 发布的请求与 Github 问题相同 https://stackoverflow.com/questions/34128770/weighted-random-sampling-in-elasticsearch

我认为这些帖子中提出的解决方案不太正确。我编写了一个快速的 shell 脚本，用于访问 Elasticsearch REST API 并依赖jq（用于处理 JSON 的流行 CLI）来演示：Github 要点：使用 Elasticsearch 进行加权随机采样的错误尝试 https://gist.github.com/eemp/30421b784fc7f761c3e890b3dbd14d46

在剧本中，featured_flag相当于你的boost_enabled, and undesired_flag是为了演示如何仅考虑索引中的文档子集。您可以复制脚本顶部的脚本调整全局变量（如 Elasticsearch 服务器、索引等）来尝试。
关于脚本的一些注释：

脚本创建一个文档featured_flag已启用且一份文档包含undesired_flag启用不应该被选择的
TOTAL_DOCUMENTS可用于调整创建的文档总数（包括前两个创建的文档）
FEATURED_FLAG_WEIGHT是在查询时应用的权重function_score
脚本重新运行相同的查询 1000 次，并输出每个创建的文档作为第一个结果返回的次数的统计信息

我想你的索引有许多“特色”或“增强”样本，其中许多不是。根据所描述的要求，选择样本的概率取决于文档的权重（假设增强文档为 3，其余文档为 1）以及您想要考虑的所有有效文档的权重总和。因此，简单的权重、增强和随机似乎是不够的

许多人已经考虑并发布了在没有 Elasticsearch 的情况下进行加权随机采样任务的解决方案。这似乎很好地解释了一些方法：电僧：加权随机分布 https://www.electricmonk.nl/log/2009/12/23/weighted-random-distribution。许多算法细节可能与这里不太相关，但我认为它们很有趣。

我认为理想的解决方案需要在 Elasticsearch 之外完成工作（无需深入创建 Elasticsearch 插件、记分器等）。这是我目前能想到的最好的：

存储在文档中的数字权重字段（可以继续使用布尔字段，但这似乎更灵活）
通过初始查询访问 Elasticsearch，利用聚合来获取我们需要的一些统计数据
- 可能是一个求和聚合 https://www.elastic.co/guide/en/elasticsearch/reference/current/search-aggregations-metrics-sum-aggregation.html文档概率所需的权重总和
- A 术语聚合 https://www.elastic.co/guide/en/elasticsearch/reference/current/search-aggregations-bucket-terms-aggregation.html按重量获取文档数量（例如：m权重为 1 的文档，n重量为 3) 的文件
Outside of Elasticsearch (in the app), choose the sample
- 生成0到范围内的随机数sum_of_weights-1
- 使用聚合结果和生成的随机数来选择一个索引（请参阅 Elasticsearch 之外的加权随机采样的算法解决方案），该索引的范围在 0 到total_valid_documents-1（称之为selected_index)
使用适当的过滤器再次点击 Elasticsearch，仅考虑有效文档，sort参数保证每次运行此过程时文档集都以相同的方式排序（可能按权重和文档 ID 排序），以及from参数设置为selected_index

与这一切略有相关，我发布了略有不同的write up http://eemp.io/2017/07/29/weighted-random-sampling-in-elasticsearch/.

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

elasticsearch

Random

ElasticSearch 随机得分与 boost 相结合？的相关文章

如何将2个匹配查询加入到elasticsearch的查询中？

我想查询以下数据user id is 1 and name is John 写一个常用的SQL很容易 select from t where user id 1 and name John 但对我来说进行elasticsearch的查询并不
delphi中生成随机数

我想在delphi中创建一个随机数并将其分配给文件作为文件名我设法做到了这一点但是当我单击按钮生成数字时它总是以 0 开头知道如何修复它 procedure TForm1 Button1Click Sender TObject va
如何使用 Android Studio 2.1.3 从 Android 中的文本文件中获取随机行？

我有一个 500 行的文本文件我将此文本文件放置在 app src main assets 文件夹中名称为 words txt 在此文件中每一行都用换行符分隔现在我需要从这个文本文件中获取随机行在发布此内容之前我访问了以下问题
将 ElasticSearch SearchResponse 对象转换为 JsonObject

我想将elasticsearch搜索结果转换为Json对象我还没有找到任何直接转换的正确方法 SearchResponse response client prepareSearch index setExplain true execu
scipy.stats....rvs 和 numpy.random 随机抽取之间的区别

看起来是否是相同的分布从中抽取随机样本numpy random比这样做更快scipy stats rvs 我想知道是什么原因导致两者之间的速度差异 scipy stats uniform实际上使用了numpy 这里是stats中对应的函数
R：如何添加具有从矩阵的每一行中随机选择的值的列？

我会先说我是一个 R 菜鸟我认为这可能有一个简单的解决方案但我正在努力寻找它我有一个 2 列 1 000 行的矩阵保持行固定我想创建一个新变量从两列中随机选择一个元素例如制作一个简单的矩阵 matrix c 1 1 4 6 1
弹性搜索文档计数

我正在运行 2 2 版本的 Elastic 搜索我已经创建了索引并加载了示例文档我发现其中有些问题当我给予 GET index type count 我得到了正确的答案 count 9998 shards total 5 succes
为什么 int 数组的最大大小小于 Int32.MaxValue？ [复制]

这个问题在这里已经有答案了虽然这篇文章说它应该有效 https stackoverflow com questions 2338778 what is the maximum length of an array in net on 64
VBA rand 如何使用上限和下限生成随机数？

所以也许这是多余的也许这就像问为什么大多数人生来就有 5 个手指最后的简短答案总是因为事情就是这样而且它就是这样工作的但我讨厌这个答案该死的我想知道怎么做VBA 中的 Rnd 函数有效 Ms Office Excel 的 MSD
无法使用 java 8 在 Windows 10 上安装 elasticsearch 5.1.1

我正在尝试在安装了 java 8 111 的 Windows 10 笔记本电脑上安装 ElasticSearch 5 1 1 当我尝试安装 Elastic search 时触发错误 C Users 用户名 Downloads elastic
如何在 R 中创建循环来生成随机样本列表？

我正在尝试创建一个循环来创建一系列包含随机样本的对象如下所示 sample lt ceiling runif 9 min 0 max 20 这是圆形制服的示例但它可以替换为普通泊松或任何您想要的因此我构建了一个循环来自动生成各种生
Unity - 在生成时获取随机颜色

我有一个小问题我想在我的场景中生成四边形它们都应该有红色或绿色作为材质但 Random Range 函数只能是 int 我该如何解决它 void SpawningSquadsRnd rndColor 0 Color red rndCo
弹性搜索 - search_after 参数

我读了这个doc https www elastic co guide en elasticsearch reference 5 0 search request search after html要理解 search after 并有两个
search_after 在弹性搜索中如何工作？

我一直在尝试在我们的应用程序中使用 Elasticsearch 但分页限制为 10k 对我们来说实际上是一个问题并且由于必须超时问题滚动 API 也不是推荐的选择我发现 Elasticsearch 有一个叫做 search after
Elasticsearch 关于“空索引”的查询

在我的应用程序中我使用了几个elasticsearch索引它们在初始状态下不包含索引文档我认为这可以称为空该文档的映射是正确且有效的该应用程序还有一个包含实体的关系数据库这些实体可能具有在 elasticsearch 中关联的
尝试在 ElasticSearch 中查询和聚合，但聚合不起作用 - elasticsearch.js 客户端

我尝试查询我的数据集有两个目的匹配一个术语可转售 true 按价格对结果进行排序最低到最高数据集文档是 data resellable true startingPrice 0 id 4emEe r x5DRCc5 buyNowP
如何增加vm.max_map_count？

我正在尝试在 Ubuntu EC2 计算机 t2 medium 中运行弹性搜索但我收到消息最大虚拟内存区域 vm max map count 65530 太低至少增加到 262144 我怎样才能增加vm max map count v
ElasticSearch 映射对分组文档进行折叠/执行操作的结果

有一个对话列表每个对话都有一个消息列表每条消息都有不同的字段和action场地我们需要考虑到在对话的第一条消息中使用了动作A 在几条消息之后有使用的动作A 1过了一会儿A 1 1等等有一个聊天机器人意图列表对对话的消息操作进行分组
在 C# 中生成随机浮点数的最佳方法[关闭]

Closed 这个问题是基于意见的 help closed questions 目前不接受答案在 C 中生成随机浮点数的最佳方法是什么更新我想要从 float Minvalue 到 float Maxvalue 的随机浮点数我在一些
Elasticsearch：根据类型对不同字段进行排序

我的索引中有两种类型 Event and City 我正在尝试按日期将它们全部排序但是每种类型的日期字段名称都不同为了Event该值是在updated at领域和City日期是在update at其嵌套对象之一中的字段city eve

随机推荐

Numpy 二维数组到表

我有一个 18x18 2d numpy 数组它是一个混淆矩阵并且我需要想要将其显示为 ipython 笔记本中的表格当我简单地打印出来时它会重叠显示行太长占据了两行是否有一个库允许我以电子表格格式打印这个数组您可以使用Pa
Twitter Bootstrap：如何使顶部固定导航栏留在容器中而不拉伸？

我正在使用 Twitter Bootstrap 和您在指南中看到的常规导航栏 http twitter github io bootstrap components html navbar http twitter github io bo
如何使用API获取SoundCloud的缩略图？

例如 http soundcloud com mhiqu3 sets heretik http soundcloud com mhiqu3 sets heretik 如何获取缩略图 URL http i1 sndcdn com artwor
有没有办法在 YML 中使用 Azure Artifacts 触发管道？

定义 GUI 版本时我可以使其由 Azure Artifact 触发是否有办法在 YML 中的管道中复制此操作我正在一个 AZDO 租户中构建将通用包推送到另一个租户其中将定义发布定义我希望这可以在 YAML 中但我目前没有看
防止在嵌套 ui-sref 时调用父级

假设我有嵌套 DOM 每个 DOM 都有ui sref对于不同的angular ui router状态我想点击outer仅提醒外部并单击inner只提醒内心目前如果我点击inner 它会提醒外部和内部状态 HTML
Karma/Jasmine/PhantomJs：未定义不是构造函数

我有一个应用程序在运行测试时引发奇怪的错误错误如下 TypeError undefined is not a constructor evaluating allKeys i match 0 9 in node modules jasmi
SwiftUI 中的位移：如何使用哈希将字符串转换为特定的数组索引？

我正在尝试将 typescript 转换为 Swift 我目前正在研究使用字符串输入在本例中是用户的首字母缩写来设置颜色在我们的前端应用程序中使用以下 JavaScript 代码 export default function ge
PHPUnit 找不到“TestCase”类

要使用项目的 PHPUnit 运行测试我执行以下操作 php vendor bin phpunit tests SomeClassTest php鉴于以下类声明它可以正常工作 class SomeClassTest extends PH
从接口访问参数 (Fortran)

我正在使用参数来修复所用类型的精度在我尝试在接口中使用相同类型之前这种方法工作得很好考虑这个小例子 module Hello implicit none save integer parameter K selected real k
matplotlib 的 axvline 中存在错误？

根据文档页面 http matplotlib sourceforge net api pyplot api html http matplotlib sourceforge net api pyplot api html使用 axvline
需要帮助从 C# 中的字符串获取 IP

所以我正在 C 中做一个小项目想要读取一个长文本文件当它遇到该行时 X Originating IP 192 168 1 1 我想获取 IP 并仅显示到控制台识别的 IP 所以只需192 168 1 1等等我无法理解正则表达式任何能
如何检测用户脚本是否是从 Chrome 商店安装的？

我想在我的 Greasemonkey UserScript 更新可用时通知用户但是当用户从 Chrome Web Store 安装脚本时我不想打扰因为它具有自动更新功能我首先想到使用 browser chrome但 Chrome
Glassfish 3.1.2 的 JDBCRealm 有一个新的密码加密算法字段。它是做什么用的？

Glassfish JDBC 领域具有多个可以设置的不同属性我感兴趣的是摘要算法 and 密码加密算法属性这就是它们在管理控制台中显示的方式据我所知第二个是从 Glassfish 3 1 2 开始的新版本 I have 查阅了Gla
Cordova 文件插件 readAsDataURL 不返回文件数据

我尝试使用 Cordova 文件插件的 readAsDataURL 函数来获取视频文件的 base64 版本但没有成功我的代码如下所示 recordVideo return new Promise resolve gt let opti
List<> .ForEach 未找到[重复]

这个问题在这里已经有答案了我正在将 Windows Phone 应用程序移植到 Win 8 我发现了这个绊脚石但找不到解决方案我有一个 List
使用javascript点击重复表单

addDetails const divCreate document createElement div divCreate appendChild document createTextNode Some text divCreate
Spring 4 + WebSocket + SockJS + STOMP 方法不允许

我最近开发了一个使用 Spring 4 Websockets STOMP SockJS 的系统我已成功创建连接并发送接收消息但在某些情况下随机地我无法确定原因我收到方法不允许错误并且未创建连接且无法发送接收消息我最初的
使用 boost::bind 将成员函数绑定到 boost::bisect？

我遇到了问题this https stackoverflow com questions 8245909 how to use boost bisection以前但现在它在某种程度上起作用了现在我有以下问题在使用相同的函数调用 boos
如何在 EF Code First 中映射表拆分？

如何使用 EF Code First 映射表拆分例如描述了 EDMX 的表拆分here http thedatafarm com blog data access ef table splitting ndash the opposit
ElasticSearch 随机得分与 boost 相结合？

我正在使用 Firebase 构建 iOS 应用程序并使用 ElasticSearch 作为搜索引擎来获取更高级的查询我正在尝试实现一个可以根据查询从索引中获取随机记录的系统我已经使用带有种子的 random score 函数完成了这

ElasticSearch 随机得分与 boost 相结合？

ElasticSearch 随机得分与 boost 相结合？ 的相关文章

随机推荐

热门标签

ElasticSearch 随机得分与 boost 相结合？的相关文章