Solr：分数百分比

2023-11-26

首先，我已经看到了lucene 文档这告诉我们不要以百分比形式生成分数：

人们经常想要计算 Lucene 分数的“百分比” 确定什么是“100% 完美”匹配与“50%”匹配。这是也称为“标准化分数”

不要这样做。

严重地。不要再试图以这种方式思考你的问题，事实并非如此会有好的结局。

由于这些建议，我使用了另一种方法来解决我的问题。

However，lucene的论证有几点我不太明白为什么它们在某些情况下会出现问题。

对于以下情况这个帖子，我可以很容易地理解为什么它不好：如果用户进行搜索并看到以下结果：

产品A：5星
产品B：2星
产品C：1星

如果 ProductA 在第一次搜索后被删除，那么用户下次再来时，如果看到以下结果，他会感到惊讶：

产品B：5星
产品C：3星

那么，这个问题这正是 Lucene 的文档所指出的.

现在，我们再举一个例子。

想象一下我们有一个电子商务网站正在使用“经典搜索”结合拼音搜索。此处的拼音搜索是为了避免由于拼写错误而导致最大数量的空结果。相对于经典搜索的分数，拼音结果的分数非常低。

在这种情况下，第一个想法是只返回具有至少为最高分数的 10%。即使使用经典搜索，低于此阈值的结果也不会被视为与我们相关。

如果我这样做的话我没有这个问题上面的帖子的原因是，如果删除文档，如果旧的第二个产品成为第一个产品，那么似乎合乎逻辑，并且用户不会感到非常惊讶（这与我将分数保留为浮点值的行为相同）。

此外，如果语音搜索的分数非常低，正如我们预期的那样，我们将保持相同的行为，仅返回相关分数。

So 我的问题是：按照 Lucene 建议的方式标准化分数总是不好吗？我的例子是一个例外还是即使对于我的例子来说这样做也是一个坏主意？

正如您所讨论的，Lucene 分数值仅与表达一场比赛中每场比赛的相对强度set比赛数。在一组特定搜索结果的上下文中，特定记录的分数已没有绝对的意义.

因此，唯一合适的分数标准化是标准化结果集中文档的相关性之间的关系，即使这样，您也需要非常小心地使用此信息。

考虑这个结果集，我们在其中检查每条记录的分数与紧接之前的结果:

ProductA         (Let's pretend the score is 10)
ProductB:  97%   (9.7)
ProductC:   8.5% (.82)
ProductD: 100%   (.82)
ProductE: 100%   (.82)
ProductF:  24%   (.2)

在这种情况下，前两个结果具有非常相似的分数，而接下来的三个结果具有相同的分数但显着落后。这些数字显然不会与在线购物者分享，但低relativeProductC 和 ProductF 的分数代表急剧下降，您可以could使用它们来通知其他显示选项。也许 ProductA 和 ProductB 会以比其他字体更大的字体显示。如果在急剧下跌之前只有一种产品出现，它可能会得到更特别的突出显示。

我警告不要完全压制相对地得分较低的结果在这种寻找中。正如您在示例中已经证明的那样，相对分数可能会产生误导，除非您的相关性经过非常精细的调整，否则最相关的文档可能并不总是最合适的。如果由于单个记录碰巧重复搜索词足够多次而赢得了出色的分数，从而导致所需的结果被丢弃，那么这对您没有任何好处，这是一个真正的威胁。

例如，"Hamilton Beach Three-In-One Convection Toaster Oven"将在搜索中匹配八分之一的单词toaster, while "ToastMaster Toast Toaster Toasting Machine TOASTER"根据您的索引方式，将匹配七个单词中的多达五个。（这两个产品名称都是完全虚构的，但我希望第二个名称看起来不太有信誉。）

Also, 所有退回的文件是匹配的，无论他们的分数有多低。有时，排名较低的结果是用户真正想要的黑马发现。用户将not了解除非您告诉他们，否则存在超出他们所看到的匹配文档，因此您可能会将尾随结果隐藏在“第 2 页”或剪切后面，但您可能不想阻止它们。让用户了解结果集的大小还可以帮助他们决定如何微调搜索。使用分数的显着下降作为分页的阈值可能非常有趣，但可能是一个具有挑战性的实现。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Solr：分数百分比的相关文章

MultiFieldQueryParser 正在从首字母缩略词中删除点

我再次发布这个问题因为我的查询没有得到答复我正在使用 Lucene 开发图书搜索 api 用户可以搜索标题或描述字段包含 C F A 的书籍我正在使用 StandardAnalyzer 以及停用词列表我使用 MultiFieldQu
在python中删除链表中的节点

删除链表中的节点这个实现有什么问题 def delete self val tmp self head prev None while tmp if val tmp data self size 1 if prev None self h
由于未定义符号，PECL solr 未加载：curl_easy_getinfo

我正在尝试加载 PECL solr 扩展我尝试使用 pecl install solr 并下载并使用 phpize configure make 来安装它在这两种情况下扩展安装时都没有错误但在 apache 重新启动后或在命令行上
WordPress 自定义帖子类型未显示在搜索结果中

我在 WordPress 中遇到自定义帖子类型测验和搜索的问题自定义帖子类型未显示在我的搜索结果页面中我的搜索结果中仅显示默认的帖子内容以下是我使用的代码函数 php函数create posttype register post
在elasticsearch中转义特殊字符

我正在使用Elasticsearch python 客户端 https elasticsearch py readthedocs io en master 对我们托管的 elasticsearch 实例进行一些查询我注意到一些字符需要转义
Lucene 4.0 中的术语频率

尝试使用 Lucene 4 0 计算词频我的文档频率工作得很好但不知道如何使用 API 来执行术语频率这是我的代码 private static void addDoc IndexWriter writer String conten
我可以用 Java 在邮件服务器上执行搜索吗？

我正在尝试使用 Java 搜索我的 Gmail 使用 JavaMail 我可以通过消息搜索来执行消息如下所示 Properties props System getProperties props setProperty mail sto
使用 PHP MySql 进行关键字搜索？

我的 mysql 表中有标题 varchar 描述 text 关键字 varchar 字段我保留了关键字字段因为我认为我只会在这个字段中搜索但我现在需要在所有三个字段中进行搜索所以对于关键字 word1 word2 word3 我的
simplexml_load_file 在 Solr 的 url 中带有 &（与号）

我正在使用 Solr 并有以下查询该查询在我的浏览器中运行良好 http www someipaddress com 8983 solr select q fq shopid 40 start 0 rows 18 fq manufactu
检查 Bash 数组中是否存在元素[重复]

这个问题在这里已经有答案了我想知道是否有一种有效的方法来检查 Bash 数组中是否存在元素我正在寻找类似于我可以在Python中做的事情例如 arr a b c d if d in arr do your thing else do
Elasticsearch：带有停用词消除功能的带状疱疹

我正在尝试实现一个 Elasticsearch 映射来优化大量文本中的短语搜索根据中的建议本文 http www elasticsearch org blog searching with shingles 我使用 shingle 过滤器
Lucene 4.4.0新增ControlledRealTimeReopenThread示例使用

在新的 Lucene 4 4 0 版本中近实时管理器 org apache lucene search NRTManage 已被替换为受控实时重开线程 https issues apache org jira browse LUCENE
算法 - 树中所有节点的最大距离

所以找到树中两个节点之间的最长路径相当容易但我想要的是找到从节点出发的最长路径x到树中的另一个节点对于所有x 这个问题也可以用以下方式表达计算从给定的树中可以生成的所有有根树的高度 One way of course is to j
Solr 突出显示是否还可以指示返回片段在原始字段内的位置或偏移量？

背景使用Solr 4 0 0 我已经对一组示例文档的文本建立了索引并启用了术语向量以便我可以使用快速向量突出显示
Lucene.Net 下划线导致令牌分裂

我已将 MsSqlServer 数据库表视图和存储过程编写到目录结构中然后使用 Lucene net 对其进行索引我的大多数表视图和过程名称都包含下划线我使用标准分析器如果我查询名为 tIr 的表例如发票 tnWtn01 我收
lucene 如何与 Neo4j 配合使用

我是新来的Neo4j and Solr Lucene 我读到我们可以在 Neo4j 中使用 lucene 查询这是如何工作的 Neo4j中使用lucene查询有什么用我还需要一个建议我需要编写一个应用程序来搜索和分析数据 which
JIRA JQL 按日期搜索 - 有没有办法获取 Today()（日期）而不是 Now()（日期时间）

我正在尝试在 JIRA 中基于以下内容创建一些问题过滤器CreateDate 我能找到的唯一日期时间函数是Now 以及与之相关的搜索即 1d 4d 等唯一的问题是 Now 是特定于时间的因此无法获取特定日期创建的问题 i e Cre
PHP 搜索部分字符串

如何在键入时搜索部分字符串不使用 MySQL 例如 MySQL 中的 LIKE 函数但在搜索字符串时使用 PHP 例如但这显然行不通但是有没有一个函数可以搜索部分字符串那太好了 EDIT 如果它在数组中怎么办如果我使用 strp
根据对象变量搜索对象列表

我有一个对象列表这些对象具有三个变量 ID 名称和值这个列表中可能有很多对象我需要根据ID或Name找到一个对象并更改值例子 class objec public string Name public int UID public
Django：Haystack 或 ORM

在一个项目中我实现了 Haystack 但现在我想知道使用 Haystack 相对于 ORM 有何优缺点对于我的项目我需要按书名和 isbn 查找书籍我想如果你必须进行全文搜索 Haystack 会更有用或者我是否遗漏了一些东西

随机推荐

PHP正则表达式用于强密码验证[重复]

这个问题在这里已经有答案了我在网上看到过以下正则表达式 8 d W n A Z a z 仅当字符串满足以下条件时才验证 contain at least 1 upper case letter contain at least 1 low
Github级联合并的做法是怎样的？

github上是否有任何选项或实践可以提供像bitbucket这样的自动PR级联 https confluence atlassian com bitbucketserver automatic branch merging 7766399
ES6 Arrow 函数正在改变 Meteor.publish 中的 this 范围 [重复]

这个问题在这里已经有答案了所以我开始使用ES6Meteor 但显然如果你尝试使用Meteor publish带有箭头函数的语法 this userId是未定义的而如果你将它与常规一起使用function this userId工作完美
C++ 中对象的静态和动态内存分配

在C 程序中对于一个类如何获取任意时刻静态创建和动态创建的活动对象的数量可悲的是你不能斯科特迈耶 Scott Meyer 的一本书中有整整一个章节他继续讲述试图实现这一目标的挑战但缺点是这是不可能的更有效的 C 第 27 条
当用户终止应用程序时，我可以进行 api 调用吗？

当用户终止应用程序强制关闭时我需要进行 API 调用我所做的直接实施如下在应用程序委托中我添加了以下代码 func applicationWillTerminate application UIApplication print
如何在 ASP.Net MVC 中使用 PdfSharp 显示 PDF？

我们正在制作一个 ASP Net MVC 应用程序它需要能够生成 PDF 并将其显示到屏幕上或将其保存在用户易于访问的位置我们使用 PdfSharp 生成文档完成后我们如何让用户保存文档或在阅读器中打开它我特别困惑因为 PDF
如何对使用会话窗口的 kafka 流应用程序进行单元测试

我正在使用 Kafka Stream 2 1 我正在尝试为聚合的流应用程序编写一些测试一些事件按其键即通过相关 ID 使用会话窗口不活动间隙为 300 毫秒这是由方法表示的聚合实现 private static final int
从android中的周数和年份获取周开始和结束日期

我希望获取传递给该方法的周数的一周开始日期和结束日期例如如果我将周数传递为51和年份2011 它应该返回我的开始日期18 Dec 2011结束日期为24 Dec 2011 有什么方法可以帮助我实现这一目标吗您可以使用以下方法获取一周的
内存不足异常 + 分析 hprof 文件转储

这与这个问题有关 android graphics BitmapFactory nativeDecodeAsset 本机方法处的 java lang OutOfMemoryError 我创建了相关转储文件它提供了以下信息 One ins
如何使用 CSS 在两个行之间添加空格？

我想用CSS控制布局我怎样才能调节之间的空间
如何禁止选择 GridView 中的单个项目

如何禁用 GridView 中的单个项目选择我有一个 GridView 其 ItemsSource 绑定到 IEnumerable 我希望能够以编程方式不允许选择列表中的某些项目同时允许选择其他项目虽然我还没有这样做但您应该能够在
如何在 matplotlib 中创建径向热图？

I am able to get the radial heatmap in ggplot2 like this 如何使用 matplotlib 获得相同的结果这是 df 和可视化示例而不是用于使用 ggplot2 创建径向热图的数据
给定日期（以 mm/dd/yyyy 为单位），查找一年中的第几周

我正在尝试查找某一年中某个日期所在的周我有一堆文件需要分类到 week1 2012 和 week34 2011 等文件夹中我尝试搜索但很多结果并没有真正的帮助因为我目前使用的是 perl v5 6 1 超级旧我无法下载任何模块我
来自奥尔森时区的 .NET TimeZoneInfo

如何将以下内容转换为 System TimeZone 或 System TimeZoneInfo timeZone America Los Angeles currentOffsetMs 25200000 这是我从第三方网络服务返回的数据
对于加快 Flex Builder 3 中的编译时间有什么建议吗？

我在 Mac 上运行 Flex Builder 3 随着项目的增长编译时间变得越来越长我正在使用一些 SWC 并且有相当多的代码但每天构建和崩溃不应该花费几分钟的时间不是吗首先对一些回复的评论 Flex Builder 中不需要显
Live Server VScode：此页面无法正常工作 127.0.0.1 未发送任何数据。 ERR_EMPTY_RESPONSE

我想建立一个实时服务器并且很快就遇到了this扩大安装后我单击右上角的 Go live 按钮 Chrome 浏览器中会自动打开一个选项卡并显示此错误消息我试过做this 没有成功这对我有用我在 Github 问题线程中找到了这
我可以使用 JavaScript 动态更改视频源吗？

如何使用 JS 更改视频来源
像这样的 scanf(" %c",&ch) 代替 scanf("%c",&ch) 在 scanf 中放置空格的目的是什么？ [复制]

这个问题在这里已经有答案了插入空格的目的是什么scanf像这样 scanf c ch 代替 scanf c ch 还有什么是输入缓冲区fflush stdin 因为前面的空间 c忽略所有空白 scanf函数族忽略任何之前的所有空格默认情
Apache POI Java 缺失单元策略

有人可以解释一下吗Missing cell policy of Apache POI 到底什么是缺失的细胞我没有找到Apache POI docs link不言自明地了解到底缺少什么细胞你读过吗Apache POI Excel 繁忙开发
Solr：分数百分比

首先我已经看到了lucene 文档这告诉我们不要以百分比形式生成分数人们经常想要计算 Lucene 分数的百分比确定什么是 100 完美匹配与 50 匹配这是也称为标准化分数不要这样做严重地不要再试图以这种方式思考你的

Solr：分数百分比

Solr：分数百分比 的相关文章

随机推荐

热门标签

Solr：分数百分比的相关文章