我有 2 个文档,正在搜索关键字“Twitter”。假设两个文档都是带有“标签”字段的博客文章。
文档 A 在“标签”字段中只有 1 个术语,它是“Twitter”。
文档 B 在“标签”字段中有 100 个术语,但其中 3 个是“Twitter”。
尽管文档 B 的频率较高,但 Elastic Search 给文档 A 的评分较高。但分数被“稀释”了,因为它有更多的术语。由于文档 B 的搜索词出现频率较高,我如何给它更高的分数?
我知道 ElasticSearch/Lucene 根据文档中的术语数量执行一些标准化。如何禁用此标准化,以便文档 B 获得更高的分数?
正如另一个答案所说,看看在单个分片上是否有相同的结果会很有趣。我认为你会的,这取决于标签字段的规范,在使用 tf/idf 相似度(默认)计算分数时会考虑到该规范。
事实上,lucene 确实考虑了术语频率,换句话说,术语在字段中出现的次数(在您的例子中为 1 或 3),以及倒排文档频率,换句话说,术语在字段中出现的频率如何。索引,以便将其与查询中的其他术语进行比较(在您的情况下,如果您搜索单个术语,则没有任何区别)。
但是还有另一个称为规范的因素,它奖励较短的字段并考虑最终的索引时间提升,这可以是每个字段(在映射中)甚至每个文档。您可以验证规范是否是结果的原因,在搜索请求中启用解释选项并查看解释输出。
我想第一个文档仅包含该标签这一事实使得它比多次包含该标签但也包含很多标签的其他文档更重要。如果您不喜欢这种行为,您可以在标记字段的映射中禁用规范。如果该字段是,则应默认启用"index":"analyzed"
(默认)。您可以切换到"index":"not_analyzed"
如果您不希望分析您的标签字段(这通常是有意义的,但取决于您的数据和域)或添加"omit_norms": true
标签字段映射中的选项。
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)