elasticsearch禁用词频评分

2023-11-23

我想更改 Elasticsearch 中的评分系统，以摆脱对某个术语多次出现的计数。例如，我想要：

“德克萨斯州德克萨斯州德克萨斯州”

and

"texas"

得出相同的分数。我发现这个映射，elasticsearch 说会禁用术语频率计数，但我的搜索结果并不相同：

"mappings":{
"business": {   
   "properties" : {
       "name" : {
          "type" : "string",
          "index_options" : "docs",
          "norms" : { "enabled": false}}
        }
    }
}

}

任何帮助将不胜感激，我无法找到很多这方面的信息。

我正在添加我的搜索代码以及使用解释时返回的内容。

我的搜索代码：

Settings settings = ImmutableSettings.settingsBuilder().put("cluster.name", "escluster").build();
    Client client = new TransportClient(settings)
    .addTransportAddress(new InetSocketTransportAddress("127.0.0.1", 9300));

    SearchRequest request =  Requests.searchRequest("businesses")
            .source(SearchSourceBuilder.searchSource().query(QueryBuilders.boolQuery()
            .should(QueryBuilders.matchQuery("name", "Texas")
            .minimumShouldMatch("1")))).searchType(SearchType.DFS_QUERY_THEN_FETCH);
    
    ExplainRequest request2 = client.prepareIndex("businesses", "business")

当我用解释搜索时我得到：

  "took" : 14,
  "timed_out" : false,
  "_shards" : {
    "total" : 3,
    "successful" : 3,
    "failed" : 0
  },
  "hits" : {
    "total" : 2,
    "max_score" : 1.0,
    "hits" : [ {
      "_shard" : 1,
      "_node" : "BTqBPVDET5Kr83r-CYPqfA",
      "_index" : "businesses",
      "_type" : "business",
      "_id" : "AU9U5KBks4zEorv9YI4n",
      "_score" : 1.0,
      "_source":{
"name" : "texas"
}
,
      "_explanation" : {
        "value" : 1.0,
        "description" : "weight(_all:texas in 0) [PerFieldSimilarity], result of:",
        "details" : [ {
          "value" : 1.0,
          "description" : "fieldWeight in 0, product of:",
          "details" : [ {
            "value" : 1.0,
            "description" : "tf(freq=1.0), with freq of:",
            "details" : [ {
              "value" : 1.0,
              "description" : "termFreq=1.0"
            } ]
          }, {
            "value" : 1.0,
            "description" : "idf(docFreq=2, maxDocs=3)"
          }, {
            "value" : 1.0,
            "description" : "fieldNorm(doc=0)"
          } ]
        } ]
      }
    }, {
      "_shard" : 1,
      "_node" : "BTqBPVDET5Kr83r-CYPqfA",
      "_index" : "businesses",
      "_type" : "business",
      "_id" : "AU9U5K6Ks4zEorv9YI4o",
      "_score" : 0.8660254,
      "_source":{
"name" : "texas texas texas"
}
,
      "_explanation" : {
        "value" : 0.8660254,
        "description" : "weight(_all:texas in 0) [PerFieldSimilarity], result of:",
        "details" : [ {
          "value" : 0.8660254,
          "description" : "fieldWeight in 0, product of:",
          "details" : [ {
            "value" : 1.7320508,
            "description" : "tf(freq=3.0), with freq of:",
            "details" : [ {
              "value" : 3.0,
              "description" : "termFreq=3.0"
            } ]
          }, {
            "value" : 1.0,
            "description" : "idf(docFreq=2, maxDocs=3)"
          }, {
            "value" : 0.5,
            "description" : "fieldNorm(doc=0)"
          } ]
        } ]
      }
    } ]
  }

看起来它仍在考虑频率和文档频率。有任何想法吗？抱歉，格式错误，我不知道为什么它看起来如此怪诞。

我的代码来自浏览器搜索 http://localhost:9200/businesses/business/_search?pretty=true&qname=texas 是：

    {
  "took" : 2,
  "timed_out" : false,
  "_shards" : {
    "total" : 3,
    "successful" : 3,
    "failed" : 0
  },
  "hits" : {
    "total" : 4,
    "max_score" : 1.0,
    "hits" : [ {
      "_index" : "businesses",
      "_type" : "business",
      "_id" : "AU9YcCKjKvtg8NgyozGK",
      "_score" : 1.0,
      "_source":{"business" : {
"name" : "texas texas texas texas" }
}
    }, {
      "_index" : "businesses",
      "_type" : "business",
      "_id" : "AU9YateBKvtg8Ngyoy-p",
      "_score" : 1.0,
      "_source":{
"name" : "texas" }

    }, {
      "_index" : "businesses",
      "_type" : "business",
      "_id" : "AU9YavVnKvtg8Ngyoy-4",
      "_score" : 1.0,
      "_source":{
"name" : "texas texas texas" }

    }, {
      "_index" : "businesses",
      "_type" : "business",
      "_id" : "AU9Yb7NgKvtg8NgyozFf",
      "_score" : 1.0,
      "_source":{"business" : {
"name" : "texas texas texas" }
}
    } ]
  }
}

它找到了我在那里的所有 4 个物体，并且它们的得分都相同。当我使用解释运行 java API 搜索时，我得到：

    {
  "took" : 2,
  "timed_out" : false,
  "_shards" : {
    "total" : 3,
    "successful" : 3,
    "failed" : 0
  },
  "hits" : {
    "total" : 2,
    "max_score" : 1.287682,
    "hits" : [ {
      "_shard" : 1,
      "_node" : "BTqBPVDET5Kr83r-CYPqfA",
      "_index" : "businesses",
      "_type" : "business",
      "_id" : "AU9YateBKvtg8Ngyoy-p",
      "_score" : 1.287682,
      "_source":{
"name" : "texas" }
,
      "_explanation" : {
        "value" : 1.287682,
        "description" : "weight(name:texas in 0) [PerFieldSimilarity], result of:",
        "details" : [ {
          "value" : 1.287682,
          "description" : "fieldWeight in 0, product of:",
          "details" : [ {
            "value" : 1.0,
            "description" : "tf(freq=1.0), with freq of:",
            "details" : [ {
              "value" : 1.0,
              "description" : "termFreq=1.0"
            } ]
          }, {
            "value" : 1.287682,
            "description" : "idf(docFreq=2, maxDocs=4)"
          }, {
            "value" : 1.0,
            "description" : "fieldNorm(doc=0)"
          } ]
        } ]
      }
    }, {
      "_shard" : 1,
      "_node" : "BTqBPVDET5Kr83r-CYPqfA",
      "_index" : "businesses",
      "_type" : "business",
      "_id" : "AU9YavVnKvtg8Ngyoy-4",
      "_score" : 1.1151654,
      "_source":{
"name" : "texas texas texas" }
,
      "_explanation" : {
        "value" : 1.1151654,
        "description" : "weight(name:texas in 0) [PerFieldSimilarity], result of:",
        "details" : [ {
          "value" : 1.1151654,
          "description" : "fieldWeight in 0, product of:",
          "details" : [ {
            "value" : 1.7320508,
            "description" : "tf(freq=3.0), with freq of:",
            "details" : [ {
              "value" : 3.0,
              "description" : "termFreq=3.0"
            } ]
          }, {
            "value" : 1.287682,
            "description" : "idf(docFreq=2, maxDocs=4)"
          }, {
            "value" : 0.5,
            "description" : "fieldNorm(doc=0)"
          } ]
        } ]
      }
    } ]
  }
}

看起来好像无法覆盖index options对于在映射中初始设置字段后的字段

Example:

put test
put test/business/_mapping
{

      "properties": {
         "name": {
            "type": "string",
           "index_options": "freqs",
            "norms": {
               "enabled": false
            }
         }
      }

}
put test/business/_mapping
{

      "properties": {
         "name": {
            "type": "string",
            "index_options": "docs",
            "norms": {
               "enabled": false
            }
         }
      }

}
get  test/business/_mapping

   {
   "test": {
      "mappings": {
         "business": {
            "properties": {
               "name": {
                  "type": "string",
                  "norms": {
                     "enabled": false
                  },
                  "index_options": "freqs"
               }
            }
         }
      }
   }
}

您必须重新创建索引才能获取新映射

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Java

elasticsearch

Frequency

scoring

elasticsearch禁用词频评分的相关文章

在 Java Swing 中检测 JScrollPane 上的 mouseClick 事件

如果我有这样的东西我可以使用布尔标志 performAdjustment 控制自动滚动 static boolean performAdjustment true JTextArea textArea new JTextArea JScr
JavaEE 8 教程，在 hello1 项目上部署失败

我正在尝试学习 Java EE 8 我遵循了官方指南https javaee github io tutorial https javaee github io tutorial 但我有这个问题 cargo maven2 plugin 1
Java Swing：清除JList而不触发监听器

我的情况如下我有一个 JList 只要在列表中进行选择它就会触发搜索使用 ListSelectionListener 我正在尝试使用以下命令重置列表上的选择list clearSelection 这样做的问题是使用clearSelec
.java 和 .scala 类之间是否可能存在循环依赖？

假设我在 java 文件中定义了类 A 在 scala 文件中定义了类 B A 类使用 B 类 B 类使用 A 类如果我使用 java 编译器则会出现编译错误因为 B 类尚未编译如果我使用scala编译器A类将找不到有没有可以同时
Spring webflow 应用程序：HTTP 302 暂时移动

我的 java 应用程序中的每个请求都会生成另外 2 个带有 HTTP 302 错误的请求例如如果请求查看名为板 html 这个请求是从首页 html 我收到按以下顺序生成的 3 个请求 POST home html 302 Moved
Java/JAXB：将具有相同名称但不同属性值的 XML 元素解组到不同的类成员

我正在尝试根据其属性之一将具有多个 Fields 元素的 XML 解析为不同的类成员这是 XML
使用 Java 编程式 HTML 文档生成

有谁知道如何在 Java 中以编程方式生成 HTMLDocument 对象而不需要在外部生成字符串然后使用 HTMLEditorKit read 来解析它我问的两个原因首先我的 HTML 生成例程需要非常快并且我认为将字符串解析
使用 jdbc 程序连接到 Open Office odb 文件

我编写了以下代码来连接到 OpenOffice db String db C Documents and Settings hkonakanchi Desktop Test odb Class forName org hsqldb jdbc
Maven + Cobertura：无法找到[您的班级]。你指定了源目录吗？

我有 MyMath 类有两个简单的方法 multi 和 add 和测试类只会测试多种方法 public class MainTest Test public void testMultiply MyMath tester new MyMa
从 eclipse 运行时 java.io.FileNotFoundException: (没有这样的文件或目录)

我正在写入文件并想要控制台输出 TODO Create a game engine and call the runGame method public static void main String args throws Excepti
在气球内显示带有照片的多个地标的最佳做法是什么？

我有一个项目如下从手机上拍摄几张照片将照片保存在网络系统中然后将照片显示在其中的谷歌地球上我读过很多文章但它们都使用 fetchKml 我读过的一篇好文章是使用 php 但使用 fetchKml 我不知道是否可以使用 parseK
如何消除警告：使用“$”而不是“.”对于 Eclipse 中的内部类

我是 Android 开发新手当我将 eclipse 和 Android SDK 更新到最新版本后我收到警告 Use instead of for inner classes or use only lowercase letters
您能让 Tomcat 6 stdout.log 文件表现得像 log4j DailyRollingFileAppender 吗？

我们使用的是 Tomcat 6 的 Windows 安装默认情况下我们应用程序的 log4j 输出将转到 catalina base logs stdout log 文件该日志文件仅在我们重新启动 Tomcat 时滚动并且文件名始终
Java G1 GC 处理引用对象运行缓慢

我已经在 J ava 上运行了计数器它24小时工作每秒点击通过100次左右白天 GC 处理时间从 20 60 毫秒缓慢上升到 10000 60000 毫秒然后下降到 20 60 毫秒这种模式不时地重复从 GC 日志中我发现 GC
Java String.format 向整数添加空格

我有一小段代码我不明白输出此输出向我的字符串格式文本添加空格我做错了什么吗 public class HelloWorld public static void main String args int a1 540 int a2 4
如何在将数据发送到 Firebase 数据库之前对其进行加密？

我正在使用 Firebase 实时数据库制作聊天应用程序我知道 Firebase 非常安全只要您的规则正确但我自己可以阅读使用我的应用程序的人的所有聊天记录我想阻止这种情况为此我需要一种解密和加密方法我尝试使用凯撒解密但失败了
嵌入式 tomcat 7 servlet 3.0 注释不起作用

我有一个精简的测试项目其中包含 Servlet 版本 3 0 用注释声明如下所示 WebServlet test public class TestServlet extends HttpServlet private static f
是什么原因导致“对象不是声明类的实例”？ [复制]

这个问题在这里已经有答案了可能的重复使用反射调用方法时为什么会出现对象不是声明类的实例 https stackoverflow com questions 7202988 why do i get object is not an
JDK 7 的快速调试/调试构建

我正在寻找 JDK 的调试或者我猜他们称之为快速调试构建以启用在运行时生成的打印程序集以及查找性能问题时所需的其他诊断就目前情况而言我似乎找不到可以直接使用的现成的快速调试构建二进制包有人可以帮我提供下载链接或者至少提供有关
如何使用 Spring AOP 建议静态方法？

在执行类的静态方法之前和之后需要完成一些日志记录我尝试使用 Spring AOP 来实现这一点但它不起作用而对于正常方法来说它起作用请帮助我理解如何实现这一点如果可以使用注释来完成那就太好了也许您应该在使用 Spring AO

随机推荐

LNK1117：选项“VERSION：1.0.0”中的语法错误[重复]

这个问题在这里已经有答案了当我尝试构建时我有一个非常好奇的问题Visual Studio 2013 有人可以帮助我吗我做错了什么原始消息德语 1 gt Erstellen gestartet Projekt npworpg Kon
Scala 类型：A 类不等于 T，其中 T 为：类型 T = A

我正在阅读 Scala 编程一书的第 20 7 节我想知道为什么这段代码编译时 class Food class Fish extends Food class Grass extends Food abstract class Ani
Logback - 启动时不创建空日志文件

我有一个项目其中有很多工具类它们有自己的日志记录这些日志文件是在应用程序启动时创建的但在使用之前保持为空是否可以告诉 logback 在启动时不应创建空文件但只有当它们被使用时不知何故我找不到有关此主题的信息谢谢 Lo
Xamarin.Forms - 将 CollectionView 的高度调整为适合儿童的最小尺寸

I have a CollectionView with a few items in it I m trying to adjust the size of the CollectionView to be just big enough
如何使用Python读取MS-Word文件中表格的内容？

如何读取和处理 DOCX 文件中表格的每个单元格的内容我在 Windows 7 和 PyWin32 上使用 Python 3 2 来访问 MS Word 文档我是初学者所以我不知道到达表格单元格的正确方法到目前为止我刚刚这样做了 i
如何在Android中检查特定设备是否支持4G网络？

我想检查一下是否特定设备具有对 4G 网络的硬件支持我将详细说明这个问题在应用程序中我们有一个设置页面用户可以在其中进行选择并允许应用程序仅在选定的网络中运行例如用户可以选择该应用程序仅在 WiFi 网络或仅在 3G 网络等中运
webapi2 返回不带引号的简单字符串

简单场景 public IHttpActionResult Get return Ok
ClosureCleaner.clean的目的

Before sc runJob调用dagScheduler runJob 对 rdd 执行的 func 被清理为ClosureCleaner clean 为什么 Spark 必须这样做目的是什么 Ankur Dave 一位 Spar
docker-compose + django + redis - 连接到 127.0.0.1:6379 时出现错误 111。连接被拒绝

我已经看过了这个答案并且不知道如何将其应用于我的问题所以如果答案存在我们将不胜感激我也是 docker 和 docker compose 的菜鸟我有一个简单的 docker compose yml version 3 service
Php 从 C# .NET RIJNDAEL 解密字符串 256

修复 data base64 decode str replace GET data 无论出于何种原因 Php 将 GET 变量中的转换为空格我正在尝试解密正在 C NET 中解密的字符串代码的结果各不相同有几次最终字符串的某些部分
为什么我们使用system.out.flush()？ [复制]

这个问题在这里已经有答案了有人可以解释一下我们为什么要使用system out flush 以更简单的方式如果有可能丢失数据请给我提供一个例子如果您在下面的代码中注释它则不会发生任何变化 class ReverseApp publ
自动实现 Rust 新类型（具有一个字段的元组结构）的封闭类型的特征

在 Rust 中可以创建只有一个字段的元组结构如下所示 struct Centimeters i32 我想做基本算术Centimeters无需每次通过模式匹配提取它们的内部值也无需实现Add Sub 特征和重载运算符我想做的是
拦截 WPF 应用程序的每次鼠标点击

我希望拦截 WPF 应用程序中的每次鼠标单击似乎使用命令路由机制这应该很容易但抱歉我没有找到任何东西我的应用程序实现了多个安全级别并且如果在 x 分钟内没有人与应用程序交互单击则需要自动恢复到最严格的级别我的计划是添加一个计时
检测设备是用密码锁还是人脸锁的指纹锁保护的？

我的应用程序包含登录的用户身份验证包括 pin 图案指纹解锁这取决于设备安全性我正在使用生物识别管理器来检测设备是否支持指纹生物识别管理器并检查设备是否安全使用isDeviceSecure 我需要检测移动设备在哪种模式下受到保护无
Python 3.2 中的暴力破解脚本

我是编写代码的初学者我从 Python 开始因为它看起来最简洁最容易上手我目前使用的是 Python 3 2 现在我读了一些关于Python编码的在线书籍等等我制作了一些小程序仅此而已但后来我想制作一个程序可以暴力破解随机密
获取 UIStackView 子视图的框架

我在 IB 中创建了一个 UIStackView 其分布设置为 Fill Equally 我希望获取每个子视图的框架但以下代码始终返回 0 0 0 0 class ViewController UIViewController IBOut
每个浏览器的媒体查询

我想根据浏览器调整输入字段的大小我可以为每个浏览器编写媒体查询以便在单独的浏览器上为输入字段设置单独的宽度就像对于 mozilla 来说它在 chrome 上将具有单独的宽度而 Opera 则将具有单独的宽度媒体查询 are m
如何使用 kotlin android 更新我的 Recyclerview？

我有一个显示数据的 Recyclerview 活动现在我想更新我的RecyclerView一旦获得新数据现在每次我关闭并重新打开我的应用程序时都会显示新数据但我希望它没有关闭更新我的观点我试过这个但什么都行不通 fun setu
Apache Spark 案例在不同列上具有多个 when 子句

鉴于以下结构 val df Seq Color Shape Range Size map Tuple1 apply toDF color val df1 df withColumn Success when color lt gt whit
elasticsearch禁用词频评分

我想更改 Elasticsearch 中的评分系统以摆脱对某个术语多次出现的计数例如我想要德克萨斯州德克萨斯州德克萨斯州 and texas 得出相同的分数我发现这个映射 elasticsearch 说会禁用术语频率计数但我

elasticsearch禁用词频评分

elasticsearch禁用词频评分 的相关文章

随机推荐

热门标签

elasticsearch禁用词频评分的相关文章