如何使用elasticsearch正确处理多词同义词扩展？

2024-03-30

我有以下同义词扩展：

suco => suco, refresco, bebida de soja

我想要的是以这种方式标记搜索：

搜索“suco de laranja”将被标记为 [“suco”、“laranja”、“refresco”、“bebida de soja”]。

但我将其标记为 [“suco”、“laranja”、“refresco”、“bebida”、“soja”]。

考虑到“de“单词是一个停用词。我希望在查询中忽略它，例如“bebida de laranja”变成[“bebida”，“laranja”]。但我不希望在同义词标记化中考虑它，所以“ bebida de soja”仍然作为一个标记“bebida de soja”。

我的设置：

{
    "settings":{
        "analysis":{
            "filter":{
                "synonym_br":{
                    "type":"synonym",
                    "synonyms":[
                        "suco => suco, refresco, bebida de soja"
                    ]
                },
                "brazilian_stop":{
                    "type":"stop",
                    "stopwords":"_brazilian_"
                }
            },
            "analyzer":{
                "synonyms":{
                    "filter":[
                        "synonym_br",
                        "lowercase",
                        "brazilian_stop",
                        "asciifolding"
                    ],
                    "type":"custom",
                    "tokenizer":"standard"
                }
            }
        }
    }
}

我建议您进行以下两项更改。第一个与您提出的问题直接相关，第二个是建议。

不要使用多个同义词的扩展，而是执行相反的操作，即所有同义词都指向单个单词同义词。所以，改变"suco => suco, refresco, bebida de soja" to "suco, refresco, bebida de soja => suco"
更改过滤器的顺序synonyms分析仪。地方lowercase before synonym_br。这将确保案件不会影响synonym_br令牌过滤器。

所以最终设置将是：

{
  "settings": {
    "analysis": {
      "filter": {
        "synonym_br": {
          "type": "synonym",
          "synonyms": [
            "suco, refresco, bebida de soja => suco"
          ]
        },
        "brazilian_stop": {
          "type": "stop",
          "stopwords": "_brazilian_"
        }
      },
      "analyzer": {
        "synonyms": {
          "filter": [
            "lowercase",
            "synonym_br",
            "brazilian_stop",
            "asciifolding"
          ],
          "type": "custom",
          "tokenizer": "standard"
        }
      }
    }
  }
}

这是如何运作的？

用于输入bebida de soja过滤器按以下顺序应用：

Input Filter        Result tokens
====================================
lowercase           bebida, de, soja
synonym_br          suco             <------- all the above tokens(including position) exactly matches a synonym
brazilian_stop      suco
asciifolding        suco

让我们来看看brazilian_stop在行动中。为此，我们需要一个与同义词不匹配但具有的输入de在里面。例如。de soja:

Input Filter        Result tokens
=================================
lowercase           de, soja
synonym_br          de, soja  <------- none of the tokens (independently or combined(including position)) matches any synonym
brazilian_stop      soja      <------- de is removed as it is a stopword
asciifolding        soja

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

elasticsearch

ElasticStack

elasticsearch5

如何使用elasticsearch正确处理多词同义词扩展？的相关文章

快速引导大量分层数据的策略以及在任何记录发生更改时更新 Elasticsearch 中的单个分层 json 文档的方法

根据业务场景来自 2 个关系表最好是多个表例如 6 7 的列必须合并到单个分层 json 文档中以用于 Elasticsearch 上的单个索引如下面示例文档中所述样本文件员工及联系信息 id 1 name tom john
Elasticsearch - 如何获取文档的流行词列表

我有一个临时索引其中包含我需要审核的文档我想按这些文档包含的单词对它们进行分组例如我有这些文件 1 aaa bbb ccc ddd eee fff 2 bbb mmm aaa fff xxx 3 hhhh aaa fff 所以我想
ElasticSearch 脚本：检查数组是否包含值

假设我创建了一个这样的文档 PUT idx type 1 the field 1 2 3 我可以使用 GET idx type 1 检索我的文档 index idx type type id 1 version 1 found true s
spring-data-elasticsearch 在多个索引上搜索

我的页面上有一个搜索字段该搜索字段应该搜索多个索引我可以毫无问题地搜索一个索引如 spring data elasticsearch 文档中所述但是如果我搜索例如 Foo 我希望得到以下列表作为按相关性排序的结果 title F
如何将Spring boot日志直接摄取到elastic中

我正在研究将 Spring Boot 应用程序日志直接发送到 Elastic Search 的可行性不使用 filebeats 或logstash 我相信 Ingest 插件可能会对此有所帮助我最初的想法是使用 TCP 上的 logba
ElasticSearch 全文搜索

我尝试在elasticsearch java api 中使用正则表达式运行全文搜索我的过滤器是这样的 FilterBuilder qFilter FilterBuilders regexpFilter all text 但它只匹配一个单词
Spring WebApp中使用Elasticsearch客户端时出现链接错误

我在尝试将 Elasticsearch java 客户端包含在我的 Web 应用程序中时遇到问题我有所需的依赖项并且我正在初始化销毁 Spring bean 中创建客户端作为一个简单的测试如下所示 Override public
在 Elasticsearch 中过滤折叠结果

我有一个弹性搜索索引其中包含表示给定时间点实体的文档当实体更改状态时会创建带有时间戳的新文档当我需要获取所有实体的当前状态时我可以执行以下操作 GET https 127 0 0 1 9200 myindex search col
如何在桶聚合中进行过滤器聚合？

我有以下要求我有一些如下所示的记录作为示例 agreementid 1 lastdispositioncode PTP feedbackdate 30 11 2020 agreementid 1 lastdispositioncode
深层嵌套类型的Elasticsearch聚合

之前我问过this https stackoverflow com questions 31841542 elasticsearch metric aggregation number of elements in array 318464
elasticsearch中@timestamp和timestamp字段的区别

当我使用日志存储向弹性搜索记录一些请求时它将 timestamp 字段作为时间当我使用 NEST 记录这些请求并设置时间戳字段时它会放置时间戳字段当我使用 kibana 查看数据时这两个字段具有单独的名称他们之间有什么区别 ti
如何在elasticsearch中配置synonym_path

我对 elasticsearch 很陌生我想使用同义词我在配置文件中添加了这些行 index analysis analyzer synonym type custom tokenizer whitespace filter synon
ElasticSearch - 索引模板和索引模式有什么区别

我在这里阅读了对我的问题的解释 https discuss elastic co t whats the differece Between index pattern and index template 54948 https disc
如何在 Elasticsearch 中同时按父字段和嵌套字段排序？

我需要同时按父字段和嵌套字段在 Elasticsearch 中排序我的数据是这样的 id 1 rank 8 price 12 45 offers id 777 rank 12 price 45 75 id 2 rank 35 price
如何用Python为ElasticSearch创建只读客户端？

我想从 ES 读取数据但不想意外向其中写入数据无索引操作这只是一种安全措施以便以后修改查询函数的其他人不允许插入数据当你说你想要只读客户端时客户端强调您系统中的同一集群可能有其他客户端然后阻止整个索引为只读将会阻止所有客户端的
向 ElasticSearch 术语聚合添加其他字段

索引文档如下 id 1 title Blah platform id 84 url http facebook com title Facebook 我想要的是按平台计数和输出统计数据为了计数我可以使用术语聚合platform id作为
在 ElasticSearch 7+ 中，如何搜索所有文本字段？

我想在 Elasticsearch 7 3 中存储的文档中搜索单词我希望在以前版本的 Elasticsearch 上运行的一个示例是 query bool must match all oliver must not should fro
Python elasticsearch DSL 聚合/每个文档嵌套值的度量

我试图找到 2 级嵌套中的最小值每个文档单独的最小值到目前为止我能够进行聚合计算搜索结果中所有嵌套值的最小值但无需按文档进行分隔我的示例架构 class MyExample DocType myexample id Intege
在elasticsearch结果中显示不匹配的单词

我想显示返回文档的多单词查询不匹配哪些单词是否有查询类型或参数来实现此目的通常此类不匹配的单词会以删除线字体显示给用户我得到答案后的示例查询 POST posts search query bool should match nam
弹性搜索模糊匹配，精确匹配首先显示

我想在查询中使用模糊匹配但精确匹配显示在结果的顶部我已经尝试过以下方法 return this gt client gt search array index gt self INDEX type gt self TYPE body g

随机推荐

Rails 关联方法如何工作？

Rails 关联方法如何工作让我们考虑这个例子 class User lt ActiveRecord Base has many articles end class Article lt ActiveRecord Base belong
将 SVG 作为 Gatsby 中的组件导入

我见过以下解决方案 import ReactComponent as Img from path to file svg 但在盖茨比看来这行不通我知道存在这方面的插件但也许可以更容易地完成正如您所说有一些插件可以实现此目的这意味
为什么 C++ 标准没有提到 __STDC_IEC_559__？

根据 C 11 标准 c math
DatagramChannel.close() 在 Windows 上保持端口打开

我正在实施一个发现流程打开 UDP 套接字以侦听给定端口上的广播响应发送一些请求并期待稍后的响应在给定时间段后关闭 UDP 套接字第一次通话有效但其他调用会出现绑定错误地址已被使用绑定我运行的是Windows 7 我做了一
spring 在运行时添加数据源

我正在开发一个带有每个租户数据库策略的 Spring Boot 多租户应用程序要求是在运行时添加新数据库这意味着我必须动态创建新的数据源对象我还研究了 Spring 的 AbstractRoutingDataSource 但需要预定义
Java和继承的静态成员[重复]

这个问题在这里已经有答案了假设我有以下课程 class Parent private int ID private static int curID 0 Parent ID curID curID 以及这两个子类 class Sub1 e
有类似于 Perforce 的 git-svn 的东西吗？

有没有一个工具可以让我获得与 Perforce 的 git svn 相同的功能我在 github 上看到了 git p4 但看起来像是将源代码从 git 存储库导入到 Perforce 存储库情况是否会反过来呢它是用作常用工具还是仅用
Xcode 7 Git 找不到远程存储库

我可以在 Xcode 6 X 上毫无问题地推送和拉取此存储库但它在 Xcode 7 上不起作用设置与 Xcode 6 X 相同我尝试输入用户名和密码只是为了确认但似乎没有任何意义我使用了正确的 SSH 密钥作为身份验证但首选项显
如何通过指针处理矩阵中的子矩阵？

我有一个大小为 n 的矩阵举个例子我的递归函数对位于矩阵边界的元素进行处理现在我想在内方矩阵上调用它递归调用这是我的递归函数的原型 void rotate int mat size t n 我知道二维数组是数组中的数组我知道 m
Springfox 类参数已弃用

在Springfox 3 0中 springfox documentation service Parameter已弃用是否有提供参数及其构建器的更新方法以及如何提供其default value 首先使用RequestParamete
使用 function.php 的单一产品的 Woocommerce 元数据

我正在努力通过我的functions php 正确过滤元数据 I can get this to work if I edit the meta php in my child theme with no problem short sto
将数据从VSS迁移到SVN

如何将我的数据从 VSS 迁移到 SubVersion 这取决于您是否想随身携带 VSS 元数据如果是请看一下电源管理员 http www poweradmin com sourcecode vssmigrate aspx or Vss
版本号大于 1.18.10 的正则表达式 [重复]

这个问题在这里已经有答案了我需要验证应用程序的版本号是否大于 1 18 10 在这种情况下正则表达式应该是什么样子不要为此使用正则表达式使用split and tuple比较 def is recent version versio
将点击事件与 Twitter Bootstrap 结合使用

我正在使用 twitter bootstrap 开发一个可以在多个设备上呈现的 Web 应用程序现在我想处理点击事件所以我的问题是我可以使用 jquery 1 7 2 处理 tap 事件而不使用 jquery Mobile 吗如
minikube docker-env 是什么意思？

在 Kubernetes 中minikube 教程 https kubernetes io docs tutorials hello minikube create your node js application有这个命令可以使用 Min
如何在批处理脚本中找到应用程序的完整路径

如何在批处理脚本中找到应用程序 XYZ 如果已安装的完整路径澄清应用程序不在 PATH 中我所拥有的就是它的名称在本例中为 ISTool exe 我想得到C 程序 ISTool ISTool exe 您可以在路径或其他类似路径的
在类本身内部创建类实例是如何工作的？

是什么使得在类本身内部创建类的实例成为可能 public class My Class My Class new class new My Class 我知道这是可能的并且自己也做到了但我仍然无法让自己相信这不是谁先有鸡还是先有蛋之
在中使用自定义模板名称

目前我有这段代码它为每个用户节点调用用户模板
如何在没有 Root 设备的情况下使用自己的 Android 服务进行屏幕截图？

我进行了很多搜索并找到了两个库 1 https code google com p android screenshot library https code google com p android screenshot library
如何使用elasticsearch正确处理多词同义词扩展？

我有以下同义词扩展 suco gt suco refresco bebida de soja 我想要的是以这种方式标记搜索搜索 suco de laranja 将被标记为 suco laranja refresco bebida de s

如何使用elasticsearch正确处理多词同义词扩展？

这是如何运作的？

如何使用elasticsearch正确处理多词同义词扩展？ 的相关文章

随机推荐

热门标签

如何使用elasticsearch正确处理多词同义词扩展？的相关文章