Elasticsearch 自定义分析器，带有 ngram，连字符上没有单词分隔符

2023-12-02

我正在尝试索引包含连字符但不包含空格、句点或任何其他标点符号的字符串。我不想根据连字符分割单词，而是希望连字符成为索引文本的一部分。

例如，我的 6 个文本字符串是：

杂志播放
马杂志
在线杂志
最佳杂志
杂志之友
杂志玩游戏

我希望能够在这些字符串中搜索包含“玩”的文字或对于以“杂志”开头的文字.

我已经能够使用ngram使包含“play”的文本正常工作。但是，连字符导致文本分割，并且它包含连字符后面的单词中“杂志”的结果。我只希望出现以“magazine”开头的字符串。

根据上面的示例，当以“magazine”开头时，只有这 3 个应该出现：

杂志播放
马杂志
杂志玩游戏

请帮助我的 ElasticSearch 索引示例：

DELETE /sample

PUT /sample
{
    "settings": {
        "index.number_of_shards":5,
        "index.number_of_replicas": 0,
        "analysis": {
            "filter": {
                "nGram_filter": {
                   "type": "nGram",
                   "min_gram": 2,
                   "max_gram": 20,
                   "token_chars": [
                      "letter",
                      "digit"
                   ]
                },
                "word_delimiter_filter": {
                    "type": "word_delimiter",
                    "preserve_original": true,
                    "catenate_all" : true
                }
             },
          "analyzer": {
            "ngram_index_analyzer": {
              "type" : "custom",
              "tokenizer": "lowercase",
              "filter" : ["nGram_filter", "word_delimiter_filter"]
            }
          }
        }
    }
}
PUT /sample/1/_create
{
    "name" : "magazineplayon"
}
PUT /sample/3/_create
{
    "name" : "magazineofhorses"
}
PUT /sample/4/_create
{
    "name" : "online-magazine"
}
PUT /sample/5/_create
{
    "name" : "best-magazine"
}
PUT /sample/6/_create
{
    "name" : "friend-of-magazines"
}
PUT /sample/7/_create
{
    "name" : "magazineplaygames"
}

GET /sample/_search
{
"query": {
        "wildcard": {
          "name": "*play*" 
        }
    }
}

GET /sample/_search
{
"query": {
        "wildcard": {
          "name": "magazine*" 
        }
    }
}

Update 1我更新了所有创建语句以在示例后使用 TEST：

PUT /sample/test/7/_create
{
    "name" : "magazinefairplay"
}

然后，我运行以下命令以仅返回其中包含“play”一词的名称，而不是进行通配符搜索。这工作正常并且只返回两条记录。

POST /sample/test/_search
{
    "query": {
        "bool": {
            "minimum_should_match": 1,
            "should": [
                {"match": { "name.substrings": "play" }}
            ]
        }
    }
}

我运行以下命令仅返回以“magazine”开头的名称。我的预期是“在线杂志”、“最佳杂志”和“杂志之友”不会出现。然而，包括这三项在内，所有七项记录均被退回。

POST /sample/test/_search
{
    "query": {
        "bool": {
            "minimum_should_match": 1,
            "should": [
                {"match": { "name.prefixes": "magazine" }}
            ]
        }
    }
}

有没有办法过滤掉使用连字符的前缀？

您走在正确的道路上，但是，您还需要添加另一个利用edge-ngram令牌过滤器为了使“开始于”约束起作用。您可以保留ngram用于检查“包含”给定单词的字段，但您需要edge-ngram检查字段是否“以”某个标记开头。

PUT /sample
{
  "settings": {
    "index.number_of_shards": 5,
    "index.number_of_replicas": 0,
    "analysis": {
      "filter": {
        "nGram_filter": {
          "type": "nGram",
          "min_gram": 2,
          "max_gram": 20,
          "token_chars": [
            "letter",
            "digit"
          ]
        },
        "edgenGram_filter": {
          "type": "edgeNGram",
          "min_gram": 2,
          "max_gram": 20
        }
      },
      "analyzer": {
        "ngram_index_analyzer": {
          "type": "custom",
          "tokenizer": "keyword",
          "filter": [
            "lowercase",
            "nGram_filter"
          ]
        },
        "edge_ngram_index_analyzer": {
          "type": "custom",
          "tokenizer": "keyword",
          "filter": [
            "lowercase",
            "edgenGram_filter"
          ]
        }
      }
    }
  },
  "mappings": {
    "test": {
      "properties": {
        "name": {
          "type": "string",
          "fields": {
            "prefixes": {
              "type": "string",
              "analyzer": "edge_ngram_index_analyzer",
              "search_analyzer": "standard"
            },
            "substrings": {
              "type": "string",
              "analyzer": "ngram_index_analyzer",
              "search_analyzer": "standard"
            }
          }
        }
      }
    }
  }
}

那么你的查询将变成（即搜索其name字段包含play或开始于magazine)

POST /sample/test/_search
{
    "query": {
        "bool": {
            "minimum_should_match": 1,
            "should": [
                {"match": { "name.substrings": "play" }},
                {"match": { "name.prefixes": "magazine" }}
            ]
        }
    }
}

注意：不要使用wildcard用于搜索子字符串，因为它会降低集群的性能（更多信息here and here)

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

elasticsearch

tokenize

Analysis

analyzer

Elasticsearch 自定义分析器，带有 ngram，连字符上没有单词分隔符的相关文章

如何在 kibana 中自动配置索引模式

是否可以在 kibana 中自动配置索引模式要么通过一些设置文件要么通过rest api 安装后可以手动完成 Kibana 5 x 公开了这样的 API 来管理索引模式要创建索引模式可以发出以下命令来 kibana 访问 url 只
ElasticSearch JavaAPI (SearchScroll)- search_context_missing_exception","reason":"找不到 id 的搜索上下文

我正在获取超过100k使用一个索引中的文档searchScroll并在所有字段中再添加一个字段100K文件然后再次将这些文档插入到另一个新索引中我正在使用SearchScrollapi 也在设置大小searchSourceBuilder
随着索引和文档数量恒定，elasticsearch 批量索引会随着时间的推移而变慢

我遇到了使用 NET NEST 客户端和 ElasticSearch 进行批量索引的性能随着时间的推移索引数量和文档数量恒定而降低的情况我们正在奔跑ElasticSearch Version 0 19 11 JVM 23 5 b02在具
如何根据数字/非数字分割字符串（使用正则表达式？）

我想在 python 中将一个字符串拆分为一个列表具体取决于数字而不是数字例如 5 55 6 5 应该返回 5 55 6 5 我目前有一些代码循环遍历字符串中的字符并使用 re match d 或 D 测试它们我想知道是否有更好的方
从中间部分匹配完成建议elasticsearch

我有一个名为搜索建议具有以下 search suggest type completion analyzer simple payloads true preserve separators false preserve position
ElasticCloud 的 ElasticSearch 身份验证错误？

我刚刚在 ElasticCloud 上设置了一个新的 ElasticSearch 集群我正在尝试遵循帮助文档 https cloud elastic co help 它说您可以按如下方式发布文档 curl https
弹性搜索文档计数

我正在运行 2 2 版本的 Elastic 搜索我已经创建了索引并加载了示例文档我发现其中有些问题当我给予 GET index type count 我得到了正确的答案 count 9998 shards total 5 succes
无法使用 java 8 在 Windows 10 上安装 elasticsearch 5.1.1

我正在尝试在安装了 java 8 111 的 Windows 10 笔记本电脑上安装 ElasticSearch 5 1 1 当我尝试安装 Elastic search 时触发错误 C Users 用户名 Downloads elastic
search_after 在弹性搜索中如何工作？

我一直在尝试在我们的应用程序中使用 Elasticsearch 但分页限制为 10k 对我们来说实际上是一个问题并且由于必须超时问题滚动 API 也不是推荐的选择我发现 Elasticsearch 有一个叫做 search after
Elasticsearch 关于“空索引”的查询

在我的应用程序中我使用了几个elasticsearch索引它们在初始状态下不包含索引文档我认为这可以称为空该文档的映射是正确且有效的该应用程序还有一个包含实体的关系数据库这些实体可能具有在 elasticsearch 中关联的
NEST 1.0：请参阅 Fiddler 上的请求

我刚刚更新到 NEST 1 0 我在远程服务器不是本地主机上有 Elastic Search 通常我在使用 Fiddler 发送和接收请求时没有任何问题更新后 bammm 没有检测到任何请求但我的应用程序发出这些请求没有任何问题你
即使禁用安全性，OAuth 令牌 API 也无法在 Elastic Search 中工作

我是 Elastic search 新手使用 Elastic search 版本 7 7 1 我想通过以下方式生成 OAuth 令牌弹性搜索文档 https www elastic co guide en elasticsearch re
Elasticsearch 在 Mac 上存储数据的位置

类似的问题this one https stackoverflow com questions 24694201 where are data files of elasticsearch on a standard debian inst
使用 Python NLTK 对大型 (>70MB) TXT 文件进行标记。连接并将数据写入流错误

首先我是 python nltk 的新手所以如果问题太基本我深表歉意我有一个大文件我正在尝试对其进行标记我遇到内存错误我读过的一种解决方案是一次一行读取文件这是有道理的但是在这样做时我收到错误cannot concat
举例解释bpe（字节对编码）？

有人可以帮忙解释一下背后的基本概念吗BPE模型除了这张纸 https arxiv org abs 1508 07909 目前还没有那么多解释到目前为止我所知道的是它通过将罕见和未知的单词编码为子词单元序列来实现开放词汇表上的 NMT
Facet从elasticsearch中的对象获取所有键

假设我有以下文档 title Some Title options key5 1 key3 0 key1 1 title Some Title options key2 0 key3 0 key5 1 我想从中获取所有钥匙options使用
Python3.0 - 标记化和取消标记化

我正在使用类似于以下简化脚本的内容来解析较大文件中的 python 片段 import io import tokenize src foo bar src bytes src encode src io BytesIO src src l
如何运行和理解CUDA Visual Profiler？

我已经设置了 CUDA 5 0 并且我的 CUDA 项目运行良好但我不知道如何使用 Visual Profiler 分析我的 CUDA 项目如何运行它我还需要安装更多吗又该如何做呢我的电脑使用Window 7 64位 CUDA 5
将 CSV 文件中的数字数据更改为文本

下面的查询是抓取数据并创建一个 CSV 文件我遇到的问题是名为 SPLE 的源在数据库中存储数字为 0 1 50 的数据然而在 CSV 中这些数字被收集在 CSV 中我希望在创建 CSV 时这些数字能够代表诸如以下的单词 0 T
ElasticSearch bool should_not 过滤器

我是elasticsearch的新手所以我的问题是 bool 过滤器有 3 个部分 must All of these clauses must match The equivalent of AND must not All of th

随机推荐

如何将词云放入grob中？

我创建了一个简单的词云 require wordcloud words lt c affectionate ambitious anxious articulate artistic caring contented creative cy
使用 BeautifulSoup 的 Python 进行网页抓取 429 错误

首先我不得不说我对使用 Python 进行 Web 抓取还很陌生我正在尝试使用这些代码行来抓取数据 import requests from bs4 import BeautifulSoup baseurl https name of
Angular 2路由到同一路由

I have Ride组件并在骑行结束时Ride Summary显示右侧的摘要有一个开始另一次骑行按钮该按钮会重定向到同一组件 Ride routerLink Ride 自从Ride组件已经是我所在的组件它没有刷新并且Ride
使用 C 结构成员的连续内存

在将其标记为重复之前请先阅读问题所以这可能是一个潜在的非常愚蠢的问题但它困扰着我我从阅读以及许多其他问题中知道由于编译器添加的填充 C 结构中的字段不能保证是连续的例如根据C标准 13 在结构体对象中非位域成员和位域所在的单
Javascript 在重新加载或重定向之前删除 cookie

我需要删除一个cookie并且then进行重定向然而在处理重定向之前 cookie 不会被删除问题是如果执行重定向时 cookie 仍然存在则重定向会被拦截并发送到预期页面以外的页面很奇怪我知道说来话长是否有可能欺骗浏览器
如何使用其他Facebook帐户登录？

我关注了本教程制作一个小应用程序来登录并打招呼用户名问题是我只能使用我的帐户登录但无法使用其他帐户登录此问题发生在一些需要登录的示例代码例如 HelloFacebookSample 或 Scrumptious 中 Logcat
如何在Python中合并2列

假设我使用 numpy 定义了一个 2x2 矩阵 array 1 2 2 3 现在另一个 2x1 矩阵 array 3 4 如何按列连接这两个矩阵使其变为 array 1 2 3 2 3 4 我怎样才能删除指定列这样它就会变成 arra
使用正确的网格在 R 中绘制 netcdf

我的目标是在世界地图上绘制硝酸盐 no3 数据使用这些数据的正确经度和纬度有两个 netcdf 文件 1 与数据 2 与网格信息数据摘要信息 no3 是长度为 x y sigma 的数组 no3 df 是 x y 观测值 3 个变量
在 IE7 中使用 Prawn 生成 Rails PDF

我正在使用 Prawn 和 Prawnto 在 Ruby on Rails 应用程序 Rails 版本 2 2 2 中生成 PDF 该应用程序运行良好可以愉快地生成 PDF 并将其发送给用户以在 Firefox 中下载问题出在IE7上
使用 PHP 在 Windows 中获取文件所有者

在 Windows 上提供文件路径并获取其所有者用户名当然 fileowner在这里是没用的有什么 PECL 扩展可以提供帮助吗编辑也可以使用的替代方案从 DOC 文件中读取摘要数据以检索作者编辑2 使用找到了解决方案COM
在中心找不到工件 javax.sql:jdbc-stdext:jar:2.0 (https://repo.maven.apache.org/maven2)

我正在尝试构建为我的项目创建的 Web 服务的 REST API 我的网络服务运行没有问题现在我想在远程服务器上部署我的服务并且我需要生成war file 我使用 Java Eclipse 和 Maven 作为依赖项我试着做一个全新
如何使“%bp.hap.run-until name = X86_HLT_Instr”工作？

从命令行模拟执行二进制文件建议使用 bp hap run until name X86 HLT Instr 这是我的完整脚本 run command file targets qsp x86 firststeps no network s
在android中解析11MB的大json[关闭]

就目前情况而言这个问题不太适合我们的问答形式我们希望答案得到事实参考资料或专业知识的支持但这个问题可能会引发辩论争论民意调查或扩展讨论如果您觉得这个问题可以改进并可能重新开放访问帮助中心以获得指导我在使用 GSON 和 J
wakeLock 不等待网络连接

我使用唤醒锁作为警报来定期更新应用程序状态三星手机上的 WiFi 需要一段时间才能连接还有 Wifi 上的保持唤醒选项does not在三星手机上工作他们也没有兴趣解决这个问题因此当唤醒锁确实发生时它应该等待 wifi 连接
为什么maven依赖中的版本号有时会被跳过？

我对 Maven 的功能还很陌生我发现在 pom xml 中放置依赖项的地方有时只提到 groupID 和artifact id 而跳过 version 为什么是这样例如以下依赖项来自 springsource 网站http spri
在 Sympy 中部分分解表达式

Suppose I have an expression of the form I know that I can simplify the expression like so However sympy simplify and sy
iBooks图书馆般的效果

谁能告诉我如何实现 iBooks Library 翻页效果不是翻页也许可以通过核心动画来实现吗这就是您搜索的内容它的代码非常少并且完全在 CoreAnimation 中完成 https github com devindoty i
cx_Freeze：导入错误：没有名为“PyQt5.Qt”的模块

我正在尝试使用构建我的 GUI 应用程序cx Freeze The setup py如下 from cx Freeze import setup Executable import os import sys base None if sy
PHP Preg_match 精确匹配单词

我已存储为 1 7 11 我需要使用 preg match 来检查 7 有没有或 11 有吗等等我该怎么做 Use b在表达式之前和之后仅将其作为整个单词进行匹配 str1 foo bar has matches foo bar str2
Elasticsearch 自定义分析器，带有 ngram，连字符上没有单词分隔符

我正在尝试索引包含连字符但不包含空格句点或任何其他标点符号的字符串我不想根据连字符分割单词而是希望连字符成为索引文本的一部分例如我的 6 个文本字符串是杂志播放马杂志在线杂志最佳杂志杂志之友杂志玩游戏我希望能够在这些

Elasticsearch 自定义分析器，带有 ngram，连字符上没有单词分隔符

Elasticsearch 自定义分析器，带有 ngram，连字符上没有单词分隔符 的相关文章

随机推荐

热门标签

Elasticsearch 自定义分析器，带有 ngram，连字符上没有单词分隔符的相关文章