使用 NEST 的 Elasticsearch：如何配置分析器来查找部分单词？

2023-12-13

我试图按部分单词进行搜索，忽略大小写并忽略某些字母的重音。是否可以？我认为带有默认分词器的 ngram 应该可以解决问题，但我不明白如何使用 NEST 来做到这一点。

示例：“musiic”应匹配包含“music”的记录

我使用的Elasticsearch版本是1.9。

我正在这样做，但它不起作用......

var ix = new IndexSettings();
        ix.Add("analysis",
            @"{
               'index_analyzer' : {
                          'my_index_analyzer' : {
                                        'type' : 'custom',
                                        'tokenizer' : 'standard',
                                        'filter' : ['lowercase', 'mynGram']
                          }
               },
               'search_analyzer' : {
                          'my_search_analyzer' : {
                                        'type' : 'custom',
                                        'tokenizer' : 'standard',
                                        'filter' : ['standard', 'lowercase', 'mynGram']
                          }
               },
               'filter' : {
                        'mynGram' : {
                                   'type' : 'nGram',
                                   'min_gram' : 2,
                                   'max_gram' : 50
                        }
               }
    }");
        client.CreateIndex("sample", ix);

Thanks,

David

简答

我想你正在寻找的是模糊查询，它使用编辑距离匹配相似单词的算法。

nGrams 的长答案

nGram 过滤器根据定义的最小/最大范围将文本分割成许多较小的标记。

例如，过滤器将根据您的“音乐”查询生成：'mu', 'us', 'si', 'ic', 'mus', 'usi', 'sic', 'musi', 'usic', and 'music'

如你看到的musiic与这些 nGram 标记中的任何一个都不匹配。

为什么选择 nGram

nGrams 的好处之一是它可以进行通配符查询显著地更快，因为所有潜在的子字符串都是在插入时预先生成和索引的（我已经看到使用 nGrams 的查询速度从几秒加速到 15 毫秒）。

如果没有 nGrams，则必须在查询时搜索每个字符串以查找匹配项 [O(n^2)]，而不是直接在索引中查找 [O(1)]。作为伪代码：

hits = []
foreach string in index:
    if string.substring(query):
        hits.add(string)
return hits

return index[query]

请注意，这是以插入速度变慢、需要更多存储空间以及占用更多内存为代价的。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

c

elasticsearch

nest

使用 NEST 的 Elasticsearch：如何配置分析器来查找部分单词？的相关文章

Combox SelectedIndexChanged 关闭 WinForm 时触发

我正在使用 Combobox SelectedIndexChanged 事件来执行一些任务它工作得很好但是当我关闭表单时 SelectedIndexChanged 被触发并且我得到对象引用未设置到对象的实例例外我的代码如下 pr
Java 中的 TreeSet 与 C#.net 的等效项

我有 Java 代码其中包含TreeSet 我想将代码转换为 C 我可以使用哪个等效集合如果没有请提出替代方案那将是系统集合通用 SortedSet
C# 从带引号的字符串中删除分隔符

我正在编写一个程序必须从文本文件中带引号的字符串中删除分隔符例如 Hello my name is world 必须 Hello my name is world 起初这听起来很简单我认为是这样但是您需要检测引号何时开始何时结束
无捕获 lambda 是结构类型吗？

P1907R1 http www open std org jtc1 sc22 wg21 docs papers 2019 p1907r1 html 接受 C 20 引入结构类型它们是非类型模板参数的有效类型 GCC 和 Clang 都接
我应该如何以非 root 身份读取 Linux 上的 Intel PCI 非核心性能计数器？

我想要一个库允许对 Linux 可执行文件的关键部分进行自我分析就像人们可以使用一个部分计时一样获取当日时间 http linux die net man 2 gettimeofday or RDTSC http www strchr
从值获取键 - Dictionary>

我无法通过指定值来获取密钥我实现这一目标的最佳方法是什么 var st1 new List
未定义的参考错误 - rand

我正在创建一个命令行 C 测试应用程序可执行以便在我的 root Android 设备上运行该可执行文件使用多个预构建的 C 库其中之一使用 rand 在链接状态期间我收到错误 rand 的未定义引用为了检查路径是否设置正确我尝
如何直观理解C++优先级队列容器比较器中的大于/小于运算符

我总是对为优先级队列容器定义比较器感到困惑并且不知道如何理解它例如我有一个vector of pair
如何将带有自定义标头的任意 JSON 数据发送到 REST 服务器？

TL DR 如何将 JSON 字符串发送到带有 auth 标头的 REST 主机我尝试了 3 种不同的方法发现一种适用于匿名类型为什么我不能使用匿名类型我需要设置一个名为 Group Name 的变量并且连字符不是有效的 C 标识
如何在 VS 2013 的立即窗口中执行 LINQ 和/或 foreach？

在调试过程中探测当前状态时立即窗口是非常有用的工具我了解到通过使用问号人们可以在那里做更多的事情如图所示在这篇文章中 https stackoverflow com questions 32934635 execute metho
检查文件是真实文件还是符号链接

有没有办法使用 C 来判断文件是真实文件还是符号链接我已经挖过了MSDN W32 文档 https learn microsoft com en us windows win32 fileio file management functi
send() 使我的程序崩溃

我正在运行服务器和客户端我正在我的计算机上测试我的程序这是服务器中向客户端发送数据的函数 int sendToClient int fd string msg cout lt lt sending to client lt lt fd
SQL 选择与带有通配符的 URL 匹配的行

我在数据库中有一个表其中一列包含一个 URL 例如http example com users http example com users 轮廓我得到了一个 URL 例如http example com users 234 profi
根据值更改 DataGrid 单元格颜色

我有一个 WPF 数据网格我想要根据值使用不同的单元格颜色我的 xaml 上有以下代码 Style TargetType DataGridCell 但不是只选择一个单元格而是选择所有行我缺少什么如果您尝试设置DataGrid Cel
Err_Response_Headers_Multiple_Content_Disposition

我需要导出 2csv单击一个按钮即可打开文件下面是我生成2的代码csv files using System Data using System Data SqlClient using System Text using System
“应用程序配置”文件中的最大键/值长度

允许的最大长度是多少MyKey and MyValue在配置文件中
了解C/C++中函数调用的堆栈框架？ [关闭]

很难说出这里问的是什么这个问题是含糊的模糊的不完整的过于宽泛的或修辞性的无法以目前的形式得到合理的回答如需帮助澄清此问题以便重新打开访问帮助中心 help reopen questions 我也是 C C 和汇编语言的新手这
std::regex 的行为不一致

我有以下问题 std regex如果我传递结果行为会有所不同boost filesystem path string vs 将结果存储在中间字符串变量中第一个将返回一个被截断的匹配并且稍后不被接受std stoull 抛出 inval
解析 SWIG 接口文件的结构属性

这是我不久前问过的问题的延续为通过参数返回的函数创建类型映射 https stackoverflow com questions 12793973 create a typemap for a function that returns
Fluent Validation 将 CustomAsync 更改为 MustAsync

有人可以帮我解决这个问题吗我正在努力改变CustomAsync 到 MustAsync 但我无法让事情发挥作用下面是我的自定义方法 RuleFor o gt o MustAsync o gt return CheckIdNumberAl

随机推荐

在另一个 JNI 函数中使用时 Oop 被损坏

问题是我们可以缓存吗jclass and jmethodID跨不同的 JNI 方法调用当尝试使用缓存创建某个特定类的对象时我遇到了一些奇怪的行为jclass and jmethodID来自另一个 JNI 方法调用这是一个简单的例子 p
在哪里可以找到一个好的 JavaScript/HTML AutoSuggest 示例 [关闭]

就目前情况而言这个问题不太适合我们的问答形式我们希望答案得到事实参考资料或专业知识的支持但这个问题可能会引发辩论争论民意调查或扩展讨论如果您觉得这个问题可以改进并可能重新开放访问帮助中心以获得指导我正在寻找 JavaScr
从派生类访问基类中的类型别名[重复]

这个问题在这里已经有答案了当尝试从派生类访问基类中的类型别名时我面临以下问题 template
WebView动态插入/修改内容

在我的应用程序中我使用 WebView 来显示内容现在是否可以动态修改内容需求是这样的我将从网络获取信息并根据它们我需要设置样式字体属性或者当连接的设备没有响应时我可能需要附加新文本到目前为止我正在使用以下代码 void
Java webstart max-heap-size导致JVM无法启动

我们在客户端使用 java web start 来构建基于 java swing 的应用程序最近当单击 jnlp 链接时我们遇到了一个奇怪的无法启动 java 虚拟机错误我们很快就发现了这一点因为 jnlp 文件中的 max
如何解决循环引用？

如何解决循环引用问题例如 A 类将 B 类作为其属性之一而 B 类将 A 类作为其属性之一架构师该如何解决这类问题呢如果以NHibernate为例对象之间就会存在父子关系它如何处理这些父子场景在大多数情况下当我必须让两个事物
使用 Paramiko 将文件从远程目录复制到远程子目录

如何复制远程服务器中的文件 maindir fil1 txt到子目录 maindir subdir file1 txt 我使用 SFTP 实现paramiko 但它总是检查要复制的本地路径 filename full path maindi
未找到类定义错误 (android)

我正在开发一个应用程序我可以启动我的启动器活动它有两个按钮单击这些按钮中的任何一个时都应该打开一个新活动但是随后会发生运行时错误 import android app Activity import android conten
禁用 Laravel 内置的错误处理方法

有没有办法一起禁用 Laravel 错误处理程序我想简单地显示标准 PHP 错误 not the Whoops looks like something went wrong errors 这会严重违反框架的原则如果您仍然感兴趣我将在
连接具有不同数据类型的两个表 MS ACCESS -“表达式中的类型不匹配”错误

我正在尝试使用两个实时 CSV 运行访问查询这两个 CSV 具有不同数据类型数字和短文本的公共字段我发现您可以使用 CStr 连接不同的数据类型我已将 CStr 添加到 sql 视图上的代码中请找到下面的代码这为我提供了我想要
如何在Windows Phone中创建SESSION

string uname txt1 Text string pwd txt2 Text NavigationService Navigate new Uri newPage xaml name uname pwd pwd UriKind R
使用 Swift 在一个 ViewController 中强制横向模式

我试图在横向模式下仅强制我的应用程序中的一个视图我正在打电话 override func shouldAutorotate gt Bool print shouldAutorotate return false override func
AVFoundation 重现视频循环

我需要在 OpenGL 应用程序中无限期地重现视频视频结束时重新启动为此我尝试利用 AV 基础我创建了一个 AVAssetReader 和一个 AVAssetReaderTrackOutput 并利用 copyNextSampleB
从文本中获取CGPath

海吉同志们我目前正在尝试将一个字母和或多个字母转换为 CGPathRef 以便手动将它们绘制到自定义 UIView 中我尝试了 CoreText 和 Framesetters 的方法包括这个小片段但它似乎不起作用 NSAttrib
如何从 subprocess.communicate() 捕获 python 中的流输出

目前我有这样的事情 self process subprocess Popen self cmd stdout subprocess PIPE out err self process communicate 我正在运行的命令会流式传输输
自动完成查找字符串包含的符号而不是开头的符号

我正在编写一个程序该程序在某一时刻实现了TextBox具有自动完成功能目前为了简单起见我正在使用CustomSource在设计时手动填充多个条目虽然自动完成工作正常但我希望它提出的建议不仅仅是从开始当前输入的文本但是包含它在
Python在Words文档中查找替换字符串并在字符串之前创建两个段落

我有一个 VBA 宏在那方面我有 Find Text Pollution Replacement Text p pChemical Here p pChemical 表示将污染一词替换为化学并在海洋一词之前创建两个空段落 B
通过隐藏字段内的 ID 删除表行

我有一个表它在 JSP 中的 while 循环中生成其行如下所示我在每行中使用隐藏字段来获取特定 ID 并将其 POST 到 servlet tr td td tr
优点、问题、向 iOS 应用程序添加另一个 UIWindow 的示例？

最近我一直想知道 iOS 应用程序只有一个UIWindow 创建另一个似乎不是问题UIWindow并将其放置在屏幕上我的问题有点模糊但我感兴趣的是第二次我可以实现什么目标UIWindow不能用其他方式做到吗使用多个时可能会出现什么问
使用 NEST 的 Elasticsearch：如何配置分析器来查找部分单词？

我试图按部分单词进行搜索忽略大小写并忽略某些字母的重音是否可以我认为带有默认分词器的 ngram 应该可以解决问题但我不明白如何使用 NEST 来做到这一点示例 musiic 应匹配包含 music 的记录我使用的Elastic

使用 NEST 的 Elasticsearch：如何配置分析器来查找部分单词？

使用 NEST 的 Elasticsearch：如何配置分析器来查找部分单词？ 的相关文章

随机推荐

热门标签

使用 NEST 的 Elasticsearch：如何配置分析器来查找部分单词？的相关文章