具有空格或多个单词的概念的同义词

2023-11-22

我不知道如何处理包含空格的同义词！我有以下配置：

SOLR 配置文件

<fieldType ... >
  <analyzer type="index">
    <charFilter class="solr.MappingCharFilterFactory" mapping="mapping-ISOLatin1Accent.txt"/>
    <tokenizer class="solr.WhitespaceTokenizerFactory"/>
            <filter class="solr.WordDelimiterFilterFactory" 
                            catenateWords="1" 
                            preserveOriginal="1"
                            splitOnCaseChange="1"
                            generateWordParts="1" 
                            generateNumberParts="1"         
                            catenateNumbers="1" 
                            catenateAll="1" 
                            />
    <filter class="solr.LowerCaseFilterFactory"/>
    <filter class="solr.EdgeNGramFilterFactory" minGramSize="2" maxGramSize="30" side="front"/>
  </analyzer>
  <analyzer type="query">    
    <charFilter class="solr.MappingCharFilterFactory" mapping="mapping-ISOLatin1Accent.txt"/>
    <tokenizer class="solr.WhitespaceTokenizerFactory"/>
    <filter class="solr.LengthFilterFactory" min="2" max="70" />
    <filter class="solr.SynonymFilterFactory" synonyms="syn.txt" ignoreCase="true" expand="true"/>
    <filter class="solr.LowerCaseFilterFactory"/>
 </analyzer>
</fieldType>

我的文件：syn.txt

st., st => saint
istambul => istanbul
airport, apt => aéroport
NYC => New York
pt., pt => port
brussels => bruxelles

除了同义词之外，一切都工作正常：

"NYC => New York"

我做了一些研究，发现了以下内容：

请记住，虽然 SynonymFilter 很乐意处理包含多个单词的同义词（即：“sea biscuit，sea biscit，seabiscuit”）

处理此类同义词的推荐方法是在索引时扩展同义词。这是因为查询时可能会出现两个潜在问题：

Lucene QueryParser 在向分析器提供任何文本之前对空白进行标记，因此，如果一个人搜索单词 sea biscit，分析器将分别给出单词“sea”和“biscit”，并且不会知道它们与同义词匹配。

短语搜索（即：“sea biscit”）将导致 QueryParser 将整个字符串传递给分析器，但如果 SynonymFilter 配置为扩展同义词，那么当 QueryParser 从分析器获取标记结果列表时，它会将构造一个不会达到预期效果的 MultiPhraseQuery。

这是因为分析器可用于指示两个术语占据相同位置的机制有限：无法指示“短语”与术语占据相同位置。

对于我们的示例，生成的 MultiPhraseQuery 将是“(sea | sea | seabiscuit) (biscuit | biscit)”，这与文档中出现的“seabiscuit”的简单情况不匹配

因此，我尝试更改我的配置文件并在索引中添加过滤器，但它不起作用。

有人有什么想法吗？

您正在使用显式映射=>.

The Solr文档 says

显式映射与“=>”左侧的任何标记序列相匹配，并用右侧的所有替代项替换。这些类型的映射忽略架构中的扩展参数。

所以我猜如果你搜索NYC你什么也得不到，因为它被替换为New York在索引时间。

相反，您可以尝试将它们声明为等效同义词吗？即喜欢NYC, New York代替NYC => New York.

那么我相信你可以搜索其中任何一个，结果都是一样的。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Solr

具有空格或多个单词的概念的同义词的相关文章

复杂的 SOLR 查询，包括 NOT 和 OR

我对 SOLR 搜索有一些相当复杂的要求我需要针对标记内容的数据库执行这些搜索我需要首先过滤数据库以获取与我的过滤器标签匹配的结果任何具有黑名单中的标签的结果都应被删除除非它们也包含白名单中的标签假设我想检索所有标记为森林或
需要在 java api 中的 Solr 搜索中搜索文本及其周围的几行

我正在使用 solr 7 7 2 并且我使用 solrj 在 Solr 中编写了一个 Java 程序该程序在一个巨大的文本文件中搜索单词我使用以下代码来显示代表整个文本的搜索结果 SolrQuery params new SolrQue
openNLP 与 Solr 集成时出现异常

我正在尝试将 openNLP 与 Solr 6 1 0 集成我配置了架构和 solrconfig 文件详细信息请参见 wiki 链接 https wiki apache org solr OpenNLP https wiki apach
cursorMark是无状态的以及它如何解决深度分页

作为指定here https cwiki apache org confluence display solr Pagination of Results光标标记是无状态的但我不明白它是如何解决无状态的深度分页问题的 solr 是否按唯一
如何使用 lucene 查询找到空的 Solr 文档字段

我有一些这样的文件
如何使用 solrnet 在 solr 中使字段搜索不区分大小写

在 solr 模式中我有如下字段
用于标签搜索的数据存储解决方案

我已经按照预先计算的分数订购了数百万件商品每个项目都有许多布尔属性假设总共有大约一万个可能的属性每个项目有十几个我希望能够请求实时几毫秒给定任意属性组合的前 n 个项目您会推荐什么解决方案我正在寻找可扩展性极强的东西我们目
Solr协会

最近几天我们正在考虑使用 Solr 作为我们选择的搜索引擎我们需要的大多数功能都是开箱即用的或者可以轻松配置然而我们绝对需要的一项功能似乎在 Solr 中被很好地隐藏或缺失我将尝试用一个例子来解释我们有很多实际上是企业的文件
在 Solr 更新中指定多值术语频率？

我有一个包含多值字段的 Solr 模式我正在 Solr 外部解析文档并使用更新索引http wiki apache org solr UpdateJSON http wiki apache org solr UpdateJSON 也可以看
在 solr 的类路径中找不到资源“solrconfig.xml”

problem 我无法访问 solr 管理页面当我在本地系统上运行 url 时 response
solr JOIN 查询

我需要在 solr 索引上运行 JOIN 查询我有两个已索引的 xml person xml 和 subject xml Person
Solr 自定义相似度

我想在我的 solr schema xml 中设置我自己的自定义相似度但我在理解此功能时遇到一些问题我想完全停用 solr 评分 tf idf coord 和 fieldNorm 我不知道从哪里开始我知道的事情我必须编写自己的 De
测量文档集之间的相似性

出于说明目的我们假设这是一个论坛服务我需要计算每个用户帖子之间的相似度结果如下 among posts by user A similarity 60 among posts by user B similarity 20 我正在处
由于 3rd 方库的位置，启动 Solr cloud 时出错

我尝试迁移到 Solr 3 1 我的项目使用 Dataimport handler 当我启动 solr 时它问我找不到 SolrCoreAwar 我将以下文件复制到 lib 目录 apache solr dataimporthandler
PHP Solr PECL 扩展安装

我已经使用命令安装了 pecl solr pecl install solr 和梨使用 wget http pear php net go pear phar php go pear phar 重启Apache后我仍然收到错误 Fatal
是否可以为单个节点添加多个位置并且 solr 可以显示搜索的所有位置？

场景假设您在多个位置有一个产品当您搜索该产品而不是位置时您应该看到所有位置在 Drupal 中您可以使用多值字段来表示位置但在 solr 中我不知道当使用 solr 对产品进行索引时您不应该仅发送一次例如 3 次并将
如何过滤 Solr 中多值字段返回的值

我有一个文档其中包含一个名为 uuid 的字段该字段是一个列表多值每个文档最多可以有 100k 个值例如我想搜索与以 5ff6115e 开头的 uuid 匹配的文档我已经可以通过使用成功做到这一点q uuids 5ff6115
是否可以“合理”地设置 Solr 分数阈值，而与返回的结果无关？（即 Solr 评分是否以任何方式标准化）

我有一个包含许多条目的 Solr 索引并且在查询时返回一些子集每个条目都有一些分数显而易见一旦结果与分数一起返回我希望能够仅保留高于某个分数的结果即仅具有特定质量的结果当返回的子集可以是任何东西时是否可以这样做我问这个问
如何评估托管全文搜索解决方案？

SaaS 托管全文搜索有哪些选择我应该如何评估可用的不同选项我正在寻找在后端使用 Lucene solr 或 sphinx 的东西并提供用于将文档提交到索引和运行搜索的 REST API 我可以构建自己的 EC2 AMI 但我必须配置
Solr 模式中字段的默认值可以是当前日期吗？

我正在使用 Solr 我想添加一个字段last update in the schema xml其中默认值是添加或更新文档的当前日期你知道我该怎么做吗 Thanks It is a 支持场景 https lucene apache org

随机推荐

如何在C#中触发与最大化相关的事件

考虑以下代码 Window myWindow new MyWindowSubclass myWindow BringIntoView myWindow Show Code which is effective as pressing the
具有主键和唯一键的表意外锁定

对于同时具有主键和单独的唯一索引的表上的事务我遇到了 innodb 锁定问题看起来如果 TX 使用唯一键删除一条记录然后重新插入相同的记录这将导致下一个键锁定而不是预期的记录锁定因为键是唯一的请参阅下面的测试用例以及我希望拥有哪
为什么局部静态对象的初始化使用隐藏的保护标志？

C 中的局部静态对象在第一次需要时初始化一次如果初始化有副作用则这是相关的 void once static bool b std cout lt lt hello lt lt std endl return true once第一次调
是否有一个类可以从 .NET 中的 XSD 架构生成示例 XML 文档

在 Visual Studio 中您可以从现有架构创建模板 XML 文档新的XML 模式浏览器VS2008 SP1 更进一步可以创建包含数据的示例 XML 文档 NET 中是否有一个类库可以自动执行此操作而无需使用 Visual
Apple Music 与 MPNowPlayingInfoCenter 冲突

当我的音乐播放器应用程序在后台播放时我需要一些帮助来解决问题我可以使用这两种服务在应用程序和后台播放音乐我还可以设置MPNowPlayingInfoCenter它显示正确的信息但播放暂停下一首曲目和上一首曲目只有在用户通过 Sp
在 Python 中对数字进行四舍五入但保留末尾的零

我一直在编写一个脚本该脚本从 Excel 电子表格中获取数据对数字进行四舍五入并删除小数点例如 2606 89579999999 变为 26069 但是我需要将数字四舍五入到小数点后两位即使会有尾随零因此 2606 89579
Swift - 如何创建带有裁剪形状的视图

我正在尝试使用 swift 1 2 和 xcode 6 来实现图像中显示的结果基本上我想创建一个带有切入形状的视图以便能够看到下面的视图为我的应用程序制作教程我知道如何创建圆形形状但不知道如何在视图中将其剪掉我需要一个完整的例子
将 Spark 数据帧保存到 Hive：表不可读，因为“parquet 不是 SequenceFile”

我想使用 PySpark 将 Spark v 1 3 0 数据帧中的数据保存到 Hive 表中 The 文档 states spark sql hive convertMetastoreParquet 设置为 false 时 Spark S
将线程绑定到处理器

当我运行多线程代码时系统 Linux 有时会将线程从一个处理器移动到另一个处理器由于我有与处理器一样多的线程它会无缘无故地使缓存失效并且会混淆我的跟踪活动您知道如何将线程绑定到处理器吗为什么系统要这样做 Use sched se
NextJs 多区域共享标头

我有 2 个应用程序管理外壳 and 交付管理我正在 NextJs 中使用多区域来处理这个问题这两个应用程序都使用带有导航链接的共享标头但我在从一个区域导航到另一个区域时遇到问题管理外壳使用 next config js 文件在端口
如何使用 Gradle 构建 Groovy JAR 并将其发布到内部存储库

我有一个 Groovy 项目正在尝试使用 Gradle 构建它首先我想要一个package通过根据其依赖项进行编译来创建 JAR 的任务然后我需要为该 JAR 生成 Maven POM 并将 JAR POM 发布到内部 Artifac
Python继承返回属性错误

刚刚开始学习 Python 我是 Derek Banas 的粉丝一直在遵循教程但我被一些代码困住了 class Dog Animal owner def init self name height weight sound owner
Java的Exception类是检查类型吗？

下面的示例显示了 Java Exception 类的相反行为 try catch Exception ex 在检查类型的异常的情况下如果我们在 try 块中保留一个 catch 块而没有任何对该特定检查异常的错误引发语句那么编译器将引
nginx - nginx: [emerg] bind() 到 [::]:80 失败（98: 地址已在使用中）

突然我收到以下 nginx 错误 Restarting nginx Stopping nginx nginx done Starting nginx nginx nginx emerg bind to 80 failed 98 Addres
如何将函数的多个输出传递到元胞数组中

我有一个具有以下原型的函数 function bandwidth density X Y x y kde2d data n MIN XY MAX XY 基本上该函数返回 6 个输出如上所示其中一些是向量形式而另一些是数值量如何优雅
使用 CSS 动画比 jQuery 动画有什么优势吗？（性能或其他）

我是说 CSS 动画很酷但 CSS3 合规性却很不标准令人恼火但是忽略浏览器的所有问题以及它们无法与最新的 W3C 保持同步的情况与 jQuery 动画相比是否有某种性能优势为什么要实施它们作为一般经验法则每当 JavaSc
如何在 Django 中预取聚合@property？

我们有两个模型简化版本 class Contestant models Model email models EmailField max length 255 unique True plus some other fields pro
C++中嵌套类作为父类的模板参数

我想将算法实现为派生自纯虚拟类的类代表特定算法解决的问题类型通用界面如下所示 template
SELECT2 -> 添加数据而不替换内容

我看过其他一些线程但没有那么具体这并不是我认为很难的事情但我不确定如何去做目前我正在使用 Select2 作为标记系统在它旁边我建议了用户可以单击的标签并将其添加到框中相反每个标签都会替换内容并添加自身我需要将添加内容附
具有空格或多个单词的概念的同义词

我不知道如何处理包含空格的同义词我有以下配置 SOLR 配置文件

具有空格或多个单词的概念的同义词

具有空格或多个单词的概念的同义词 的相关文章

随机推荐

热门标签

具有空格或多个单词的概念的同义词的相关文章