用于索引和搜索的 Lucene 分析器

2024-03-11

我有一个正在使用 Lucene 建立索引的字段，如下所示：

@Field(name="hungerState", index=Index.TOKENIZED, store=Store.YES)
public HungerState getHungerState() {

该字段的可能值为HUNGRY, SLIGHTLY_HUNGRY, and NOT_HUNGRY

当这些值使用索引时StandardAnalyzer，这些项最终为hungry, slightly因为它对标点符号进行标记并忽略“不”。

如果我将索引更改为index=Index.UN_TOKENIZED，索引项是HUNGRY, SLIGHTLY_HUNGRY, and NOT_HUNGRY，正如预期的那样。

我的搜索 API 有 1 个“搜索”方法，用于构造Query像这样：

MultiFieldQueryParser parser = new MultiFieldQueryParser(Version.LUCENE_30, getSearchFields(), new StandardAnalyzer(Version.LUCENE_30));
parser.setDefaultOperater(QueryParser.AND_OPERATOR);
Query query = parser.parse(searchTerms);

这处理 searchTerms = "foo" 的搜索，它搜索由getSearchFields()在“foo”上，以及 searchTerms 指定要搜索的字段和值的位置（即“hungerState:HUNGRY”）

我的问题是后一种情况。由于查询解析器使用 StandardAnalyzer，因此搜索hungerState:SLIGHTLY_HUNGRY被解析为hungerState:"slightly hungry"并搜索hungerState=NOT_HUNGRY被解析为hungerState=hungry.

当使用 StandardAnalyzer 对该字段进行索引时，我得到了意外的结果（搜索 HUNGRY 和 NOT_HUNGRY 返回所有 3 个值的结果）。当字段索引为 UN_TOKENIZED 时，我不会得到任何结果，因为查询解析器对搜索字符串进行标记并使其小写。

我什至尝试指定一个分析器来进行索引，例如KeywordAnalyzer，但它几乎没有任何效果，因为整个搜索字符串都是用StandardAnalyzer每次。

任何意见，将不胜感激。谢谢！

您正在为查询解析器使用标准分析器，因此您的查询将使用标准分析器进行分析。只需切换到使用关键字分析器：

MultiFieldQueryParser parser = new MultiFieldQueryParser(Version.LUCENE_30, getSearchFields(), 
          new KeywordAnalyzer(Version.LUCENE_30));

您可能想使用每个字段分析器包装器 http://lucene.apache.org/java/3_0_1/api/all/org/apache/lucene/analysis/PerFieldAnalyzerWrapper.html如果您的其他字段不是关键字。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

用于索引和搜索的 Lucene 分析器的相关文章

无法解析类型为 xxx 的任何 bean；限定符：[@javax.enterprise.inject.Any()]

我有一个 LoginProvider 接口 public interface LoginProvider boolean login String username String password 以及两种不同的实现 public clas
Android 2.2 SDK - Droid X 相机活动无法正常完成

我注意到我在 Droid X 上调用的默认相机活动与我的 Droid 和 Nexus One 上的默认相机活动看起来不同在 Droid 和 Nexus One 上选择确定后活动将完成 Droid X 有一个完成按钮它将带您返回
JPA 支持查询 Postgres JSON 字段

JPA 是否已经支持处理 JSON 字段的查询如下所示 select from person where info gt gt age numeric 40 select from person where info gt gt firs
Condition 接口中的 signalAll 与对象中的 notificationAll

1 昨天我才问过这个问题条件与等待通知机制 https stackoverflow com questions 10395571 condition vs wait notify mechanism 2 我想编辑相同的内容并在我的问题中添加
在 HTTP 标头中发送 UTF-8 值会导致 Mojibake

我想使用 servlet 发送阿拉伯语数据HTTPServletResponse给客户我正在尝试这个 response setCharacterEncoding UTF 8 response setHeader Info arabicWo
主线程如何在该线程之前运行？

我有以下代码 public class Derived implements Runnable private int num public synchronized void setA int num try Thread sleep 1
记录骆驼路线

我的项目中有几个 Camel 上下文如果可能的话我想以逆向工程方式记录路线因为我们希望保持与上下文相关的文档最新最好的方法是什么我们倾向于预先实际设计路线并使用来自EIP book http www eaipatterns co
JPA 中所有命名查询的列表

我想获取应用程序中所有 NamedQueries 的列表并且我还想在运行时一般调用它们是否有一个选项可以获取列表以及某种元数据一般来说是某种反射另一个线程为 NHibernate 提供了某种解决方案即使使用 Hibernate 作
Java：正则表达式排除空值

在问题中here https stackoverflow com questions 51359056 java regexp for a separated group of digits 我得到了正则表达式来匹配 1 到 99 之间的一
hibernate sessionfactory如何管理session？

我刚刚得到了Hibernate Session和Connection之间的关系但现在我又遇到了一个问题 hibernate sessionfactory如何管理session 在以下代码段中 DAO 类的 save 方法 Session
如何将 Jfreechart（饼图）添加到 netbeans 的面板中

我正在使用 netbeans gui 编辑器并且正在尝试添加一个本身位于内部框架中的 Jfreechart 并且这个内部框架我想将其添加到面板中正如您在此图中看到的那样抱歉我无法直接发布图像因为我新手 http www flick
如何记录来自 Akka (Java) 的所有传入消息

在 Scala 中您可以使用 LoggingReceive 包装接收函数如何通过 Java API 实现相同的目标 def receive LoggingReceive case x do something Scala API 有Lo
解析输入，除了 System.in.read() 之外不使用任何东西

我很难找到具体的细节System in read 有效也许有人可以帮助我似乎扫描仪会更好但我不允许使用它我被分配了一个任务我应该以 Boolean Operator Boolean 的形式读取控制台用户输入例如T F 或 T T
为什么java中的for-each循环中需要声明变量

for 每个循环的通常形式是这样的 for Foo bar bars bar doThings 但如果我想保留 bar 直到循环结束我可以not使用 foreach 循环 Foo bar null Syntax error on toke
将图像添加到自定义 AlertDialog

我制作了一个 AlertDialog 让用户可以从我显示的 4 个选项中选择一个前 3 个让他们在单击号码时直接拨打号码第 4 个显示不同的视图现在看起来是这样的由于第四个选项的目的是不同的任务我想让它看起来不同因为用户可能会感
JVM：是否可以操作帧堆栈？

假设我需要执行N同一线程中的任务这些任务有时可能需要来自外部存储的一些值我事先不知道哪个任务可能需要这样的值以及何时获取速度要快得多M价值观是一次性的而不是相同的M值在M查询外部存储注意我不能指望任务本身进行合作它们只不过是 ja
如何在Java中正确删除数组[重复]

这个问题在这里已经有答案了我刚接触 Java 4 天从我搜索过的教程来看讲师们花费了大量精力来解释如何分配二维数组例如如下所示 Foo fooArray new Foo 2 3 但我还没有找到任何解释如何删除它们的信息从内存的情
哪个集合更适合存储多维数组中的数据？

我有一个multi dimensional array of string 我愿意将其转换为某种集合类型以便我可以根据自己的意愿添加删除和插入元素在数组中我无法删除特定位置的元素我需要这样的集合我可以在其中删除特定位置的数据也
嵌入式 Jetty - 以编程方式添加基于表单的身份验证

有没有一种方法可以按如下方式以编程方式添加基于表单的身份验证我用的是我自己的LdapLoginModule 最初我使用基本身份验证并且工作正常但现在我想在登录页面上进行更多控制例如显示徽标等有没有好的样品我正在使用嵌入式 jett
在哪里存储 Java 的 .properties 文件？

The Java教程 http download oracle com javase tutorial essential environment properties htmlon using Properties 讨论如何使用 Prop

随机推荐

使用 Cucumber JVM 运行测试时出现 UndefinedStepException

我使用 Cucumber Junit Appium 开发移动应用程序的测试当我尝试使用 Cucumber 和 JUnit runner 运行测试时我收到 io cucumber junit UndefinedStepException
如何将基本身份验证添加到 Amazon Elastic Beanstalk 上托管的 Python REST API？

我使用 Python Flask 开发 HTTP REST API 该 API 托管在 Amazon Elastic Beanstalk 平台 Python 3 4 上为了确保 API 的安全我想为其添加基本身份验证第一种方法是直接在
用于演示 Android 中 Sociallibs 不同功能的示例项目/教程

关于社交库 http www androidlibs com sociallib html http www androidlibs com sociallib html http code google com p sociallib w
Corda：大型序列化事务大小：当前序列化设计是否有替代方案？

在我看来当前版本的 Corda 3 1 通过 BLOB 将签名的交易存储为 Java 类的序列化字节数组SignedTransaction The SignedTransaction is a WireTransaction 即包含表
如何确定给定的 int64_t 是否可以无损存储在 double 中？

我想确定给定的 64 位整数是否可以无损存储在双精度数中现在我有这个代码 static cast
如何在 XML 站点地图中添加注释

我想在手动生成的 XML 站点地图中添加评论标签来对 URL 进行分组如下所示
NLTK 资源的 Pyodide 文件系统：丢失文件

我正在尝试使用NLTK https www nltk org 在浏览器中感谢pyodide https pyodide org en stable Pyodide 启动良好成功加载 NLTK 打印其版本尽管如此虽然包下载看起来不错
uicollectionview 在重新加载数据后立即选择一个项目？

打电话后 UICollectionView reloadData 显示单元格需要一些时间因此调用后立即选择一个项目reloadData不起作用有没有办法在之后立即选择一个项目reloadData 沿着这个答案 https stackov
如何让 HTTrack 只下载当前域上的文件？

无论我如何努力我似乎都无法让 httrack 完整保留指向其他域的链接我尝试过使用 stay on same domain争论但这似乎并没有做到我也尝试过添加过滤器但还是不行那里简直must是我在这里缺少的一些选择将选项最
使用自定义字段绑定的 Jooq 批量插入

我在批量插入时遇到以下问题 dslContext batch dslContext insertInto TABLE FIELD 1 FIELD 2 FIELD 3 FIELD 4 TS VECTOR values 0L onConflic
Spring MVC 控制器继承与 spring security

我正在尝试使用 spring mvc 3 2 3 和 spring security 3 1 3 创建一个通用控制器我想要实现的是这样的 public abstract class DataController
套接字异常：套接字已关闭[重复]

这个问题在这里已经有答案了我想创建能够与多个客户端连接的服务器我的主要功能是 ServerSocket serverSocket null try serverSocket new ServerSocket 5556 catch IOE
RPostgreSQL - 将 R 中的参数传递给 RPostgreSQL 中的查询

Question 如何在 RPostgreSQL 查询中传递变量 Example 在下面的示例中我尝试将日期 2018 01 03 传递给查询 library RPostgreSQL dt lt 2018 01 03 connect lt
如何最好地处理 WPF 单选按钮？

我的 XAML 中有一些 RadioButtons
gnuplot 调色板，默认和定义

一些相关的上一个问题 https stackoverflow com questions 11011566 gnuplot setting the range of a third colored point 我想采用 gnuplot 的默
如何修复 GMail SMTP 错误：“SMTP 服务器需要安全连接或客户端未经身份验证。”

下面是我正在使用的代码请告知如何纠正此问题 using System using System Collections Generic using System Linq using System Web using System Web
参数类型“Stream”无法分配给参数类型“Stream?”

我想使用 Streams 使用 firebase 身份验证但是我在网上收到上述错误stream FirebaseAuth instance authStateChanges 我努力了onAuthStateChange 那也行不通 clas
Abaqus Surface getSequenceFromMask

我正在 Abaqus 中编写脚本我用切圆像奶酪压碎圆形和正方形我需要在部件之间放置接触所以我需要 Surface 宏管理器生成 s1 a instances kolo 1 edges side1Edges1 s1 getSeque
在 Codeigniter 中加密时避免使用特定字符？

我需要通过 URL 传递一些加密值有什么办法可以避免加密后得到的值中出现一些字符例如斜杠因为在codeigniter中斜杠等字符用于分隔URL中的参数请注意我不希望任何建议不要在 URL 中传递加密字符串使用PHPurlenc
用于索引和搜索的 Lucene 分析器

我有一个正在使用 Lucene 建立索引的字段如下所示 Field name hungerState index Index TOKENIZED store Store YES public HungerState getHungerSt

用于索引和搜索的 Lucene 分析器

用于索引和搜索的 Lucene 分析器 的相关文章

随机推荐

热门标签

用于索引和搜索的 Lucene 分析器的相关文章