Lucene 通过 URL 搜索

2024-07-01

我正在存储一个具有 URL 字段的文档：

Document doc = new Document();
doc.add(new Field("url", url, Field.Store.YES, Field.Index.NOT_ANALYZED));
doc.add(new Field("text", text, Field.Store.YES, Field.Index.ANALYZED));
doc.add(new Field("html", CompressionTools.compressString(html), Field.Store.YES));

我希望能够通过 URL 找到文档，但我得到 0 个结果：

Analyzer analyzer = new StandardAnalyzer(Version.LUCENE_30)
Query query = new QueryParser(LUCENE_VERSION, "url", analyzer).parse(url);
IndexSearcher searcher = new IndexSearcher(index, true);
TopScoreDocCollector collector = TopScoreDocCollector.create(10, true);
searcher.search(query, collector);
ScoreDoc[] hits = collector.topDocs().scoreDocs;
// Display results
for (ScoreDoc hit : hits) {
  System.out.println("FOUND A MATCH");
}
searcher.close();

我可以做些什么不同的事情，以便我可以存储 HTML 文档并通过其 URL 找到它？

您可以将查询重写为类似这样的内容

Query query = new QueryParser(LUCENE_VERSION, "url", analyzer).newTermQuery(new Term("url", url)).parse(url);

建议：

我建议您使用 BooleanQuery，因为它提供了良好的性能并且在内部进行了优化。

TermQuery tq= new TermQuery(new Term("url", url));
// BooleanClauses Enum SHOULD says Use this operator for clauses that should appear in the matching documents.
BooleanQuery bq = new BooleanQuery().add(tq,BooleanClause.Occur.SHOULD);
IndexSearcher searcher = new IndexSearcher(index, true);
TopScoreDocCollector collector = TopScoreDocCollector.create(10, true);
searcher.search(query, collector);

我看到您正在使用 URL 字段作为 Not_Analysed 进行索引，这对于搜索来说非常有用，因为没有使用分析器，因此该值将存储为单个术语。

现在，如果您的业务案例说，我会给您一个 URL 来查找EXACT来自 Lucene 索引的一个，那么您应该使用不同的分析器（KeywordAnalyzer 等）查看您的索引

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Java

Indexing

Lucene

fulltextsearch

Lucene 通过 URL 搜索的相关文章

android下拉刷新列表视图出错

我正在使用功能下拉来刷新library https github com chrisbanes Android PullToRefresh克里斯班斯的但是当我尝试在我的 xml 文件中导入这个小部件时它向我显示以下错误请帮助我如何解决
使用应用程序属性的 @Cacheable 条件

我正在尝试将 Redis 与 Spring 一起使用 Cacheable但需要根据 Spring Boot 样式应用程序属性有条件地打开或关闭缓存我的第一次尝试似乎不起作用 application properties 文件 auth t
查找 Maven 使用的 Java 选项

如何找到 Maven 正在使用哪些 Java 选项 Xmx Xms Xss 等我发现有一种方法set它们是通过环境 MAVEN OPTS 实现的现在我想要一种方法来确保它获得正确的设置编辑我相信它有所不同这个问题 https sta
使用 == 比较 Long 对象类型和原始 int

我有一个通过调用返回 Long 对象数据类型的方法 resp getResultCode 我想比较一下HttpStatus GONE value 它实际上只返回一个原始 int 值410 Long 会拆箱自身以正确地与 int 原语进行比较
当生成 Apache CXF 客户端时，为什么在实例化客户端时仍然需要 WSDL？

我想要使用 SOAP 服务但 WSDL 是离线提供给我的因此导致使用 WSDL 的本地路径生成客户端 public class SoSo extends Service public final static URL WSDL LOC
@AfterReturning 方面在切入点方法的同一事务中执行？

我需要在执行函数后执行任务我为此使用了 Aspect 但我有些困惑我在 Spring 服务中有一个函数 A Transactional readOnly false isolation Isolation DEFAULT propaga
使用 Jackson 反序列化非字符串映射键

我有一张如下所示的地图 public class VerbResult JsonProperty similarVerbs private Map
有人可以推荐 java 8 模式来替换 switch 语句吗？

我有以下代码 public class A private String type String getType return type 现在在许多代码位置我都有这样的代码 switch a geType case A return new
使用协处理器HBase创建二级索引

我一直在尝试编写自己的协处理器使用 prePut 挂钩创建二级索引首先我只是尝试让 prePut 协处理器工作到目前为止我可以将协处理器添加到传递给它的 put 对象中我发现我无法让协处理器写入与传入的 put 对象正在写入的行
您使用什么来进行复杂的构建过程？ [关闭]

Closed 这个问题正在寻求书籍工具软件库等的推荐不满足堆栈溢出指南 help closed questions 目前不接受答案我正在尝试改进我们的构建过程目前它是一个巨大的 Ant build xml 它调用其他 ant 构建
使用 Flink 监控数据流目录中的新文件

我目前正在编写我的第一个 Flink 应用程序并且想要监视文件夹中的新文件不幸的是我找不到关于这个主题的很多例子我找到了readFile fileInputFormat path watchType interval pathFilt
HQL查询是否总是命中数据库并得到结果？

我正在经历休眠以及何时使用的情况Criteria vs HQL我的理解是使用 Hibernate 每次我们通过以下方式查询数据库时Criteria or HQL在这两种情况下休眠都会获取结果集并放入内存中然后当我们再次调用该查询时将
Jersey/JAX-RS ：在响应标头中返回内容长度而不是分块传输编码

我正在使用 Jersey 创建 RESTful API 资源并且ResponseBuilder生成响应 RESTful 资源的示例代码 public class infoResource GET Path service id Produ
您可以链接两个 JFormattedTextField 的值吗？

我有一个带有 2 个 JFormattedTextFields 的界面我需要它们的值不仅仅是显示的文本相同理想情况下它们都应该是可编辑的其中一个的更改会反映在另一个中我一开始只是在两者之间共享一个文档但很快就遇到了一个问题
以编程方式创建 PDF 相册

我有一组 PDF 相册模板它们有空白方块用于放置文本和照片我的需要是使用这些模板来生成实际的专辑我的计划是使用 iText 和 Java 我会向应用程序发送一个包含所有要使用的图像 URL 的数组我将确切地知道图像应该放置在模板上
Android UserManager.isUserAGoat() 的正确用例？

想要改进这篇文章吗提供此问题的详细答案包括引用和解释为什么你的答案是正确的不够详细的答案可能会被编辑或删除我正在查看中引入的新 API安卓4 2 http en wikipedia org wiki Android version
保存新图像时，它会保留旧画布

我有一个画布允许用户绘制和保存它还允许用户更改颜色并在同一画布上使用不同的颜色进行绘制我的绘画课 package com test testing import android content Context import andro
Spring Boot Rest - 如何配置 404 - 找不到资源

我得到了一个有效的春季靴休息服务当路径错误时它不会返回任何内容完全没有反应同时它也不会抛出错误理想情况下我预计会出现 404 未找到错误我有一个 GlobalErrorHandler ControllerAdvice publ
Java双精度求和问题

我想知道为什么我会收到此错误这是Eclipse调试的显示日志 var double 2 8 tot getIva java lang Double 0 17 var tot get double 2 9699999999999998 我不
如何修复 NoClassDefFoundError: CircularOutputStream 错误？

我只是为 Selenium WebDriver 又名 Selenium 2 自动化测试创建一个简单的 Maven 项目以进行无头测试我在 pom xml 中添加了 PhantomJS 驱动程序依赖项和其他依赖项如下所示

随机推荐

部分在 JSF 中应该是什么样子？ HTML5 还是 XHTML？

这只是我现在的好奇心在 Eclipse 中这是定义在的部分新 Facelet 模板例如但对于大多数模板来说都是一样的我想使用更多clear上面的代码所以我更改为
将列表转换为字符串并返回

我有一个虚拟机它从嵌套在列表中的元组读取指令如下所示 0 4738 0 36 0 6376 0 0 存储这种机器代码程序时文本文件是最简单的必须写成字符串这显然很难转换回来是否有任何模块可以将字符串读入列表以可读的方式存储列表
同名虚成员函数的继承

class A A virtual A virtual void Start virtual void Start float a class B public A class C public A virtual void Start f
除非参数按名称声明，否则超级构造函数不能传递自引用

嗯我有这样的事情 trait A class Serving a gt A object App extends Serving App Main object Main extends A 我得到了错误super constructor
我可以使用类属性作为实例方法的默认值吗？

我想使用类属性作为我的类的参数之一的默认值 init 方法这个构造提出了一个NameError不过例外我不明白为什么 class MyClass DefaultName DefaultName def init self name M
Visual Studio 2012 - 如何将我的解决方案绑定到另一个 Team Foundation 服务器？

我有一个 Visual Studio 2012 RC 解决方案绑定到CodePlex http www codeplex com 服务器但是我想将它绑定到团队基础服务 http tfspreview com 服务器代替我不在乎保存历史
与客户端的持久连接

是否有通用方法可以使用 JavaScript 实现应用程序的一部分并提供与服务器的持久连接我需要服务器能够将数据推送到客户端无论客户端位于防火墙后面提前致谢 See Comet http en wikipedia org wiki C
Rabbitmq 服务器启动失败，文件被锁定

Rabbitmq 3 6 5 启动失败如何修复它 BOOT FAILED Error description Found lock file at s n Either previous upgrade is in progress or
Logstash：使用 s3 时如何使用过滤器来匹配文件名

我是 Logstash 的新手我在 AWS S3 中存储了一些日志并且可以将它们导入到 Logstash 中我的问题是是否可以使用 grok 过滤器根据文件名添加标签我尝试使用 grok match gt path gt GREE
基本数据类型和类数据类型的 equals() 方法和“==”运算符

我已经知道了equals 方法或任何其他与此类似的方法比较对象和对象之间给定类型的值运算符比较表达式中声明的两个引用是否相同但是在比较同一类中两个对象的每个字段时我有一个问题代码如下 fields are String name
Cocoapod 的 Xcode 错误：“无法保存文档。文件不存在”

我已经添加了SPGooglePlacesAutocompletecocoapod 到我的项目我遇到了一个非常奇怪的问题当我尝试运行我的项目时 Xcode 提示 Pod 的标头之一存在错误 SPGooglePlacesAutocomple
如何查找哪些视图正在使用 SQL Server (2008) 中的某个表？

我必须向表中添加几列并且还需要将这些列添加到使用该表的所有视图中是否可以获取数据库中使用某个表的所有视图的列表这应该可以做到 SELECT FROM INFORMATION SCHEMA VIEWS WHERE VIEW DEFINI
如何测试未签名的 Firefox 扩展？

Firefox 43 现在强制执行附加组件签名我不明白如何在对扩展进行签名之前在这些版本的 Firefox 中测试和调试扩展如果我正在编写新扩展如何在最新版本的 Firefox 中测试未签名版本是否有明确的方法来禁用开发人员的签名强
如何在 Angular Material 中将图标放入占位符中？

我正在尝试将图标放入占位符中我尝试了这段代码
如何从 udp 端点获取*我的* IP

Boost Asio 的udp endpoint有一个成员是远程地址因为我正在监听多个接口如下所示 udp socket io service udp endpoint udp v4 port 在我的处理程序中我不知道哪个网络接口收到
python sqlite ValueError：无法解析日期时间字符串

我有一个 txt 文件用于填充 sqlite 表 FoodConsumed tb class FoodConsumed Tb db Model tablename foodconsumed tb id db Column db Integ
diff 仅输出文件名

我希望运行一个 Linux 命令来递归比较两个目录并输出only文件名有什么不同这包括一个目录中存在而不是另一个目录中存在的任何内容反之亦然以及文本差异从 diff 手册页 q仅报告文件是否不同而不报告差异的详细信息 r比较目录时
Meteor 中的全局变量

I have var Schemas Meteor isClient Template registerHelper Schemas Schemas Schemas Person new SimpleSchema fullName type
Matlab：“使用分配时出错：尝试将“c”添加到静态工作区”

我有以下函数定义测试代码 function X Y Z test x y z syms a b c a b c This is where it gets wrong X x Y y Z z keyboard nested functio
Lucene 通过 URL 搜索

我正在存储一个具有 URL 字段的文档 Document doc new Document doc add new Field url url Field Store YES Field Index NOT ANALYZED doc add

Lucene 通过 URL 搜索

Lucene 通过 URL 搜索 的相关文章

随机推荐

Lucene 通过 URL 搜索的相关文章