如何查找相似文档

2024-04-02

如何在 Lucene 中找到给定文档的相似文档。我不知道文本是什么,我只知道文档是什么。有没有办法在lucene中找到类似的文档。我是新手,所以我可能需要一些指导。


你可能想检查 lucene 的 MoreLikeThis 功能。

MoreLikeThis 根据文档中的术语构建 lucene 查询,以查找索引中的其他相似文档。

http://lucene.apache.org/java/3_0_1/api/contrib-queries/org/apache/lucene/search/similar/MoreLikeThis.html http://lucene.apache.org/java/3_0_1/api/contrib-queries/org/apache/lucene/search/similar/MoreLikeThis.html

示例代码示例(java 参考)-

MoreLikeThis mlt = new MoreLikeThis(reader); // Pass the index reader
mlt.setFieldNames(new String[] {"title", "author"}); // specify the fields for similiarity

Query query = mlt.like(docID); // Pass the doc id 
TopDocs similarDocs = searcher.search(query, 10); // Use the searcher
if (similarDocs.totalHits == 0)
    // Do handling
}
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

如何查找相似文档 的相关文章

  • 用 C# 为信息检索应用程序编写倒排索引

    我正在编写一个内部应用程序 其中包含多条文本信息以及有关这些文本的大量数据 这些数据将按照输入顺序保存在数据库 SQL Server 尽管这可能会改变 中 我希望能够搜索这些信息中最相关的信息 并将最相关的信息放在顶部 我最初考虑使用 SQ
  • 如何将同义词词典添加到mysql全文搜索?

    这样 如果我搜索术语 男士 术语 绅士 就会匹配 我试过这个 SELECT FROM cart product WHERE MATCH product name product description product brand metal
  • Solr:如何动态提升有限数量的文档? QueryElevationComponent 是否需要修改?

    我的要求是提升数量有限针对用户请求的 例如五个 文档 我有的是一个文档字段它存储类似于表示增强值的数值电梯排名值 因此 用户查询将返回 5 个具有最高电梯排名值的文档 其余文档按常规顺序填充页面 怎么做 The QueryElevation
  • 如何查询SOLR中的空字段?

    我有一个很大的 solr 索引 我注意到一些字段没有正确更新 索引是动态的 这导致某些字段具有空的 id 字段 我已经尝试过这些查询 但它们不起作用 id id NULL id null id id id TO 有没有办法查询空字段 Tha
  • 使用 Windows 加密文件系统 (EFS) 对 FILESTREAMS 进行 SQL Server 2012 全文搜索

    这基本上是一个是 否问题 但如果答案包括支持参考资料以及答案 如果答案是 是 我们将不胜感激 奇怪的是 我在 MSDN 或 TechNet 中找不到明确的答案 我的直觉和实验让我得出了 不 的结论 是否可以将 Windows EFS 与 S
  • Elasticsearch 6.2 / Kibana查询:一字段必须存在,一字段不能存在

    我的愿望是搜索 field 存在且 fields b 不存在的文档 有没有办法使用 Kibana 中的 Lucene 查询语法 Kibana 的 发现 部分中的 搜索 字段 来执行此操作 我尝试过使用 缺失 字段 b没有成功 exists
  • Lucene索引:查询时得到空结果

    我正在尝试使用 Lucene 索引进行查询 但在日志中得到空结果和以下错误 Traversal query query without index select jcr path from nt base where isdescendan
  • Java、Lucene:在Java中设置IndexWriter的锁定超时。

    我正在致力于将 Lucene 与我们基于 Spring MVC 的应用程序集成 目前我们已经可以使用它了 但是我们很少得到cannot obtain lock错误 之后我必须手动删除锁定文件才能正常工作 如何在 Java 中设置锁定索引的超
  • 将 json 请求 POST 到 Solr,请求中带有cursorMark

    是否可以包括cursorMarkPOST 请求正文中的值而不是将其作为查询字符串参数发送 以下查询 query val abc limit 10 cursorMark sort id asc 返回一条错误消息 JSON 请求中未知的顶级键
  • 在 lucene 中搜索 UUID 不起作用

    我有一个 UUID 字段 以以下格式添加到我的文档中 372d325c e01b 432f 98bd bc4c949f15b8 但是 当我尝试通过 UUID 查询文档时 无论我如何尝试转义表达式 它都不会返回它们 例如 uuid 372d3
  • 撇号和 SQL Server FT 搜索

    我在 SQL Server 2005 中设置了 FT 搜索 但我似乎找不到将 Lias 关键字与 Lia s 记录相匹配的方法 我基本上想要的是允许人们在没有撇号的情况下进行搜索 我已经断断续续地解决这个问题有一段时间了 所以任何帮助都将是
  • 在服务器中实现自动完成的最佳方法是什么?

    这个问题很容易让人知道 让 Web 应用程序的客户端自动完成变得漂亮很简单 有很多插件 但是 在后端 在服务器端 最好的方法是什么 我不喜欢用户每次按下按键就访问数据库的想法 我一直在考虑 sphinx 或者一些与您的网站并行运行的全文搜索
  • 使用 Lucene 进行精确短语搜索?

    我正在使用 SpanTerm Query 在 lucene 中搜索确切的短语 但这似乎不起作用 这是我的代码 Indexing IndexWriter writer new IndexWriter dir new StandardAnaly
  • Lucene:如何在单个字段下索引和搜索多个值

    如何在单个字段下索引和搜索多个值 例如说我有一个领域处理器这可能有i3 i5 i7 or i3 or i3 i5价值观 现在想象一下笔记本电脑的数据如下 data1 name laptop name price laptop price p
  • MySQL 5.6 InnoDB 全文搜索

    我意识到 MySQL 5 6 仍处于测试阶段 但是有人有使用新的 InnoDB FTS 引擎的经验吗 它与狮身人面像之类的东西相比如何 谢谢 贾森 从未使用过 Sphinx 但在大约 170k 行的 Innodb 表上尝试过 MySQL 5
  • 如何判断lucene索引版本?

    我正在编写一个 shell 脚本 csh 它必须确定 lucene 索引版本 然后根据该版本将索引升级到下一个版本 所以 如果 lucene 索引是 2 x 我必须将索引升级到 3 x 最后索引需要升级到6 x 由于升级索引是一个顺序过程
  • 用于 MySQL 全文搜索的转义字符串

    我正在使用 Laravel 4 并设置了以下查询 if Input get keyword keyword Input get keyword search DB connection gt getPdo gt quote keyword
  • Android 中的 Sqlite 全文搜索对非英语字符的 Unicode 支持

    滚动到末尾以跳过说明 背景 在我的 Android 应用程序中 我想使用非英语 Unicode 文本字符串来搜索存储在 SQLite 数据库中的文本文档 字段中的匹配项 我了解到 所以我认为 我需要做的是实施一个使用 fts3 fts4 进
  • Solr MoreLikeThis 不适用于多个分片?

    我在 SolrCloud 中有 5 个节点集群 每个节点有 2 个分片 Solr版本 6 3 0 现在 当我运行 mlt 查询时 它仅返回每个节点的结果 并且不会将它们分布在所有分片 节点上 即 没有给出任何结果 给出结果 我什至尝试将其指
  • 快速搜索压缩文本文件

    我需要能够在大量压缩文件 txt 中搜索文本 压缩可能会改变为其他东西 甚至成为专有的 我想避免解压所有文件并压缩 编码 搜索字符串并在压缩文件中搜索 这应该可以通过对所有文件使用相同的码本使用霍夫曼压缩来实现 我不想重新发明轮子 所以 任

随机推荐

  • 如何使窗口移动命令忽略某个窗口?

    所以我通常在 Emacs 中打开 3 个缓冲区 我正在编写的实际代码的一个缓冲区 用于所述代码的单元测试的一个缓冲区 A third buffer that displays the results of the unit test Thi
  • 是否有一种已知的用于电力塔模数管理所有情况的算法?

    我想在 PARI GP 中实施 用于计算 a 1 a 2 a n mod m 它管理所有情况 特别是 phi 链中出现高权力的情况 有谁知道这样的实现吗 这里可以使用中国余数来确保模数是素数幂 这简化了在 gcd x m 不为 1 的痛苦情
  • 仅获取子文件夹的文件夹大小,而忽略任何其他内容?

    我创建了下面的脚本 它管理和维护 RootFolder 中分配的存储 其中存储每日备份 每个备份都存储在其自己的单独文件夹中 并且如果 RootFolder 内容超过预设限制 则最旧的备份文件夹将被删除 到目前为止 一切都很好 我遇到的问题
  • React-markdown 不渲染 Markdown

    我正在使用 React markdown 来呈现输入的值 问题是归约没有得到应有的处理 例如如果我使用这个表达式 hello world 文本应该在h1中显示为文本 但它正常显示 其他表达式也无法显示被执行 setDataForm comi
  • CSS 弹出菜单

    我想在某些菜单项悬停时创建弹出菜单 我的菜单如下所示 项目1 项目2 项目3 当 item2 悬停时 我想在 item2 下方显示弹出窗口 箭头指向上方 我确信使用 javascript 可以很容易地做到这一点 尽管我还没有这样做过 但这里
  • 更改输入 onchange 的值?

    我正在尝试创建一个简单的 JavaScript 函数 当有人在一个数字中插入一个数字时input字段时 另一个字段的值应更改为该值 这是我现在所拥有的 function updateInput ish fieldname value ish
  • Amazon S3s 密钥背后的数据结构(过滤数据结构)

    我想实现一个类似于 Amazon S3 的查找功能的数据结构 就上下文而言 Amazon S3 将所有文件存储在平面命名空间中 但允许您通过文件名中的公共前缀查找文件组 从而复制目录树的功能 但又不那么复杂 问题是 查找和过滤操作都是 O
  • 如果类具有 @XmlElement 属性,则它不能具有 @XmlValue 属性

    我收到以下错误 If a class has XmlElement property it cannot have XmlValue property updated class XmlType propOrder currencyCode
  • 如何在 sqlalchemy 查询中将日期时间更改为字符串? [复制]

    这个问题在这里已经有答案了 这是我的代码 查询Notification create time result session query Notification content cls is read Notification creat
  • Freebase 上 MQL 中的多个查询

    我正在尝试从 Freebase 获取结果列表 我有一系列 MID 有人可以解释一下我如何构建查询并将其传递给 PHP 中的 API 吗 我是 MQL 新手 我什至无法让示例正常工作 simplequery array id gt topic
  • 斯威夫特:“!”的区别和 '?'迅速

    我声明如下 IBOutlet var hw label UILabel 如果我像上面那样写就可以成功运行 但是当我声明如下时 IBOutlet var hw label UILabel and hw label text Hello Wor
  • 如何使用 CSS/Javascript 防止 iOS 上 HTML 上的自动旋转图像

    我正在创建一个照片网站 我上传了一张自己的照片 但实际上方向不正确 图像逆时针旋转 90 度 我从我的 iPhone 上传了这张图片 显然 iPhone 是故意以这种方式存储的 在我的网站上 HTML 页面呈现了一个 JSON 对象 其中包
  • sizeof 运算符的问题

    由于我想在函数中动态查找数组大小 因此我使用了 sizeof 运算符 但我得到了一些意想不到的结果 这是一个演示程序 向您展示我想要做什么 include
  • 如何用 C 语言编写 C 编译器? [复制]

    这个问题在这里已经有答案了 这个问题可能源于我对编译器的误解 但这里是 在 K R 第一版的序言 第 xi 页 中可以找到以下陈述 操作系统 C编译器 并且基本上所有 UNIX 应用程序 包括编写本书所使用的所有软件 都是用 C 编写的 我
  • 同时预增量和后增量或混合预增量[重复]

    这个问题在这里已经有答案了 可能的重复 C 中的前后递增 递减运算符 https stackoverflow com questions 174153 pre and post increment decrement operators i
  • NSImageView 动画

    我是Mac开发新手 我们有类似的方法吗imagev NSArray 数组WithObjects 我需要像我们在 iOS 中所做的事情想要在 mac 中做的事情 imageVie animationImages NSArray arrayWi
  • 调试长时间运行的 PHP 脚本

    我有 php 脚本作为 cron 作业运行 广泛使用第三方代码 脚本本身有几千个LOC 基本上它是数据导入 处理脚本 JSON 到 MySQL 但它也进行大量 HTTP 调用和一些 SOAP 现在 性能随着时间的推移而下降 当测试少量记录
  • 推送到 GitHub 错误:无法在 .netrc 文件中找到主机 github.com;使用默认值

    我不知道发生了什么 我没有得到github的回应 我在一个月左右的时间里第一次尝试了 git Push 并得到了这个 打开导出 GIT CURL VERBOSE 1 并进行推送并得到 localhost send2mobile rails
  • Visual Studio Intellisense 如何工作?

    有人可以解释一下 Visual Studio 中的智能感知究竟是如何工作的吗 智能感知背后的秘密是在后台运行的构建提供程序 本文将进一步阐述这个主题 http aspalliance com 1102 Creating a Custom B
  • 如何查找相似文档

    如何在 Lucene 中找到给定文档的相似文档 我不知道文本是什么 我只知道文档是什么 有没有办法在lucene中找到类似的文档 我是新手 所以我可能需要一些指导 你可能想检查 lucene 的 MoreLikeThis 功能 MoreLi