Lucene实体提取

2023-12-20

给定实体术语的有限字典,我正在寻找一种使用 Lucene 进行智能标记的实体提取的方法。目前我已经能够将 Lucene 用于:
- 搜索具有一定模糊性的复杂短语
- 突出显示结果

但是,我不知道如何:
- 获取匹配短语的准确偏移量
-为每场比赛进行特定于实体的注释(不仅仅是每个点击的标签)

我尝试过使用explain()方法 - 但这只给出了查询中命中的术语 - 而不是原始文本中命中的偏移量。

有人遇到过类似的问题并愿意分享潜在的解决方案吗?

预先感谢您的帮助!


对于偏移量,请参阅这个问题:Lucene中如何获取term的偏移量? https://stackoverflow.com/questions/2930339/how-get-the-offset-of-term-in-lucene

我不太明白你的第二个问题。在我看来,您想从存储字段 http://lucene.apache.org/java/3_0_2/api/core/org/apache/lucene/document/Field.html尽管。要从存储字段获取数据:

TopDocs results = searcher.Search(query, filter, num);
foreach (ScoreDoc result in results.scoreDocs)
{
    Document resultDoc = searcher.Doc(result.doc);
    string valOfField = resultDoc.Get("My Field");
}
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

Lucene实体提取 的相关文章

  • 仅根据lucene中term出现次数较多的文档来计算分数

    我开始研究基于 lucene net 引擎的简历检索 文档 组件 它工作得很好 它会获取文档并根据 VSM 背后的理念是 查询词出现在 a 中的次数 文档相对于数量 该术语出现在所有 集合中的文档越多 该文件的相关内容是 询问 Lucene
  • Lucene 上打开的文件太多错误

    我正在进行的项目是对一定数量的数据 长文本 建立索引 并将它们与每个时间间隔 大约 15 到 30 分钟 的单词列表进行比较 一段时间后 比如说第 35 轮 在开始索引第 36 轮的新数据集时 发生了此错误 ERROR 2011 06 01
  • 非英语单词的词形还原?

    我想应用词形还原来减少单词的屈折形式 我知道对于英语 WordNet 提供了这样的功能 但我也对对荷兰语 法语 西班牙语和意大利语单词应用词形还原感兴趣 有没有可靠且可靠的方法来解决这个问题 谢谢你 Try pattern来自 CLIPS
  • LUCENE:搜索与正则表达式匹配的术语

    我需要搜索 lucene 索引中的任何术语 匹配特定的正则表达式 我知道我可以使用TermsComponent在solr中 如果配置如下
  • 了解elasticsearch如何在内部存储日期

    我想了解 ES 如何在其索引内部存储日期值 它会转换为 UTC 吗 我有一个日期类型的字段 t 这是映射 t type date 现在 当我向 ES 插入 添加文档时 它如何存储在索引中 t 1427700477165 从 Date now
  • 在具有多个 Web 服务器的现有 .NET / SQL Server 堆栈上实施 Lucene

    我想考虑使用 Lucene 为我当前管理的网站提供全文搜索解决方案 该网站完全基于 SQL Server 2008 C NET 4 技术构建 我要索引的数据实际上非常简单 每个记录只有几个字段 并且只有其中一个字段实际上是可搜索的 我不清楚
  • 使用 ANTLR 解析时忽略输入的某些部分

    我正在尝试通过 ANTLR ANTLRWorks 3 5 2 解析语言 目标是输入完整的输入 但 Antlr 给出语法中定义部分的解析树并忽略其余输入 例如这是我的语法 grammar asap project begin PROJECT
  • apache solr:group by 产生的数据总和

    我们有一个要求 需要按特定字段对记录进行分组 并获取相应数字字段的总和 前任 select userid sum click count from user action group by userid 我们尝试使用 apache solr
  • 随着索引和文档数量恒定,elasticsearch 批量索引会随着时间的推移而变慢

    我遇到了使用 NET NEST 客户端和 ElasticSearch 进行批量索引的性能随着时间的推移 索引数量和文档数量恒定而降低的情况 我们正在奔跑ElasticSearch Version 0 19 11 JVM 23 5 b02在具
  • 如何使用 lucene 查询找到空的 Solr 文档字段

    我有一些这样的文件
  • Lucene 4.0 中的术语频率

    尝试使用 Lucene 4 0 计算词频 我的文档频率工作得很好 但不知道如何使用 API 来执行术语频率 这是我的代码 private static void addDoc IndexWriter writer String conten
  • Solr/Solrj 分页

    我正在创建的 Web 应用程序中使用 solr 和 solrj 来实现索引和搜索功能 我的请求处理程序在 solrconfig xml 中配置如下
  • Elasticsearch:带有停用词消除功能的带状疱疹

    我正在尝试实现一个 Elasticsearch 映射来优化大量文本中的短语搜索 根据中的建议本文 http www elasticsearch org blog searching with shingles 我使用 shingle 过滤器
  • Lucene 4.4.0新增ControlledRealTimeReopenThread示例使用

    在新的 Lucene 4 4 0 版本中 近实时管理器 org apache lucene search NRTManage 已被替换为受控实时重开线程 https issues apache org jira browse LUCENE
  • query_string 和 multi_match 有什么区别?

    运行此查询时 query string query text fields field1 field2 multi match query text fields field1 field2 有什么不同 何时使用其中之一 何时使用另一个 q
  • Solr协会

    最近几天我们正在考虑使用 Solr 作为我们选择的搜索引擎 我们需要的大多数功能都是开箱即用的或者可以轻松配置 然而 我们绝对需要的一项功能似乎在 Solr 中被很好地隐藏 或缺失 我将尝试用一个例子来解释 我们有很多实际上是企业的文件
  • 有没有推荐的与 Lucene 或 Solr 一起使用的爬虫工具? [关闭]

    就目前情况而言 这个问题不太适合我们的问答形式 我们希望答案得到事实 参考资料或专业知识的支持 但这个问题可能会引发辩论 争论 民意调查或扩展讨论 如果您觉得这个问题可以改进并可能重新开放 访问帮助中心 help reopen questi
  • 在休眠搜索中使用现有分析器AnalyzerDiscriminator

    Entity Indexed AnalyzerDefs AnalyzerDef name en tokenizer TokenizerDef factory StandardTokenizerFactory class filters To
  • R文本文件和文本挖掘...如何加载数据

    我正在使用 R 包tm我想做一些文本挖掘 这是一个文档 被视为一个词袋 我不明白有关如何加载文本文件并创建必要的对象以开始使用诸如 之类的功能的文档 stemDocument x language map IETF Language x 所
  • 将 mongodb 与 solr 集成的动机是什么 [关闭]

    Closed 这个问题是基于意见的 help closed questions 目前不接受答案 Mongodb 是一个 nosql 数据库 除了全文搜索之外 任何查询都可以在其上运行 因为它会降低整体性能 Solr 是一个搜索引擎 当我们将

随机推荐

  • “如果不存在则创建表” - 如何检查架构?

    是否有 或多或少 标准方法不仅检查名为mytable存在 而且其架构是否与应有的相似 我正在尝试H2数据库 http www h2database com and CREATE TABLE IF NOT EXISTS mytable 语句显
  • 如何从字符串中获取字符数组?

    在 JavaScript 中如何将字符串转换为字符数组 我想得到一个像这样的字符串 Hello world 到数组 H e l l o w o r l d 注意 这不兼容 unicode I U split 结果在 4个字符数组 I u 这
  • 包含仅具有静态方法的类的模块

    我有一个包含许多类的 Python 模块 每个类代表一种特定的物理材料及其属性 例如密度 比热 有些属性只是float该类的成员 但许多取决于某些参数 例如温度 我通过实现这个 staticmethods 即所有的类看起来像 class C
  • 使用 Tkinter 命令“iconbitmap”设置窗口图标

    我有一个带有 Tkinter 窗口的程序 我想为该窗口设置一个图标 我使用这段代码 window iconbitmap os path dirname os path abspath file icon png 但抛出以下错误 Traceb
  • 一起使用 javascript 和 php 进行验证

    如何同时使用 php 和 javascript 从我自己的研究来看 这似乎是不可能的 我知道他们是不同的 他们每个人都有自己独特的事情 但假设您正在验证表单 您使用 javascript 验证表单 然后如果没有错误 则运行 php 插入一条
  • 为什么我的线程在 iOS 上启动几个线程后似乎失败了?

    我有这个代码 UITableViewCell tableView UITableView tableView cellForRowAtIndexPath NSIndexPath indexPath代表电话 dispatch async di
  • 如何在 Windows 中远程编辑文本

    注意 这个问题也发布在technet https social technet microsoft com Forums scriptcenter en US 99ac267f a235 4a67 b733 4a2581f6728e rem
  • adb shell 命令在 bash 脚本中不起作用

    我正在尝试编写一个 bash 脚本 运行时可以找到通过 USB 连接的设备的 IP 地址 执行此操作的 bash 脚本 usr bin bash ip adb shell sudo ip f inet addr show 然后我将在稍后的脚
  • 使用 Preact + Typescript 的类型安全事件处理程序

    我正在用 Preact 编写一个简单的组件 它使用onChange处理程序
  • 插入到已排序的数组中

    我想将一个元素插入到排序列表中顺序保持的正确位置 我为数组分配了 2 n 大小 并用 999 填充其余部分 因为它们当前未使用 ordered insert int number int array int size int i 0 int
  • 灵活数字格式

    我想将数字格式化为印度格式 例如 x 123456 应格式化为 1 23 456 我怎样才能在Flex中做到这一点 Thanks 使用数字格式化程序
  • 了解 HKSourceQuery 或一般来源的结果

    我刚刚做了一个 HKSourceQuery 并得到了一些结果 当我做一个println结果 我得到了这个
  • 在 Ruby 中解析非常大的 JSON 文件的正确方法是什么?

    我们如何在 Ruby 中解析 json 文件 require json JSON parse File read data json 如果文件非常大并且我们不想立即将其加载到内存中怎么办 那么我们该如何解析它呢 既然您说不想立即将其加载到内
  • 带智能感知的内置 C#/VB.Net 编辑器 - Roslyn、VSTA 还是其他?

    我需要在我的应用程序中提供脚本功能 允许客户使用我们的对象模型扩展其功能 我希望提供某种带有智能感知的集成 C VB Net 编辑器 但在查看 AvalonEdit 和 ScintillaNet 等产品后 它们似乎并没有提供真正的代码完成功
  • Node JS 覆盖标准模块

    朋友问了一个有趣的问题 我尝试了一些方法但无济于事 有没有办法覆盖 Node JS 模块 例如 我想重写 readFile 函数以使用 S3 存储桶而不是文件系统 IE var fs require fs fs readFile my te
  • 表单元格子视图迭代未找到 TextField

    我创建了一个表格 其中每个单元格都包含一个文本标签和一个文本字段 我正在添加文本字段 cell addSubview passwordField 从视觉角度来看 它们出现并且可以编辑 等等 当我尝试从文本字段检索输入的值时 就会出现问题 我
  • PHP 只允许在表单中选择一个单选按钮

    一个非常基本的问题 如何只允许选择单选按钮列表中的一个选项
  • 通用实体基类

    我刚刚读过一篇关于通用实体基类的文章 简单地说 如果我没有错的话 后面的主要思想是在一个接口中收集所有通用的 非实体特定的字段 而不是在主要实体中实现它 这将是一篇 TL DR 让我们看一些代码 这是基本实体接口及其对另一个接口的通用实现
  • 使用 JavaScript 和 JSON 在 Web 应用程序中进行本地化

    我正在尝试设置一个脚本来自动本地化 Web 应用程序 由于Web应用程序旨在使用HTML5的离线缓存功能 因此它需要能够离线工作 因此 在我看来 JavaScript 是最好的选择 我更喜欢将所有本地化的所有字符串放在一个 JSON 文件中
  • Lucene实体提取

    给定实体术语的有限字典 我正在寻找一种使用 Lucene 进行智能标记的实体提取的方法 目前我已经能够将 Lucene 用于 搜索具有一定模糊性的复杂短语 突出显示结果 但是 我不知道如何 获取匹配短语的准确偏移量 为每场比赛进行特定于实体