给定实体术语的有限字典,我正在寻找一种使用 Lucene 进行智能标记的实体提取的方法。目前我已经能够将 Lucene 用于:
- 搜索具有一定模糊性的复杂短语
- 突出显示结果
但是,我不知道如何:
- 获取匹配短语的准确偏移量
-为每场比赛进行特定于实体的注释(不仅仅是每个点击的标签)
我尝试过使用explain()方法 - 但这只给出了查询中命中的术语 - 而不是原始文本中命中的偏移量。
有人遇到过类似的问题并愿意分享潜在的解决方案吗?
预先感谢您的帮助!
对于偏移量,请参阅这个问题:Lucene中如何获取term的偏移量? https://stackoverflow.com/questions/2930339/how-get-the-offset-of-term-in-lucene
我不太明白你的第二个问题。在我看来,您想从存储字段 http://lucene.apache.org/java/3_0_2/api/core/org/apache/lucene/document/Field.html尽管。要从存储字段获取数据:
TopDocs results = searcher.Search(query, filter, num);
foreach (ScoreDoc result in results.scoreDocs)
{
Document resultDoc = searcher.Doc(result.doc);
string valOfField = resultDoc.Get("My Field");
}
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)