在为我正在构建的网站开发搜索时,我决定采用廉价且快速的方法,使用 Microsoft Sql Server 的全文搜索引擎,而不是像 Lucene.Net 这样更强大的引擎。
不过,我想要的功能之一是谷歌式的相关文档片段。我很快发现确定“相关”片段比我意识到的更困难。
我想根据找到的文本中的搜索词密度来选择片段。所以,本质上,我需要找到文本中搜索词最密集的段落。其中一个段落是任意数量的字符(比如 200——但这并不重要)。
我的第一个想法是在循环中使用 .IndexOf() 并构建一个术语距离数组(从先前找到的术语中减去找到的术语的索引),然后......什么?将任意两个、任意三个、任意四个、任意五个连续数组元素相加,并使用总和最小的元素(因此,搜索项之间的距离最小)。
这看起来很混乱。
有没有比我想出的更成熟、更好或更明显的方法来做到这一点?
尽管它是用 Java 实现的,但您可以在此处查看解决该问题的一种方法:http://rcrezende.blogspot.com/2010/08/smallest-relevant-text-snippet-for.html http://rcrezende.blogspot.com/2010/08/smallest-relevant-text-snippet-for.html
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)