如何使用 WordNet 确定 python 中两个文本之间的语义相似度?
明显的预处理是删除停用词和词干,但是然后呢?
我能想到的唯一方法是计算两个文本中每个单词之间的 WordNet 路径距离。这是一元语法的标准。但这些都是大型(400 个单词)文本,是自然语言文档,其中的单词没有任何特定的顺序或结构(英语语法强加的顺序或结构除外)。那么,您会比较文本之间的哪些单词?你会如何在Python中做到这一点?
您可以做的一件事是:
- 杀死停用词
- 找到尽可能多的与同一文档中其他单词的同义词和反义词有最大交集的单词。我们称这些为“重要的话”
- 检查每个文档的重要单词集合是否相同。它们越接近,您的文档在语义上就越相似。
还有另一种方法。根据每个文档中的句子计算句子树。然后比较两个森林。很久以前,我在一门课程中做了一些类似的工作。这是代码 https://github.com/inspectorG4dget/Semantic-Document-Comparison(请记住,这是很久以前的事了,而且是为了课堂。所以至少可以说,代码非常hacky)。
希望这可以帮助
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)