我目前正在编写一个脚本,该脚本运行整个文档,提取所有关键字,然后尝试将这些关键字与其他文档中找到的关键字进行匹配。有一些细节使这个问题变得复杂,但它们与我的问题不太相关。基本上我希望能够匹配单词,无论它们出现的时态如何。
例如:如果给定字符串“swim”、“swam”和“swimming”,我想要一个程序能够识别这些都是同一个单词,尽管它是否会将单词存储为“swim”、“swam”或“swimming”对我来说并不重要。
我知道这个问题可以通过包含所有这些单词形式的词典来解决,但我不知道有任何以这种方式映射的词典对此有用。我更喜欢与 Python 兼容的解决方案或库,因为这就是我目前用于此脚本的解决方案,但我可以使用几乎任何语言的解决方案(保存 haskell 或 eiffel 或类似晦涩/难以理解的东西)与)一起工作
查看pywordnet.
>>> N['dog']
dog(n.)
>>> N['dog'].getSenses()
('dog' in {noun: dog, domestic dog, Canis familiaris},
'dog' in {noun: frump, dog}, 'dog' in {noun: dog},
'dog' in {noun: cad, bounder, blackguard, dog, hound, heel},
'dog' in {noun: pawl, detent, click, dog},
'dog' in {noun: andiron, firedog, dog, dogiron})
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)