我正在使用 WordNet,通过 Python 的 NLTK 访问来比较社交媒体中单词的同义词集。其中许多单词并不包含在 NLTK 连接的 WordNet 版本中。
当我说我words我指的是特定领域的术语,而不是缩写或表情符号。
我已经编制了这些单词的列表,并希望将该列表与 WordNet 合并。
搜索先前的努力发现了开发自动更新 WordNet 的方法的尝试。
我想象的步骤是:
- 克隆 WordNet 数据库
- 编写 WordNet 模块的扩展来查找本地副本
- 更新该本地副本。
这听起来有多合理?
我自己还没有更改过 WordNet,但我在使用 WordNet 方面获得了很好的经验多语言中央存储库 http://adimen.si.ehu.es/web/MCR,我相信你应该能够使用它来做你想做的事情。
它包含包括英语在内的多种语言的 WordNet 3.0 数据文件,这些文件通过所谓的语言间索引 (ILI) 相互关联。数据文件可以加载到 MySQL 或 PostgreSQL 数据库表中,从这一点来说,不仅使用 SQL 命令查询它应该相对容易,而且插入新项目、维护表之间的对应关系也应该相对容易。您当然也可以导出更改的数据库,例如如果使用 SQL 不足以满足您的目的,则将其转换为 CSV 文件。
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)