例如,在句子“两匹马刚刚躺下,一群失去母亲的小鸭子鱼贯进入谷仓,有气无力地吱吱叫,左右徘徊,寻找不被踩踏的地方。”,有两种动物:马和鸭。
我正在寻找动物名称的词汇表,但找不到足够完整的内容。这WordNet http://wordnet.princeton.edu/数据库看起来很有希望,但可能有点矫枉过正,而且也不够广泛。
WordNet 是一个出色的工具,我认为您走在正确的道路上。您正在寻找的关系是下位词/上位词关系:名词horse作为 的下位词animal,并且相反,animal是 的上位词horse。 WordNet 确实提供了数据来评估两个名词是否存在这种关系。
说到 WordNet,您可能会发现所有动物noun.animal
文件。这可能会使您的特定问题变得更简单。
去从duckling to duck,您将导航 WordNet姐妹术语关系,给出相关单词的集合。我不确定你是否会从中得到误报,但可能会有一些。Duck and duckling也被列在一个衍生相关的关系,但是lion and cub不是。这可能是一个有争议的问题,因为两者duckling and cub从某种意义上来说,是动物。
但是,您必须标记词性,并且仅考虑名词,否则当句子使用动词时您会得到误报骑马 and to duck(猛地向下)。词性 (POS) 标记本身就是一个完整的问题,您可能需要查看一些现有的库来实现这一点。大多数成功的方法都使用统计方法,但结果相当可靠,尽管可能不是 100% 正确。
此外,您将不可避免地从名词同名中得到其他类型的误报。例如,一个horse可能指的是一件体操器材,它显然不是动物。Duck也可以指一种织物。如果没有更深入的上下文,您将不可能解决这样的同音异义问题。但是,如果没有能够完全理解文本的全面通用智能,这个问题就无法完全解决。
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)