是否可以对标记中的文本进行标记,以便将名字和姓氏组合在一个标记中?
例如,如果我的文本是:
text = "Barack Obama is the President"
Then:
text.split()
结果是:
['Barack', 'Obama', 'is', 'the, 'President']
我怎样才能识别名字和姓氏?所以我只得到['Barack Obama', 'is', 'the', 'President']
作为代币。
有没有办法用Python实现呢?
您正在寻找的是命名实体识别系统。我建议您不要将其视为标记化的一部分。
对于Python,你可以使用https://pypi.python.org/pypi/ner/ https://pypi.python.org/pypi/ner/
来自网站的示例
>>> tagger.json_entities("爱丽丝去了自然历史博物馆。")
'{“组织”:[“自然历史博物馆”],“人物”:[“爱丽丝”]}'
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)