我正在研究如何从文档中提取关键短语为了我的论文。
在我的研究中,我使用朴素贝叶斯分类器机器学习来创建候选术语特征的训练模型。特点之一是PoS tag,我认为此功能对于指定术语是否为关键短语很重要。
但输入的朴素贝叶斯 (NB) 分类器是数字,PoS 标签是字符串。
所以我不知道将PoS标签特征表示为数字的方式,以便成为NB分类器的输入特征.
请帮我提供您的建议。
感谢致敬,
贤苏
您可以将 POS 标签视为一个单词。然后你可以使用 POS unigram、bigram 或 trigram 作为特征。
Example:
他们/PRP拒绝/VBP/TO许可/VB我们/PRB/TO获得/VB/DT拒绝/NN许可/NN。
如果以 POS 三元组作为特征。您可以构建具有以下特征的向量。
Feature Value
(PRP,VBP,TO) 1
(VBP,TO,VB) 1
(TO,VB,PRB) 1
等等。
您还可以将 tf-idf 值用于 POS 功能。
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)