LDA 原始输出
-
一元语法
主题1 - 水肺、水、蒸汽、潜水
主题2 -二氧化物、植物、绿色、碳
所需输出
-
二元组主题
主题1 - 水肺潜水,水蒸气
主题2-绿色植物,二氧化碳
任何想法?
鉴于我有一个名为docs
,包含文档中的单词列表,我可以使用 nltk.util.ngrams 或您自己的函数将其转换为单词+二元组(或三元组等)数组,如下所示:
from nltk.util import ngrams
for doc in docs:
docs[doc] = docs[doc] + ["_".join(w) for w in ngrams(docs[doc], 2)]
然后将此字典的值作为语料库传递给 LDA 模型。因此,由下划线连接的二元组被视为单个标记。
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)