我研究了几个星期的LDA和Topic模型。但是由于我的数学能力很差,我不能完全理解它的内部算法。我使用了GibbsLDA实现,输入大量文档,并将主题数设置为100,我得到一个名为“final.theta”的文件,它存储每个文档中每个主题的主题比例。这个结果很好,我可以使用主题比例做很多其他事情。
但是当我在LDA上尝试Blei的C语言实现时,我只得到一个名为final.gamma的文件,但我不知道如何将这个文件转换为主题比例样式。
谁能帮我。
而且我了解到LDA模型有很多改进版本(例如CTM,HLDA),如果我能找到一个类似于LDA的主题模型,我的意思是当我输入很多文档时,它可以直接输出文档中主题的比例。
非常感谢!
我认为 Blei 实现的问题是你通过运行进行变分推理:
$ lda inf [参数...]
当您想要进行主题估计时,可以使用:
$ lda est [参数...]
一旦运行,当前目录或可选的最后一个参数指定的目录中将有一个文件“final.beta”。然后运行 tar 中包含的 python 脚本“topics.py”。自述文件在这里:http://www.cs.princeton.edu/~blei/lda-c/readme.txt http://www.cs.princeton.edu/~blei/lda-c/readme.txt描述了这一切,特别是 B 和 D 部分。
(如果这仍然没有意义,请告诉我)
至于CTM等改进:我对HLDA一无所知,但我过去使用过LDA和CTM,我可以说,严格来说,两者都不比另一个更好——这是一个更好的例子不同的数据。 CTM 假设文档是相关的,并使用该假设来改进结果(只要该假设为真)。
希望这可以帮助!
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)