topicmodeling

Spark LDA 困境 - 预测和 OOM 问题

我正在评估 Spark 1 6 0 来构建大型数百万个文档数百万个特征数千个主题 LDA 模型并进行预测这是我可以使用 Yahoo 轻松完成的任务 LDA 从小处开始按照 Java 示例我使用分布式模型 EM 优化器构建了 10

apachespark LDA apachesparkmllib topicmodeling

从 R 主题模型中的 DocumentTermMatrix 中删除空文档？

我正在使用 R 中的 topicmodels 包进行主题建模我正在创建一个 Corpus 对象进行一些基本的预处理然后创建一个 DocumentTermMatrix corpus lt Corpus VectorSource vec

r LDA topicmodeling topicmodels

LDA 主题建模 - 训练和测试

我读过 LDA 并且了解当输入一组文档时如何生成主题的数学原理参考文献称 LDA 是一种算法只要给定一个文档集合无需任何监督就可以揭示该集合中的文档所表达的主题因此通过使用 LDA 算法和吉布斯采样器或变分贝叶斯我可以输入

LDA topicmodeling

R 监督潜在狄利克雷分配包

我在用着这个LDA包 https cran r project org web packages lda 对于 R 具体来说我正在尝试做监督潜在狄利克雷分配 slda https www cs princeton edu blei pap

r topicmodeling Dirichlet latentsemanticanalysis

Gensim LDA 主题分配

我希望使用 LDA 将每个文档分配给一个主题现在我意识到您得到的是 LDA 主题的分布然而正如您从下面最后一行看到的我将其分配给最有可能的主题我的问题是这样的我必须跑lda corpus 有点第二次为了获得这些主题是否有其他内

gensim LDA topicmodeling

使用 Python 可视化 LDA 模型

我有一个 LDA 模型包含 10K 文档中 10 个最常见的主题现在它只是对每个主题的单词及其相应概率分布的概述我想知道 python 是否有可用的东西来可视化这些主题 pyLDAvis https pypi python org p

python datavisualization LDA topicmodeling

木槌的基本用法。第一步

我正在尝试使用Mallet实际上没有主题建模等方面的经验我的目的是获得N的主题M我现在拥有的文档用一个或多个主题对每个文档进行分类文档 1 主题 1 文档 2 主题 2 可能还有主题 3 并用此结果对将来的新文档进行分类我尝试使用b

topicmodeling mallet

Spark MLlib LDA，如何推断新的未见过文档的主题分布？

我对使用 Spark MLlib 应用 LDA 主题建模感兴趣我已经检查了代码和解释here http spark apache org docs latest mllib clustering html latent dirichlet

apachespark LDA apachesparkmllib topicmodeling

python中使用numpy数组出现内存错误

我收到此代码的以下错误 model lda LDA n topics 15 n iter 50 random state 1 model fit X topic word model topic word print type topic

python NumPy textmining LDA topicmodeling

如何获得 mallet 中某个主题的概率分布？

使用木槌我可以获得特定数量的主题及其单词如何确保主题词符合概率分布即总和为一例如如果我按如下方式运行它如何使用 mallet 给出的输出来确保主题 0 的主题词的概率加起来为 1 mallet train topics inpu

Java machinelearning topicmodeling mallet topicmodels

gensim 的 get_document_topics 方法返回的概率加起来不等于 1

有时它返回所有主题的概率并且一切都很好但有时它只返回几个主题的概率并且它们加起来不等于一似乎这取决于文档一般来说当它返回很少的主题时概率加起来大约为 80 那么它只返回最相关的主题吗有没有办法强制它返回所有概率也许我遗漏了一些

textmining gensim LDA topicmodeling

每次我在同一语料库上训练时，LDA 模型都会生成不同的主题

我正在使用Pythongensim从包含 231 个句子的小语料库中训练潜在狄利克雷分配 LDA 模型然而每次我重复这个过程它都会产生不同的主题为什么相同的LDA参数和语料每次生成不同的主题如何稳定话题生成我正在使用这个语料库

python NLP LDA topicmodeling gensim

R LDA 主题建模：结果主题包含非常相似的单词

All 我是 R 主题建模的初学者这一切都是三周前开始的所以我的问题是我可以成功地将数据处理成语料库文档术语矩阵和 LDA 函数我有推文作为输入大约有 460 000 条推文但我对结果不满意所有主题的单词都非常相似 packa

r LDA topicmodeling

如何使用 DBpedia 属性构建主题层次结构？

我试图通过遵循下面提到的两个 DBpedia 属性来构建主题层次结构 skos 更广泛的财产 dcterms 主题属性我的目的是给这个词确定它的主题例如给出这个词支持向量机我想从中识别主题例如分类算法机器学习等然而有时我对

NLP semanticweb dbpedia topicmodeling spotlightdbpedia

在 R Ubuntu 中安装主题模型时出错

我在安装时遇到错误topicmodels封装在R 跑步时install packages topicmodels dependencies TRUE 以下是我收到的最后几行请帮忙我的R版本是3 1 3 g I usr share R i

r Ubuntu1404 topicmodeling

用户评论 - R 中的主题建模或意图检测

我正在 R 中进行社交媒体分析类似于查看特定业务的用户反馈并尝试将用户评论区分为类别主题例如查找用户评论是否谈论邻里或犯罪等如何找到给定文本的意图为了训练模型我没有任何预先确定的主题和标题我正在进行一个未知的主题分析主题建

r NLP stanfordnlp topicmodeling yelp

手动将搭配添加到 gensim 短语器

我正在对语言学论文进行主题建模并使用 Gensim 短语来识别频繁的搭配我希望能够将术语 do support 和 it clefts 标记为一个单词因为它们是特定的语言术语但是如果我在取出停用词后制作 Gensim 模型则不会

gensim topicmodeling

主题模型上是否有任何 R 包或已发布的代码可以考虑时间？

我正在尝试对跨越 2 个世纪的政治演讲数据集进行主题建模并且理想情况下希望使用考虑时间的主题模型例如 Topics over Time McCallum and Wang 2006 或动态主题模型布莱和拉弗蒂 2006 然而鉴于我不

r textmining topicmodeling

如何在结构主题建模 R 包中绘制文档主题分布？

如果我使用 python Sklearn 进行 LDA 主题建模我可以使用转换函数来获取 LDA 结果的文档主题分布如下所示 document topic distribution lda model transform docume

python r scikitlearn topicmodeling

ValueError：无法在空集合上计算 LDA（无术语）

当尝试计算较小规模的语料库的 lda 时在 python 中出现此错误但在其他情况下工作正常语料库的大小是 15 我尝试将主题数设置为 5 然后将其减少到 2 但它仍然给出相同的错误 ValueError 无法在空集合上计算 LDA

python gensim LDA topicmodeling