Python
Java
PHP
IOS
Android
Nodejs
JavaScript
Html5
Windows
Ubuntu
Linux
Spark LDA 困境 - 预测和 OOM 问题
我正在评估 Spark 1 6 0 来构建大型 数百万个文档 数百万个特征 数千个主题 LDA 模型并进行预测 这是我可以使用 Yahoo 轻松完成的任务 LDA 从小处开始 按照 Java 示例 我使用分布式模型 EM 优化器构建了 10
apachespark
LDA
apachesparkmllib
topicmodeling
从 R 主题模型中的 DocumentTermMatrix 中删除空文档?
我正在使用 R 中的 topicmodels 包进行主题建模 我正在创建一个 Corpus 对象 进行一些基本的预处理 然后创建一个 DocumentTermMatrix corpus lt Corpus VectorSource vec
r
LDA
topicmodeling
topicmodels
LDA 主题建模 - 训练和测试
我读过 LDA 并且了解当输入一组文档时如何生成主题的数学原理 参考文献称 LDA 是一种算法 只要给定一个文档集合 无需任何监督 就可以揭示该集合中的文档所表达的 主题 因此 通过使用 LDA 算法和吉布斯采样器 或变分贝叶斯 我可以输入
LDA
topicmodeling
R 监督潜在狄利克雷分配包
我在用着这个LDA包 https cran r project org web packages lda 对于 R 具体来说 我正在尝试做监督潜在狄利克雷分配 slda https www cs princeton edu blei pap
r
topicmodeling
Dirichlet
latentsemanticanalysis
Gensim LDA 主题分配
我希望使用 LDA 将每个文档分配给一个主题 现在我意识到您得到的是 LDA 主题的分布 然而 正如您从下面最后一行看到的 我将其分配给最有可能的主题 我的问题是这样的 我必须跑lda corpus 有点第二次为了获得这些主题 是否有其他内
gensim
LDA
topicmodeling
使用 Python 可视化 LDA 模型
我有一个 LDA 模型 包含 10K 文档中 10 个最常见的主题 现在它只是对每个主题的单词及其相应概率分布的概述 我想知道 python 是否有可用的东西来可视化这些主题 pyLDAvis https pypi python org p
python
datavisualization
LDA
topicmodeling
木槌的基本用法。第一步
我正在尝试使用Mallet实际上没有主题建模等方面的经验 我的目的是获得N的主题M我现在拥有的文档 用一个或多个主题对每个文档进行分类 文档 1 主题 1 文档 2 主题 2 可能还有主题 3 并用此结果对将来的新文档进行分类 我尝试使用b
topicmodeling
mallet
Spark MLlib LDA,如何推断新的未见过文档的主题分布?
我对使用 Spark MLlib 应用 LDA 主题建模感兴趣 我已经检查了代码和解释here http spark apache org docs latest mllib clustering html latent dirichlet
apachespark
LDA
apachesparkmllib
topicmodeling
python中使用numpy数组出现内存错误
我收到此代码的以下错误 model lda LDA n topics 15 n iter 50 random state 1 model fit X topic word model topic word print type topic
python
NumPy
textmining
LDA
topicmodeling
如何获得 mallet 中某个主题的概率分布?
使用木槌 我可以获得特定数量的主题及其单词 如何确保主题词符合概率分布 即总和为一 例如 如果我按如下方式运行它 如何使用 mallet 给出的输出来确保主题 0 的主题词的概率加起来为 1 mallet train topics inpu
Java
machinelearning
topicmodeling
mallet
topicmodels
gensim 的 get_document_topics 方法返回的概率加起来不等于 1
有时它返回所有主题的概率并且一切都很好 但有时它只返回几个主题的概率并且它们加起来不等于一 似乎这取决于文档 一般来说 当它返回很少的主题时 概率加起来大约为 80 那么它只返回最相关的主题吗 有没有办法强制它返回所有概率 也许我遗漏了一些
textmining
gensim
LDA
topicmodeling
每次我在同一语料库上训练时,LDA 模型都会生成不同的主题
我正在使用Pythongensim从包含 231 个句子的小语料库中训练潜在狄利克雷分配 LDA 模型 然而 每次我重复这个过程 它都会产生不同的主题 为什么相同的LDA参数和语料每次生成不同的主题 如何稳定话题生成 我正在使用这个语料库
python
NLP
LDA
topicmodeling
gensim
R LDA 主题建模:结果主题包含非常相似的单词
All 我是 R 主题建模的初学者 这一切都是三周前开始的 所以我的问题是我可以成功地将数据处理成语料库 文档术语矩阵和 LDA 函数 我有推文作为输入 大约有 460 000 条推文 但我对结果不满意 所有主题的单词都非常相似 packa
r
LDA
topicmodeling
如何使用 DBpedia 属性构建主题层次结构?
我试图通过遵循下面提到的两个 DBpedia 属性来构建主题层次结构 skos 更广泛的财产 dcterms 主题属性 我的目的是给这个词确定它的主题 例如 给出这个词 支持向量机 我想从中识别主题 例如分类算法 机器学习等 然而 有时我对
NLP
semanticweb
dbpedia
topicmodeling
spotlightdbpedia
在 R Ubuntu 中安装主题模型时出错
我在安装时遇到错误topicmodels封装在R 跑步时install packages topicmodels dependencies TRUE 以下是我收到的最后几行 请帮忙 我的R版本是3 1 3 g I usr share R i
r
Ubuntu1404
topicmodeling
用户评论 - R 中的主题建模或意图检测
我正在 R 中进行社交媒体分析 类似于查看特定业务的用户反馈并尝试将用户评论区分为类别 主题 例如 查找用户评论是否谈论邻里或犯罪等 如何找到给定文本的意图 为了训练模型 我没有任何预先确定的主题和标题 我正在进行一个未知的主题分析 主题建
r
NLP
stanfordnlp
topicmodeling
yelp
手动将搭配添加到 gensim 短语器
我正在对语言学论文进行主题建模 并使用 Gensim 短语来识别频繁的搭配 我希望能够将术语 do support 和 it clefts 标记为一个单词 因为它们是特定的语言术语 但是 如果我在取出停用词后制作 Gensim 模型 则不会
gensim
topicmodeling
主题模型上是否有任何 R 包或已发布的代码可以考虑时间?
我正在尝试对跨越 2 个世纪的政治演讲数据集进行主题建模 并且理想情况下希望使用考虑时间的主题模型 例如 Topics over Time McCallum and Wang 2006 或动态主题模型 布莱和拉弗蒂 2006 然而 鉴于我不
r
textmining
topicmodeling
如何在结构主题建模 R 包中绘制文档主题分布?
如果我使用 python Sklearn 进行 LDA 主题建模 我可以使用转换函数来获取 LDA 结果的 文档主题分布 如下所示 document topic distribution lda model transform docume
python
r
scikitlearn
topicmodeling
ValueError:无法在空集合上计算 LDA(无术语)
当尝试计算较小规模的语料库的 lda 时 在 python 中出现此错误 但在其他情况下工作正常 语料库的大小是 15 我尝试将主题数设置为 5 然后将其减少到 2 但它仍然给出相同的错误 ValueError 无法在空集合上计算 LDA
python
gensim
LDA
topicmodeling
1
2
»