gensim 的 get_document_topics 方法返回的概率加起来不等于 1

2024-02-29

有时它返回所有主题的概率并且一切都很好，但有时它只返回几个主题的概率并且它们加起来不等于一，似乎这取决于文档。一般来说，当它返回很少的主题时，概率加起来大约为 80%，那么它只返回最相关的主题吗？有没有办法强制它返回所有概率？

也许我遗漏了一些东西，但我找不到该方法参数的任何文档。

我遇到了同样的问题并通过包含参数解决了它minimum_probability=0当呼叫get_document_topics的方法gensim.models.ldamodel.LdaModel对象。

    topic_assignments = lda.get_document_topics(corpus,minimum_probability=0)

默认情况下，gensim 不输出低于 0.01 的概率，因此对于任何特定文档，如果有任何主题分配的概率低于此阈值，则该文档的主题概率之和将不等于 1。

这是一个例子：

from gensim.test.utils import common_texts
from gensim.corpora.dictionary import Dictionary
from gensim.models.ldamodel import LdaModel

# Create a corpus from a list of texts
common_dictionary = Dictionary(common_texts)
common_corpus = [common_dictionary.doc2bow(text) for text in common_texts]

# Train the model on the corpus.
lda = LdaModel(common_corpus, num_topics=100)

# Try values of minimum_probability argument of None (default) and 0
for minimum_probability in (None, 0):
    # Get topic probabilites for each document
    topic_assignments = lda.get_document_topics(common_corpus,minimum_probability=minimum_probability)
    probabilities = [ [entry[1] for entry in doc] for doc in topic_assignments ]
    # Print output
    print(f"Calculating topic probabilities with minimum_probability argument = {str(minimum_probability)}")
    print(f"Sum of probabilites:")
    for i, P in enumerate(probabilities):
        sum_P = sum(P)
        print(f"\tdoc {i} = {sum_P}")

输出将是：

Calculating topic probabilities with minimum_probability argument = None
Sum of probabilities:
    doc 0 = 0.6733324527740479
    doc 1 = 0.8585712909698486
    doc 2 = 0.7549994885921478
    doc 3 = 0.8019999265670776
    doc 4 = 0.7524996995925903
    doc 5 = 0
    doc 6 = 0
    doc 7 = 0
    doc 8 = 0.5049992203712463
Calculating topic probabilities with minimum_probability argument = 0
Sum of probabilites:
    doc 0 = 1.0000000400468707
    doc 1 = 1.0000000337604433
    doc 2 = 1.0000000079162419
    doc 3 = 1.0000000284053385
    doc 4 = 0.9999999937135726
    doc 5 = 0.9999999776482582
    doc 6 = 0.9999999776482582
    doc 7 = 0.9999999776482582
    doc 8 = 0.9999999930150807

文档中没有非常清楚地说明这种默认行为。默认值为minimum_probability为了get_document_topics方法是None，但这并不会将概率设置为零。相反的价值minimum_probability设置为值minimum_probability of the gensim.models.ldamodel.LdaModel对象，默认值为 0.01，如您在源代码 https://github.com/RaRe-Technologies/gensim/blob/996801bb3fb8c4e10a84eefa70f5e2ac738dd47b/gensim/models/ldamodel.py#L347:

def __init__(self, corpus=None, num_topics=100, id2word=None,
             distributed=False, chunksize=2000, passes=1, update_every=1,
             alpha='symmetric', eta=None, decay=0.5, offset=1.0, eval_every=10,
             iterations=50, gamma_threshold=0.001, minimum_probability=0.01,
             random_state=None, ns_conf=None, minimum_phi_value=0.01,
             per_word_topics=False, callbacks=None, dtype=np.float32):

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

gensim 的 get_document_topics 方法返回的概率加起来不等于 1 的相关文章

错误：“utf8”编解码器无法解码位置 0 中的字节 0x80：起始字节无效

我正在尝试执行以下操作Kaggle作业 https www kaggle com c word2vec nlp tutorial 我正在使用 gensim 包来使用 word2vec 我能够创建模型并将其存储到磁盘但是当我尝试加载文件时
主题模型上是否有任何 R 包或已发布的代码可以考虑时间？

我正在尝试对跨越 2 个世纪的政治演讲数据集进行主题建模并且理想情况下希望使用考虑时间的主题模型例如 Topics over Time McCallum and Wang 2006 或动态主题模型布莱和拉弗蒂 2006 然而鉴于我不
Skipgrams 上下文（kwic）中的关键字？

我使用 Quanteda 对 ngram 和 token 进行上下文分析中的关键字效果很好我现在想对skipgrams 执行此操作捕获进入障碍的上下文以及和进入障碍下面的代码是一个空的 kwic 对象但我不知道我做错了什么
如何抓取给定时间段内的所有 subreddit 帖子

我有一个功能可以抓取 2014 年 11 月 1 日到 2015 年 10 月 31 日期间比特币 subreddit 中的所有帖子然而我只能提取大约 990 个帖子这些帖子只能追溯到 10 月 25 日我不明白发生了什么我在参考
python luigi 意外死亡，退出代码为 -11

我有一个数据管道luigi如果我让 1 名工人来完成这项任务效果就非常好但是如果我放置 gt 1 个工作线程那么它会在具有 2 个依赖项的阶段中死亡意外地退出代码为 11 代码相当复杂因此很难给出最小的示例问题的要点是我正在做
gensim WikiCorpus 的问题 - 将 chunkize 别名为 chunkize_serial；（__mp_main__ 而不是 __main__？）

我对 Python 和一般编码都很陌生所以我似乎遇到了一个问题我正在尝试运行这段代码归功于马修梅奥整个事情都可以找到here https www kdnuggets com 2017 11 building wikipedia t
运行需要 gensim 旧版本的模型

我需要运行一个模型但它需要具有 DocvecsArray 属性的旧版本 gensim 我该如何运行它 AttributeError 无法在 The DocvecsArray该类已被 2018 年 2 月发布的 Gensim 3 3 0 删
在 Tensorboard 投影仪中可视化 Gensim Word2vec 嵌入

我只看到了几个提出这个问题的问题但没有一个有答案所以我想我不妨尝试一下我一直在使用 gensim 的 word2vec 模型来创建一些向量我将它们导出为文本并尝试将其导入到嵌入投影仪的张量流实时模型中一个问题没用它告诉我张量
如何从 csv 文件读取表格中的文本

我是新使用 tm 包我想读取一个 csv 文件其中一列包含 2000 个文本第二列包含因子变量 yes no 到语料库中我的目的是将文本转换为矩阵并使用因子变量作为预测目标我还需要将语料库划分为训练集和测试集我阅读了一些文档例
如何获得 mallet 中某个主题的概率分布？

使用木槌我可以获得特定数量的主题及其单词如何确保主题词符合概率分布即总和为一例如如果我按如下方式运行它如何使用 mallet 给出的输出来确保主题 0 的主题词的概率加起来为 1 mallet train topics inpu
word2vec 模型由字符而不是单词组成

我正在尝试使用 Gensim 在波斯语上制作一个 word2vec 模型其中以空格作为字符分隔符我使用 python 3 5 我遇到的问题是我给出了一个文本文件作为输入它返回一个模型该模型仅包含每个字符而不是单词我还以推荐的单
为什么 Gensim doc2vec 给出 AttributeError: 'list' object has no attribute 'words'？

我正在尝试使用以下代码来实验 gensim doc2vec 据我从教程中了解到它应该有效然而它给出了属性错误列表对象没有属性单词 from gensim models doc2vec import LabeledSentence
Spark MLlib LDA，如何推断新的未见过文档的主题分布？

我对使用 Spark MLlib 应用 LDA 主题建模感兴趣我已经检查了代码和解释here http spark apache org docs latest mllib clustering html latent dirichlet
使用R识别PDF表格

我正在尝试从一些 pdf 报告内的表格中提取数据我看过一些使用 pdftools 和类似软件包的示例我成功地获取了文本但是我只想提取表格有没有办法使用 R 来识别和提取表格很好的问题我最近也在想同样的事情谢谢我做到了与制
如何获取与某个单词相关的相似单词？

我正在尝试解决一个 nlp 问题其中我有一个单词字典例如 list 1 phone android chair netflit charger macbook laptop sony 现在如果输入是 phone 我可以轻松地使用 in
如何在 R 中查找 DTM 中的术语频率？

我一直在使用 tm 包创建 DocumentTerm 矩阵如下所示 library tm library RWeka library SnowballC src lt DataframeSource data frame data3 Jo
从文本文件中提取与输入单词最相似的前 N 个单词

我有一个文本文件其中包含我使用 BeautifulSoup 提取的网页内容我需要根据给定的单词从文本文件中找到 N 个相似的单词流程如下从中提取文本的网站 https en wikipedia org wiki Football h
将 word2vec 模型查询的结果保存在 csv 文件中？

我正在语料库上训练 word2vec 模型然后查询该模型这工作正常但我正在运行一个实验需要针对不同的条件调用模型保存每个条件的模型查询每个条件的模型然后将查询的输出保存到 csv 文件中例如进一步分析所有条件我研究了 ge
AttributeError：类型对象“Word2Vec”没有属性“load_word2vec_format”

我正在尝试实现 word2vec 模型并收到属性错误 AttributeError 类型对象 Word2Vec 没有属性 load word2vec format 下面是代码 wv Word2Vec load word2vec format
URL路径相似度/字符串相似度算法

我的问题是我需要比较 URL 路径并推断它们是否相似下面我提供了要处理的示例数据 GROUP 1 robots txt GROUP 2 bot html GROUP 3 phpMyAdmin 2 5 6 rc1 scripts setup

随机推荐

如何使用“concurrent.futures.ProcessPoolExecutor”取消长时间运行的子进程？

你可以看到完整的here https github com traverseda rratbot blob master main py L35 我的代码的简化版本如下 executor ProcessPoolExecutor 10 try
如何在 pl/sql 中的另一个游标的 select 语句中使用游标中的变量

我想运行一个查询获取结果然后使用第二个语句光标中第一个语句的值与另一个 select 语句迭代该查询的结果我的数据库中有 40 个用户所有用户都具有相同的数据库模式结构我想通过以下方式获取用户名 SELECT distinct
在 PowerShell 中使用 StreamWriter 附加到文件

我创建了一个 PowerShell 脚本该脚本使用 StreamWriter 将 Windows 中文件夹的权限结果写入 CSV 文件目前该脚本为每个文件夹创建一个新文件我的问题是 StreamWriter 是否可以附加到文件而不是
FirebaseCore 词法或预处理器问题

所以我在使用 firebase 编译我的项目时遇到了问题这个问题是在我更新所有 firebase pod 后开始的自从我更新了 pod 后我就一直收到此错误词法或预处理器问题然后当我转到错误是什么时它说这个找不到 Google
对 kafka 消费者进行负载测试

我试图弄清楚如何对卡夫卡消费者进行负载测试在我的应用程序中消费者从 kafka 读取消息并做了很多工作其中大部分是在数据库中写入内容由于这对我的团队来说是一个重要的过程因此我希望能够对消费者进行负载测试并能够获得一些有关消费情况
将多行合并为一行以替换列中的空值

如何将多行合并为一行以便一行中的某些列替换要合并的另一行中相同列中的空值这是我所拥有的和我想要实现的目标的一个例子查询是 SELECT Drug Name DefaultVendor Name Drug Strength Catalo
AndroidrelativeLayoutalignTop不起作用

我正在尝试在RelativeLayout 中使用alignTop 属性以便将文本设置在个人资料图片的右侧与图片的顶部对齐这是我的布局
将文本添加到 DataGridView 行标题

C 是否允许将字符串添加到 DataGridView 中的 RowHeader 如果是的话是如何实现的呢我正在编写一个 Windows 窗体来显示今年迄今为止的客户付款数据 ColumnHeaders 显示一月二月三月等而不是有一
如何避免 JavaScript 中的短路求值？

我需要执行两边声明但如果第一部分返回则不会发生这种情况false 例子 function doSomething x console log x function checkSomething x var not1 x 1 if no
如何保护客户端/服务器套接字通信的安全

假设客户端和服务器应用程序在不同的计算机上运行 Today Server will receive the request and cast it as needed ProxyResponse message ProxyResponse
docker buildx“执行用户进程导致：执行格式错误”

我正在尝试交叉编译一个 Rust 应用程序以在我的树莓派集群上运行我看到 docker 的 buildx 应该能够使这成为可能我现在有一个最小的 dockerfile 如下所示 FROM rust RUN apt get update
在本地工作的 R 脚本不适用于shinyapp.io

我正在尝试组装一个 R Shiny 应用程序至少在最初它可以绘制日期数据的直方图我让它在 RStudio 的本地系统上工作得很好但在闪亮的应用程序 io 中它不起作用目前该应用程序非常简单用户界面实际上没有做任何事情数据只是
Jupyter 上 Sparkcollect() 的 IllegalArgumentException

我设置了 Jupyter 4 3 0 Python 3 6 3 Anaconda 和 PySpark 2 2 1 以下示例在通过 Jupyter 运行时将失败 sc SparkContext getOrCreate rdd sc paral
如何获取两个列表之间的所有唯一分配

我有两个列表每个列表都可以包含重复的值但任何值只能出现在这两个列表之一或没有中 A 0 1 B 2 3 我想获得这两个列表之间的所有唯一映射 assignment A B 0 2 1 3 0 3 1 2 我知道这可以例如使用 ite
如何解决 MSCV 中 Boost 文件系统库的 LNK1104 错误？

我无法将我的项目链接到 Microsoft Visual C 2008 Express Edition 中的 Boost 版本 1 37 0 文件系统 lib 文件文件系统库是not仅标头库我一直在关注Windows 入门 http w
如何处理pygame中不同组件的时间

我正在制作一个 pygame 游戏人们可以从商店购买炸弹玩家还可以投下购买的炸弹数量我需要一种方法让每个炸弹在投下 3 秒后消失在下面的代码中我只能投下炸弹但是我尝试了各种方法但失败了 import pygame import
使用 .NET Core 的 Linux/Unix 上的文件权限

我正在尝试学习如何使用 NET Core 在 Linux Unix 上设置文件权限我已经在这里发现了一个问题它指出了 System IO FileSystem 的方向但我似乎找不到任何有关如何使用它的文档简而言之我想从仅在 Lin
在 React Native 应用程序中发送应用程序邀请

在 facebook iOS SDK 中有一个名为 App Invites 的模块允许将您的应用程序的邀请发送给您的朋友 https developers facebook com docs ios https developers f
sstream 重新声明并出现公共访问编译器错误

我在使用 gcc5 4 0 在大型项目上运行 make 时遇到了此错误 usr include c 5 sstream 300 14 error xfer bufptrs redeclared with public access stru
gensim 的 get_document_topics 方法返回的概率加起来不等于 1

有时它返回所有主题的概率并且一切都很好但有时它只返回几个主题的概率并且它们加起来不等于一似乎这取决于文档一般来说当它返回很少的主题时概率加起来大约为 80 那么它只返回最相关的主题吗有没有办法强制它返回所有概率也许我遗漏了一些

gensim 的 get_document_topics 方法返回的概率加起来不等于 1

gensim 的 get_document_topics 方法返回的概率加起来不等于 1 的相关文章

随机推荐

热门标签