Gensim LDA 中的主题明智文档分布

2023-12-31

python 有没有办法映射属于某个主题的文档。例如，主要是“主题 0”的文档列表。我知道有多种方法可以列出每个文档的主题，但我该如何反过来呢？

Edit:

我正在使用以下 LDA 脚本：

    doc_set = []
    for file in files:
        newpath = (os.path.join(my_path, file)) 
        newpath1 = textract.process(newpath)
        newpath2 = newpath1.decode("utf-8")
        doc_set.append(newpath2)

    texts = []
    for i in doc_set:
        raw = i.lower()
        tokens = tokenizer.tokenize(raw)
        stopped_tokens = [i for i in tokens if not i in stopwords.words()]
        stemmed_tokens = [p_stemmer.stem(i) for i in stopped_tokens]
        texts.append(stemmed_tokens)

    dictionary = corpora.Dictionary(texts)
    corpus = [dictionary.doc2bow(text) for text in texts]
    ldamodel = gensim.models.ldamodel.LdaModel(corpus, num_topics=2, random_state=0, id2word = dictionary, passes=1)

您有一个工具/API (Gensim LDA)，当给定文档时，它会为您提供主题列表。

但您想要相反的情况：一个主题的文档列表。

本质上，您需要自己构建反向映射。

幸运的是，Python 用于处理映射的本机字典和习惯用法使这变得非常简单 - 只需几行代码 - 只要您正在处理完全适合内存的数据。

大致的方法是：

创建一个新结构（dict or list) 用于将主题映射到文档列表
迭代所有文档，将它们（可能带有分数）添加到主题到文档的映射中
最后，针对每个感兴趣的主题查找（或许排序）文档列表

如果可以编辑您的问题以包含有关文档/主题的格式/ID 以及如何训练 LDA 模型的更多信息，则可以使用更具体的示例代码来扩展此答案，以构建您想要的反向映射需要。

更新您的代码更新：

好的，如果您的模型位于ldamodel以及您的 BOW 格式的文档corpus，你会做类似的事情：

# setup: get the model's topics in their native ordering...
all_topics = ldamodel.print_topics()
# ...then create a empty list per topic to collect the docs:
docs_per_topic = [[] for _ in all_topics]

# now, for every doc...
for doc_id, doc_bow in enumerate(corpus):
    # ...get its topics...
    doc_topics = ldamodel.get_document_topics(doc_bow)
    # ...& for each of its topics...
    for topic_id, score in doc_topics:
        # ...add the doc_id & its score to the topic's doc list
        docs_per_topic[topic_id].append((doc_id, score))

之后，您可以看到所有的列表(doc_id, score)某个主题的值如下（主题 0）：

print(docs_per_topic[0])

如果您对每个主题的热门文档感兴趣，您可以按分数进一步对每个列表对进行排序：

for doc_list in docs_per_topic:
    doc_list.sort(key=lambda id_and_score: id_and_score[1], reverse=True)

然后，您可以获得主题 0 的前 10 个文档，例如：

print(docs_per_topic[0][:10])

请注意，这使用全内存列表来完成所有操作，这对于非常大的语料库可能变得不切实际。在某些情况下，您可能需要将每个主题的列表编译为磁盘支持的结构，例如文件或数据库。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

gensim

LDA

Gensim LDA 中的主题明智文档分布的相关文章

Python OverflowError：数学范围错误[重复]

这个问题在这里已经有答案了当我尝试这个计算时出现溢出错误 output math exp 1391 12694245 100 我知道发生这种情况是因为使用的数字超出了双精度数的范围但有什么方法可以解决这个问题并获得输出值有人可以帮
在 Django 中使用 prefetch_lated 连接 ManyToMany 字段

我可能遗漏了一些明显的东西但我在连接 ManyToMany 字段以在 Django 应用程序中工作时遇到问题我有两个模型 class Area models Model name CharField class Role models
使用 glGetFloatv 检索 pyglet 中的模型视图矩阵

我正在使用 pyglet 在 python 中进行 3D 可视化并且需要检索模型视图和投影矩阵来进行一些选择我使用以下方式定义我的窗口 from pyglet gl import from pyglet window import wi
当语料库有100亿个独特的DNA序列时，如何使用BK树实现快速模糊搜索引擎？

我正在尝试使用BK tree https news ycombinator com item id 14022424python 中的数据结构用于存储约 100 亿个条目的语料库 1e10 以实现快速模糊搜索引擎一旦我添加超过 1000
Json.dump 失败并显示“必须是 unicode，而不是 str”TypeError

我有一个 json 文件其中恰好有大量中文和日文以及其他语言字符我将其加载到我的 python 2 7 脚本中使用io open如下 with io open multiIdName json encoding utf 8 as j
将文件标记为从 Python 中删除？

在我的一个脚本中我需要删除当时可能正在使用的文件我知道我无法删除正在使用的文件直到它不再使用为止但我也知道我可以将该文件标记为由操作系统 Windows XP 删除我将如何在 Python 中做到这一点以及另一个不依赖于 pyw
python中嵌套字典值的总和

我有一本这样的字典 data 11L a 2 b 1 a 2 b 3 22L a 3 b 2 a 2 b 5 a 4 b 2 a 1 b 5 a 1 b 0 33L a 1 b 2 a 3 b 5 a 5 b 2 a 1 b 3 a 1 b
使用 NumPy 的 Mittag-Leffler 函数的不稳定性

在尝试重现时Wolfram MathWorld 上的情节 http mathworld wolfram com Mittag LefflerFunction html 并试图帮助这个问题 https stackoverflow com qu
Django“模型”对象不可迭代

我有一张表其中显示了已注册的员工我想根据他们的数据库生成一个简单的 HTML 页面其中包括他们的姓名 id 职称等为此我将一个 id 传递给视图以便它可以获取相应用户的详细信息并向我显示一切正常直到出现错误对象不可迭代下面
手动安装开放多语言世界网 (NLTK)

我正在使用一台只能访问专用网络并且无法从命令行发送指令的计算机因此每当我必须安装 Python 包时我都必须手动安装我什至不能使用 Pypi 幸运的是 NLTK 允许我手动下载语料库从here https www nltk org
Django Rest Framework 序列化器中的聚合（和其他带注释的）字段

我正在尝试找出添加带注释字段的最佳方法例如将任何聚合计算字段添加到 DRF 模型序列化器我的用例只是一种情况端点返回的字段未存储在数据库中而是从数据库计算得出让我们看下面的例子模型 py class IceCreamCom
如何使直方图列的宽度都相同

我在操作直方图时遇到了一些麻烦我有一个包含两列的 df 我将它们绘制为堆叠直方图我将它们放入特定的垃圾箱中请参阅下面的代码但我想在最后制作一个大垃圾箱 4000 10000 但是默认情况下大垃圾箱的列宽很大有没有办法让这个大垃
导入我自己的模块时出现“ImportError：没有名为...的模块”

我正在尝试导入模块但不断收到导入错误在 PortfolioStatus py 文件中我有以下代码它从 share data py 模块导入 share data 类 from Shares share data import sha
pandas-更改重采样时间序列的开始和结束日期

我有一个时间序列我将其重新采样到这个数据框中df 我的数据是从6月6日到6月28日它希望将数据从6月1日延长到6月30日计数列仅在较长时间内具有 0 值而我的实际值是从 6 日到 28 日 Out 123 count Timesta
枚举上的 random.choice

我想用random choice on an Enum I tried class Foo Enum a 0 b 1 c 2 bar random choice Foo 但是这段代码失败了KeyError 我怎样才能随机选择一个成员Enum
Python 包安装：pip 与 yum，还是两者一起安装？

我刚刚开始管理 Hadoop 集群我们使用 Bright Cluster Manager 直至操作系统级别 CentOS 7 1 然后使用 Ambari 以及适用于 Hadoop 的 Hortonworks HDP 2 3 我不断收到安装
python 相当于 sed

有没有一种方法无需双循环即可完成以下 sed 命令的操作 Input Time Banana spinach turkey sed i Banana s Toothpaste file Output Time BananaToothpas
Python Pandas：向类 pandas.core.series.Series 添加方法

我想在 Python 中处理时间序列因此 Pandas 的 Series 类非常完美并且有很多有用的方法现在我想添加一些我需要但未实现的方法例如假设我有兴趣添加一个方法该方法将两次一值附加到时间序列中让我们调用该方法appen
Python Web 编程的不同方法的优缺点

我想使用 Python 编写一些服务器端脚本但我对这样做的方法有点迷失了它从 DIY CGI 方法开始似乎以一些相当强大的框架结束这些框架基本上可以自己完成所有工作中间有很多东西比如web py http webpy org P
使用 TkInter 绑定设置不可交互（点击）覆盖

我已经浏览了其他几篇关于类似问题的帖子所有这些似乎都指向this https stackoverflow com questions 29458775 tkinter see through window not affected by

随机推荐

Web 服务代理设置

在c 4 0 中我有一个名为ManufacturerContactDetails 的Web 服务我使用以下命令从 Windows 应用程序调用该 Web 服务 var ws new ManufacturerContactDetailsW
从 TypeScript 扩展数组

我在下面的代码中做错了什么我正在尝试延长Array在我的课堂上MyNumberList然后尝试使用它我看到的是似乎没有任何项目被添加到列表中我得到一个undefined当我尝试访问列表元素时 P S 我正在使用 TypeScript
使用单独的数据库进行 papertrail 版本控制

我正在尝试使用 papertrail 将模型的更改事件记录在单独的数据库中我在用着导轨 4 1 2 Ruby 2 1 纸迹 4 0 0 下面是我在关注点中添加的代码 module Foo class Base lt ActiveReco
在 Pyspark 中将列类型从字符串更改为日期

我正在尝试将列类型从字符串更改为日期我咨询过以下人士的答案如何将 DataFrame 中的列类型从字符串更改为日期 https stackoverflow com questions 36948012 how to change the
删除了配置门户中的团队配置配置文件：*，该怎么办？

我不小心删除了配置门户中的团队配置配置文件我现在应该做什么我有一台安装了 Xcode 4 2 的 MacBook 我还在熟悉 iOS 配置门户和 Xcode 的过程中删除了 iOS 团队配置配置文件我没有成功地恢复它无论是从 Xc
如何使用 TestCafe 和 Yaml 将屏幕截图和视频保存为 Azure Build Pipeline 中的附件？

我正在尝试在 Azure Devops 中创建一个构建管道运行在 TestCafe Studio 中创建的测试保存错误屏幕截图并保存每次测试的视频保存测试运行的视频将测试结果发布到测试运行将屏幕截图和视频作为附件发布到构建管道和
在经典 ASP 脚本中使用 ADO.NET

我正在编写一些返回单个值的简单查询并且我想从经典 ASP 的 ADO 库中获取 ADO NET ExecuteScalar 方法的行为但是我不想重新发明轮子是否可以在经典 ASP 中实例化 ADO NET 的 Command 对象
码头工人。 MySQL 图像。无法更改 my.cnf 文件

我有这样一个docker compose yml database container name test db image mysql 5 7 volumes docker my cnf etc my cnf environment MY
如何检测 NSString 是否包含特定字符？

我有一个 NSString 对象例如 45 0000 现在我想知道这个字符串是否包含我怎样才能做到这一点您是否想查找它是否至少包含以下一项 or 您可以使用 rangeOfCharacterFromSet NSCharacterSet
复制没有历史记录的 git 存储库

我在 GitHub 上有一个私人存储库我想将其公开但是一些初始提交包含我不想公开的信息硬编码凭据等在不包含部分或全部提交历史记录的情况下公开最新提交我真的不需要或不希望公共存储库中的先前提交的最简单方法是什么您可以限制历史
如何在Web应用程序中使复选框只读

我有一个网格视图每一行都有一个复选框当进入编辑模式时可以选中取消选中复选框但我不希望该复选框在任何其他模式下都是可编辑的用户可能很容易对不反映保存回数据库中的真实值的复选框感到困惑
使用for循环批量重命名文件

我正在尝试使用 for 循环来重命名文件 Echo Off setlocal enableDelayedExpansion Set Date set mydate DATE 10 4 DATE 4 2 DATE 7 2 Rename fil
拆分逗号分隔的字符串并在 C# 中添加引号 - 优雅的解决方案

我有一个string看起来像这样 var v 10 14 18 21 并想将其用作如下所示的东西 10 14 18 21 我写了一个函数它将值分割为comma并将它们作为字符串添加在一起另外我删除了最后一个从结果字符串我把所有东西都
DQL 返回实体数组而不是对象

通常如果我运行如下所示的 DQL 查询它将返回实体对象列表 d this gt getDoctrine gt getRepository xxxWebsiteBundle Locations gt createQueryBuilder
为什么用户可以设置新密码，而无需输入与我的批处理代码正确的旧密码？

我最近写了一个文件夹锁定程序我唯一的问题是当我需要更改密码时例如我去部分newpass 该程序似乎不会将旧密码与新密码进行比较而只是使用给定的任何输入这违背了拥有密码的目的因为每个人都可以更改密码而不是用它解锁文件夹有人可以仔
在 Chrome 中重新加载动画 GIF 时出现问题

我有一个可以重新加载 gif 动画的应用程序它在 Safari 中始终有效但在 Chrome 中时断时续我相信这个问题与提到的问题类似here https groups google com forum topic shiny dis
Excel - 基于ID的工作表值查找[关闭]

很难说出这里问的是什么这个问题是含糊的模糊的不完整的过于宽泛的或修辞性的无法以目前的形式得到合理的回答如需帮助澄清此问题以便重新打开访问帮助中心 help reopen questions 我有两张工作表第一个列出了我的客户
如何获取处理器和硬盘的制造序列号和 ID？

如何使用 Matlab 获取以下硬件属性主板制造序列号处理器 ID 处理器制造序列号硬盘ID 硬盘制造序列号是否有任何函数或类负责检测其他机器硬件组件属性的属性我知道可以使用系统或控制台命令来完成但我不知道如何完成不过我更喜
将 1 亿个文件写入 s3

我的主要目标是根据每条记录的 id 将记录拆分为文件目前有超过 150 亿条记录而且肯定还会增加我需要一个使用 Amazon EMR 的可扩展解决方案我已经为一个包含大约 9 亿条记录的较小数据集完成了这项工作输入文件采用 csv
Gensim LDA 中的主题明智文档分布

python 有没有办法映射属于某个主题的文档例如主要是主题 0 的文档列表我知道有多种方法可以列出每个文档的主题但我该如何反过来呢 Edit 我正在使用以下 LDA 脚本 doc set for file in files ne

Gensim LDA 中的主题明智文档分布

Gensim LDA 中的主题明智文档分布 的相关文章

随机推荐

热门标签

Gensim LDA 中的主题明智文档分布的相关文章