使用gensim加载LdaMallet模型并对未见过的文档进行分类的正确方法

2024-04-18

在我的项目中，我使用Python库gensim https://radimrehurek.com/gensim/models/wrappers/ldamallet.html用于主题建模/文本提取。我尝试加载经过训练的 LdaMallet 模型来对新的未见过的文本进行分类。

第一部分是加载模型。

import os

dirname = os.path.dirname(__file__)
filename = os.path.join(dirname, 'mallet-2.0.8/bin/mallet')

# Download File: http://mallet.cs.umass.edu/dist/mallet-2.0.8.zip
os.environ['MALLET_HOME'] = # path to mallet

ldaMallet = gensim.models.wrappers.LdaMallet.load('lda_malletoutputCommentsAndMethods.model)
ldaModel = gensim.models.wrappers.ldamallet.malletmodel2ldamodel(ldaMallet)

我不确定将 ldaMallet 转换为 LdaModel 的最后一行。这是获得一些结果的唯一方法。

然后第二部分是准备新数据并对其进行分类。

from gensim.test.utils import common_dictionary
other_texts = [['new', 'document', 'to', 'classify', 'as', 'array']]
other_corpus = [common_dictionary.doc2bow(text) for text in other_texts]
vector = ldaModel[other_corpus[0]]

# sorts the result by probability and not by topic ID
print(sorted(vector, key=lambda x: x[1], reverse=True))

然后结果看起来像这样：

[(16, 0.143), (17, 0.08), (9, 0.0653),...]

无论我在其中使用哪个文本other_texts数组，这个结果没有改变，但它应该改变。

None

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

gensim

LDA

mallet

使用gensim加载LdaMallet模型并对未见过的文档进行分类的正确方法的相关文章

有没有一种方法可以将python对象直接存储在mongoDB中而不需要序列化它们

我在某处读到过您可以使用 BSON 将 python 对象更具体地说是字典作为二进制文件存储在 MongoDB 中但是现在我找不到任何与此相关的文档有人知道具体如何做到这一点吗没有办法在不序列化的情况下将对象存储在文件数据库
在Python中如何获取字典的部分视图？

是否有可能获得部分视图dict在Python中类似于pandasdf tail df head 说你有很长一段时间dict 而您只想检查某些元素开头结尾等 dict 就像是 dict head 3 To see the first 3
Python 使用 Gstreamer 访问 USB 麦克风时遇到问题，以便在 Raspberry Pi 上使用 Pocketsphinx 执行语音识别

所以Python的表现就好像它根本听不到我的麦克风发出的任何声音问题就在这里我有一个Python 2 7 假设使用的脚本Gstreamer通过以下方式访问我的麦克风并为我进行语音识别口袋狮身人面像我在用着脉冲音频我的设备是树莓派我的
使用 NLTK 在 Python 中获取大量名词（或形容词）；或 Python Mad Libs

Like 这个问题 https stackoverflow com questions 7439555 noun adjective etc word lists or dictionaries common words 我有兴趣按词性获取
如何在Python中高效地添加稀疏矩阵

我想知道如何在Python中有效地添加稀疏矩阵我有一个程序可以将大任务分解为子任务并将它们分配到多个 CPU 上每个子任务都会产生一个结果一个 scipy 稀疏矩阵格式为 lil matrix 稀疏矩阵尺寸为 100000x50
更改 x 轴比例

我使用 Matlab 创建了这个图使用 matplotlib x 轴绘制大数字例如 100000 200000 300000 我想要 1 2 3 和 10 5 之类的值来指示它实际上是 100000 200000 300000 有没有一
使用 Python 计算 Spark 中成对 (K,V) RDD 中每个 KEY 的平均值

我想与 Python 共享这个特定的 Apache Spark 解决方案因为它的文档非常贫乏我想通过 KEY 计算 K V 对存储在 Pairwise RDD 中的平均值示例数据如下所示 gt gt gt rdd1 take 10
如何根据 HTTP 请求使用 Python 和 Flask 执行 shell 命令并流输出？

下列的这个帖子 https stackoverflow com questions 15092961 how to continuously display python output in a webpage 我能够tail f网页的日志
如何在Python中按AaB而不是ABa顺序对字符串进行排序

我正在尝试对字符串进行排序为 punnetsquare 制作基因型我目前的实现是 unsorted genotype ABaB sorted genotype sorted list unsorted genotype sorted s
如何在 Django 中使用基于类的视图创建注册视图？

当我开始使用 Django 时我几乎使用 FBV 基于函数的视图来处理所有事情包括注册新用户但当我更深入地研究项目时我意识到基于类的视图通常更适合大型项目因为它们更干净且可维护但这并不是说 FBV 不是无论如何我将整个项目
如何在 Azure 数据工厂 - Databricks 中使用 continuation_token 获取 ADF Pipeline 运行详细信息的下一页？

我在用 adf client pipeline runs query by factory resourceGroupName 工厂名称过滤器参数的方法azure mgmt datafactory DataFactoryManageme
Pandas 堆积条形图中元素的排序

我正在尝试绘制有关某个地区 5 个地区的家庭在特定行业赚取的收入比例的信息我使用 groupby 按地区对数据框中的信息进行排序 df df orig groupby District Portion of income value co
从 python 检测 macOS 中的暗模式

我正在编写一个 PyQt 应用程序我必须添加一个补丁以便在启用暗模式的 Macos 上可以读取字体 app QApplication Fix for the font colours on macos when running dark
falcon，AttributeError：“API”对象没有属性“create”

我正在尝试测试我的猎鹰路线但测试总是失败而且看起来我把所有事情都做对了 my app py import falcon from resources static import StaticResource api falcon API
从列表python的单个列表中删除子列表

我已经经历过从列表列表中删除子列表 https stackoverflow com questions 47209786 removing sublists from a list of lists 但当我为我的数据集扩展它时它不适用于我
导入错误：无法导入名称“时间戳”

我使用以下代码在 python 3 6 3 中成功安装了 ggplot conda install c conda forge ggplot 但是当我使用下面的代码将其导入笔记本时出现错误 from ggplot import Impor
Python问题：打开和关闭文件返回语法错误

大家好我发现了这个有用的 python 脚本它允许我从网站获取一些天气数据我将创建一个文件和其中的数据集有些东西不起作用它返回此错误 File
python 日志记录会刷新每个日志吗？

当我使用标准模块将日志写入文件时logging 每个日志会分别刷新到磁盘吗例如下面的代码会将日志刷新 10 次吗 logging basicConfig level logging DEBUG filename debug log fo
如何使用Python保存“完整的网页”而不仅仅是基本的html

我正在使用以下代码来使用 Python 保存网页 import urllib import sys from bs4 import BeautifulSoup url http www vodafone de privat tarife r
python 中的 after() 与 update()

我是 python 新手开始使用 tkinter 作为画布到目前为止我使用 update 来更新我的画布但还有一个 after 方法谁能给我解释一下这个函数请举个例子两者之间有什么区别 root after integer c

随机推荐

RTSP 帧抓取会产生拖尾、像素化和损坏的图像

我正在尝试使用以下命令从 RTSP 流中每秒捕获一帧 ffmpeg i rtsp XXX q v 1 vf fps fps 1 strftime 1 ZZZZ H M S jpg But some of the frames are sme
为什么 Rails (3+) 仍然不支持存储过程？

我熟悉 Ruby on Rails DB MS 驱动程序和存储过程之间长期存在的又爱又恨的关系并且自版本 2 3 2 以来我一直在开发 Rails 应用程序然而每隔一段时间就会出现这样的情况 SP 是比在慢得多的应用程序级别上组合
如何在 XSLT 中打印单个
而不将其关闭

基本上我需要在一个 if 语句中打开一个 div 并在另一个 if 语句中关闭它我试过
在 Visual Studio Code 中打开多个项目/文件夹

如何在单个 Visual Studio Code 实例中打开多个项目文件夹并在单个视图中打开多个文件对于未来的变更请求是否有任何选项不知道为什么没有提到最简单的解决方案你可以简单地做File gt New Window并在新窗口中
手动更改 GUID - 这有多糟糕？

手动更改生成的 GUID 并使用它有多糟糕碰撞的可能性是否仍然微不足道或者使用 GUID 进行操作是否危险有时我们只是更改之前生成的 GUID 的某些字母并使用它我们应该停止这样做吗注意这个答案错过了一些旧的格式并且在不久的将
使用 lerna 时保留关键字“interface”

我有一个使用创建的反应项目create react app我现在正在尝试将其转换为 monorepo 架构我将所有独立代码移至一个包 package1 中并将其余代码以及 App tsx 和 index tsx 移至另一个包 pack
警告 BlockManagerMasterEndpoint：没有更多副本可用于 rdd

当使用 YARN 在 pyspark 中缓存大型数据帧时我看到以下类型的消息 WARN BlockManagerMasterEndpoint No more replicas available for rdd 23 62 这条消息到底是
获取行中的第一个和第二个 td 元素

我有一个 ajax 调用附加到表行内图片的单击事件单击图片并启动单击事件后我需要获取第一个和第二个td该行中的元素我是 jQuery 新手所以下面是我的最新尝试不起作用变量firstName and lastName两者最终都是
如何模拟ResourceBundle.getString()？

我嘲笑失败ResourceBundle getString 这是我的代码 ResourceBundle schemaBundle Mockito mock ResourceBundle class Mockito when schemaBu
如果使用 AngularJS 更改输入，如何向输入添加类？

我在表单中编写了以下代码 td td
Python 和 JSON：ValueError：未终止的字符串始于：

我读过多篇关于此问题的 StackOverflow 文章以及大部分 Google 前 10 名结果我的问题的不同之处在于我使用 python 中的一个脚本来创建 JSON 文件不到 10 分钟后运行的下一个脚本无法读取该文件简而言之
在 jQuery 中使用通配符 ID 并获取通配符 ID

我有4个ID hideshow1 hideshow2 hideshow3 hideshow4 现在当单击这些 ID 的按钮时我想最后使用这些整数执行单独的操作到目前为止我有这个 document ready function id h
如何在 Javascript 或 JQuery 中获取上个月的最后一天

我有以下代码来获取当前日期 var month new Array 12 month 0 January month 1 February month 2 March month 3 April month 4 May month 5 Ju
Elastic Beanstalk 和 Dockerfile ARG 指令

我需要将一些参数传递给我的docker build命令我知道这可以使用ARG内的指令Dockerfile 现在假设我有以下内容Dockerfile ARG myvar 并使用命令docker build build arg mvar my
对象中的公共可变字段

是否可以在 F 中创建一个简单的公共可变字段我正在创建一个将从 C 程序访问的库并且我需要能够从 C 设置一个字段 C Equivalent public class MyObj public int myVariable F type
如何将文本从动态生成的用户控件传输到文本框

我有一个 Windows 窗体其中有一个button1当点击时UserControl动态添加到代码中的内容是这样的 int c 0 private void button1 Click object sender EventArgs e
如何根据 char 列对 MySQL 表进行分区？

是否可以根据char列进行分区查看 MySQL 5 1 文档后发现只能使用整数类型它是否正确或者我可以使用一些函数将 char 转换为整数吗所讨论的 char 字段包含唯一标识符 MySQL 5 1 中的分区只能处理整数列 Sour
加特林 - 顺序执行场景

当我运行如下代码时 setUp scenario1 inject constantUsersPerSec 1 during 1 second scenario2 inject constantUsersPerSec 1 during 1 s
保持文本在画布上垂直居中

我遇到的问题是将用户输入的文本保持在画布元素内垂直居中我已经构建了一个测试环境来尝试解决这个问题我在这篇文章中提供了该环境以及小提琴这是我的代码 HTML Enter Your Text br
使用gensim加载LdaMallet模型并对未见过的文档进行分类的正确方法

在我的项目中我使用Python库gensim https radimrehurek com gensim models wrappers ldamallet html用于主题建模文本提取我尝试加载经过训练的 LdaMallet 模型来

使用gensim加载LdaMallet模型并对未见过的文档进行分类的正确方法

使用gensim加载LdaMallet模型并对未见过的文档进行分类的正确方法 的相关文章

随机推荐

热门标签

使用gensim加载LdaMallet模型并对未见过的文档进行分类的正确方法的相关文章