LDA和主题模型

2024-02-07

我研究了几个星期的LDA和Topic模型。但是由于我的数学能力很差，我不能完全理解它的内部算法。我使用了GibbsLDA实现，输入大量文档，并将主题数设置为100，我得到一个名为“final.theta”的文件，它存储每个文档中每个主题的主题比例。这个结果很好，我可以使用主题比例做很多其他事情。但是当我在LDA上尝试Blei的C语言实现时，我只得到一个名为final.gamma的文件，但我不知道如何将这个文件转换为主题比例样式。谁能帮我。而且我了解到LDA模型有很多改进版本（例如CTM，HLDA），如果我能找到一个类似于LDA的主题模型，我的意思是当我输入很多文档时，它可以直接输出文档中主题的比例。非常感谢！

我认为 Blei 实现的问题是你通过运行进行变分推理：

$ lda inf [参数...]

当您想要进行主题估计时，可以使用：

$ lda est [参数...]

一旦运行，当前目录或可选的最后一个参数指定的目录中将有一个文件“final.beta”。然后运行 tar 中包含的 python 脚本“topics.py”。自述文件在这里：http://www.cs.princeton.edu/~blei/lda-c/readme.txt http://www.cs.princeton.edu/~blei/lda-c/readme.txt描述了这一切，特别是 B 和 D 部分。

（如果这仍然没有意义，请告诉我）

至于CTM等改进：我对HLDA一无所知，但我过去使用过LDA和CTM，我可以说，严格来说，两者都不比另一个更好——这是一个更好的例子不同的数据。 CTM 假设文档是相关的，并使用该假设来改进结果（只要该假设为真）。

希望这可以帮助！

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

LDA和主题模型的相关文章

寻找局部最小值

下面的代码正确地找到了数组的局部最大值但未能找到局部最小值我已经进行了网络搜索以找到找到最小值的最佳方法并且根据这些搜索我认为我正在使用下面的正确方法但是在几天的时间里多次检查每一行之后下面的代码中有一些我仍然没有看到的错误
数字求和的算法？

我正在寻找一种数字求和的算法让我概述一下基本原则假设你有一个号码 18268 1 8 2 6 8 25 2 5 7 7 是我们的最终数字它基本上是将整个数字中的每个数字相加直到我们得到一个也称为核心数字它经常被命理学家使用
将数字 n 拆分为 k 个不同数字的总和

我有一个数字 n 我必须将它分成 k 个数字使得所有 k 个数字都是不同的 k 个数字的总和等于 n 并且 k 最大例如如果 n 为 9 则答案应为 1 2 6 如果 n 为 15 则答案应为 1 2 3 4 5 这就是我尝试过的 v
在哪里可以找到有关双三次插值和 Lanczos 重采样的好读物？

我想用 C 实现上述两种图像重采样算法双三次和 Lanczos 我知道现有的实现有几十种但我仍然想制作自己的实现我之所以这么做部分原因是我想了解它们是如何工作的部分原因是我想为它们提供一些主流实现中没有的功能例如可配置的多 CP
对列表中的相邻元素进行分组

假设我想编写一个函数来执行此操作输入 1 1 3 3 4 2 2 5 6 6 输出 1 1 3 3 4 2 2 5 6 6 它将相同的相邻元素分组这个方法的名称应该是什么此操作有标准名称吗 In 1 1 3 3 4 2 2 5 6 6
如何使用networkx删除有向图中的所有相关节点？

我不确定我的问题的正确术语是什么所以我只会解释我想做的事情我有一个有向图删除节点后我希望所有独立相关的节点也被删除这是一个例子假设我删除节点 11 我希望节点 2 也被删除在我自己的示例中它们将是 2 以下的节点现在也必须删
java中的Anagram算法

我想做字谜算法但是这段代码不起作用我的错在哪里例如 des 和 sed 是字谜但输出不是字谜同时我必须使用字符串方法不是数组 public static boolean isAnagram String s1 String s2
如何计算一组字符串的最短唯一前缀？

这是一个非常常见的算法命令行解析给定一组预定义的长选项名称计算唯一标识这些选项之一的最短前缀例如对于以下选项 help hostname portnumber name polymorphic 这将是输出 he ho por n p
查找两个大小为 n 的数组中第 n 大数的算法

我有这个问题给定两个大小为 n 的排序列表存储在数组中找到 O log n 计算并集中第 n 大元素的算法两个列表我可以看到这里可能有一个技巧因为它需要第 n 个最大的元素并且数组的大小也是 n 但我不知道它是什么我在想我可
为什么使用 no-op 来填补 paxos 事件之间的空白是合法的？

我正在学习Paxos算法 http research microsoft com en us um people lamport pubs paxos simple pdf http research microsoft com en us
仅使用两个变量交换两个数字

它如何执行交换 a a b b a b a b a 我不同意把它换成书书中的选项包括 a和b的值的补集否定和b 希望这些选项也不能满足它正确的算法应该是 a a b b a b a a b
将 ActiveAdmin 用户与现有用户模型合并

我在项目早期就设置了 ActiveAdmin 并使用了默认值admin users认证模型从那以后我使用 Devise 建立了一个单独的用户模型并意识到合并两个表可能会更明智这样管理员就可以在 Activeadmin 和站点前端中进
查找数组中 2 个缺失数字的最快方法

这个问题的存在只是出于纯粹的好奇心不是作业找到在数组 1 n 中找到两个缺失数字的最快方法因此在相关帖子中查找数字数组中缺失数字的最快方法 https stackoverflow com questions 2113795 qui
大小为 n 的数组，其中一个元素 n/2 次

给定一个由 n 个整数组成的数组其中一个元素出现超过 n 2 次我们需要在线性时间和恒定的额外空间中找到该元素 YAAQ 又一个数组问题我有一种偷偷的怀疑这类似于在 C 中 We don t need an array publi
如何从列中创建对称矩阵？

例如我想转动以下列 90 175 600 650 655 660 代入矩阵 90 175 600 650 655 660 175 600 650 655 660 655 600 650 655 660 655 650 650 655 66
Python 将字符串组合成尽可能短的字符串？

如果我有一个字符串列表我想将它们组合成一个具有重叠字符的字符串如果没有剩余的重叠字符串请将其添加到末尾这是一个过于简化的版本 input one two output twone 我正在寻找一种方法来对输入列表中的任意数量的字符串执
Rails：验证字符串的最小和最大长度，但允许其为空白

我有一个想要验证的字段我希望该字段能够留空但如果用户输入数据我希望它采用某种格式目前我在模型中使用以下验证但这不允许用户将其留空 validates length of foo maximum gt 5 validates len
具有最小刻度的图表的漂亮标签算法

我需要手动计算图表的刻度标签和刻度范围我知道漂亮刻度的标准算法参见我也知道这个Java实现 http erison blogspot nl 2011 07 algorithm for optimal scaling on char
从数字列表中生成所有唯一对，n 选择 2

我有一个元素列表假设是整数我需要进行所有可能的两对比较我的方法是 O n 2 我想知道是否有更快的方法这是我在java中的实现 public class Pair public int x y public Pair int x i
ExtJS 4：克隆商店

我正在尝试找出如何克隆Ext data Store不保留旧的参考让我用一些代码更好地解释一下这是源商店 var source Ext create Ext data Store fields name age data name foo

随机推荐

HTML5 Canvas 调整大小（缩小）图像质量高吗？

我使用 html5 canvas 元素在浏览器中调整图像大小事实证明质量非常低我找到了这个缩放时禁用插值 https stackoverflow com questions 7615009 disable interpolatio
使用 python 从电子表格中提取多个表

我想提取一系列 Excel 电子表格的多个表其中某些工作表可能包含多个表以单独存储这些表例如csv 文件该表可能是这样的如果我使用 pandas read excel 读取它 import pandas as pd pd read
在启用共享配置的 IIS 7+ 上安装 Web Deploy

我们有一个在 Windows 2008R2 上运行 IIS 7 5 的网络场环境我们使用共享配置和网络存储复制我们尝试在其中一台服务器上安装 Web Deploy v3 5 但收到一条错误消息指出共享配置不支持 Web Deploy
Newtonsoft.Json 在序列化数组的中间添加省略号 (...)

这是一个非常奇怪的行为Newtonsoft Json的序列化功能我几乎尝试了所有方法例如我没有继续使用 NET Reflector 一步步完成Newtonsoft Json dll汇编的算法 Symptoms 情况如下我有一个小的
如何从 C# 代码隐藏生成 sql 脚本文件？

如何从 C 代码隐藏生成 sql 脚本文件脚本文件将包含create and drop数据库中存储过程的语句如何在 C 中从 db 生成脚本并写入 sql 文件是否可以在C 中从数据库生成表或storedproc的创建和删除语句的脚本
当他们说 LINQ 可组合时，他们是什么意思？

它是什么意思为什么如果有的话它很重要这意味着您可以向查询添加其他运算符这很重要因为您可以非常有效地完成它例如假设您有一个返回员工列表可枚举的方法 var employees GetEmployees 另一种方法使用该方
Docker 如何在启动时运行 /usr/sbin/init 以及其他脚本 [关闭]

Closed 这个问题不符合堆栈溢出指南 help closed questions 目前不接受答案 Dockerfile FROM centos 7 COPY docker entrypoint sh data ENTRYPOINT da
保存更改并发布后，Google App 脚本未更新

我遇到了一个奇怪的问题我创建了一个示例谷歌应用程序脚本然后将其发布为网络应用程序发布的 URL 为 XXXXX 格式虽然我对脚本进行了一些更改并将其重新部署为 Web 应用程序但它确实显示了当前部署的 Web 应用程序 URl 而
使用 JavaScript 从二进制文件读取字节，无需 jQuery

我正在尝试制作一个 javascript 模拟器并且我希望它非常轻所以我不想使用 jQuery 和 jDataView 加载 ROM Si 我用纯 JS 制作了自己的 ROM 加载器它工作得很好感谢这个网站上的许多主题但是 IE
转换 Spring Data JPA 页面内容的类型

我正在使用 Spring Data JPA 并且我有一个PagingAndSortingRepository
使用rvm、ruby 1.9.2、bundler和passenger的“未初始化常量编码”

我在这里无计可施正在向大家寻求有关 f 编码问题的帮助我在 Dreamhost 上具有 root 权限的私人服务器上运行这是关于我的环境和版本的一些信息 which ruby v ruby 1 9 2p180 2011 02 18 r
JPA中原生查询的字段值

如何获取本机查询 JPA 中某些字段的值例如我想获取客户表的姓名和年龄 Query q em createNativeQuery SELECT name age FROM customer WHERE id 注意我不想将结果映射到实体
我应该在 R 中哪里设置变量 PATH？

我经常需要在 R 中调用 Tex Live 二进制文件进行编译但是在升级 Tex Live 发行版后需要在 R 中手动更新当前二进制文件的路径PATH Sys getenv PATH 多变的作为 Ubuntu 系统上的单个用户我应
字符串是否需要转换字节顺序？

发送和接收字符串时是否需要转换为网络主机字节顺序可用函数例如 htons 仅适用于 16 位和 32 位整数我还知道一个事实单个字符不应该产生影响因为通常它是一个字节大但是字符串呢下面是一个代码片段 int len recv
Sql Server——去掉非数字字符

我有一张桌子 SET ANSI NULLS ON GO SET QUOTED IDENTIFIER ON GO CREATE TABLE dbo TestAB A int IDENTITY 1 1 NOT NULL B nvarchar 1
tf 签入特定文件夹

在 Visual Studio 的 checkin 命令文档中它说不使用签入对话框签入对单个项目的更改 c code SiteApp Main gt tf checkin program cs noprompt 如何查看特定文件夹
以编程方式显示文本视图选取框

尝试从数组填充文本视图我通过下面的代码设法通过 XML 获得了所需的效果
如何检查 Backbone.View 当前是否在 DOM 中呈现？

我想检查 Backbone View 当前是否在 DOM 中渲染如果没有我不必重新渲染它我可以以某种方式检查一下吗 Regards 好吧理论上你可以查询 DOM 来找出答案但这比仅仅设置一个实例变量并在渲染之前查询要慢得多另一方
TabView 的 SwiftUI 动画选项卡

在 SwiftUI 中使用 TabView 时是否可以修改选项卡选择之间的转换目前当选择不同的选项卡时转换非常突然居然瞬间突然哎哟例如给定以下情况 TabView Text The First Tab tabItem Ima
LDA和主题模型

我研究了几个星期的LDA和Topic模型但是由于我的数学能力很差我不能完全理解它的内部算法我使用了GibbsLDA实现输入大量文档并将主题数设置为100 我得到一个名为 final theta 的文件它存储每个文档中每个主题的主

LDA和主题模型

LDA和主题模型 的相关文章

随机推荐

热门标签

LDA和主题模型的相关文章