LDA和主题模型

2024-02-07

我研究了几个星期的LDA和Topic模型。但是由于我的数学能力很差,我不能完全理解它的内部算法。我使用了GibbsLDA实现,输入大量文档,并将主题数设置为100,我得到一个名为“final.theta”的文件,它存储每个文档中每个主题的主题比例。这个结果很好,我可以使用主题比例做很多其他事情。 但是当我在LDA上尝试Blei的C语言实现时,我只得到一个名为final.gamma的文件,但我不知道如何将这个文件转换为主题比例样式。 谁能帮我。 而且我了解到LDA模型有很多改进版本(例如CTM,HLDA),如果我能找到一个类似于LDA的主题模型,我的意思是当我输入很多文档时,它可以直接输出文档中主题的比例。 非常感谢!


我认为 Blei 实现的问题是你通过运行进行变分推理:

$ lda inf [参数...]

当您想要进行主题估计时,可以使用:

$ lda est [参数...]

一旦运行,当前目录或可选的最后一个参数指定的目录中将有一个文件“final.beta”。然后运行 ​​tar 中包含的 python 脚本“topics.py”。自述文件在这里:http://www.cs.princeton.edu/~blei/lda-c/readme.txt http://www.cs.princeton.edu/~blei/lda-c/readme.txt描述了这一切,特别是 B 和 D 部分。

(如果这仍然没有意义,请告诉我)

至于CTM等改进:我对HLDA一无所知,但我过去使用过LDA和CTM,我可以说,严格来说,两者都不比另一个更好——这是一个更好的例子不同的数据。 CTM 假设文档是相关的,并使用该假设来改进结果(只要该假设为真)。

希望这可以帮助!

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

LDA和主题模型 的相关文章

  • 寻找局部最小值

    下面的代码正确地找到了数组的局部最大值 但未能找到局部最小值 我已经进行了网络搜索 以找到找到最小值的最佳方法 并且根据这些搜索 我认为我正在使用下面的正确方法 但是 在几天的时间里多次检查每一行之后 下面的代码中有一些我仍然没有看到的错误
  • 数字求和的算法?

    我正在寻找一种数字求和的算法 让我概述一下基本原则 假设你有一个号码 18268 1 8 2 6 8 25 2 5 7 7 是我们的最终数字 它基本上是将整个数字中的每个数字相加 直到我们得到一个 也称为 核心 数字 它经常被命理学家使用
  • 将数字 n 拆分为 k 个不同数字的总和

    我有一个数字 n 我必须将它分成 k 个数字 使得所有 k 个数字都是不同的 k 个数字的总和等于 n 并且 k 最大 例如 如果 n 为 9 则答案应为 1 2 6 如果 n 为 15 则答案应为 1 2 3 4 5 这就是我尝试过的 v
  • 在哪里可以找到有关双三次插值和 Lanczos 重采样的好读物?

    我想用 C 实现上述两种图像重采样算法 双三次和 Lanczos 我知道现有的实现有几十种 但我仍然想制作自己的实现 我之所以这么做 部分原因是我想了解它们是如何工作的 部分原因是我想为它们提供一些主流实现中没有的功能 例如可配置的多 CP
  • 对列表中的相邻元素进行分组

    假设我想编写一个函数来执行此操作 输入 1 1 3 3 4 2 2 5 6 6 输出 1 1 3 3 4 2 2 5 6 6 它将相同的相邻元素分组 这个方法的名称应该是什么 此操作有标准名称吗 In 1 1 3 3 4 2 2 5 6 6
  • 如何使用networkx删除有向图中的所有相关节点?

    我不确定我的问题的正确术语是什么 所以我只会解释我想做的事情 我有一个有向图 删除节点后我希望所有独立相关的节点也被删除 这是一个例子 假设我删除节点 11 我希望节点 2 也被删除 在我自己的示例中 它们将是 2 以下的节点 现在也必须删
  • java中的Anagram算法

    我想做字谜算法但是 这段代码不起作用 我的错在哪里 例如 des 和 sed 是字谜 但输出不是字谜 同时我必须使用字符串方法 不是数组 public static boolean isAnagram String s1 String s2
  • 如何计算一组字符串的最短唯一前缀?

    这是一个非常常见的算法命令行解析 给定一组预定义的长选项名称 计算唯一标识这些选项之一的最短前缀 例如 对于以下选项 help hostname portnumber name polymorphic 这将是输出 he ho por n p
  • 查找两个大小为 n 的数组中第 n 大数的算法

    我有这个问题 给定两个大小为 n 的排序列表 存储在数组中 找到 O log n 计算并集中第 n 大元素的算法 两个列表 我可以看到这里可能有一个技巧 因为它需要第 n 个最大的元素 并且数组的大小也是 n 但我不知道它是什么 我在想我可
  • 为什么使用 no-op 来填补 paxos 事件之间的空白是合法的?

    我正在学习Paxos算法 http research microsoft com en us um people lamport pubs paxos simple pdf http research microsoft com en us
  • 仅使用两个变量交换两个数字

    它如何执行交换 a a b b a b a b a 我不同意把它换成书 书中的选项包括 a和b的值的补集 否定和b 希望这些选项也不能满足它 正确的算法应该是 a a b b a b a a b
  • 将 ActiveAdmin 用户与现有用户模型合并

    我在项目早期就设置了 ActiveAdmin 并使用了默认值admin users认证模型 从那以后 我使用 Devise 建立了一个单独的用户模型 并意识到合并两个表可能会更明智 这样管理员就可以在 Activeadmin 和站点前端中进
  • 查找数组中 2 个缺失数字的最快方法

    这个问题的存在只是出于纯粹的好奇心 不是作业 找到在数组 1 n 中找到两个缺失数字的最快方法 因此 在相关帖子中 查找数字数组中缺失数字的最快方法 https stackoverflow com questions 2113795 qui
  • 大小为 n 的数组,其中一个元素 n/2 次

    给定一个由 n 个整数组成的数组 其中一个元素出现超过 n 2 次 我们需要在线性时间和恒定的额外空间中找到该元素 YAAQ 又一个数组问题 我有一种偷偷的怀疑 这类似于 在 C 中 We don t need an array publi
  • 如何从列中创建对称矩阵?

    例如 我想转动以下列 90 175 600 650 655 660 代入矩阵 90 175 600 650 655 660 175 600 650 655 660 655 600 650 655 660 655 650 650 655 66
  • Python 将字符串组合成尽可能短的字符串?

    如果我有一个字符串列表 我想将它们组合成一个具有重叠字符的字符串 如果没有剩余的重叠字符串 请将其添加到末尾 这是一个过于简化的版本 input one two output twone 我正在寻找一种方法来对输入列表中的任意数量的字符串执
  • Rails:验证字符串的最小和最大长度,但允许其为空白

    我有一个想要验证的字段 我希望该字段能够留空 但如果用户输入数据 我希望它采用某种格式 目前我在模型中使用以下验证 但这不允许用户将其留空 validates length of foo maximum gt 5 validates len
  • 具有最小刻度的图表的漂亮标签算法

    我需要手动计算图表的刻度标签和刻度范围 我知道漂亮刻度的 标准 算法 参见 我也知道这个Java实现 http erison blogspot nl 2011 07 algorithm for optimal scaling on char
  • 从数字列表中生成所有唯一对,n 选择 2

    我有一个元素列表 假设是整数 我需要进行所有可能的两对比较 我的方法是 O n 2 我想知道是否有更快的方法 这是我在java中的实现 public class Pair public int x y public Pair int x i
  • ExtJS 4:克隆商店

    我正在尝试找出如何克隆Ext data Store不保留旧的参考 让我用一些代码更好地解释一下 这是源商店 var source Ext create Ext data Store fields name age data name foo

随机推荐

  • HTML5 Canvas 调整大小(缩小)图像质量高吗?

    我使用 html5 canvas 元素在浏览器中调整图像大小 事实证明 质量非常低 我找到了这个 缩放 时禁用插值 https stackoverflow com questions 7615009 disable interpolatio
  • 使用 python 从电子表格中提取多个表

    我想提取一系列 Excel 电子表格的多个表 其中某些工作表可能包含多个表 以单独存储这些表 例如csv 文件 该表可能是这样的 如果我使用 pandas read excel 读取它 import pandas as pd pd read
  • 在启用共享配置的 IIS 7+ 上安装 Web Deploy

    我们有一个在 Windows 2008R2 上运行 IIS 7 5 的网络场环境 我们使用共享配置和网络存储复制 我们尝试在其中一台服务器上安装 Web Deploy v3 5 但收到一条错误消息 指出共享配置不支持 Web Deploy
  • Newtonsoft.Json 在序列化数组的中间添加省略号 (...)

    这是一个非常奇怪的行为Newtonsoft Json的序列化功能 我几乎尝试了所有方法 例如 我没有继续使用 NET Reflector 一步步完成Newtonsoft Json dll汇编的算法 Symptoms 情况如下 我有一个小的
  • 如何从 C# 代码隐藏生成 sql 脚本文件?

    如何从 C 代码隐藏生成 sql 脚本文件 脚本文件将包含create and drop数据库中存储过程的语句 如何在 C 中从 db 生成脚本并写入 sql 文件 是否可以在C 中从数据库生成表或storedproc的创建和删除语句的脚本
  • 当他们说 LINQ 可组合时,他们是什么意思?

    它是什么意思 为什么 如果有的话 它很重要 这意味着您可以向查询添加其他 运算符 这很重要 因为您可以非常有效地完成它 例如 假设您有一个返回员工列表 可枚举 的方法 var employees GetEmployees 另一种方法使用该方
  • Docker 如何在启动时运行 /usr/sbin/init 以及其他脚本 [关闭]

    Closed 这个问题不符合堆栈溢出指南 help closed questions 目前不接受答案 Dockerfile FROM centos 7 COPY docker entrypoint sh data ENTRYPOINT da
  • 保存更改并发布后,Google App 脚本未更新

    我遇到了一个奇怪的问题 我创建了一个示例谷歌应用程序脚本 然后将其发布为网络应用程序 发布的 URL 为 XXXXX 格式 虽然我对脚本进行了一些更改并将其重新部署为 Web 应用程序 但它确实显示了当前部署的 Web 应用程序 URl 而
  • 使用 JavaScript 从二进制文件读取字节,无需 jQuery

    我正在尝试制作一个 javascript 模拟器 并且我希望它非常轻 所以我不想使用 jQuery 和 jDataView 加载 ROM Si 我用纯 JS 制作了自己的 ROM 加载器 它工作得很好 感谢这个网站上的许多主题 但是 IE
  • 转换 Spring Data JPA 页面内容的类型

    我正在使用 Spring Data JPA 并且我有一个PagingAndSortingRepository
  • 使用rvm、ruby 1.9.2、bundler和passenger的“未初始化常量编码”

    我在这里无计可施 正在向大家寻求有关 f 编码问题的帮助 我在 Dreamhost 上具有 root 权限的私人服务器上运行 这是关于我的环境和版本的一些信息 which ruby v ruby 1 9 2p180 2011 02 18 r
  • JPA中原生查询的字段值

    如何获取本机查询 JPA 中某些字段的值 例如我想获取客户表的姓名和年龄 Query q em createNativeQuery SELECT name age FROM customer WHERE id 注意 我不想将结果映射到实体
  • 我应该在 R 中哪里设置变量 PATH?

    我经常需要在 R 中调用 Tex Live 二进制文件进行编译 但是 在升级 Tex Live 发行版后 需要在 R 中手动更新当前二进制文件的路径PATH Sys getenv PATH 多变的 作为 Ubuntu 系统上的单个用户 我应
  • 字符串是否需要转换字节顺序?

    发送和接收字符串时是否需要转换为网络 主机字节顺序 可用函数 例如 htons 仅适用于 16 位和 32 位整数 我还知道一个事实 单个字符不应该产生影响 因为通常它是一个字节大 但是字符串呢 下面是一个代码片段 int len recv
  • Sql Server——去掉非数字字符

    我有一张桌子 SET ANSI NULLS ON GO SET QUOTED IDENTIFIER ON GO CREATE TABLE dbo TestAB A int IDENTITY 1 1 NOT NULL B nvarchar 1
  • tf 签入特定文件夹

    在 Visual Studio 的 checkin 命令文档中 它说 不使用 签入 对话框签入对单个项目的更改 c code SiteApp Main gt tf checkin program cs noprompt 如何查看特定文件夹
  • 以编程方式显示文本视图选取框

    尝试从数组填充文本视图 我通过下面的代码设法通过 XML 获得了所需的效果
  • 如何检查 Backbone.View 当前是否在 DOM 中呈现?

    我想检查 Backbone View 当前是否在 DOM 中渲染 如果没有 我不必重新渲染它 我可以以某种方式检查一下吗 Regards 好吧 理论上你可以查询 DOM 来找出答案 但这比仅仅设置一个实例变量并在渲染之前查询要慢得多 另一方
  • TabView 的 SwiftUI 动画选项卡

    在 SwiftUI 中使用 TabView 时 是否可以修改选项卡选择之间的转换 目前 当选择不同的选项卡时 转换非常突然 居然瞬间突然 哎哟 例如 给定以下情况 TabView Text The First Tab tabItem Ima
  • LDA和主题模型

    我研究了几个星期的LDA和Topic模型 但是由于我的数学能力很差 我不能完全理解它的内部算法 我使用了GibbsLDA实现 输入大量文档 并将主题数设置为100 我得到一个名为 final theta 的文件 它存储每个文档中每个主题的主