pLSA/mixture unigram/gmm em算法公式汇总

2023-10-27

1、LSA(隐性语义分析)和SVD(奇异值分解)在VSM(文档空间向量模型中)在文章看做词袋的集合,将文档转换为同一空间向量进行计算,聚类,分类,文本检索是减少计算量,但是难以考虑文档位置以及文档的一词多义性。
基于SVD分解,我们可以构造一个原始向量矩阵的一个低秩逼近矩阵,具体的做法是将词项文档矩阵做SVD分解

这里写图片描述

其中 是以词项(terms)为行, 文档(documents)为列做一个大矩阵. 设一共有t行d列, 矩阵的元素为词项的tf-idf值。然后把 的r个对角元素的前k个保留(最大的k个保留), 后面最小的r-k个奇异值置0, 得到 ;最后计算一个近似的分解矩阵

这里写图片描述

则 在最小二乘意义下是 的最佳逼近。由于 最多包含k个非零元素,所以 的秩不超过k。通过在SVD分解近似,我们将原始的向量转化成一个低维隐含语义空间中,起到了特征降维的作用。每个奇异值对应的是每个“语义”维度的权重,将不太重要的权重置为0,只保留最重要的维度信息,去掉一些信息“nosie”,因而可以得到文档的一种更优表示形式。
缺点:缺乏严密的数理统计

2、pLSA 概率潜在语义分析。PLSA的概率图模型如下

这里写图片描述

其中D代表文档,Z代表隐含类别或者主题,W为观察到的单词, 表示单词出现在文档 的概率, 表示文档 中出现主题 下的单词的概率, 给定主题 出现单词 的概率。并且每个主题在所有词项上服从Multinomial 分布,每个文档在所有主题上服从Multinomial 分布。整个文档的生成过程是这样的:
(1) 以这里写图片描述 的概率选中文档 ;
(2) 以这里写图片描述 的概率选中主题 ;
(3) 以这里写图片描述 的概率产生一个单词。
我们可以观察到的数据就是 这里写图片描述对,而这里写图片描述 是隐含变量。这里写图片描述 的联合分布为

这里写图片描述这里写图片描述 分布对应了两组Multinomial 分布,我们需要估计这两组分布的参数。下面给出用EM算法估计PLSA参数的结论

EM算法的步骤是:
(1)E步骤:求隐含变量Given当前估计的参数条件下的后验概率。
(2)M步骤:最大化Complete data对数似然函数的期望,此时我们使用E步骤里计算的隐含变量的后验概率,得到新的参数值。
两步迭代进行直到收敛。

在E步骤中,直接使用贝叶斯公式计算隐含变量在当前参数取值条件下的后验概率,有

这里写图片描述

在这个步骤中,我们假定所有的这里写图片描述这里写图片描述 都是已知的,因为初始时随机赋值,后面迭代的过程中取前一轮M步骤中得到的参数值。
M步骤中通过最大化期望估计出的新的参数值

这里写图片描述

在PLSA中目标函数就是 ,约束条件是

这里写图片描述

迭代至期望不变

这里写图片描述

缺点:容易过拟合,不能生成心得文档类型

3、mixture unigram(混合语言模型) about EM
即E步骤 求隐含变量条件概率和M步骤 最大化期望估计参数的公式

这里写图片描述

迭代直到对数似然函数停止

这里写图片描述
Thetaf与F为两个分布
4、GMM(混合高斯模型) by EM
(1) E步骤:估计数据由每个 Component 生成的概率:对于每个数据这里写图片描述来说,它由第k个 Component 生成的概率为

这里写图片描述
注意里面 和 也是需要我们估计的值,在E步骤我们假定这里写图片描述这里写图片描述均已知,我们使用上一次迭代所得的值(或者初始值)。

(2)M步骤:由最大估计求出高斯分布的所有均值、方差和线性组合的系数,更新待估计的参数值,根据上面的推导,计算公式是

这里写图片描述
其中
这里写图片描述
(3)重复迭代E步骤和M步骤,直到似然函数
这里写图片描述
收敛时算法停止。

本文公式推演来自http://blog.csdn.net/yangliuy/article/details/8330640

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

pLSA/mixture unigram/gmm em算法公式汇总 的相关文章

  • windows使用虚拟机安装mac系统

    windows使用虚拟机安装mac系统 iso链接 macOS Monterey 12 3 1 iso RTF https www aliyundrive com s s9gYRJcbtRv 点击链接保存 或者复制本段内容 打开 阿里云盘
  • 什么是集群、分布式、集中式、伪分布式

    1 集中式 将项目等部署到同一台机器上 对机器性能要求比较高 一般会用多台机器备份 否则 如果机器出现死机等状况 整个项目将不能运行 eg 就好比你要盖一座房子 你房子就给一个人盖 如果这个人生病或者有事 你还没有合适的人来代替这个人 你的
  • 什么是TCP/IP协议?

    点击上方 程序员小灰 选择 置顶公众号 有趣有内涵的文章第一时间送达 本文转载自公众号 技术特工队 作者整理了一些TCP IP协议簇中需要必知必会的十大问题 既是面试高频问题 又是程序员必备基础素养 一 TCP IP模型 TCP IP协议模
  • vue2+bootstrapvue+Koa2+nodejs实现分页

    1 实现分页思路 1 后端需要接收两个数据 当前页 currentPage 每一页的大小 即每一页要展示多少条数据 pageSize 2 注意 前端每点击一次页码儿都要发送一次请求 2 实现案例 vue2 bootstrapvue前端 Ko
  • 内网安全:WMI协议与SMB协议横向移动

    目录 网络拓扑图 网络环境说明 WMI协议 SMB协议 域内信息收集 WMI协议 横向移动 利用方式一 wmic命令 利用方式一 cscript 利用方式一 impacket SMB协议 横向移动 利用方式一 psexec 利用方式二 ps
  • 1年多经验的 Java 开发,该如何提升自己比较好?

    中级Java开发岗位职责 负责研发公司应用软件的模块设计 开发和交付 负责编码 单元测试 按照功能组件的详细设计 对其他软件工程师的代码进行审核 参与新知识的学习和培训 参与业务相关的需求评审 编写技术文档设计 中级Java开发的岗位要求
  • Vue中的绑定样式

    绑定样式 1 class样式 写法 class xxx xxx可以是字符串 对象 数组 字符串写法适用于 类名不确定 要动态获取 对象写法适用于 要绑定多个样式 个数不确定 名字也不确定 数组写法适用于 要绑定多个样式 个数确定 名字也确定
  • 测试网络连通性

    测试网络连通性的方式 ssh v p 端口 root IP curl ip 端口 nc v IP 端口
  • SQL Server 数据库之变量

    变量 1 变量概述 1 1 常规标识符 1 2 分隔标识符 2 局部变量 2 1 局部变量声明 2 2 局部变量赋值 2 3 变量显示 3 全局变量 3 1 全局变量注意事项 3 2 常用的全局变量 4 注释符 5 运算符 5 1 算术运算
  • 【CV】从 YOLO 到 YOLOv8:追踪目标检测算法的演变

    大家好 我是Sonhhxg 柒 希望你看完之后 能对你有所帮助 不足请指正 共同学习交流 个人主页 Sonhhxg 柒的博客 CSDN博客 欢迎各位 点赞 收藏 留言 系列专栏 机器学习 ML 自然语言处理 NLP 深度学习 DL fore
  • 使用Flutter和Arduino控制设备

    硬件 配置Arduino IDE Arduino服务器 首先 让TCP服务器运行并测试其是否正常运行 创建一个WiFi服务器对象 现在让我们填写setup 函数 将串行连接配置为115 200 bps的速度 等待一秒钟以确保串行连接已初始化
  • JMeter压力测试实例操作

    1 脚本录制 脚本录制 JMeter启用WEB代理 浏览器把代理上网设置为JMeter所在的IP地址 自己电脑就是127 0 0 1代理端口默认8080 至于浏览器修改代理上网服务器 不做截图 Jmeter 运行在目录 apache jme
  • Qt 的几个常用部件 -- QFrame

    文章目录 基本信息 公共类型 可用来设置的 详细描述 可以处理的事件 基本信息 头文件 include
  • 微信小程序——订阅消息与微信公众号模板消息

    订阅消息 一次性订阅消息 某个按钮 并且只能是用户自己就手动点击的 操作调起来这个允许授权弹窗 允许通知之后也只能发送一次消息 即便点上 总是保持一上选择 不再询问 也只是在下次点击同一个按钮时默认允许发送消息 不是可以一直发送消息的 使用
  • python文件处理方式

    python文件处理方式 file open D pythonText txt r encoding UTF 8 print file lt io TextIOWrapper name D pythonText txt mode r enc
  • IntelliJ IDEA (Ultimate Edition)2021.1配置javaFX8(Mac Pro) 踩坑

    该文写于2022 1 22日 应该算是比较新的坑吧 仅供参考 转发请注明出处 该版本内置了javaFX模块 创建项目可以在左侧工具栏看到JavaFX选项 创建项目后 intelliJ自动创建的项目结构如下图 打开Main文件 发现一大堆红色
  • iOS: HTTPS 与自签名证书

    不是每个公司都会以数百美金一年的代价向CA购买SSL证书 在企业应用中 付费的SSL证书经常被自签名证书所替代 当然 对于自签名证书iOS是没有能力验证的 Safari遇到这种无法验证的自签名证书的唯一处理方法 就是将问题扔给用户 让用户决
  • zSetOperations=redisTemplate.opsForZSet();redis的Zset数据类型方法大全(zSetOperations常用方法详细)

    zSetOperations redisTemplate opsForZSet 以下是 zSetOperations 接口中定义的所有方法及其详细说明 void add K key V value double score 将一个成员添加到
  • JDBC(The end)—— 数据库连接池示例 (与线程池梦幻联动)

    写在之前 不管以后对于那种类型的池 都需要List接口利用多态的写法来对一系列集合框架类进行实例化对象 以此该对象调用add方法 来装多个此种类型的实例化对象 数据库连接池的设计思路比线程池简单易懂 以下是示例 和之前线程池的设计思想相同之

随机推荐

  • python怎么搭建免费代理IP池

    搭建免费代理 IP 池需要经过以下步骤 1 抓取免费代理 IP 可以通过爬虫抓取免费的代理 IP 例如可以使用 requests 和 BeautifulSoup 库实现 需要注意的是 免费代理 IP 的可用性通常比较低 需要考虑测试代理 I
  • 计算机网络学习笔记--基带(base)信号

    基带 base 保持数据波的原样进行传输称为基带传输或者基带数字信号传输 宽带 broad 在数据通信领域则指数据传输速率超过1Mps的传输系统 宽带信号则是将基带信号进行调制后形成的频分复用模拟信号 基带信号进行调制后 其频谱搬移到较高的
  • Linux更改SSH端口,并解决SSHD服务重启失败的问题

    环境 Linux Centos 7 1 进入sshd配置文件 vi etc ssh sshd config 2 找到 Port 22 这行 删掉注释符 将端口改为 想要变成的端口号 如 2022 3 重启sshd服务 systemctl r
  • 微信小程序后台销毁时间 演变和总结(热启动时间限制)

    小程序启动 这样 小程序启动可以分为两种情况 一种是冷启动 一种是热启动 冷启动 如果用户首次打开 或小程序销毁后被用户再次打开 此时小程序需要重新加载启动 即冷启动 热启动 如果用户已经打开过某小程序 然后在一定时间内再次打开该小程序 此
  • Java实现微信登录

    Java实现微信登录 代码实现微信授权 简单来说 微信授权分为四步 1 授权登录接口 生成一个二维码在页面中 2 用户点击授权成功后自动获取code 3 浏览器自动利用code访问回调接口 4 在回调接口中利用code登录 appId ap
  • Android嵌入式系统程序开发

    Android嵌入式系统程序开发 基本信息 作者 胡文 宁世勇 李明俊 金雪松 丛书名 单片机与嵌入式丛书 出版社 机械工业出版社 ISBN 9787111411697 上架时间 2013 4 2 出版日期 2013 年4月 开本 16开
  • oracle rac io,ORACLE RAC 之I/O分离--hangcheck-timer模块配置

    ORACLE RAC 之I O分离 hangcheck timer模块配置 此文档摘自METALINK 726833 1 所适用的ORACLE版本为 Oracle Server Enterprise Edition Version 9 2
  • git:文件存储方式

    引言 我们知道 git 跟踪文件会经历三个阶段 工作区 暂存区和本地仓库 参考git 理解工作区 暂存区和本地仓库 在这些阶段文件如何被储存 理解 git 文件的存储方式能帮助我们掌握 git 的工作原理 git 对象 在上述三个阶段 文件
  • 基于典型相关分析的故障检测和过程监控算法研究(Matlab代码实现)

    欢迎来到本博客 博主优势 博客内容尽量做到思维缜密 逻辑清晰 为了方便读者 座右铭 行百里者 半于九十 本文目录如下 目录 1 概述 2 运行结果 3 参考文献 4 Matlab代码实现 1 概述 文献来源 本文首先研究了一种基于广义典型相
  • 安装ik中文分词器

    前提是安装了es Elasticsearch安装 p f 的博客 CSDN博客 1 根据es版本下载对应的中文ik分词器zip资源 官方下载地址 Releases medcl elasticsearch analysis ik GitHub
  • 火狐自定义字体失败 downloadable font: no supported format found

    Bootstrap AdminLTE搭起来的服务 突然字体图标都访问不了了 报错如下 解决办法1 FontAwesome官网找解决办法 不引用本地的css 直接引用官网建议的地址 完美解决 图标都出来了 解决办法2 pom打包的代码中添加
  • Vxe Table/Grid 单元格分组合并

    要合并的列 htbm htmc hetd hetdws yjs 一般的合并 不带逻辑 直接就把各自列对应的相同名字的列合并了 如下所示 不是合同的数据 值一样 直接给合并了 加上逻辑区分后的合并 会依次判断前面的字段一致后才合并后面的字段
  • Centos7.3 Openstack-liberty安装部署记录

    一 环境 1 1 安全 本指南会告诉你如何使用 Red Hat Enterprise Linux 7和其衍生的EPEL仓库安装OpenStack 说明 目前统一采用Centos7 3版本进行Openstack liberty版本的安装 测试
  • 【分布式】Zookeeper数据与存储

    一 前言 前面分析了Zookeeper对请求的处理 本篇博文接着分析Zookeeper中如何对底层数据进行存储 数据存储被分为内存数据存储于磁盘数据存储 二 数据与存储 2 1 内存数据 Zookeeper的数据模型是树结构 在内存数据库中
  • Centos7搭建sftp服务,window上filezilla连接

    1 创建sftp数据目录 添加群组用户 mkdir p data sftp sftp的数据目录 chmod 755 R data sftp 给ftp用户进入目录 chown root root R data sftp 需要使用chroot
  • Python 列表在内存中的顺序存储

    列表在内存中的存储空间是连续的 因此在创建列表时 首先向操作系统申请一块固定大小的内存空间 来存储每个列表元素 例如 a 1 2 3 4 由于在 python 中 int 类型的数据占4个字节 因此这条语句会向操作系统申请 4 4 16 b
  • js对象数组根据某一属性查找对象

    js对象数组 name zhangsan age 20 name lisi age 30 如果想查找name是zhangsan的这个对象 传统方法可以根据for if条件遍历 也可以用map重新构造 或者组装新对象 1 组装新对象 list
  • Python实现ARMA模型

    1 导入相关包 查看数据情况 import numpy as np import pandas as pd import matplotlib pyplot as plt plt rcParams font sans serif SimHe
  • android开发浅谈之PackageManagerService(pkms)

    本文基于Android10 0 主要从以下几个方面着手 PKMS启动 PKMS安装APK PKMS卸载APK PKMS启动 这里我简单的将其分为以下几个步骤 1 SystemServer通过PKMS的main方法启动PKMS 2 PKMS构
  • pLSA/mixture unigram/gmm em算法公式汇总

    1 LSA 隐性语义分析 和SVD 奇异值分解 在VSM 文档空间向量模型中 在文章看做词袋的集合 将文档转换为同一空间向量进行计算 聚类 分类 文本检索是减少计算量 但是难以考虑文档位置以及文档的一词多义性 基于SVD分解 我们可以构造一