pLSA/mixture unigram/gmm em算法公式汇总

2023-10-27

1、LSA（隐性语义分析）和SVD（奇异值分解）在VSM(文档空间向量模型中)在文章看做词袋的集合，将文档转换为同一空间向量进行计算，聚类，分类，文本检索是减少计算量，但是难以考虑文档位置以及文档的一词多义性。
基于SVD分解，我们可以构造一个原始向量矩阵的一个低秩逼近矩阵，具体的做法是将词项文档矩阵做SVD分解

这里写图片描述

其中是以词项(terms)为行, 文档(documents)为列做一个大矩阵. 设一共有t行d列, 矩阵的元素为词项的tf-idf值。然后把的r个对角元素的前k个保留（最大的k个保留）, 后面最小的r-k个奇异值置0, 得到；最后计算一个近似的分解矩阵

这里写图片描述

则在最小二乘意义下是的最佳逼近。由于最多包含k个非零元素，所以的秩不超过k。通过在SVD分解近似，我们将原始的向量转化成一个低维隐含语义空间中，起到了特征降维的作用。每个奇异值对应的是每个“语义”维度的权重，将不太重要的权重置为0，只保留最重要的维度信息，去掉一些信息“nosie”,因而可以得到文档的一种更优表示形式。
缺点：缺乏严密的数理统计

2、pLSA 概率潜在语义分析。PLSA的概率图模型如下

这里写图片描述

其中D代表文档，Z代表隐含类别或者主题，W为观察到的单词，表示单词出现在文档的概率，表示文档中出现主题下的单词的概率，给定主题出现单词的概率。并且每个主题在所有词项上服从Multinomial 分布，每个文档在所有主题上服从Multinomial 分布。整个文档的生成过程是这样的：
(1) 以这里写图片描述的概率选中文档；
(2) 以的概率选中主题；
(3) 以的概率产生一个单词。
我们可以观察到的数据就是对，而是隐含变量。的联合分布为

而这里写图片描述和分布对应了两组Multinomial 分布，我们需要估计这两组分布的参数。下面给出用EM算法估计PLSA参数的结论

EM算法的步骤是：
(1)E步骤：求隐含变量Given当前估计的参数条件下的后验概率。
(2)M步骤：最大化Complete data对数似然函数的期望，此时我们使用E步骤里计算的隐含变量的后验概率，得到新的参数值。
两步迭代进行直到收敛。

在E步骤中，直接使用贝叶斯公式计算隐含变量在当前参数取值条件下的后验概率，有

这里写图片描述

在这个步骤中，我们假定所有的这里写图片描述和都是已知的，因为初始时随机赋值，后面迭代的过程中取前一轮M步骤中得到的参数值。
M步骤中通过最大化期望估计出的新的参数值

这里写图片描述

在PLSA中目标函数就是 ,约束条件是

这里写图片描述

迭代至期望不变

这里写图片描述

缺点：容易过拟合，不能生成心得文档类型

3、mixture unigram（混合语言模型） about EM
即E步骤求隐含变量条件概率和M步骤最大化期望估计参数的公式

这里写图片描述

迭代直到对数似然函数停止

这里写图片描述
Thetaf与F为两个分布
4、GMM（混合高斯模型） by EM
(1) E步骤：估计数据由每个 Component 生成的概率:对于每个数据来说，它由第k个 Component 生成的概率为

这里写图片描述
注意里面和也是需要我们估计的值，在E步骤我们假定和均已知，我们使用上一次迭代所得的值（或者初始值）。

(2)M步骤：由最大估计求出高斯分布的所有均值、方差和线性组合的系数，更新待估计的参数值，根据上面的推导，计算公式是

这里写图片描述
其中

(3)重复迭代E步骤和M步骤，直到似然函数

收敛时算法停止。

本文公式推演来自http://blog.csdn.net/yangliuy/article/details/8330640

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

LAD

pLSA/mixture unigram/gmm em算法公式汇总的相关文章

windows使用虚拟机安装mac系统

windows使用虚拟机安装mac系统 iso链接 macOS Monterey 12 3 1 iso RTF https www aliyundrive com s s9gYRJcbtRv 点击链接保存或者复制本段内容打开阿里云盘
什么是集群、分布式、集中式、伪分布式

1 集中式将项目等部署到同一台机器上对机器性能要求比较高一般会用多台机器备份否则如果机器出现死机等状况整个项目将不能运行 eg 就好比你要盖一座房子你房子就给一个人盖如果这个人生病或者有事你还没有合适的人来代替这个人你的
什么是TCP/IP协议？

点击上方程序员小灰选择置顶公众号有趣有内涵的文章第一时间送达本文转载自公众号技术特工队作者整理了一些TCP IP协议簇中需要必知必会的十大问题既是面试高频问题又是程序员必备基础素养一 TCP IP模型 TCP IP协议模
vue2+bootstrapvue+Koa2+nodejs实现分页

1 实现分页思路 1 后端需要接收两个数据当前页 currentPage 每一页的大小即每一页要展示多少条数据 pageSize 2 注意前端每点击一次页码儿都要发送一次请求 2 实现案例 vue2 bootstrapvue前端 Ko
内网安全：WMI协议与SMB协议横向移动

目录网络拓扑图网络环境说明 WMI协议 SMB协议域内信息收集 WMI协议横向移动利用方式一 wmic命令利用方式一 cscript 利用方式一 impacket SMB协议横向移动利用方式一 psexec 利用方式二 ps
1年多经验的 Java 开发，该如何提升自己比较好？

中级Java开发岗位职责负责研发公司应用软件的模块设计开发和交付负责编码单元测试按照功能组件的详细设计对其他软件工程师的代码进行审核参与新知识的学习和培训参与业务相关的需求评审编写技术文档设计中级Java开发的岗位要求
Vue中的绑定样式

绑定样式 1 class样式写法 class xxx xxx可以是字符串对象数组字符串写法适用于类名不确定要动态获取对象写法适用于要绑定多个样式个数不确定名字也不确定数组写法适用于要绑定多个样式个数确定名字也确定
测试网络连通性

测试网络连通性的方式 ssh v p 端口 root IP curl ip 端口 nc v IP 端口
SQL Server 数据库之变量

变量 1 变量概述 1 1 常规标识符 1 2 分隔标识符 2 局部变量 2 1 局部变量声明 2 2 局部变量赋值 2 3 变量显示 3 全局变量 3 1 全局变量注意事项 3 2 常用的全局变量 4 注释符 5 运算符 5 1 算术运算
【CV】从 YOLO 到 YOLOv8：追踪目标检测算法的演变

大家好我是Sonhhxg 柒希望你看完之后能对你有所帮助不足请指正共同学习交流个人主页 Sonhhxg 柒的博客 CSDN博客欢迎各位点赞收藏留言系列专栏机器学习 ML 自然语言处理 NLP 深度学习 DL fore
使用Flutter和Arduino控制设备

硬件配置Arduino IDE Arduino服务器首先让TCP服务器运行并测试其是否正常运行创建一个WiFi服务器对象现在让我们填写setup 函数将串行连接配置为115 200 bps的速度等待一秒钟以确保串行连接已初始化
JMeter压力测试实例操作

1 脚本录制脚本录制 JMeter启用WEB代理浏览器把代理上网设置为JMeter所在的IP地址自己电脑就是127 0 0 1代理端口默认8080 至于浏览器修改代理上网服务器不做截图 Jmeter 运行在目录 apache jme
Qt 的几个常用部件 -- QFrame

文章目录基本信息公共类型可用来设置的详细描述可以处理的事件基本信息头文件 include
微信小程序——订阅消息与微信公众号模板消息

订阅消息一次性订阅消息某个按钮并且只能是用户自己就手动点击的操作调起来这个允许授权弹窗允许通知之后也只能发送一次消息即便点上总是保持一上选择不再询问也只是在下次点击同一个按钮时默认允许发送消息不是可以一直发送消息的使用
python文件处理方式

python文件处理方式 file open D pythonText txt r encoding UTF 8 print file lt io TextIOWrapper name D pythonText txt mode r enc
IntelliJ IDEA (Ultimate Edition)2021.1配置javaFX8(Mac Pro) 踩坑

该文写于2022 1 22日应该算是比较新的坑吧仅供参考转发请注明出处该版本内置了javaFX模块创建项目可以在左侧工具栏看到JavaFX选项创建项目后 intelliJ自动创建的项目结构如下图打开Main文件发现一大堆红色
iOS: HTTPS 与自签名证书

不是每个公司都会以数百美金一年的代价向CA购买SSL证书在企业应用中付费的SSL证书经常被自签名证书所替代当然对于自签名证书iOS是没有能力验证的 Safari遇到这种无法验证的自签名证书的唯一处理方法就是将问题扔给用户让用户决
zSetOperations=redisTemplate.opsForZSet()；redis的Zset数据类型方法大全（zSetOperations常用方法详细）

zSetOperations redisTemplate opsForZSet 以下是 zSetOperations 接口中定义的所有方法及其详细说明 void add K key V value double score 将一个成员添加到
JDBC（The end）—— 数据库连接池示例（与线程池梦幻联动）

写在之前不管以后对于那种类型的池都需要List接口利用多态的写法来对一系列集合框架类进行实例化对象以此该对象调用add方法来装多个此种类型的实例化对象数据库连接池的设计思路比线程池简单易懂以下是示例和之前线程池的设计思想相同之

随机推荐

python怎么搭建免费代理IP池

搭建免费代理 IP 池需要经过以下步骤 1 抓取免费代理 IP 可以通过爬虫抓取免费的代理 IP 例如可以使用 requests 和 BeautifulSoup 库实现需要注意的是免费代理 IP 的可用性通常比较低需要考虑测试代理 I
计算机网络学习笔记--基带（base）信号

基带 base 保持数据波的原样进行传输称为基带传输或者基带数字信号传输宽带 broad 在数据通信领域则指数据传输速率超过1Mps的传输系统宽带信号则是将基带信号进行调制后形成的频分复用模拟信号基带信号进行调制后其频谱搬移到较高的
Linux更改SSH端口，并解决SSHD服务重启失败的问题

环境 Linux Centos 7 1 进入sshd配置文件 vi etc ssh sshd config 2 找到 Port 22 这行删掉注释符将端口改为想要变成的端口号如 2022 3 重启sshd服务 systemctl r
微信小程序后台销毁时间演变和总结（热启动时间限制）

小程序启动这样小程序启动可以分为两种情况一种是冷启动一种是热启动冷启动如果用户首次打开或小程序销毁后被用户再次打开此时小程序需要重新加载启动即冷启动热启动如果用户已经打开过某小程序然后在一定时间内再次打开该小程序此
Java实现微信登录

Java实现微信登录代码实现微信授权简单来说微信授权分为四步 1 授权登录接口生成一个二维码在页面中 2 用户点击授权成功后自动获取code 3 浏览器自动利用code访问回调接口 4 在回调接口中利用code登录 appId ap
Android嵌入式系统程序开发

Android嵌入式系统程序开发基本信息作者胡文宁世勇李明俊金雪松丛书名单片机与嵌入式丛书出版社机械工业出版社 ISBN 9787111411697 上架时间 2013 4 2 出版日期 2013 年4月开本 16开
oracle rac io,ORACLE RAC 之I/O分离－－hangcheck-timer模块配置

ORACLE RAC 之I O分离 hangcheck timer模块配置此文档摘自METALINK 726833 1 所适用的ORACLE版本为 Oracle Server Enterprise Edition Version 9 2
git：文件存储方式

引言我们知道 git 跟踪文件会经历三个阶段工作区暂存区和本地仓库参考git 理解工作区暂存区和本地仓库在这些阶段文件如何被储存理解 git 文件的存储方式能帮助我们掌握 git 的工作原理 git 对象在上述三个阶段文件
基于典型相关分析的故障检测和过程监控算法研究（Matlab代码实现）

欢迎来到本博客博主优势博客内容尽量做到思维缜密逻辑清晰为了方便读者座右铭行百里者半于九十本文目录如下目录 1 概述 2 运行结果 3 参考文献 4 Matlab代码实现 1 概述文献来源本文首先研究了一种基于广义典型相
安装ik中文分词器

前提是安装了es Elasticsearch安装 p f 的博客 CSDN博客 1 根据es版本下载对应的中文ik分词器zip资源官方下载地址 Releases medcl elasticsearch analysis ik GitHub
火狐自定义字体失败 downloadable font: no supported format found

Bootstrap AdminLTE搭起来的服务突然字体图标都访问不了了报错如下解决办法1 FontAwesome官网找解决办法不引用本地的css 直接引用官网建议的地址完美解决图标都出来了解决办法2 pom打包的代码中添加
Vxe Table/Grid 单元格分组合并

要合并的列 htbm htmc hetd hetdws yjs 一般的合并不带逻辑直接就把各自列对应的相同名字的列合并了如下所示不是合同的数据值一样直接给合并了加上逻辑区分后的合并会依次判断前面的字段一致后才合并后面的字段
Centos7.3 Openstack-liberty安装部署记录

一环境 1 1 安全本指南会告诉你如何使用 Red Hat Enterprise Linux 7和其衍生的EPEL仓库安装OpenStack 说明目前统一采用Centos7 3版本进行Openstack liberty版本的安装测试
【分布式】Zookeeper数据与存储

一前言前面分析了Zookeeper对请求的处理本篇博文接着分析Zookeeper中如何对底层数据进行存储数据存储被分为内存数据存储于磁盘数据存储二数据与存储 2 1 内存数据 Zookeeper的数据模型是树结构在内存数据库中
Centos7搭建sftp服务，window上filezilla连接

1 创建sftp数据目录添加群组用户 mkdir p data sftp sftp的数据目录 chmod 755 R data sftp 给ftp用户进入目录 chown root root R data sftp 需要使用chroot
Python 列表在内存中的顺序存储

列表在内存中的存储空间是连续的因此在创建列表时首先向操作系统申请一块固定大小的内存空间来存储每个列表元素例如 a 1 2 3 4 由于在 python 中 int 类型的数据占4个字节因此这条语句会向操作系统申请 4 4 16 b
js对象数组根据某一属性查找对象

js对象数组 name zhangsan age 20 name lisi age 30 如果想查找name是zhangsan的这个对象传统方法可以根据for if条件遍历也可以用map重新构造或者组装新对象 1 组装新对象 list
Python实现ARMA模型

1 导入相关包查看数据情况 import numpy as np import pandas as pd import matplotlib pyplot as plt plt rcParams font sans serif SimHe
android开发浅谈之PackageManagerService(pkms)

本文基于Android10 0 主要从以下几个方面着手 PKMS启动 PKMS安装APK PKMS卸载APK PKMS启动这里我简单的将其分为以下几个步骤 1 SystemServer通过PKMS的main方法启动PKMS 2 PKMS构
pLSA/mixture unigram/gmm em算法公式汇总

1 LSA 隐性语义分析和SVD 奇异值分解在VSM 文档空间向量模型中在文章看做词袋的集合将文档转换为同一空间向量进行计算聚类分类文本检索是减少计算量但是难以考虑文档位置以及文档的一词多义性基于SVD分解我们可以构造一

pLSA/mixture unigram/gmm em算法公式汇总

pLSA/mixture unigram/gmm em算法公式汇总 的相关文章

随机推荐

热门标签

pLSA/mixture unigram/gmm em算法公式汇总的相关文章