【sklearn第二十一讲】矩阵分解问题

2023-10-27

机器学习训练营——机器学习爱好者的自由交流空间(入群联系qq:2279055353)

主成分分析

精确主成分

主成分分析(Principal component analysis, PCA)通常用来分解一个多变量数据集成为逐次正交的成分,这些成分解释原始变量的方差最大。在scikit-learn里,PCA是一个转换对象,在该对象的fit方法里学习n个成分,用于新数据投影到这些成分上,得到新的主成分数据。

设置最优参数whiten=True, 投影数据到奇异空间上,缩放每个主成分为单位方差。在支持向量机和k-means里,这样的参数设置是有利的。

增量主成分

PCA对象虽然有用,但对于大数据集却有些限制。最大的限制是,PCA只支持批量处理,这意味着所有等待处理的数据必须符合主存储器的要求。IncrementalPCA对象使用了一个不同的处理形式,它考虑几乎精确地匹配PCA结果的部分计算,而以一种最小批量的方式处理数据。IncrementalPCA只存储主成分和噪音方差的估计。

随机SVD

通过放弃较小奇异值的主成分的奇异向量,可以实现将数据投射到低维空间,而仍能保持大部分方差的目的。例如,对于 64 × 64 64\times64 64×64的人脸识别灰度图像,数据的维度是4096, 在这样规模的数据上训练一个RBF支持向量机是很慢的。由于人脸的所有图像看起来相似,所以数据的内在维度远小于4096. PCA算法能够用来线性地转换数据,同时降低维度和保持大部分可解释方差。
PCA类里,当我们想放弃大部分限制计算的奇异向量时,使用参数svd_solver='randomized'是非常有用的。例如,下面显示了来自Olivetti数据集的16个样本肖像。在右边是由前16个奇异向量重新组成的肖像。该数据集的样本数是400, 特征数是4096, 而我们仅仅需要前16个奇异向量来表示,计算时间不到1秒。

这里写图片描述

注意:在设置参数svd_solver='randomized’时,同时也需要设置低维空间大小参数n_components.

因子分析

在无监督学习里,我们只有一个数据集 X = { x 1 , x 2 , … , x n } X=\{x_1, x_2, \dots, x_n\} X={ x1,x2,,xn}. 数学上怎样表示这个数据集呢? X X X 的一个简单的连续隐变量模型是
x i = W h i + μ + ϵ x_i=W h_i+\mu+\epsilon xi=Whi+μ+ϵ

向量 h i h_i hi 称为隐藏的,因为它是观测不到的。 ϵ \epsilon

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

【sklearn第二十一讲】矩阵分解问题 的相关文章

随机推荐

  • html和css

    首先说明 这两者根本不能相比 他们无论从什么方面相比都是不同的 其中html可以通过标准的标签达到一定显示功能效果css则是样式表 是对构成网页的元素 如字体 内容位置等 作出视觉上的设计效果 一个网页可以没有css样式 但不能没有html
  • 变量 、常量、枚举

    2 变量 常量 枚举 2 1 变量 变量 计算机语言能存储计算结果或表示值的抽象概念 可以通过变量名访问 变量名由字母 数字 下划线组成 其中首个字符不能为数字 声明变量的一般形式是使用 var 关键字 var identifier typ
  • 浅谈IPv4协议与IPv6协议的区别

    浅谈IPv4协议与IPv6协议的区别 咱们先了解下什么叫IPv4协议和IPv6协议 IPv4 是互联网协议 Internet Protocol IP 的第四版 应属第一个被广泛应用 构成现阶段互联网技术的基础的协议 1981年 Jon Po
  • 生命在于研究——ensp配置旁挂三层组网示例【OSPF+两个无线网络WPAPSK认证+DHCP】

    ensp配置旁挂三层组网示例 OSPF 两个无线网络WPAPSK认证 DHCP 一 业务需求 1 路由使用OSPF Vlan的网关配置在LSW1上 2 WLan采用三层组网 AC旁挂模式 3 创建两个无线网络 分别为ycu和guest 其中
  • 利用 vant 封装精确到秒的时间选择器,让 vue 开发更简单

    前言 在移动开发中 时间选择的控件比比皆是 但却鲜有类似的组件可以精确到秒级别的 官方可能是考虑到小屏幕手机的显示问题 也可能是使用的场景寥寥无几 但是少不代表没有 所以最近花了点时间基于 vant 组件库封装了一个可以精确到秒级别的时间选
  • MFC关于Radio按钮的操作

    基础介绍 radio button通常都是成组使用的 在一组里面是互斥的 分组的原则是 1 首先将RadioButton控件定好Tab顺序 具体方法 工具栏 格式 gt Tab键顺序 选项选中 然后按照预定的顺序依次点击对话框上面的Radi
  • shell脚本中执行kill进程

    继上一篇文章 只是在linux中用命令行中操作 之后我实战在shell脚本中 发现问题累累 在shell中kill掉程序写的命令 ps ef grep pid grep v grep awk print 3 执行shell脚本 运行结果 s
  • sqli-labs靶场(1-22关)

    目录 第一关 第二关 第三关 第四关 第五关 盲注 第六关 盲注 第七关 报错盲注 第八关 时间盲注 第九关 时间盲注 第十关 时间盲注 第十一关 报错 第十二关 第十三关 第十四关 第十五关 布尔类型盲注 第十六关 第十七关 update
  • Java POI实现Excel导出

    ExcelFormatUtil样式工具类 package com ymf invoice common utils import org apache poi hssf util HSSFColor import org apache po
  • hive总结回顾

    UDAF 继承UDAF 内部定义一个静态类 实现UDAFEvaluator接口 实现init iterate terminatePartial merge terminate五个方法 编写代码完成后install打包 Rz bye 上传到本
  • VUE 使用el- upload上传视频获视频的时长传递给后端问题解决

    近期做项目遇到了需要从前端传递视频到服务器 然后需要获取视频时长 此处几年一下 audioElement addEventListener loadedmetadata function duration parseInt audioEle
  • (大集合)可供选择的软件开源协议的罗列

    Public License List 罗列各种开源代码的公共协议以供选择 具体每一个协议的含义可以另外找教程文章或看官网原文 这里解决 都有什么 的问题 List of licenses that can be chosen 注 在 Gi
  • 蓝桥杯官网练习题(旋转)

    题目描述 图片旋转是对图片最简单的处理方式之一 在本题中 你需要对图片顺时针旋转 90 度 我们用一个 n m 的二维数组来表示一个图片 例如下面给出一个 3 4 的 图片的例子 1 3 5 7 9 8 7 6 3 5 9 7 这个图片顺时
  • Jenkins的简单使用,小白式教程

    1 什么是 CI CD CI CD 的核心概念可以总结为三点 持续集成 持续交付 持续部署 代码上线流程 拉取代码 gt 构建 gt 测试 gt 打包 gt 部署 1 1 CI Continuous Integration CI CD 中的
  • 【区块链2.0实战学习笔记】————1、区块链基础

    前言 本系列是对 区块链2 0实战 书籍的研读记录 对一些重要的 核心的点进行记录和梳理 1 1 什么是区块链 1 1 1 区块链定义 1 1 2 区块链的运行流程和特点 1 1 3 区块链的类型 1 2 区块链的发展经过和现状 1 2 1
  • 各种数据库查询前几条数据

    1 Oracle数据库SELECT FROM TABLENAME WHERE ROWNUM lt N2 Infomix数据库SELECT FIRST N FROM TABLENAME3 DB2数据库SELECT FROM SELECT RO
  • 普通协议(HTTP)与安全协议(HTTPS)

    客户端与服务器端 CydiaSubstrate框架 Frida Native层HOOK Frida hook Java层 需要相关资料的朋友 可以 加入此处即可打包获取 一 HTTP协议简介 HTTP协议 超文本传输协议HyperText
  • 启动主机服务器上虚拟机吗,启动主机服务器上虚拟机

    启动主机服务器上虚拟机 内容精选 换一换 主机迁移服务是一种P2V V2V迁移服务 可以帮您把X86物理服务器或者私有云 公有云平台上的虚拟机迁移到华为云弹性云服务器上 从而帮助您轻松地把服务器上的应用和数据迁移到华为云 主机迁移服务的工作
  • java设计模式桥接模式最详细讲解,从设计卷到开发看源码

    为什么要使用设计模式 说到底还是为了程序拓展和移植性 无法就是那几种设计思想 单一职责原则 开闭原则 里氏替换原则 依赖倒置原则 接口隔离原则 组合复用原则 迪米特法则这些思想和原则就是为了帮助我们更好规范的写出简洁 高效易拓展的程序 原理
  • 【sklearn第二十一讲】矩阵分解问题

    机器学习训练营 机器学习爱好者的自由交流空间 入群联系qq 2279055353 主成分分析 精确主成分 主成分分析 Principal component analysis PCA 通常用来分解一个多变量数据集成为逐次正交的成分 这些成分