PCA降维算法的介绍、多角度推导及python实现

2023-10-27

一、算法原理及数学推导
在对于数据的处理上，特征维度过高经常是一个无法忽视的问题，但是单纯的降维压缩对于数据本身会使得数据信息遭到严重损失。不过以PCA为代表的线性降维算法对这方面有所保证，它的目标是通过某种线性投影，将高维的数据映射到低维的空间中，并期望在所投影的维度上数据的信息量最大（方差最大），以此使用较少的数据维度，同时保留住较多的原数据点的特性。
PCA算法所做的工作相当于原始特征空间的重构，只不过这个重构的过程是一个寻找主成分（正交方向），使得投影于该方向上的点足够离散的过程，其优化方向有两个，一是保证投影方差最大，二是保证重构代价最小。
以下为推导求解过程：
假设有N个样本数据，P个特征组成的数据集X，X (i=1,2,3…N)表示第i个数据。特征的均值向量为：
在这里插入图片描述

每个样本与均值向量的差为：
在这里插入图片描述

那么数据集(X_1,X_2,X_3…,X_m)的协方差矩阵为：
在这里插入图片描述

假设所选择的主成分方向为u_1，在这里插入图片描述
则特征向量在该方向上的投影为：

投影的二范式为：
在这里插入图片描述

1、投影方差最大化求解
在这里插入图片描述

如此，便可转化为最优化问题，引入拉格朗日乘子λ：
在这里插入图片描述

对L求偏导得：
在这里插入图片描述

设在这里插入图片描述
得：

显然，此等式意在求S的特征值及特征向量。则对投影方差最大化问题的求解可直接等价为求协方差矩阵的特征值及特征向量。
2、重构代价最小化求解
重构代价即投影后的点在新的坐标系下反向投影回原坐标系后所得向量的长度。
在这里插入图片描述

在二维空间中，x_i为向量，u_1和u_2为投影后含主成分方向的坐标轴，求其重构后向量为：在这里插入图片描述

得出m维空间中：在这里插入图片描述

以此求重构代价：
在这里插入图片描述

其中：
P为数据维度即特征维度
q为降维后数据的维度
重构代价最小化：
在这里插入图片描述

转化为二次优化问题，可发现求解过程与最大投影方差的角度一样，同时，此处取的是最小的P-q个λ值，可等价于求最大的q个，故而两个角度所求得的解是一样的。
两角度后续共同的求解：
计算协方差矩阵S的P个特征值及特征向量(α_1,α_2,α…,α_P)，按特征值非递减排序后，取前面的q个特征值，使用其对应的特征向量组成一个q维的特征空间，记为U。同时，为衡量每个样本向量的贡献度，引入贡献度计算公式：
在这里插入图片描述

则原始数据集在特征向量集U下可通过如下方式投影到低维空间：
在这里插入图片描述

二、算法代码实现
1、代码：

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
from sklearn.datasets.samples_generator import make_blobs


class DimensionValueError(ValueError):
    """定义异常类"""
    pass


class PCA(object):
    """定义PCA类"""

    def __init__(self, x, n_components=None):
        """x的数据结构应为ndarray"""
        self.x = x
        self.dimension = x.shape[1]

        if n_components and n_components >= self.dimension:
            raise DimensionValueError("n_components error")

        self.n_components = n_components

    def cov(self):
        """求x的协方差矩阵"""
        x_T = np.transpose(self.x)  # 矩阵转秩
        x_cov = np.cov(x_T)  # 协方差矩阵
        return x_cov

    def get_feature(self):
        """求协方差矩阵C的特征值和特征向量"""
        x_cov = self.cov()
        a, b = np.linalg.eig(x_cov)
        m = a.shape[0]
        c = np.hstack((a.reshape((m, 1)), b))
        c_df = pd.DataFrame(c)
        c_df_sort = c_df.sort_values(by=0,ascending=False)  # 按照特征值大小降序排列特征向量
        return c_df_sort

    def explained_varience_(self):
        c_df_sort = self.get_feature()
        return c_df_sort.values[:, 0]

    def paint_varience_(self):
        explained_variance_ = self.explained_varience_()
        plt.figure()
        plt.plot(explained_variance_, 'k')
        plt.xlabel('n_components', fontsize=16)
        plt.ylabel('explained_variance_', fontsize=16)
        plt.show()

    def reduce_dimension(self):
        """指定维度降维和根据方差贡献率自动降维"""
        c_df_sort = self.get_feature()
        varience = self.explained_varience_()

        if self.n_components:  # 指定降维维度
            p = c_df_sort.values[0:self.n_components, 1:]
            y = np.dot(p, np.transpose(self.x))  # 矩阵叉乘
            return np.transpose(y)

        varience_sum = sum(varience)  # 利用方差贡献度自动选择降维维度
        varience_radio = varience / varience_sum

        varience_contribution = 0
        for R in range(self.dimension):
            varience_contribution += varience_radio[R]  # 前R个方差贡献度之和
            if varience_contribution >= 0.99:
                break

        p = c_df_sort.values[0:R + 1, 1:]  # 取前R个特征向量
        y = np.dot(p, np.transpose(self.x))  # 矩阵叉乘
        return np.transpose(y)


x, y = make_blobs(n_samples=10000, n_features=3, centers=[[3, 3, 3], [0, 0, 0], [1, 1, 1], [2, 2, 2]],
                  cluster_std=[0.2, 0.1, 0.2, 0.2],
                  random_state=9)

if __name__ == '__main__':
    fig=plt.figure()
    ax=plt.axes(projection='3d')
    ax.scatter(x[:,0],x[:,1],x[:,2])
    plt.show()
    plt.savefig("C://Users//hasee//Desktop")
    pca = PCA(x)
    y = pca.reduce_dimension()
    plt.scatter(x[:,0],x[:,1])
    plt.show()
    plt.savefig("C://Users//hasee//Desktop")
    print(y.shape)

2、数据降维实例
（1）原数据集
在这里插入图片描述

（2）降维后保留2个特征
在这里插入图片描述

降维后数据分布特点与之前在很大程度上相似，说明保留了大部分的数据信息。
3、算法存在的问题
用主成分解释数据含义往往具有一定的模糊性，不如原始数据完整。其次，PCA方法寻找的是用来有效表示同一类样本共同特点的主轴方向，这对于表示同一类数据样本的共同特征是非常有效的，但PCA不适合用于区分不同的样本类。Fisher线性判别分析（FDA）是用于寻找最有效地对不同样本类进行区分的方向。其主要思想是考虑将d维空间中的点投影到一条直线上。通过适当地选择直线的方向，有可能找到能够最大限度地区分各类样本数据点的投影方向。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

PCA降维算法的介绍、多角度推导及python实现的相关文章

动态向类添加类方法

我有以下片段 FEED TYPES fan mail Fan Mail review Review tip Tip fan user Fan User fan song Fan Song fan album Fan Album played
使用 Python Multiprocessing Pool.map() 的问题在 Python 3.7.2 中变得棘手，但在 3.6.2 中很快完成

我刚刚将Python从3 6 2 gt 3 7 2并且遇到了问题multiprocessing图书馆我在 Django 应用程序中使用它该应用程序在工作函数中使用 Django 特定的函数见下文在我的代码中我有以下内容 impor
为什么 Python 在导入脚本时只保存脚本的字节码？

既然执行Python字节码会比运行原始源代码更快因为Python不需要重新编译为什么Python在导入脚本时只保存编译后的字节码呢为每个执行的脚本保存 pyc 文件不是更好吗无论如何 Python 解释器的启动时间都需要时间即使您
在Python中，如何将矩阵逆时针旋转90度？

gt gt gt def rotate matrix k List List int For example if I have m 1 2 3 2 3 3 5 4 3 rotate matrix m should give me 3 3
通过 python 中的另外两个修改数组[重复]

这个问题在这里已经有答案了假设我们有三个一维数组 A 长度为 5 B 长度相同示例中为5 C 更长比如长度为 100 C最初用零填充 A给出索引C应更改的元素它们可能会重复以及B给出应添加到初始零的值C 例如如果A 1 3 3
Flask 中“缺少 CSRF 令牌”，但它在模板中呈现

问题当我尝试登录使用 Flask login 时我得到Bad Request The CSRF session token is missing但令牌正在呈现在模板中 secret key 已设置并且我在本地运行localhost
为什么在连接两个字符串时 Python 比 C 更快？

目前我想比较 Python 和 C 用来处理字符串的速度我认为 C 应该比 Python 提供更好的性能然而我得到了完全相反的结果这是 C 程序 include
带有 mkdocs 的本地 mathjax

我想在无法访问互联网的计算机上使用 MathJax 和 Mkdocs 因此我不能只调用 Mathjax CDN Config mkdocs yml site name My Docs extra javascript javascripts
在linux上安装python ssl模块，无需重新编译

是否可以在已经安装了 OpenSSL 的 Linux 机器上安装 python 的 SSL 模块而无需重新编译 python 我希望它就像复制几个文件并将它们包含在库路径中一样简单 Python版本是2 4 3 谢谢是否可以在已经安装了
查找与另一列 Pandas 中的唯一值关联的列中的值的交集

如果我有一个像这样的数据框非常小的例子 col1 col2 0 a 1 1 a 2 2 b 1 3 b 2 4 b 4 5 c 1 6 c 2 7 c 3 我想要所有的交集col2当价值观与其独特性相关时col1值因此在这种情况下交集
在 Linux 上使用多处理时，TKinter 窗口不会出现

我想生成另一个进程来异步显示错误消息同时应用程序的其余部分继续我正在使用multiprocessingPython 2 6 中的模块来创建进程我试图用以下命令显示窗口TKinter 这段代码在Windows上运行良好但在Linux上
在请求中设置端口

我正在尝试利用cgminer使用 Python 的 API 我对利用requests图书馆我了解如何做基本的事情requests but cgminer想要更具体一点我想缩小 import socket import json sock
高级描述熊猫

有没有像 pandas 那样更高级的功能通常我会继续这样 r pd DataFrame np random randn 1000 columns A r describe 我会得到一份很好的总结就像这样 A count 1000 000
通过 Python 循环浏览网络上的目录并显示其内容（文件和其他目录）

同样的道理在Python中处理从源目录到目标目录的一组文件 https stackoverflow com questions 2593399 process a set of files from a source directory t
更改 Matplotlib 投影轴的背景颜色

我正在尝试使用 Cartopy 创建一个图形该图形需要在未投影的轴上绘制投影轴这是一个尽可能简单的代码版本它将轴上的内容替换为背景颜色 import matplotlib pyplot as plt import cartopy cr
如何按 pandas 中的值对系列进行分组？

我现在有一只熊猫Series与数据类型Timestamp 我想按日期对其进行分组并且每组中有许多行具有不同的时间看似显而易见的方法类似于 grouped s groupby lambda x x date 然而熊猫的groupby按索
如何展平解析树并存储在字符串中以进行进一步的字符串操作 python nltk

我正在尝试从树结构中获取扁平树如下所示我想将整个树放在一个字符串中就像没有检测到坏树错误一样 S NP SBJ NP DT The JJ high JJ seven day PP IN of NP DT the CD 400 NNS
如何创建用于霍夫曼编码和解码的树？

对于我的作业我将对霍夫曼树进行编码和解码我在创建树时遇到问题并且陷入困境不要介意打印语句它们只是让我测试并查看函数运行时的输出是什么对于第一个 for 循环我从主块中用于测试的文本文件中获取了所有值和索引在第二个 for 循
如何使用 enumerate 来倒数？

letters a b c 假设这是我的清单在哪里for i letter in enumerate letters 将会 0 a 1 b 2 c 我怎样才能让它向后枚举如 2 a 1 b 0 c 这是一个很好的解决方案并且工作完美 i
MoviePY 无法在 Windows 上检测 ImageMagick 二进制文件

我刚买了一台新笔记本电脑想要设置MoviePY在那新的Windows 64x Python3 7 0 机器我对所有内容都进行了三次检查但是当涉及到我的代码的文本部分时它向我抛出了这个错误 OSError MoviePy Error

随机推荐

Python学习小记（1）—命令指示符

一命令指示符如何打开使用 1 使用组合快捷键 Win R 打开运行对话框然后在打开后面输入 cmd 命令操作符快捷名称 2 电脑的开始附件里面找到命令提示符入口二学习Python时常用的命令语句 1 当先进入某盘时直接输入盘的
Arduino VS 树莓派：哪个才是你的菜？

假设你正在寻找一台微型计算机它能够驱动一台激光炮塔向彩色气球射击作为一名极客你可能常会幻想到类似的场景那么你很可能已经听说过Arduino和树莓派 Raspberry Pi 了但是却拿不定主意到底哪种微型计算机才适合你的个人项目
centos7的一些变化,firewalld替换iptables、systemctl 替换service

1 防火墙命令用firewalld取代了iptables了查看防火墙状态 systemctl status firewalld 临时关闭防火墙命令 reboot之后防火墙自动起来 systemctl stop firewalld 永久关
QGIS加载谷歌地图（google map）方法

目录第一步第二步将Google提供的网络地图包括地图和卫星影像等作为图层加载到QGIS中有时可辅助地学分析 QGIS已经提供了OpenStreetMap 在 XYZ Tiles 里面加载即可谷歌街道地图 http mt2 go
同样是做自媒体，为什么有的人能月入过万，你只能月入几块？

经常有粉丝跟大周说自媒体的红利期是不是已经过去了呢收益低做自媒体的收益还不够交电费的呢同样是做自媒体为什么有的人可以月入过万甚至更多而一些人只能收益个位数甚至赚不到钱我们都知道小马过河的故事牛告诉小马河很浅松鼠告诉小马河很
server 2003搭建文件服务器,使用Windows Server 2003搭建安全文件服务器

ZDNetChina服务器站 8月14日x86技巧启用并配置文件服务 Windows Server 2003的管理工具中有一项功能叫做管理您的服务器启动该工具之后可以看到当前服务器上启用的所有服务并可对这些服务进行管理点击该界面
IOC和DI的关系

IOC 控制反转全称为 Inverse of Control 将对在自身对象中的一个内置对象的控制反转反转后不再由自己本身的对象进行控制这个内置对象的创建而是由第三方系统去控制这个内置对象的创建简单来说就是把本来在类内部控制的对象
LLM Data Pipelines: 解析大语言模型训练数据集处理的复杂流程

编者按在训练大语言模型的过程中构建高质量的训练数据集是非常关键的一步但关于构建大模型训练所需数据集的通用数据处理流程 Data pipelines 的相关资料极为稀少本文主要介绍了基于Common Crawl数据集的数据处理流程首
基于Spring Boot+ Vue的健身房管理系统与实现

小熊学Java全能学面试指南 https javaxiaobear cn 摘要随着健身行业的快速发展健身房管理系统成为了提高管理效率和用户体验的重要工具本论文旨在设计与实现一种基于前后端分离的健身房管理系统通过前后端分离的架构模式
R语言笔记：机器学习【决策树（Decision Tree】

写在开头我是一个学R的小白因为读研老师要求开始接触R 记一记笔记留给自己以后回顾顺便分享出来嘻嘻我把需要深入的的函数进行介绍方便了解这些函数的用法一些简单的函数我就不放出来啦决策树这部分的笔记主要是利用分类回归法哈 rpart
Python_集合去重的底层原理

Python 集合去重的底层原理 https www cnblogs com linshuhui p 9580620 html
JAVA枚举类型(enum)的巧妙应用

枚举类型的应用实例总结根据接口文档的需求需要使用通用的返回值类型进行返回实例 return 调用的error方法就是先new一个ApiRestResponse对象然后返回之前在controller层调用的ImoocMallEx
Java和Java之父

詹姆斯高斯林 James Gosling 1955年5月19日出生于加拿大是Java编程语言的共同创始人之一一般公认他为 Java之父 1983年高斯林获得了美国卡内基梅隆大学计算机科学博士学位博士论文的题目是 The Algebr
python编程语言介绍-Python基础手册 1 —— Python语言介绍

python logo png Python 是一门优雅而健壮的编程语言它继承了传统编译语言的强大性和通用性同时也借鉴了脚本语言和解释语言的简单性和易用性一 Python 的历史 Python是由创始人贵铎范罗萨姆 Guido v
js 字符串转换数字

本文转载至 http www phpweblog net linxiaobo archive 2008 12 29 6250 html PS 今天用到了一下子想不起来所以写下来省得下次又找方法主要有三种转换函数强制类型转换利用
centos 上安装redis 3.0.5

官网下载安装包直接使用make编译报如下错误 root localhost redis 3 0 5 make cd src make all make 1 进入目录 usr local opentest redis 3 0 5 src
记一次udf提权

靶场myandmygirlfriend 前面的信息收集就不说了 arp scan l nmap扫描主机和端口 dirsearch扫描目录打开页面可以看到 only be accessed local 谷歌翻译发现是只能本地访问看一眼源码
Problem:ImageView不能显示图片。

1 问题分析要实现的功能是 ImageView被加载进了一个绝对布局对象中并通过不断地设置LayoutParam来改变其位置其中ImageView中的图片是以方法setBackgroundDrawable加载的而用此方法在过去有一
STM32ADC多通道采集（基于DMA）

首先简单介绍DMA DMA Direct Memory Access 直接内存存取用来提供在外设和存储器之间或者存储器和存储器之间的高速数据传输无需CPU干预节省CPU资源 ADC转换出来的值直接赋值给定义好的变量中配置好的DMA可
PCA降维算法的介绍、多角度推导及python实现

一算法原理及数学推导在对于数据的处理上特征维度过高经常是一个无法忽视的问题但是单纯的降维压缩对于数据本身会使得数据信息遭到严重损失不过以PCA为代表的线性降维算法对这方面有所保证它的目标是通过某种线性投影将高维的数据映射到低维

PCA降维算法的介绍、多角度推导及python实现

PCA降维算法的介绍、多角度推导及python实现 的相关文章

随机推荐

热门标签

PCA降维算法的介绍、多角度推导及python实现的相关文章