PCA、SVD、谱聚类

2023-11-10

1. PCA

在这里插入图片描述在这里插入图片描述
所谓降维,就是要把n维向量X(i)投射到k维的空间(k<n),在这个k维空间里面,样本点的投影长度尽可能大,这样就能保证这个新的空间保留了原来n维空间里面尽可能多的variance。下面是公式描述:
if x(i) is a point(n x 1), then its projection onto a unite vector u (n x 1) is the distance:x(i)Tu
Hence, to maximize the variance of the projections, we
would like to choose a unit-length u so as to maximize:
在这里插入图片描述
在这里插入图片描述
where X=(x(1) x(2) ……x(m)) is n x m matrix, and n is the number of features
如果用拉格朗日乘子法,对u求偏导并另其为0,我们可以发现:
在这里插入图片描述
最大值就是XXT的最大特征值,该特征值对应的单位特征向就是我们要求的u。
上面的例子u是一维空间,下面扩展到k维空间U=(u1 u2 ………uk),这里每个uj都是n x 1的单位向量,因此U为n x k矩阵。把x(i)投影到这k个向量张成的空间,得到k x 1维向量:
在这里插入图片描述
我们的最优化问题,就是最大化k个投影分量,也就是z(i)的模:
在这里插入图片描述
采用拉格朗日乘子法
在这里插入图片描述
根据偏导公式:
在这里插入图片描述
对U求偏导,得
在这里插入图片描述
化简后得:

在这里插入图片描述
也就是求XXT的最大的k个特征根及对应的特征向量,需要补充的是,该矩阵是对称阵,因此一定有n个实数特征值。
最后如果要还原到n维向量空间
在这里插入图片描述
实际操作的时候,需要首先对所有的样本进行标准化。另外,我们不指定降维后的k的值,而是指定一个降维到的主成分比重阈值t。这个阈值t在(0,1]之间。假如我们的n个特征值为λ 1 ≥λ 2 ≥…≥λ n,则k可以通过下式得到:
在这里插入图片描述

2. SVD

SVD也是对矩阵进行分解,但是和特征分解不同,SVD并不要求要分解的矩阵为方阵。假设我们的矩阵A是一个m×n的矩阵,那么我们定义矩阵A的SVD为:
在这里插入图片描述
其中U是一个m×m的矩阵,Σ是一个m×n的矩阵,除了主对角线上的元素以外全为0,主对角线上的每个元素都称为奇异值,V是一个n×n的矩阵。U和V都是酉矩阵(实数域上也就是正交矩阵),即满足UTU=I,VTV=I。
在这里插入图片描述
AT A是一个nxn的对称矩阵(事实上对于任何矩阵A,ATA是半正定的,也就是说所有特征值大于等于0),所有特征值分别代入特征方程后,所有基础解系的总数为n,而且一定正交相似于对角矩阵,也就是说V矩阵是ATA基础解系正交化后张成的。而对于nxn的矩阵ΣT Σ=Σ每个对角线元素取平方(如果m<n,则奇异值只有m个,维度不够的填零,即AT A的0特征值),就是AT A的特征值矩阵,也就是说,每个奇异值是ATA的每个特征值开平方σi=sqrt(λi )
在这里插入图片描述
AAT是一个mxm的对称矩阵(事实上对于任何矩阵A,AAT是半正定的,也就是说所有特征值大于等于0),所有特征值分别代入特征方程后,所有基础解系的总数为m,而且一定正交相似于对角矩阵,也就是说U矩阵是AAT基础解系正交化后张成的。而对于m x m的矩阵 ΣΣT每个对角线元素取平方(如果m>n,则奇异值只有n个,维度不够的填0,即AAT的0特征值),就是AAT的特征值矩阵,也就是说,每个奇异值是AAT的每个特征值开平方σi=sqrt(λi )。
AAT和AT A非零特征值相同,奇异值矩阵中,奇异值也是按照从大到小排列,而且奇异值的减少特别快,在很多情况下,前10%甚至1%的奇异值的和就占了全部的奇异值之和的99%以上的比例。也就是说,我们也可以用最大的k个的奇异值和对应的左右奇异向量来近似描述矩阵。也就是说:
在这里插入图片描述
k要比m和n小很多,也就是一个大的矩阵A可以用三个小的矩阵来表示。由于这个重要的性质,SVD可以用于PCA降维,来做数据压缩和去噪!
对于含有m个样本(每个样本有n个特征)的m x n样本集矩阵
在这里插入图片描述
可以通过SVD的右矩阵V得到XT X (大小为n x n)最大的k个特征向量(列向量)张成的矩阵VTk×n(大小为n x k)用于特征降维,相当于是说我们把所有特征归纳成了k类;还可以用左矩阵U 得到XXT(大小为m x m)的前d个特征值张成的矩阵Um×d(大小为m x d), 相当于把所有样本归纳成了d类
在这里插入图片描述
X’是一个d×n的矩阵,这个矩阵和我们原来的m×n的样本相比,行数从m减到了d,实现了样本压缩。

3. LDA

首先来看看瑞利商的定义。瑞利商是指这样的函数:
在这里插入图片描述
其中x为非零向量,而A为的Hermitan矩阵。所谓的Hermitan矩阵就是满足共轭转置矩阵和自己相等的矩阵, 如果我们的矩阵A是实矩阵,则对称矩阵即为Hermitan矩阵。
瑞利商有一个非常重要的性质,即它的最大值等于矩阵A最大的特征值,而最小值等于矩阵A的最小的特征值。
广义瑞利商是指这样的函数 :
在这里插入图片描述
其中x为非零向量,而A,B为n x n的Hermitan矩阵。B为正定矩阵。它的最大值和最小值是什么呢?其实我们只要通过将其通过标准化就可以转化为瑞利商的格式。B是对称矩阵,一定可以被一个 正交矩阵对角化,即存在正交矩阵C,使得B=CDCT=CD对角线元素开根号D对角线元素开根号CT=CD对角线元素开根号CTCD对角线元素开根号CT=(CD对角线元素开根号CT) (CD对角线元素开根号CT)。B1/2=CD对角线元素开根号CT,对这个矩阵再求逆,B-1/2= (CD对角线元素开根号CT-1=C-TD对角线元素开根号再求倒数C-1。由于C是正交矩阵C-1=CT, C-T=C,因此B-1/2= CD对角线元素开根号再求倒数CT。B-1/2也是对称矩阵。
B-1/2 B B-1/2= CD对角线元素开根号再求倒数CT CD CT CD对角线元素开根号再求倒数CT= CD对角线元素开根号再求倒数D D对角线元素开根号再求倒数CT=CCT=E

B-1/2 B-1/2= CD对角线元素开根号再求倒数CT CD对角线元素开根号再求倒数CT= CD对角线元素开根号再求倒数D对角线元素开根号再求倒数CT=CD对角线元素求倒数CT=B-1
令x=B(-1/2)x’
则分母转化为:
在这里插入图片描述
而分子转化为:
在这里插入图片描述
广义瑞利商转化成了
在这里插入图片描述
它的极值等于矩阵B-1/2AB-1/2的特征值。
对于特征值问题B-1/2AB-1/2 x=λx,左乘B-1/2,得B-1 AB-1/2 x=λB-1/2 x

运用x=B(-1/2) x,上式得B-1 Ax=λx
因此B-1 A的特征值问题就是上述广义瑞利商的极值。
现在我们回到LDA的原理上,对于二类问题希望找到一个向量w,使得同一种类别数据的投影点尽可能的接近,而不同类别的数据的类别中心之间的距离尽可能的大。对任意一个样本本xi,它在向量w上的投影(xi)’=wTxi。它是实数。
在这里插入图片描述
假设我们的数据集D={(x1,y1),(x2,y2),…,((xm,ym))},其中任意样本xi为n维向量,我们定义Nj(j=0,1)为第j类样本的个数,Xj(j=0,1)为第j类样本的集合。
μj(j=0,1)为第j类样本的均值向量(n x 1)
在这里插入图片描述
第j类样本的所有投影的均值(scaler)
在这里插入图片描述
定义Σj(j=0,1)为第j类样本的协方差矩阵(n x n)
在这里插入图片描述
第j类样本的所有投影的协方差为(scaler)
在这里插入图片描述
(如果A为n阶对角矩阵,由二次型知wTAw=w12A11+w2 2A22+….wn2Ann为一个scaler)
因此我们 的最优化目标就是
在这里插入图片描述
我们定义类内散度Sw为(nx n)
在这里插入图片描述
我们再定义类间散度Sb为(n x n)
在这里插入图片描述
最优化目标(scaler)
在这里插入图片描述
最大值为矩阵Sw−1Sb的最大特征值,要找的向量w为对应的特征向量。
在这里插入图片描述
而(μ01)T w是一个标量,因此Sbw的方向恒为μ0−μ1。不妨令Sbw=λ(μ0−μ1),将其带入:(Sw−1Sb)w=λw,可以得到
w=Sw -10−μ1)
如果一共要分成N类。假设我们投影到的低维空间的维度为d,对应的基向量为(w1,w2,…wd),基向量组成的矩阵为W, 它是一个n×d的矩阵。
类内散度矩阵为(n x n)
在这里插入图片描述
在这里插入图片描述
类间散度矩阵为(n x n)
在这里插入图片描述
其中μ是所有示例的均值向量
下面我们来分析这个d x d的矩阵
在这里插入图片描述
(如果W为n阶对角矩阵,则WTAW相当于对A的每一个元素作Aij*Wii*Wjj,i,j=1…n)
这个矩阵的每个对角元素,就相当于二类问题里面投影到一个向量w的情况。因此我们可以把最优化问题写为:
在这里插入图片描述
也就是说,转化为对d个(wiTSbwi)/(wiT Sw wi )子问题最优化,每个子问题的最大值是矩阵Sw−1Sb的最大特征值,因此要最大化J,就是求Sw−1Sb的d个最大特征值的乘积, 此时要找的投影空间W为这d个特征值对应的特征向量张成的矩阵。
j-μ)为一个nx1的矩阵,For A ∈ Rm×n, rank(A) ≤ min(m, n),因此对于一个非零矩阵,其秩为1。A ∈ Rm×n, B ∈ Rn×p, rank(AB) ≤ min(rank(A), rank(B)),因此(μj-μ)(μj-μ)T的秩也为1,再由 rank(A + B) ≤ rank(A) + rank(B)得
在这里插入图片描述
为N项相加,因此秩最大为N,而μk可以由μ1…… μk-1线性表出,也就是Sb可以化简为N-1项相加,因此Sb的秩最大为N-1。再由rank(AB) ≤ min(rank(A), rank(B))得Sw−1Sb的秩最大为N-1。矩阵的秩就是非零特征值的数目,因此对于第i个最优子问题,如果i大于N-1,Sw−1Sb的特征值为0,将其带入损失函数J,最大化目标就没有意义了。因此我们最多取N-1个特征值,也就是取N-1个特征向量,因此最多降维到N-1维空间W=(w1,w2,…wN-1)。

4. 谱聚类

主要思想:把所有的数据看做空间当中的点,这些点之间可以用边连接起来。距离较远的两个点之间的边权重值比较低,较近的点权重值比较高,目的是:进行切图,让切图后不同的子图之间边权重和尽可能低,而子图内部的边权重和尽可能的高,从而达到聚类的目的。

4.1 无向权重图

由点集合V,边集合E来描述的。G(V,E)
在这里插入图片描述
定义权重wij为点vi,vj之间的权重,由于是无向图,所以wij=wji。如果是有向图,wij不等于wji(一般情况下)。对于有连接的点vi,vj,wij>0,如果没有连接,例如上图中的v2,v4,我们认为w24=w42=0。利用wij,我们可以建立图的邻接矩阵W(nn, n为样本数),第i行第j列对应wij。在W矩阵当中,我们定义对角线上的元素均为0.
在这里插入图片描述
定义:di为点vi和它相连的所有边的权重之和。d2=w21+w22+w23+w24+w25。这里w22=0。利用di,我们可以建立一个矩阵D(n
n),一个对角阵,主对角线为dn,其他的位置均为0.
在这里插入图片描述
定义:对于点集V的一个子集 A属于V。|A|:是子集A当中点的个数。Vol(A):定义了子集A内的点其所有边的权重和
在这里插入图片描述

4.2 相似矩阵

基本思想:距离较远的两个点之间的权重值较低,距离较近的两个点之间权重值较高。
构造相似矩阵S就是在对wij究竟如何取值,进行定义。

  1. ε-邻近法:
    设置阈值ε,用欧氏距离sij来度量vi,vj之间的距离,然后sij=||vi-vj||^2,根据sij和ε的大小关系来定义W。
    如果wij={0 sij>ε
    ε,sij<=ε}
    这种定义不够精细,实际应用比较少;
  2. K近邻法:利用KNN算法来遍历所有样本点,取每个样本最近的K个点来作为我们的近邻点。只有离i最近的几个点j才有wij,i的K近邻含j的时候,j的k近邻可能没有i,因此wij不等于wji。所以有三种权重定义方法:
  • 只要一个点在另一个点的K近邻中,则得权重wij=wji=
    在这里插入图片描述
  • 两个点都必须在互为K近邻时才有权重wij=wji=
    在这里插入图片描述
  • 全连接法:保证了所有点的权重都大于0可以选择不同的核函数来定义边权重,常用的有多项式核函数、高斯核函数、sigmoid核函数。

4.3 拉普拉斯矩阵

L=D-W(D是对称阵,W也是对称阵)(L也是对称阵),由于L是对称阵,所以特征值都是实数。对于任意向量f有:
在这里插入图片描述
在这里插入图片描述在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
拉普拉斯矩阵是半正定的,且对应的n个实数特征值0=λ1<=λ2<=λn,对应的特征项向量的模长是1。

4.4 无向图切图

对于无向图G的切图,我们的目标是将图G(V,E)切成相互没有连接的k个子图,每个子图的点集为:A1,A2,…Ak,它们满足Ai∩Aj=∅,且A1∪A2∪…∪Ak=V。对于任意两个子图点的集合A,B⊂V, A∩B=∅, 我们定义A和B之间的切图权重为:
在这里插入图片描述
那么对于我们k个子图的点集:A1,A2,…Ak,我们定义切图cut为:
在这里插入图片描述
其中 A¯i为Ai的补集,意为除Ai子集外其他V的子集的并集。
在这里插入图片描述
我们选择一个权重最小的边缘的点,比如C和H之间进行cut,这样得到的cut(A1,A2,…Ak)包含的wij项最少, 但是却不是最优的切图。我们需要对每个子图的规模做出限定,一般来说,有两种切图方式,第一种是RatioCut,第二种是Ncut。

  1. ratiocut
    不光考虑最小化cut(A1,A2,…Ak),它还同时考虑最大化每个子图点的个数,即:
    在这里插入图片描述
    我们引入指示向量
    在这里插入图片描述
    j=1,2,…k, n为样本数。对于任意一个向量hj,它的各个元素:
    在这里插入图片描述
    对于每个子图i:
    在这里插入图片描述
    在这里插入图片描述
    其中H=(h1 h2……hk)为n x k的矩阵
    实际上就是最小化tr(HTLH),并且注意到HTH=I,则我们的切图优化目标为:
    在这里插入图片描述
    其中h是单位正交基, L为对称矩阵,目标tr(HTLH)的每一个子目标hiTLhi的最大值为L的最大特征值,最小值是L的最小特征值。我们的目标是找到k个最小的特征值,一般来说,k远远小于n,也就是说,此时我们进行了维度规约,将维度从n降到了k。另外,我们得到了对应的k个特征向量,这k个特征向量组成一个nxk维度的矩阵,即为我们要求的H。
    在这里插入图片描述
    从上图看出,每一行对应一个样本,一个样本点只会属于一个子图,H就体现了各个样本的分类情况。如果某个样本在第j列为0,由指示函数hj的定义可知,该样本不属于第j个子图,也就是不属于第j类,j=1,2…k。由于我们只取另外一部分特征向量,导致有些样本无法确定归属(比如上图的第一行,即第一个样本)。因此一般在得到nxk维度的矩阵H后还需要对每一行进行一次传统的聚类,比如使用K-Means聚类。

  2. Ncut
    在这里插入图片描述
    子图样本的个数多并不一定权重就大,因此一般来说Ncut切图优于RatioCut切图。
    在这里插入图片描述
    在这里插入图片描述
    推导方式和RatioCut完全一致。也就是说,我们的优化目标仍然是
    在这里插入图片描述
    但是此时我们的HTH≠I,而是HTDH=I。推导如下:
    在这里插入图片描述
    此时我们的H中的各个指示向量hj不是单位正交 的,所以在RatioCut里面的降维思想不能直接用。其实只需要将指示向量矩阵H做一个小小的转化即可。
    我们令H=D−1/2F, 则:HTLH=FTD−1/2LD−1/2F,HTDH=FTF=I,也就是说优化目标变成了:
    在这里插入图片描述
    这样我们就可以继续按照RatioCut的思想,求出D1/2LD−1/2的最小的前k个特征值,然后求出对应的特征向量,得到最后的特征矩阵F,最后对F进行一次传统的聚类(比如K-Means)即可,每一行作为一个k维的样本,共n个样本,用输入的聚类方法进行聚类,聚类维数为k2,得到簇划分C(c1,c2,…ck2)。
    D是对角矩阵,因此D-1/2就是对角元素取根号再求倒数,因此 D-1/2 LD-1/2就是对L的所有元素作如下操作:Lij/sqrt(Dii) /sqrt(Djj), i, j=1…n

附录1 “秩”和“特征值”

n x n的方阵A, 它一定有n个特征值(算上重数)。矩阵的行列式为
在这里插入图片描述
如果特征值全部不相等(每个特征值的代数重数为1),那么一定有n个线性无关的特征向量(不相等的特征值对应的特征向量线性无关),该矩阵可以对角化。对于某个特征值λ,如果其有重数,带入特征方程(λI-A)x=0,其基础解系的个数为n-rank(λI-A),称为该特征值的几何重数(几何重数小于等于代数重数)。基础解系线性组合的任何一个结果都可以作为该特征值对应的特征向量,因此特征向量的方向不确定。如果n个特征值都不相同(代数重数全为1),也就是说每个特征值的几何重数都为1,(λI-A)x=0的基础解系只有1个,由它线性组合(拉伸)得到的特征向量的方向是确定的。对于任何一个特征值λ,如果其几何重数等于λ的重数(代数重数),几何重数之和为n(基础解系的总数为n), 则该方阵一定是可以对角化的,把所有n个基础解系排列成矩阵P, 并且P一定可逆(最大线性无关组个数为n,也就说满秩),P-1AP=E。如果某些特征值的几何重数小于其代数重数,则所有基础解系的数目相加一定是小于n的,无法对角化。
对于实对称矩阵来说,不同特征值对应的特征向量一定也是正交的。而即便是特征值有重数,其几何重数也等于其代数重数,因此实对称矩阵一定可以对角化,要注意的是相同特征值对应的基础解系不一定是正交的。但是这所有n个基础解系一定是线性无关的,因此我们把所有n个基础解系排列成矩阵P, P一定可逆,P-1AP=E。当然我们也可以把带重数的特征值的基础解系做正交化,这样重新得到n个基础解系,它们相互正交,把它们排列成P ’,P ’为正交矩阵。P’TAP’=E,也就是说 实对称矩阵一定正交相似于对角矩阵。对称矩阵由于特征值可以为正数,0,负数,从相似对角矩阵就可以看出它不一定是满秩的。正定矩阵所有特征值一定都是大于0的,因此一定是满秩的。
强调文本 强调文本
rank(Xmxn)<= min(m,n),如果rank(Xmxn)=m,称为行满秩,如果rank(Xmxn)=n,称为列满秩;既是行满秩又是列满秩就只能是方阵了。
rank(X)=rank(XT)。如果 n>m则rank(XTX nxn) =rank(X)=m,因此方阵XTX一定不满秩,行列式为0,存在0特征根,半正定;如果 n<m则rank(XTX nxn)=rank(X)<=n,如果X是列满秩的,则rank(XTX nxn)=rank(X) =n,XTX满秩,行列式不为0,无0特征根,正定。

附录2 协方差

对多维随机变量x=[x1, x2,…, xn]T,我们往往需要计算各维度之间的协方差,这样协方差就组成了一个n×n的矩阵,称为协方差矩阵。协方差矩阵是一个对角矩阵,对角线上的元素是各维度上随机变量的方差。我们定义矩阵内的元素Σij (scaler)为
在这里插入图片描述
协方差矩阵(n x n)为
在这里插入图片描述
其中,E(X)=[E(x1),E(x2)…E(xn)]T
样本的协方差矩阵与上面的协方差矩阵相同,只是每个随机变量xi以m个样本替换了。所有样本可以组成一个m×n的矩阵,这里每行代表一个样本。
在这里插入图片描述
ci表示第i维的随机变量xi的样本集合,而由大数定理可知,随机变量的期望可由样本均值代替E(xi)=c¯i 。因此,样本的协方差矩阵(n x n)
在这里插入图片描述在这里插入图片描述
numpy默认情况是将每一行作为一个随机变量,因此如果要把一列作为随机变量的话,要设置numpy.cov(X,rowvar=False)
如果每个维度上的随机变量已经进行了标准化,即 E(xi)= c¯i =0。
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
与我们前面定义的样本协方差矩阵 Σ ^ \hat \Sigma Σ^,只差了1/(m-1)这个系数。所以,我们在PCA、LDA、谱聚类里面,称XTX为协方差矩阵
两个变量之间的皮尔逊相关系数定义为两个变量之间的协方差和标准差的商(-1 ~ 1)
在这里插入图片描述
上面为总体相关系数,当这两个变量分别采用两个样本集来观测时,
在这里插入图片描述
其中n为某个样本集中的样本数目

采用numpy计算时,默认的也是把一行作为一个随机变量对应的样本集,如果想把一列作为随机变量,则设置rowvar=False(0), numpy.corrcoef(X,rowvar=0)与样本协方差矩阵类似,返回一个n x n的矩阵,分别是各个特征变量(共n个)之间的相关系数。

附录3 卡方检验

一般用于离散型特征
以下为一个典型的四格卡方检验,我们想知道喝牛奶对感冒发病率有没有影响:

感冒人数 未感冒人数 合计 感冒率
喝牛奶组 43 96 139 30.94%
不喝牛奶组 28 84 112 25.00%
合计 71 180 251 28.29%

通过简单的统计我们得出喝牛奶组和不喝牛奶组的感冒率为30.94%和25.00%,两者的差别可能是抽样误差导致,也有可能是牛奶对感冒率真的有影响。
为了确定真实原因,我们先假设喝牛奶对感冒发病率是没有影响的,即喝牛奶喝感冒时独立无关的,所以我们可以得出感冒的发病率实际是(43+28)/(43+28+96+84)= 28.29%
所以,理论的四格表应该如下表所示:

感冒人数 未感冒人数 合计
喝牛奶组 =139*0.2829 =139*(1-0.2829) 139
不喝牛奶组 =112*0.2829 =112*(1-0.2829) 112

即下表(如果喝牛奶和感冒真的是独立无关的,那么四格表里的理论值和实际值差别应该会很小。):

感冒人数 未感冒人数 合计
喝牛奶组 39.3231 99.6769 139
不喝牛奶组 31.6848 80.3152 112
合计 71 180 251

卡方检验的计算公式为:
在这里插入图片描述
其中,A为实际值,T为理论值。
卡方 = (43 - 39.3231)平方 / 39.3231 + (28 - 31.6848)平方 / 31.6848 + (96 - 99.6769)平方 / 99.6769 + (84 - 80.3152)平方 / 80.3152 = 1.077
这里还需要用到一个自由度的概念,自由度等于V = (行数 - 1) * (列数 - 1),对四格表,自由度V = 1。对V = 1,相关置信度为5%的临界卡方值是:3.84。即如果卡方值小于3.84,则认为相关置信度小于5%。
显然1.077<3.84,没有达到卡方分布的临界值,所以喝牛奶和感冒独立不相关的假设成立。
在这里插入图片描述

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

PCA、SVD、谱聚类 的相关文章

  • 澳鹏干货解答!“关于机器学习的十大常见问题”

    探索机器学习的常见问题 了解机器学习和人工智能的基本概念 原理 发展趋势 用途 方法和所需的数据要求从而发掘潜在的商机 什么是机器学习 机器学习即教授机器如何学习的过程 为机器提供指导 帮助它们自己开发逻辑 访问您希望它们访问的数据 机器学
  • 什么是“人机协同”机器学习?

    人机协同 HITL 是人工智能的一个分支 它同时利用人类智能和机器智能来创建机器学习模型 在传统的 人机协同 方法中 人们会参与一个良性循环 在其中训练 调整和测试特定算法 通常 它的工作方式如下 首先 对数据进行人工标注 这就为模型提供了
  • PCA前后数据维度

    我正在尝试kaggle com 的数字识别器竞赛 http www kaggle com c digit recognizer使用 Python 和 scikit learn 从训练数据中删除标签后 我将 CSV 中的每一行添加到如下列表中
  • 时间序列平稳性相关检验方法

    理解平稳性 一般来说 平稳时间序列是指随着时间的推移具有相当稳定的统计特性的时间序列 特别是在均值和方差方面 平稳性可能是一个比较模糊的概念 将序列排除为不平稳可能比说序列是平稳的更容易 通常不平稳序列有几个特征 平均值随时间推移发生变化
  • 奇异值分解:Jama、PColt 和 NumPy 的不同结果

    我想在一个大 稀疏 矩阵上执行奇异值分解 为了选择最好 最准确 的库 我尝试复制提供的 SVD 示例here http www ling ohio state edu kbaker pubs Singular Value Decomposi
  • 如何用GPT制作PPT和写代码?

    详情点击链接 如何用GPT制作PPT和写模型代码 一OpenAI 1 最新大模型GPT 4 Turbo 2 最新发布的高级数据分析 AI画图 图像识别 文档API 3 GPT Store 4 从0到1创建自己的GPT应用 5 模型Gemin
  • 【需求响应】改进连续时间控制方法用于分散式需求响应的恒温负荷研究(Python代码实现)

    欢迎来到本博客 博主优势 博客内容尽量做到思维缜密 逻辑清晰 为了方便读者 座右铭 行百里者 半于九十 本文目录如下 目录 1 概述 2 运行结果 3 参考文献 4 Python代码及文章
  • 基于GPT4+Python近红外光谱数据分析及机器学习与深度学习建模

    详情点击链接 基于ChatGPT4 Python近红外光谱数据分析及机器学习与深度学习建模教程 第一 GPT4 基础 1 ChatGPT概述 GPT 1 GPT 2 GPT 3 GPT 3 5 GPT 4模型的演变 2 ChatGPT对话初
  • Hotelling 在 python 中的 T^2 分数

    我在 python 中使用 matplotlib 将 pca 应用于数据集 然而 matplotlib 并不像 Matlab 那样提供 t 平方分数 有没有办法像Matlab一样计算Hotelling的T 2分数 Thanks matplo
  • 在使用 R 进行 PCA 分析之前省略 NA 和数据插补

    我正在尝试使用进行 PCA 分析princompR 中的函数 下面是示例代码 mydf lt data frame A c NA rnorm 10 4 5 B c NA rnorm 9 4 5 NA C c NA NA rnorm 8 4
  • 【毕业设计选题】复杂背景下的无人机(UVA)夜间目标检测系统 python 人工智能 深度学习

    前言 大四是整个大学期间最忙碌的时光 一边要忙着备考或实习为毕业后面临的就业升学做准备 一边要为毕业设计耗费大量精力 近几年各个学校要求的毕设项目越来越难 有不少课题是研究生级别难度的 对本科同学来说是充满挑战 为帮助大家顺利通过和节省时间
  • 机器学习算法实战案例:时间序列数据最全的预处理方法总结

    文章目录 1 缺失值处理 1 1 统计缺失值 1 2 删除缺失值 1 3 指定值填充 1 4 均值 中位数 众数填充
  • AI在广告中的应用——预测性定位和调整

    营销人员的工作就是在恰当的时间将适合的产品呈现在消费者面前 从而增加他们购买的可能性 随着时间的推移 营销人员能够深入挖掘越来越精准的客户细分市场 他们不仅具备了实现上述目标的能力 而且这种能力还在呈指数级提升 在AI技术帮助下 现在的营销
  • 自动驾驶离不开的仿真!Carla-Autoware联合仿真全栈教程

    随着自动驾驶技术的不断发展 研发技术人员开始面对一系列复杂挑战 特别是在确保系统安全性 处理复杂交通场景以及优化算法性能等方面 这些挑战中 尤其突出的是所谓的 长尾问题 即那些在实际道路测试中难以遇到的罕见或异常驾驶情况 这些问题暴露了实车
  • 使用 R 重现 SPSS 因子分析

    我希望有人能指出我正确的方向 首先 我不是统计学家 我是一名软件开发人员 其任务是尝试使用 R 重现 SPSS 因子分析的结果 使用 PC 提取和最大方差旋转 我在过去一周才接触过 R 所以我试图找到我的方式 我确实发现 2010 年的这篇
  • 错误:点太少,无法用 3 个点计算椭圆? -R

    日安 我正在策划一个pca与factoextra包裹 我对每个因素有 3 分 并且想在每个因素周围画上椭圆 但我收到错误Too few points to calculate an ellipse 可以在 3 个点周围绘制椭圆ggplot2
  • R 中的 PCA 多重图

    我有一个如下所示的数据集 India China Brasil Russia SAfrica Kenya States Indonesia States Argentina Chile Netherlands HongKong 0 0854
  • PySpark PCA:避免 NotConvergedException

    我试图通过 ml linalg 方法使用 PCA 来减少广泛的数据集 51 个特征 约 1300 个个体 如下所示 1 将我的列命名为一个列表 features indi prep df select c for c in indi pre
  • Python 中的主成分分析

    我想使用主成分分析 PCA 来降维 numpy 或 scipy 是否已经有了它 或者我必须使用自己的numpy linalg eigh http docs scipy org doc numpy reference generated nu
  • 部分拟合是否在 sklearn.decomposition.IncrementalPCA 中并行运行?

    我已经关注了伊马诺 卢恩戈 https stackoverflow com users 764322 imanol luengo s answer https stackoverflow com a 44335148 10183880建立部

随机推荐

  • GitBook使用教程

    各大站长平时除了写博客外 可以使用 gitbook 将一系列的博客专栏整理成电子书出版 这样既方便各大网友阅读 还可以带来新的离线阅读功能 在以前我们只能靠出版社 或者编写 word 文档 来实现 然而有了 gitbook 之后 一切都变得
  • Python 炫技操作:条件语句的六种写法(Python就是这么炫酷)

    有的人说 Python 入门容易 但是精通难的语言 这点我非常赞同 Python 语言里有许多 而且是越来越多 的高级特性 是 Python 发烧友们非常喜欢的 在这些人的眼里 能够写出那些一般开发者看不懂的高级特性 就是高手 就是大神 但
  • 1.两数之和

    两数之和 给定一个整数数组 nums 和一个整数目标值 target 请你在该数组中找出 和为目标值 target 的那 两个 整数 并返回它们的数组下标 你可以假设每种输入只会对应一个答案 但是 数组中同一个元素在答案里不能重复出现 你可
  • 网络—安全—防火墙

    网络 安全 防火墙 是什么 表面概念 防火墙 一种高级访问控制设备 置于不同网络安全域之间 它通过相关的安全策略来控制 允许 拒绝 监视 记录 进出网络的访问行为 是什么 设备结构和运行原理 设备结构 Netfilter是由Rusty Ru
  • [Vue3 博物馆管理系统] 使用Vue3、Element-plus的Layout 布局构建组图文章

    系列文章目录 第一章 定制上中下 顶部菜单 底部区域 中间主区域显示 三层结构首页 第二章 使用Vue3 Element plus菜单组件构建菜单 第三章 使用Vue3 Element plus走马灯组件构建轮播图 第四章 使用Vue3 E
  • 使用python程序进行手势识别

    python代码 从视频读取帧保存为图片 import cv2 import numpy as np cap cv2 VideoCapture C Users lenovo Videos 1 mp4 读取文件 cap cv2 VideoCa
  • QGraphicsScene管理QGraphicsItem(单击/选择/移动/缩放/删除)

    文章目录 前言 简述 操作细节 示例 效果 源码 疑问自解自答 那么正方形旋转参照的是哪个点那 前言 本文参考博文https blog csdn net liang19890820 article details 53504323 简述 在
  • 初级运维(九)

    1 静态资源和动态资源的区别 优缺点如何 答 静态资源 URL固定 后缀名诸如 html和 jpg和 gif 它是服务端存在的一种文件 浏览器进行解析 不与数据库交互 有利于网站推广 SEO 维护麻烦 动态资源 有数据库支持 内容丰富 后缀
  • Linux操作系统 第八章

    实验1 磁盘引导 开启虚拟机 mbr 主引导记录 0磁道1扇区446 作用 记录grub2引导文件的位置 dd if dev zero of dev vda bs 446 count 1 清空系统 dev sda上的mbr数据 fdisk
  • android app 跳转到微信

    公司做了个微信投票活动 必须下载安装我们的app才能参加 所以当新客户投票时就会下载安装我们的 然后在注册完成后客户信息同步到微信接口上 然后就有一个回到微信的跳转 主要代码如下 try catch 捕捉到ActivityNotFoundE
  • 【论文笔记04】Model-driven approach for the design of multi-chainsmart contracts—用于设计多链智能合约的模型驱动方法

    A Bari i E Zhu and F Mallet Model driven approach for the design of Multi Chain Smart Contracts 2021 3rd Conference on B
  • g++十个最常用参数

    g 重要参数 1 g 产生调试信息 可以调试程序 2 O n 优化源代码 O0 不作优化 O1 默认 O2 指令调整 O3 循环展开 处理特性优化 编译速度会变慢 3 l指定库文件 L指定库文件路径 要链接哪些库 库直接紧接着比如 lglo
  • 36 openEuler搭建repo服务器-部署远端repo源

    文章目录 36 openEuler搭建repo服务器 部署远端repo源 36 1 nginx安装与配置 36 2 启动nginx服务 36 3 repo源部署 36 openEuler搭建repo服务器 部署远端repo源 安装openE
  • uniapp的分页方法skip方法调用报错 “offsetmust be integer“

    开发中使用官方分页查询列表数据报错 官方写法 一直报错 后面通过官网的文档找到skip方法介绍才知道问题 skip的参数必须是一个正整数 发现改成整数后可以调用成功 希望能给大家一点帮助 发现uniapp的云开发使用调试还是很麻烦 经常调用
  • 使用QT进行WIFI无线传输数据

    好久没有更新博客了 今天简单写下关于WiFi无线通信进行数据传输的相关内容 基于TCP IP协议的通信 代码在文章末尾 具体实现如下 1 首先win R 进入命令行 输入ipconfig查看WiFi网卡的IP地址 2 使用WiFi网址对网关
  • Python 字典 keys() 方法

    描述 Python 字典 keys 方法以列表形式 并非直接的列表 若要返回列表值还需调用list函数 返回字典中的所有的键 语法 keys 方法语法 D keys 参数 无 返回值 以列表形式返回字典中的所有的键 实例 以下实例展示了 k
  • hadoop3.1.1:启动hadoop进程提示ssh 22端口不能连接

    分析 由于在生产环境下 ssh的端口被修改成220 不是使用的默认端口 但是hadoop在启动相应进程的时候 使用的ssh默认端口 解决 1 命令行 临时 这种方式会导致关闭当前终端 该值失效 export HADOOP SSH OPTS
  • java ddd开发_Java开发架构篇《初识领域驱动设计DDD落地》

    作者 小傅哥 博客 https bugstack cn gt 沉淀 分享 成长 让自己和他人都能有所收获 一 前言 gt DDD Domain Driven Design 领域驱动设计 是由Eric Evans最先提出 目的是对软件所涉及到
  • 使用Vue的transition组件写一个数字滚动竟然如此简单

    使用vue的transition组件 来实现一个数字滚动效果 其实不仅可以是数字滚动 还可以是文字 段落滚动 代码片段使用了定位做的 还可以使用transform 只是一种思路 不限制方案 布局 没有别人写的东西炫酷 我都不知道怎么写内容了
  • PCA、SVD、谱聚类

    PCA SVD 谱聚类 1 PCA 2 SVD 3 LDA 4 谱聚类 4 1 无向权重图 4 2 相似矩阵 4 3 拉普拉斯矩阵 4 4 无向图切图 附录1 秩 和 特征值 附录2 协方差 附录3 卡方检验 1 PCA 所谓降维 就是要把