基于Sklearn实现LDA算法

2023-11-01

文章目录

一、LDA算法
二、sklearn实现LDA
三、结果如图
四、总结
五、参考

一、LDA算法

1.线性判别分析（Linear Discriminant Analysis, LDA）方法常被用于数据预处理中的降维（dimensionality reduction）步骤。LDA在保证良好的类别区分度的前提下，将数据集向更低维空间投影，以求在避免过拟合（“维数灾难”）的同时，减小计算消耗。

2.计算步骤

计算数据集中不同类别数据的 d 维均值向量。
计算散布矩阵，包括类间、类内散布矩阵。
计算散布矩阵的特征向量 e1,e2,…,ed 和对应的特征值 λ1,λ2,…,λd。
将特征向量按特征值大小降序排列，然后选择前 k 个最大特征值对应的特征向量，组建一个 d×k 维矩阵——即每一列就是一个特征向量。
用这个 d×k-维特征向量矩阵将样本变换到新的子空间。这一步可以写作矩阵乘法 Y=X×W 。 X 是 n×d 维矩阵，表示 n 个样本； y 是变换到子空间后的 n×k 维样本。

二、sklearn实现LDA

1.导入包

from sklearn.linear_model import LogisticRegression
from sklearn.discriminant_analysis import LinearDiscriminantAnalysis as LDA
from sklearn.preprocessing import StandardScaler
from sklearn.model_selection import train_test_split
from matplotlib.colors import ListedColormap
import matplotlib.pyplot as plt
import pandas as pd
import numpy as np

2.定义可视化函数用于结果展示

#可视化函数
def plot_decision_regions(x, y, classifier, resolution=0.02):
    markers = ['s', 'x', 'o', '^', 'v']
    colors = ['r', 'g', 'b', 'gray', 'cyan']
    cmap = ListedColormap(colors[:len(np.unique(y))])
    x1_min, x1_max = x[:, 0].min() - 1, x[:, 0].max() + 1
    x2_min, x2_max = x[:, 1].min() - 1, x[:, 1].max() + 1
    xx1, xx2 = np.meshgrid(np.arange(x1_min, x1_max, resolution), np.arange(x2_min, x2_max, resolution))
    z = classifier.predict(np.array([xx1.ravel(), xx2.ravel()]).T)
    z = z.reshape(xx1.shape)
    plt.contourf(xx1, xx2, z, alpha=0.4, cmap=cmap)
 
    for idx, cc in enumerate(np.unique(y)):
        plt.scatter(x=x[y == cc, 0],
                    y=x[y == cc, 1],
                    alpha=0.6,
                    c=cmap(idx),
                    edgecolor='black',
                    marker=markers[idx],
                    label=cc)

3.拟合数据

#数据集来源
data = pd.read_csv('https://archive.ics.uci.edu/ml/machine-learning-databases/wine/wine.data',header=None)

#切割数据集
#x数据
#y标签
x, y = data.iloc[:, 1:].values, data.iloc[:, 0].values

#按照8:2比例划分训练集和测试集
x_train, x_test, y_train, y_test = train_test_split(x, y, test_size=0.2, stratify=y, random_state=0)

#标准化单位方差
sc = StandardScaler()
x_train_std = sc.fit_transform(x_train)
x_test_std = sc.fit_transform(x_test)

lda = LDA(n_components=2)
lr = LogisticRegression()

#训练
x_train_lda = lda.fit_transform(x_train_std, y_train)
#测试
x_test_lda = lda.fit_transform(x_test_std, y_test)
#拟合
lr.fit(x_train_lda, y_train)

4.结果展示

# 画图高宽，像素
plt.figure(figsize=(6, 7), dpi=100)  
plot_decision_regions(x_train_lda, y_train, classifier=lr)
plt.show()

三、结果如图

在这里插入图片描述

四、总结

LDA优点：

LDA在样本分类信息依赖均值而不是方差的时候，比PCA分类的算法更优
在降维过程中可以使用类别的先验知识经验，而像PCA这样的无监督学习则无法使用类别先验知识

LDA缺点：

LDA与PCA都不适合对非高斯分布的样本进行降维
LDA降维最多降到类别数K-1的维数
LDA在样本分类信息依赖方差而不是均值的时候降维效果不好
LDA可能过度拟合数据

五、参考

https://blog.csdn.net/Charzous/article/details/108064317

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

人工智能

sklearn

算法

python

基于Sklearn实现LDA算法的相关文章

区分大小写的实体识别

我的关键字全部以小写形式存储例如折扣耐克鞋我正在尝试对其执行实体提取我遇到的问题是 spaCy 在 NER 方面似乎区分大小写请注意我不认为这是 spaCy 特有的当我跑步时 doc nlp u i love nike sho
minAreaRect OpenCV 返回的裁剪矩形 [Python]

minAreaRectOpenCV 中返回一个旋转的矩形如何裁剪矩形内图像的这部分 boxPoints返回旋转矩形的角点的坐标以便可以通过循环框内的点来访问像素但是在 Python 中是否有更快的裁剪方法 EDIT See code在
如何使用我自己的自定义表单覆盖 django-rest-auth 中的表单？

我正在使用 django rest auth 并尝试通过覆盖表单的方法之一来修复密码重置视图中的错误尽管我已经使用不同的 django rest auth 表单成功完成了类似的操作但我无法让它在这个表单上工作无论我做什么都会使用旧的
绝对导入不起作用，但相对导入起作用

这是我的应用程序结构 foodo setup py foodo init py foodo py models py foodo foodo foodo py从导入类models py module from foodo models im
计算熊猫数据帧几个月的总和

我有一个 pandas 数据框如下所示 ID Year R1 R1 f KAR1 20201001 1 5 KAR1 20201101 2 6 KAR1 20201201 3 7 KAR1 20210101 4 8 KAR1 202102
如何将脚本作为 pytest 测试运行

假设我有一个用简单脚本表示的测试assert 陈述请参阅背景了解原因例如 import foo assert foo 3 4 我如何以一种好的方式将该脚本包含在我的 pytest 测试套件中我尝试了两种有效但不太好的方法一种方法是将
如果另一列中的值为空，则删除重复项 - Pandas

我拥有的 df Name Vehicle Dave Car Mark Bike Steve Car Dave Steve 我想从名称列中删除重复项但前提是车辆列中的相应值为空我知道我可以使用 df dropduplicates
Python sys.modules 包含尚未导入的模块

我试图了解加载的模块与导入的模块之间的区别如果有的话我正在使用 Python 2 7 3 并且只是从命令行运行 Python 如果我执行 import sys sys modules 我得到一个列表其中包括os 例如文档说sys m
Django Web 应用程序中的 SMTP 问题

我被要求向使用 Django Python 框架实现的现有程序添加一个功能此功能将允许用户单击一个按钮该按钮将显示一个小对话框表单以输入值我确实编写了一些代码显示电子邮件已发送的消息但实际上它没有发送 My code from
如何仅注释堆积条形图的一个类别

我有一个数据框示例如下所示 data Date 2021 07 18 2021 07 19 2021 07 20 2021 07 21 2021 07 22 2021 07 23 Invalid NaN 1 1 NaN NaN NaN N
导入目录下的所有模块

有没有办法导入当前目录中的所有模块并返回它们的列表例如对于包含以下内容的目录 mod py mod2 py mod3 py 它会给你
操作错误：尝试在 ubuntu 服务器中写入只读数据库

我正在使用 FlaskApp 运行mod wsgi and apache2在 Ubuntu 服务器上我尝试运行烧瓶应用程序localhost成功然后部署到ubuntu服务器上但是当我尝试更新数据库时出现错误 Failed to up
异步异常处理程序：在事件循环线程停止之前不会被调用

我正在我的异步事件循环上设置异常处理程序但是在事件循环线程停止之前它似乎不会被调用例如考虑以下代码 def exception handler loop context print Exception handler called
Python matplotlib：将轴标签/图例从粗体更改为常规粗细

我正在尝试制作一些出版质量的图但遇到了一个小问题默认情况下 matplotlib 轴标签和图例条目的权重似乎比轴刻度线重是否有办法强制轴标签图例条目与刻度线的重量相同 import matplotlib pyplot as plt
在 anaconda 环境下运行 qsub

我有一个程序通常在 Linux 的 conda 环境中运行因为我用它来管理我的库指令如下 source activate my environment python hello world py 我怎样才能跑你好世界 py在与 PBS
在不同的 GPU 上同时训练多个 keras/tensorflow 模型

我想在 Jupyter Notebook 中同时在多个 GPU 上训练多个模型我正在使用 4GPU 的节点上工作我想将一个 GPU 分配给一个模型并同时训练 4 个不同的模型现在我通过例如为一台笔记本选择 GPU import
使用 Numpy 进行多维批量图像卷积

在图像处理和分类网络中一个常见的任务是输入图像与一些固定滤波器的卷积或互相关例如在卷积神经网络 CNN 中这是一种极其常见的操作我已将通用版本任务减少为 Given 一批 N 个图像 N H W D 和一组 K 个滤镜 K H W
python 日志记录替代方案 [关闭]

Closed 此问题正在寻求书籍工具软件库等的推荐不满足堆栈溢出指南 help closed questions 目前不接受答案蟒蛇记录模块 http docs python org library logging html使用起来
如何在 Qt 中以编程方式制作一条水平线

我想弄清楚如何在 Qt 中制作一条水平线这很容易在设计器中创建但我想以编程方式创建一个我已经做了一些谷歌搜索并查看了 ui 文件中的 xml 但无法弄清楚任何内容 ui 文件中的 xml 如下所示
当训练和测试的特征数量不同时，如何处理生产环境中的One-Hot Encoding？

在做某些实验时我们通常在 70 上进行训练在 33 上进行测试但是当您的模型投入生产时会发生什么可能会发生以下情况训练集 Ser Type Of Car 1 Hatchback 2 Sedan 3 Coupe 4 SUV 经过

随机推荐

linux 动态库段错误,dlopen加载so动态链接库出现段错误的问题

so库中暴露出来的函数写在某基类头文件中大体如下 ifdef cplusplus extern C endif Object construct return new Object void destroy Object object
Linux操作系统基础知识学习

Q1 什么是GNU Linux与GNU有什么关系 A 1 GNU是GNU is Not Unix的递归缩写是自由软件基金会 Free Software Foundation FSF 的一个项目该项目已经开发了许多高质量的编程工具包括e
STM32串口调试一直打印 00 00

在STM32串口调试过程中通过printf函数往串口打印英文字母串口助手却一直收到 00 凭直觉这种情况一般都是时钟没配置好但是查代码很难找到原因经过反复查找发现是STM32CubeMX中时钟源选择错误就是下面这个地方切记一
Go 语言运行时环境变量快速导览

原文 http dave cheney net 2015 11 29 a whirlwind tour of gos runtime environment variables Go 语言运行时环境变量快速导览介绍 Go Runtime除
ubuntu 打包deb并带有安装目录

0 简介当在ubuntu下开发了一个工程期望以deb包的形式发布出去的时候会涉及到打包操作基本指令是 dpkg b
docker registry2 仓库搭建与使用

docker registry2 仓库搭建与使用 docker pull registry 1 docker io distribution registry 2 1 1 以TLS证书认证启动docker registry2 产生证书 mk
hibernate关联关系

前言今天要分享的知识是hibernate框架的关联关系码字不易点个赞转载请说明开发工具 eclipse 目录一一对多的配置二懒加载 1 定义懒加载可以这样理解只加载某一项东西其他的东西不会加载 2 操作在我们进行项
问题解决：WSL2 中进行 apt-get-update 失败

WSL2 子系统在一些操作上还是很方便的但因为有些配置和 Windows 共用的原因总会出现这样那样的问题比如今天安装 Redis 的时候需要提前进行包更新结果却报错 Failed to fetch 这个问题的出现我首先是考虑国外源
Error: JAVA_HOME is not set

启动Hadoop时显示这句话解决方法通过echo JAVA HOME找到java安装目录在hadoop的配置目录etc hadoop中我的是 usr local hadoop etc hadoop 修改hadoop env sh配置
jenkins - Manage and Assign Roles

Role Strategy Plugin 插件针对多个project进行权限控制访问上几张图希望你能看明白哈哈 1 png 710dba0dgy1fkgqp3cze1j219g0kmn24 jpg 710dba0dgy1fkgqp
MySQL查询语句in子查询的优化

项目中有需要使用MySQL的in子查询查询符合in子查询集合中条件的数据但是没想到的是 MySQL的in子查询会如此的慢让人无法接收于是上网搜索解决办法下面记录下一原始in子查询 SELECT FROM basic zdjb
Ubuntu系统上安装WPS

前言在Ubuntu系统下想使用WPS的功能觉得用起来更加方便所以在此记录一下安装的步骤记录两种安装方法方法一 Ubuntu Software中搜索WPS 如图所示在Ubuntu Software中搜索WPS 可能需要稍等一会再
python使用局部敏感性哈希算法，在海量数据中查询相似序列

文章目录一原生python实现二第三方库datasketch使用 1 官方示例 2 LSH算法 3 MinHashLSHForest 局部敏感性哈希是指相似的哈希具有相似的原始序列整体思路首先将数据装在不同的桶里通过桶之间的
2023国赛数学建模思路 - 案例：随机森林

文章目录 1 什么是随机森林 2 随机深林构造流程 3 随机森林的优缺点 3 1 优点 3 2 缺点 4 随机深林算法实现建模资料 0 赛题思路赛题出来以后第一时间在CSDN分享 https blog csdn net dc sinor
隐私计算S2赛季-谁是真正的王者

去年至今隐私计算大约经历了如火如荼的一年身为局中人看穿居中事道尽居中话为的无非是让更多的来了解这个比较细分的AI领域秋天本是硕果累累的丰收季隐私计算这个行业算是金秋吗一喜一悲一喜为百花齐放我所知道在布挂局钩隐私计
VL53L0X调试总结

最近调VL53L0X花了不少时间特总结下 https www st com content st com en search html q vl53l t products page 1 VL53L0X测距2m VL53L1X测距4m 支
networkx 中文学习手册

文章目录创建图表节点边检查图的元素从图中删除元素使用图构造函数什么用作节点和边访问边和邻居向图节点和边添加属性图形属性节点属性边缘属性多图图生成器和图操作 1 应用经典的图操作例如 2 使用对经典小图之一的调
Harmony OS WiFi编程——连接热点、创建热点

本节主要介绍如何在HiSpark WiFi IoT套件上使用Hamony OS的WiFi相关编程接口相关知识点 WiFi的工作模式 AP模式热点模式提供无线接入服务允许其它无线设备接入提供数据访问一般的无线路由网桥工作在该模式
JavaNote 1.7final、finally、访问权限

一 final 1 final的变量的值不能被改变 2 final的方法不能被重写 3 final的类不能被继承二 finally finally 语句块必须执行通常在finally语句块中执行资源清除工作如关闭打开的文件删除临时
基于Sklearn实现LDA算法

文章目录一 LDA算法二 sklearn实现LDA 三结果如图四总结五参考一 LDA算法 1 线性判别分析 Linear Discriminant Analysis LDA 方法常被用于数据预处理中的降维 dimension