机器学习 高维数据可视化:t-SNE 降维算法

2023-12-17

✅作者简介:人工智能专业本科在读,喜欢计算机与编程,写博客记录自己的学习历程。
????个人主页: 小嗷犬的个人主页
????个人网站: 小嗷犬的技术小站
????个人信条:为天地立心,为生民立命,为往圣继绝学,为万世开太平。



t-SNE 简介

t-SNE 的全称为 t-Distributed Stochastic Neighbor Embedding,是一种非线性降维算法,它可以将高维数据映射到低维空间,同时保持数据间的相对距离不变。t-SNE 通常用于可视化高维数据,它可以将高维数据映射到二维或三维空间,从而可以通过图形的方式展示数据的特征。

相比于 PCA 等线性降维算法,t-SNE 能够更好地保留数据的局部结构,因此在可视化高维数据时,t-SNE 通常能够展示出更好的效果。

sklearn 中的 t-SNE

sklearn 中的 t-SNE 位于 sklearn.manifold.TSNE ,它的主要参数有:

  • n_components :降维后的维度,默认为 2
  • perplexity :困惑度,用于控制每个点周围的邻域大小,默认为 30,通常取值在 5 到 50 之间
  • early_exaggeration :控制 t-SNE 与原始空间距离的关注度,值越大,t-SNE 与原始空间距离越大,默认为 12
  • learning_rate :学习率,默认为 200,通常取值在 10 到 1000 之间
  • n_iter :迭代次数,默认为 1000
  • n_iter_without_progress :当连续多少次迭代没有改善时,训练提前结束,默认为 300
  • min_grad_norm :梯度的最小值,当梯度的平方和小于该值时,训练提前结束,默认为 1e-7
  • metric :距离度量,默认为欧氏距离
  • init :初始化,默认为随机初始化,也可以设置为 pca ,表示使用 PCA 进行初始化
  • verbose :是否打印训练过程,默认为 0,不打印
  • random_state :随机种子

t-SNE 的训练过程比较耗时,因此在实际使用时,通常会先使用 PCA 等线性降维算法将数据降到较低的维度,然后再使用 t-SNE 将数据降到二维或三维空间。

使用 t-SNE 可视化手写数字数据集

下面我们使用 t-SNE 将手写数字数据集降到二维空间,并将降维后的数据可视化。

导入需要的包:

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt

from sklearn import manifold, datasets
from sklearn.preprocessing import MinMaxScaler

from torchvision import datasets

加载手写数字数据集:

digits = datasets.MNIST("./data", train=True, download=True)
X, y = digits.data.numpy().reshape(-1, 28 * 28), digits.targets.numpy()
n = 5000
X, y = X[:n], y[:n]
X.shape, y.shape  # ((5000, 784), (5000,))

可视化原始数据:

n = 10  # 显示 10 * 10 个数字
img = np.zeros((30 * n, 30 * n))
for i in range(n):
    ix = 30 * i + 1
    for j in range(n):
        iy = 30 * j + 1
        img[ix : ix + 28, iy : iy + 28] = X[i * n + j].reshape(28, 28)
plt.figure(figsize=(8, 8))
plt.imshow(img, cmap=plt.cm.binary)
plt.axis("off")
plt.show()

MNIST

使用 t-SNE 将数据降到二维空间并可视化:

# t-SNE 降维
tsne = manifold.TSNE(n_components=2, init="pca", random_state=0)
X_tsne = tsne.fit_transform(X)

# 归一化
scaler = MinMaxScaler()
X_norm = scaler.fit_transform(X_tsne)

# 可视化
plt.figure(figsize=(9, 9))
for i in range(X_norm.shape[0]):
    plt.text(
        X_norm[i, 0],
        X_norm[i, 1],
        str(y[i]),
        color=plt.cm.tab10(y[i]),
        fontdict={"size": 12},
        va="center",
        ha="center",
    )
plt.axis("off")
plt.show()

t-SNE

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

机器学习 高维数据可视化:t-SNE 降维算法 的相关文章

随机推荐

  • OSG中几何体的绘制(一)

    本章主要介绍一些几何体的绘制方法 绘制几何体在场景中是非常常见的 也是最基本的 在很多应用程序中可以看到相当复杂的场景 但不管场景有多复杂 它们都是由少数几个基本的图形元素构建而成的 只要想想达芬奇那些伟大的作品也是由铅笔和画刷所完成的 读
  • xtcocotools 安装 mmcv

    目录 xtcocotools 2023测试成功 mmcv安装方法 xtcocotools 2023测试成功 pip install xtcocotools mmcv安装方法 pip install U openmim mim install
  • 星纵物联2024届秋招/校招内推信息/内推码

    公司名称 星纵物联 内推码 ESVMA3 内推来源 内推鸭小程序 官方招聘网站 厦门星纵物联招聘官网
  • yyy888

    8
  • MyBatis中的MapperScan的作用是干什么的?

    MapperScan 是 MyBatis Plus 提供的注解 它的作用是扫描指定包下的所有接口 将其注册成 MyBatis 的 Mapper 在 MyBatis Plus 中 它是用于替代原生 MyBatis 中 XML 配置文件中的
  • HarmonyOS(十四)——状态管理之@State装饰器(组件内状态)

    前言 在 初识状态管理 我们了解了状态管理的基本概念 以及管理组件拥有的状态有哪几种装饰器 今天我们就来认识一下第一种装饰器 State装饰器 组件内状态 概述 State装饰的变量 或称为状态变量 一旦变量拥有了状态属性 就和自定义组件的
  • LeetCode经典150题Golang版.121. 买卖股票的最佳时机

    题目 121 买卖股票的最佳时机 给定一个数组 prices 它的第 i 个元素 prices i 表示一支给定股票第 i 天的价格 你只能选择 某一天 买入这只股票 并选择在 未来的某一个不同的日子 卖出该股票 设计一个算法来计算你所能获
  • Node.js 工作线程与子进程:应该使用哪一个

    Node js 工作线程与子进程 应该使用哪一个 并行处理在计算密集型应用程序中起着至关重要的作用 例如 考虑一个确定给定数字是否为素数的应用程序 如果我们熟悉素数 我们就会知道必须从 1 遍历到该数的平方根才能确定它是否是素数 而这通常非
  • 优质全套Spring全套教程

    hello 我是小索奇 这里把Spring全套笔记分享出来哈 便于大家查看 一起加油 Spring 1 Spring简介 1 1 Spring概述 官网地址 Spring Home Spring 是最受欢迎的企业级 Java 应用程序开发框
  • 学习区分dB、dBm、dBuV、dBi

    dB 对于分贝的概念 很多朋友最早接触这个概念 是用 分贝 评估声音的大小 声音的大小用分贝 dB 表示 是一种对数单位 用来描述声音的强度或功率比例 如果P是我们需要测试的声压级或声功率级 P0是参考值 通常取为标准听觉阈限的声压级 X
  • 最强Pose模型RTMO开源 | 基于YOLO架构再设计,9MB+9ms性能完爆YOLO-Pose

    实时多人在图像中的姿态估计面临着在速度和精度之间实现平衡的重大挑战 尽管两阶段的上下文方法在图像中人数增加时会减慢速度 但现有的单阶段方法往往无法同时实现高精度和实时性能 本文介绍了RTMO 这是一个单阶段姿态估计框架 通过在YOLO架构中
  • 腾讯技术工程总结-主流消息队列你了解哪些?

    文章参考 腾讯技术工程 关于消息队列的知识总结 主流消息队列你了解哪些 消息队列的发展历程 2003 年至今有很多优秀的消息队列诞生 如 kafka 阿里自研的 rocketmq 以及后起之秀 pulsar 消息队列在刚出现所需要解决的问题
  • 时序预测 | Python实现CNN-LSTM电力需求预测

    时序预测 Python实现CNN LSTM电力需求预测 目录 时序预测 Python实现CNN LSTM电力需求预测 预测效果 基本描述 程序设计 参考资料
  • 优质全套SpringMVC教程

    三 SpringMVC 在SSM整合中 MyBatis担任的角色是持久层框架 它能帮我们访问数据库 操作数据库 Spring能利用它的两大核心IOC AOP整合框架 1 SpringMVC简介 1 1 什么是MVC MVC 是一种软件架构的
  • MySQL数据库 DML

    目录 DML概述 添加数据 修改数据 删除数据 DML概述 DML英文全称是Data Manipulation Language 数据操作语言 用来对数据库中表的数据记录进行增 删 改操作 添加数据 工NSERT 修改数据 UPDATE 删
  • 【毕设项目】视频人像背景替换器-抠出视频中人像到动态背景中去

    描述 环境 简而言之 使用人体语义分割实现抠图替换动态背景 首先毫无疑问就是环境配置 附上链接 开始使用 飞桨 源于产业实践的开源深度学习平台 paddlepaddle org cn https www paddlepaddle org c
  • 第二百一十回

    文章目录 1 概念介绍 2 实现方法 2 1 整体思路 2 2 具体步骤 3 代码与效果 3 1 示例代码 3 2 运行效果 4 内容总结
  • MySQL数据库 DCL

    目录 DCL概述 管理用户 权限控制 DCL概述 DCL英文全称是 Data Control Language 数据控制语言 用来管理数据库用户 控制数据库的访 问权限 管理用户 1 查询用户 select from mysql user
  • 【算法刷题】每日打卡——动态规划(1)

    背包问题 例题一 有 N件物品和一个容量是 V 的背包 每件物品只能使用一次 第 i件物品的体积是 vi 价值是 wi 求解将哪些物品装入背包 可使这些物品的总体积不超过背包容量 且总价值最大 输出最大价值 输入格式 第一行两个整数 N V
  • 机器学习 高维数据可视化:t-SNE 降维算法

    作者简介 人工智能专业本科在读 喜欢计算机与编程 写博客记录自己的学习历程 个人主页 小嗷犬的个人主页 个人网站 小嗷犬的技术小站 个人信条 为天地立心 为生民立命 为往圣继绝学 为万世开太平 本文目录 t SNE 简介 sklearn 中