sklearn的make_classification函数生成随机的n类分类

2023-11-10

目录

make_classification函数生成随机的n类分类问题的简介

 示例如下


以下内容为官网内容以及个人的总结

下面有运行的示例,可以结合示例来对此函数进行了解,如需更多知识可以在中文官网查看

sklearn.datasets.make_classification-scikit-learn中文社区

make_classification函数生成随机的n类分类问题的简介

sklearn.datasets.make_classification(n_samples=100, n_features=20, *, n_informative=2, n_redundant=2, n_repeated=0, n_classes=2, n_clusters_per_class=2, weights=None, flip_y=0.01, class_sep=1.0, hypercube=True, shift=0.0, scale=1.0, shuffle=True, random_state=None)

最初,这将创建一个边长为2 * class_sep的正态分布(std=1)在n_informative维超立方体的顶点周围的点的聚类,并为每个类分配相等数量的聚类。它引入了这些功能之间的相互依赖性,并为数据增加了各种类型的进一步噪声。

在不进行shuffle的情况下,X按以下顺序水平堆叠特征:主要的n_informative特征,然后是n_redundant线性的信息特征组合,然后是n_repeated副本,从信息和冗余特征中随机替换。其余功能充满了随机噪声。因此,没有shuffle时,所有有用的功能都包含在列X [:,:n_informative + n_redundant + n_repeated]中。

参数 说明
n_samples int, optional (default=100)
样本数。
n_features int, optional (default=20)
功能总数。这些包括随机绘制的n_informative信息特征,n_redundant冗余特征,n_repeated重复特征和n_features-n_informative-n_redundant-n_repeated无用特征。
n_informative int, optional (default=2)
信息特征的数量。每个类都由多个高斯簇组成,每个簇围绕着超立方体的顶点位于n_informative维子空间中。对于每个聚类,独立于N(0,1)绘制信息特征,然后在每个聚类内随机线性组合以增加协方差。 然后将簇放置在超立方体的顶点上。
n_redundant int, optional (default=2)
冗余特征的数量。 这些特征是作为信息特征的随机线性组合生成的。
n_repeated int, optional (default=0)
从信息性和冗余性特征中随机抽取的重复性特征的数量。
n_classes int, optional (default=2)
分类问题的类(或标签)数。
n_clusters_per_class int, optional (default=2)
每个类的簇数。
weights array-like of shape (n_classes,) or (n_classes - 1,), (default=None)
分配给每个类别的样本比例。 如果为None,则类是平衡的。 请注意,如果len(weights)== n_classes-1,则自动推断最后一个类的权重。如果weights之和超过1,则可能返回多于n_samples个样本。
flip_y float, optional (default=0.01)
类别随机分配的样本比例。 较大的值会在标签中引入噪音,并使分类任务更加困难。 请注意,在某些情况下,默认设置flip_y> 0可能导致y中的类少于n_class。
class_sep float, optional (default=1.0)
超立方体大小乘以的因子。 较大的值分散了群集/类,并使分类任务更加容易。
hypercube boolean, optional (default=True)
如果为True,则将簇放置在超立方体的顶点上。 如果为False,则将簇放置在随机多面体的顶点上。
shift float, array of shape [n_features] or None, optional (default=0.0)
按指定值移动特征。 如果为None,则将特征移动[-class_sep,class_sep]中绘制的随机值。
scale float, array of shape [n_features] or None, optional (default=1.0)
将特征乘以指定值。如果为None,则将按[1,100]中绘制的随机值缩放要素。请注意,缩放发生在移位之后。
shuffle shuboolean, optional (default=True)
shuffle样本和特征。
random_state int, RandomState instance, default=None
确定用于生成数据集的随机数生成。 为多个函数调用传递可重复输出的int值。 请参阅词汇表
返回值 说明
X array of shape [n_samples, n_features]
生成的样本。
y array of shape [n_samples]
每个样本的类成员的整数标签。

 示例如下

from sklearn.datasets import make_classification
import matplotlib.pyplot as plt
X,y=make_classification(n_samples=300, n_features=2, n_informative=2, n_redundant=0, n_repeated=0, n_classes=2, n_clusters_per_class=1, weights=None, flip_y=0.01, class_sep=1.0, hypercube=True, shift=0.0, scale=100, shuffle=True, random_state=7)
plt.scatter(X[:,0],X[:,1],c=y)
plt.show()

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

sklearn的make_classification函数生成随机的n类分类 的相关文章

随机推荐

  • L2-002. 链表去重

    给定一个带整数键值的单链表L 本题要求你编写程序 删除那些键值的绝对值有重复的结点 即对任意键值K 只有键值或其绝对值等于K的第一个结点可以被保留 同时 所有被删除的结点必须被保存在另外一个链表中 例如 另L为21 15 15 7 15 则
  • 2019 MySQL 8 安全安装避坑指南

    1 安装vmware centos的虚拟机 省却安装vmware虚拟机管理的部分 centos7下载地址 官方 https www centos org download 镜像文件地址 http mirrors nju edu cn cen
  • Mathmatic 函数表

    一 运算符及特殊符号 Line1 执行Line 不显示结果 Line1 line2 顺次执行Line1 2 并显示结果 name 关于系统变量name的信息 name 关于系统变量name的全部信息 command 执行Dos命令 n N的
  • gdal读取tif常用函数

    读入文件 dataset gdal open filename 获取数据 dataset GetDescription 获得栅格的描述信息 dataset RasterCount 获得栅格数据集的波段数 band dataset GetRa
  • Cocos2d-x中的数组类CCArray深入分析

    前面的博文中我们提到了一个词典类CCDictionary 它和数组类CCArray共称Cocos2d x两大常用数据结构 因为在项目中数组类 CCArray我们使用的实在是太多了 因此这里补充一篇关于CCArray深入分析的博文 其中提到了
  • 把 14 亿中国人都拉到一个微信群在技术上能实现吗?

    点击上方 芋道源码 选择 设为星标 做积极的人 而不是积极废人 源码精品专栏 原创 Java 2019 超神之路 很肝 中文详细注释的开源项目 RPC 框架 Dubbo 源码解析 网络应用框架 Netty 源码解析 消息中间件 Rocket
  • 关于列表的扁平化

    Python2 from compiler ast import flatten a 1 2 3 4 5 6 7 8 9 In 3 flatten a Out 3 1 2 3 4 5 6 7 8 9 In 4 a 1 2 3 4 5 6 7
  • uni-app自定义全屏切换组件

    uni app自定义全屏切换组件 目录结构 顶部导航实现
  • python对变量的字符串不转义 变量如何加r

    这个变量是含有16进制 python继续操作不是原始字符串 不能进行正则匹配 如果是字面量字符串可以在前面直接加r 但是对于变量的话使用 repr 变量 来实现不进行转义 即 变量 repr 变量 repr 函数将对象转化为供解释器读取的形
  • 前端HTML学习(一)

    以上 在html的基础结构上 进行内容的编辑
  • 设计模式的 C++ 实现---装饰者模式

    前文回顾 单例模式 一 单例模式 二 观察者模式 简单工厂模式 工厂方法模式 一 工厂方法模式 二 抽象工厂模式 一 抽象工厂模式 二 原型模式 外观模式 中介者模式 代理模式 前言 装饰者模式的本质和代理模式的原理是一样的 体现了对一个既
  • 动态规划学习(整理了几个个人认为易懂的资料)

    1 一维背包问题 额 没想到 背包问题解题也有套路 排版美观 例子简明易懂 代码明了 2 TSP问题 1 图示DP解TSP 看看例子 代码就算了 2 代码 Python版 这个代码比较好看
  • Spark java.lang.OutOfMemoryError: Java heap space

    http stackoverflow com questions 21138751 spark java lang outofmemoryerror java heap space rq 1 My cluster 1 master 11 s
  • Word批量转PDF,宏批量转PDF

    Word批量转PDF 很多第三方工具都可以轻松实现 一般需要付费 这里 为大家提供一个VBA实现的方法 word原生功能 在word中使用使用宏VBA 实现批量转PDF 1 在Word中 打开你需要处理的doc文档 2 按住键盘ALT F1
  • 怎么查看网站用什么数据库服务器,怎么查看网站数据库服务器ip

    怎么查看网站数据库服务器ip 内容精选 换一换 内网域名是指仅在VPC内生效的虚拟域名 无需购买和注册 无需备案 云解析服务提供的内网域名功能 可以让您在VPC中拥有权威DNS 且不会将您的DNS记录暴露给互联网 解析性能更高 时延更低 并
  • react hook antd5.x解决table列宽大小问题

    由于项目多处使用到了table 所以这边我进行了封装 这边使用了react resizable模块 1 第一步 安装模块 安装模块 npm install react resizable save 2 第二步 封装组件 handleResi
  • 多条目展示+视频播放

    compile com android support design 26 compile com hjm BottomTabBar 1 1 1 compile com jakewharton butterknife 7 0 1 compi
  • [云原生专题-49]:Kubesphere云治理-操作-分步部署基于微服务的业务应用 - 基本过程与步骤

    作者主页 文火冰糖的硅基工坊 文火冰糖 王文兵 的博客 文火冰糖的硅基工坊 CSDN博客 本文网址 https blog csdn net HiWangWenBing article details 122925243 目录 第1章 部署基
  • 在电视中使用计算机动画最多的是,《多媒体技术》复习题及参考答案

    多媒体技术 复习题及参考答案 一 选择题 1 多媒体操作系统的典型代表是 A DOS B UNIX C SQL Sever D Windows 2 以下不属于声音文件的格式的是 A VVE B VOC C MIDI D SNO 3 是处理和
  • sklearn的make_classification函数生成随机的n类分类

    目录 make classification函数生成随机的n类分类问题的简介 示例如下 以下内容为官网内容以及个人的总结 下面有运行的示例 可以结合示例来对此函数进行了解 如需更多知识可以在中文官网查看 sklearn datasets m