sklearn的make_classification函数生成随机的n类分类

2023-11-10

目录

make_classification函数生成随机的n类分类问题的简介

 示例如下


以下内容为官网内容以及个人的总结

下面有运行的示例,可以结合示例来对此函数进行了解,如需更多知识可以在中文官网查看

sklearn.datasets.make_classification-scikit-learn中文社区

make_classification函数生成随机的n类分类问题的简介

sklearn.datasets.make_classification(n_samples=100, n_features=20, *, n_informative=2, n_redundant=2, n_repeated=0, n_classes=2, n_clusters_per_class=2, weights=None, flip_y=0.01, class_sep=1.0, hypercube=True, shift=0.0, scale=1.0, shuffle=True, random_state=None)

最初,这将创建一个边长为2 * class_sep的正态分布(std=1)在n_informative维超立方体的顶点周围的点的聚类,并为每个类分配相等数量的聚类。它引入了这些功能之间的相互依赖性,并为数据增加了各种类型的进一步噪声。

在不进行shuffle的情况下,X按以下顺序水平堆叠特征:主要的n_informative特征,然后是n_redundant线性的信息特征组合,然后是n_repeated副本,从信息和冗余特征中随机替换。其余功能充满了随机噪声。因此,没有shuffle时,所有有用的功能都包含在列X [:,:n_informative + n_redundant + n_repeated]中。

参数 说明
n_samples int, optional (default=100)
样本数。
n_features int, optional (default=20)
功能总数。这些包括随机绘制的n_informative信息特征,n_redundant冗余特征,n_repeated重复特征和n_features-n_informative-n_redundant-n_repeated无用特征。
n_informative int, optional (default=2)
信息特征的数量。每个类都由多个高斯簇组成,每个簇围绕着超立方体的顶点位于n_informative维子空间中。对于每个聚类,独立于N(0,1)绘制信息特征,然后在每个聚类内随机线性组合以增加协方差。 然后将簇放置在超立方体的顶点上。
n_redundant int, optional (default=2)
冗余特征的数量。 这些特征是作为信息特征的随机线性组合生成的。
n_repeated int, optional (default=0)
从信息性和冗余性特征中随机抽取的重复性特征的数量。
n_classes int, optional (default=2)
分类问题的类(或标签)数。
n_clusters_per_class int, optional (default=2)
每个类的簇数。
weights array-like of shape (n_classes,) or (n_classes - 1,), (default=None)
分配给每个类别的样本比例。 如果为None,则类是平衡的。 请注意,如果len(weights)== n_classes-1,则自动推断最后一个类的权重。如果weights之和超过1,则可能返回多于n_samples个样本。
flip_y float, optional (default=0.01)
类别随机分配的样本比例。 较大的值会在标签中引入噪音,并使分类任务更加困难。 请注意,在某些情况下,默认设置flip_y> 0可能导致y中的类少于n_class。
class_sep float, optional (default=1.0)
超立方体大小乘以的因子。 较大的值分散了群集/类,并使分类任务更加容易。
hypercube boolean, optional (default=True)
如果为True,则将簇放置在超立方体的顶点上。 如果为False,则将簇放置在随机多面体的顶点上。
shift float, array of shape [n_features] or None, optional (default=0.0)
按指定值移动特征。 如果为None,则将特征移动[-class_sep,class_sep]中绘制的随机值。
scale float, array of shape [n_features] or None, optional (default=1.0)
将特征乘以指定值。如果为None,则将按[1,100]中绘制的随机值缩放要素。请注意,缩放发生在移位之后。
shuffle shuboolean, optional (default=True)
shuffle样本和特征。
random_state int, RandomState instance, default=None
确定用于生成数据集的随机数生成。 为多个函数调用传递可重复输出的int值。 请参阅词汇表
返回值 说明
X array of shape [n_samples, n_features]
生成的样本。
y array of shape [n_samples]
每个样本的类成员的整数标签。

 示例如下

from sklearn.datasets import make_classification
import matplotlib.pyplot as plt
X,y=make_classification(n_samples=300, n_features=2, n_informative=2, n_redundant=0, n_repeated=0, n_classes=2, n_clusters_per_class=1, weights=None, flip_y=0.01, class_sep=1.0, hypercube=True, shift=0.0, scale=100, shuffle=True, random_state=7)
plt.scatter(X[:,0],X[:,1],c=y)
plt.show()

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

sklearn的make_classification函数生成随机的n类分类 的相关文章

  • 如何检索分配给 Django 中的组的所有权限

    我正在执行一项任务来检索分配给 Django 中的组的一组权限 我可以使用以下代码获取创建的组 但无法使用它来获取分配给它们的权限 from django contrib auth models import Group Permissio
  • 在 Jupyter Notebook 中设置环境变量的不同方法

    在某些情况下 我在 Windows 10 计算机上使用 Jupyter 笔记本 我想通过设置环境变量 GOOGLE APPLICATION CREDENTIALS 来向 GCP 进行身份验证 我想知道 这两种设置环境变量的方式有什么区别 当
  • 绝对导入不起作用,但相对导入起作用

    这是我的应用程序结构 foodo setup py foodo init py foodo py models py foodo foodo foodo py从导入类models py module from foodo models im
  • 如何将 numpy rearray 的子集转换为连续数组?

    我有一个recarray来自读取 csv 文件 我有兴趣将列的子集转换为连续浮点数组 我想避免将它们转换为列表或将它们一一堆叠 我尝试了中的建议https stackoverflow com a 11792956 https stackov
  • 当我从本地计算机更改为虚拟主机时,从 python 脚本调用 pdftotext 不起作用

    我编写了一个小的 python 脚本来解析 提取 PDF 中的信息 我在本地机器上测试了它 我有 python 2 6 2 和 pdftotext 版本 0 12 4 我正在尝试在我的虚拟主机服务器 dreamhost 上运行它 它有 py
  • 从字典中绘制直方图

    我创建了一个dictionary计算 a 中出现的次数list每个键的内容 我现在想绘制其内容的直方图 这是我想要绘制的字典的内容 1 27 34 1 3 72 4 62 5 33 6 36 7 20 8 12 9 9 10 6 11 5
  • dask apply:AttributeError:“DataFrame”对象没有属性“name”

    我有一个参数数据框 并对每一行应用一个函数 该函数本质上是几个 sql queries 和对结果的简单计算 我正在尝试利用 Dask 的多处理 同时保持结构和界面 下面的例子有效并且确实有显着的提升 def get metrics row
  • 如何仅注释堆积条形图的一个类别

    我有一个数据框示例 如下所示 data Date 2021 07 18 2021 07 19 2021 07 20 2021 07 21 2021 07 22 2021 07 23 Invalid NaN 1 1 NaN NaN NaN N
  • 同一台机器上有多个Python版本?

    Python 网站上是否有关于如何在 Linux 上的同一台计算机上安装和运行多个版本的 Python 的官方文档 我可以找到无数的博客文章和答案 但我想知道是否有 标准 官方方法可以做到这一点 或者这一切都取决于操作系统 我认为它是完全独
  • Python:“直接”调用方法是否实例化对象?

    我是 Python 新手 在对我的对象进行单元测试时 我注意到一些 奇怪 的东西 class Ape object def init self print ooook def say self s print s def main Ape
  • django 中的身份验证方法返回 None

    你好 我在 django 中做了一个简单的注册和登录页面 当想要登录时 登录视图中的身份验证方法不返回任何内容 我的身份验证应用程序 模型 py from django db import models from django contri
  • 导入目录下的所有模块

    有没有办法导入当前目录中的所有模块 并返回它们的列表 例如 对于包含以下内容的目录 mod py mod2 py mod3 py 它会给你
  • 如何全局安装 Python(开发)依赖项,以便我不必在每个 venv 中重新安装它们?

    我希望在为每个项目创建的每个 venv 虚拟环境 中都可以使用一些 Python 依赖项 例如 black flake8 和 pytest 这可能吗 如果可以 如何实现 我想安装这三个once在我的主要 Python 安装下 我必须在启动新
  • 更改用作函数全局作用域的字典

    我想做一个 purePython 的装饰器 其中一部分是能够有选择地禁止访问函数的全局范围 有没有一种方法可以以编程方式更改哪个字典事物充当函数的全局 外部作用域 因此 例如在下面我希望能够拦截对f in h并抛出错误 但我想允许访问g因为
  • 在 for 循环中访问 itertools 产品的元素

    我有一个列表列表 是附加 itertools 产品的一些其他结果的结果 我想要的是能够使用 for 循环访问列表列表中列表的每个元素 但我无法访问所有元素 我只能访问最后一个列表的元素 结果是一个非常巨大的列表列表 例如 1 2 4 3 6
  • 有没有办法拉伸整个显示图像以适应给定的分辨率?

    我最近一直在使用pygame制作游戏 遇到了一个小问题 基本上 我希望能够将屏幕上的整个图像 我已经传输到它的所有内容 拉伸到用户将窗口大小调整到的分辨率 我在 pygame 和堆栈溢出的文档中搜索了很多 但我似乎找不到答案 这可能吗 我的
  • 重定向 python 交互式帮助()

    我正在为使用 Qt 的应用程序开发交互式 python shell 但是我似乎无法获得重定向的交互式帮助 我的 python 代码中有这个 class OutputCatcher def init self self data def wr
  • 避免“散点/点/蜂群”图中的数据点重叠

    使用绘制点图时matplotlib 我想偏移重叠的数据点以使它们全部可见 例如 如果我有 CategoryA 0 0 3 0 5 CategoryB 5 10 5 5 10 我想要每一个CategoryA 0 数据点并排设置 而不是彼此重叠
  • 如何在supervisord中设置组?

    因此 我正在设置 Supervisord 并尝试控制多个进程 并且一切正常 现在我想设置一个组 以便我可以启动 停止不同的进程集 而不是全部或全无 这是我的配置文件的片段 group tapjoy programs tapjoy game1
  • 正则表达式 - 匹配不包含字符串的模式

    我对正则表达式很陌生 并且一直在寻找方法来做到这一点 但没有成功 给定一个字符串 我想删除以 abc 开头 以 abc 结尾且中间不包含 abc 的任何模式 如果我做 abc abc abc 它将匹配以 b 开头 以 abc 结尾并且中间包

随机推荐

  • L2-002. 链表去重

    给定一个带整数键值的单链表L 本题要求你编写程序 删除那些键值的绝对值有重复的结点 即对任意键值K 只有键值或其绝对值等于K的第一个结点可以被保留 同时 所有被删除的结点必须被保存在另外一个链表中 例如 另L为21 15 15 7 15 则
  • 2019 MySQL 8 安全安装避坑指南

    1 安装vmware centos的虚拟机 省却安装vmware虚拟机管理的部分 centos7下载地址 官方 https www centos org download 镜像文件地址 http mirrors nju edu cn cen
  • Mathmatic 函数表

    一 运算符及特殊符号 Line1 执行Line 不显示结果 Line1 line2 顺次执行Line1 2 并显示结果 name 关于系统变量name的信息 name 关于系统变量name的全部信息 command 执行Dos命令 n N的
  • gdal读取tif常用函数

    读入文件 dataset gdal open filename 获取数据 dataset GetDescription 获得栅格的描述信息 dataset RasterCount 获得栅格数据集的波段数 band dataset GetRa
  • Cocos2d-x中的数组类CCArray深入分析

    前面的博文中我们提到了一个词典类CCDictionary 它和数组类CCArray共称Cocos2d x两大常用数据结构 因为在项目中数组类 CCArray我们使用的实在是太多了 因此这里补充一篇关于CCArray深入分析的博文 其中提到了
  • 把 14 亿中国人都拉到一个微信群在技术上能实现吗?

    点击上方 芋道源码 选择 设为星标 做积极的人 而不是积极废人 源码精品专栏 原创 Java 2019 超神之路 很肝 中文详细注释的开源项目 RPC 框架 Dubbo 源码解析 网络应用框架 Netty 源码解析 消息中间件 Rocket
  • 关于列表的扁平化

    Python2 from compiler ast import flatten a 1 2 3 4 5 6 7 8 9 In 3 flatten a Out 3 1 2 3 4 5 6 7 8 9 In 4 a 1 2 3 4 5 6 7
  • uni-app自定义全屏切换组件

    uni app自定义全屏切换组件 目录结构 顶部导航实现
  • python对变量的字符串不转义 变量如何加r

    这个变量是含有16进制 python继续操作不是原始字符串 不能进行正则匹配 如果是字面量字符串可以在前面直接加r 但是对于变量的话使用 repr 变量 来实现不进行转义 即 变量 repr 变量 repr 函数将对象转化为供解释器读取的形
  • 前端HTML学习(一)

    以上 在html的基础结构上 进行内容的编辑
  • 设计模式的 C++ 实现---装饰者模式

    前文回顾 单例模式 一 单例模式 二 观察者模式 简单工厂模式 工厂方法模式 一 工厂方法模式 二 抽象工厂模式 一 抽象工厂模式 二 原型模式 外观模式 中介者模式 代理模式 前言 装饰者模式的本质和代理模式的原理是一样的 体现了对一个既
  • 动态规划学习(整理了几个个人认为易懂的资料)

    1 一维背包问题 额 没想到 背包问题解题也有套路 排版美观 例子简明易懂 代码明了 2 TSP问题 1 图示DP解TSP 看看例子 代码就算了 2 代码 Python版 这个代码比较好看
  • Spark java.lang.OutOfMemoryError: Java heap space

    http stackoverflow com questions 21138751 spark java lang outofmemoryerror java heap space rq 1 My cluster 1 master 11 s
  • Word批量转PDF,宏批量转PDF

    Word批量转PDF 很多第三方工具都可以轻松实现 一般需要付费 这里 为大家提供一个VBA实现的方法 word原生功能 在word中使用使用宏VBA 实现批量转PDF 1 在Word中 打开你需要处理的doc文档 2 按住键盘ALT F1
  • 怎么查看网站用什么数据库服务器,怎么查看网站数据库服务器ip

    怎么查看网站数据库服务器ip 内容精选 换一换 内网域名是指仅在VPC内生效的虚拟域名 无需购买和注册 无需备案 云解析服务提供的内网域名功能 可以让您在VPC中拥有权威DNS 且不会将您的DNS记录暴露给互联网 解析性能更高 时延更低 并
  • react hook antd5.x解决table列宽大小问题

    由于项目多处使用到了table 所以这边我进行了封装 这边使用了react resizable模块 1 第一步 安装模块 安装模块 npm install react resizable save 2 第二步 封装组件 handleResi
  • 多条目展示+视频播放

    compile com android support design 26 compile com hjm BottomTabBar 1 1 1 compile com jakewharton butterknife 7 0 1 compi
  • [云原生专题-49]:Kubesphere云治理-操作-分步部署基于微服务的业务应用 - 基本过程与步骤

    作者主页 文火冰糖的硅基工坊 文火冰糖 王文兵 的博客 文火冰糖的硅基工坊 CSDN博客 本文网址 https blog csdn net HiWangWenBing article details 122925243 目录 第1章 部署基
  • 在电视中使用计算机动画最多的是,《多媒体技术》复习题及参考答案

    多媒体技术 复习题及参考答案 一 选择题 1 多媒体操作系统的典型代表是 A DOS B UNIX C SQL Sever D Windows 2 以下不属于声音文件的格式的是 A VVE B VOC C MIDI D SNO 3 是处理和
  • sklearn的make_classification函数生成随机的n类分类

    目录 make classification函数生成随机的n类分类问题的简介 示例如下 以下内容为官网内容以及个人的总结 下面有运行的示例 可以结合示例来对此函数进行了解 如需更多知识可以在中文官网查看 sklearn datasets m