将训练数据拆分为每个类的相同行数

2023-12-05

我有一个非常大的数据集，大约有 314554097 行和 3 列。第三列是班级。该数据集有两个类 0 和 1。我需要将数据分为测试数据和训练数据。要分割我可以使用的数据

from sklearn.cross_validation import train_test_split . 
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size = 0.75, random_state = 0)

但是，数据集包含大约 99% 的类 0 和仅 1% 的类 1。在训练数据集中，我需要相同数量的类 0 和类 1，比如两个类各 30000 行。我该怎么做？

您可能正在寻找处理不平衡数据的解决方案。您可以遵循以下一些方法。

Resampling: (Over sampling of minority class data points or Under sampling of majority class data points)

在你的情况下，第 1 类是少数群体
根据阶层不平衡的比例，给予少数阶层更多的权重
选择正确的绩效指标。

但如果您仍然需要 30k 的 1 类和 0 类数据点，请尝试以下操作：

X_train_sample_class_1 = X_train[X_train['third_column_name'] == 1][:30000]
X_train_sample_class_0 = X_train[X_train['third_column_name'] == 0][:30000]

现在你可以结合X_train_sample_class_1 & X_train_sample_class_0形成一个具有平衡数据集的新数据集

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

machinelearning

scikitlearn

将训练数据拆分为每个类的相同行数的相关文章

如何在seaborn中绘制离散变量的分布图

当我画画的时候displot对于离散变量分布可能不像我想象的那样例如 We can find that there are crevices in the barplot so that the curve in kdeplot is
将相同的 Patch 实例添加到 matplotlib 中的多个子图中

我正在尝试将补丁的相同实例添加到 matplotlib 中的多个轴这是最小的例子 import matplotlib pyplot as mpl plt import matplotlib patches as mpl patches f
在Python中清理属于不同语言的文本

我有一个文本集合其中的句子要么完全是英语印地语或马拉地语每个句子附加的 id 为 0 1 2 分别代表文本的语言无论任何语言的文本都可能有 HTML 标签标点符号等我可以使用下面的代码清理英语句子 import HTMLPars
如何解决CDK CLI版本不匹配的问题

我收到以下错误此 CDK CLI 与您的应用程序使用的 CDK 库不兼容请将CLI升级到最新版本云程序集架构版本不匹配支持的最大架构版本为 8 0 0 但发现为 9 0 0 发出后cdk diff命令我确实跑了npm instal
如何在每次运行 python 程序时添加新列

我希望我的表的第一列作为卷号第二列作为名称每当我运行 python 程序时我想在表中添加一列日期在这个新列中我想填充从 user list 获得的列表将包含值 P A P P 等如何处理我尝试首先通过 alter 命令添加一列
为什么在 __init__ 函数中声明描述符类会破坏描述符功能？

在下面的 B 类中我想要 set 每当您赋值给 A 类中的函数时就会调用该函数B a 相反将值设置为B a覆盖B a与价值 C类分配给C a工作正常但我想为每个用户类都有一个单独的 A 实例即我不想在 C 的一个实例中更改 a 来
Python 在 64 位 vista 上获取 os.environ["ProgramFiles"] 的错误值

Vista64 计算机上的 Python 2 4 3 环境中有以下2个变量 ProgramFiles C Program Files ProgramFiles x86 C Program Files x86 但是当我运行以下命令时 impo
如何使用 numpy 从一维数组创建对角矩阵？

我正在使用 Python 和 numpy 来做线性代数我表演了numpy对矩阵进行 SVD 以获得矩阵 U i 和 V 然而 i 矩阵表示为 1 行的 1x4 矩阵 IE 12 22151125 4 92815942 2 06380839
python lxml 使用iterparse编辑并输出xml

我已经在 lxml 库上摆弄了一段时间了也许我没有正确理解它或者我错过了一些东西但我似乎无法弄清楚在捕获某个 xpath 后如何编辑文件并且然后能够在逐个元素解析时将其写回到 xml 中假设我们有这个 xml 作为示例
Python Tkinter 网格复选框

我想知道是否有一种简单的方法可以使用 Tkinter 创建复选框网格我正在尝试制作一个由 10 行和 10 列即 100 个复选框组成的网格以便每行只能选择两个复选框编辑我正在使用带有spyder的python 2 7 到目前为
如何在python中访问矩阵每个元素的相邻单元格？

这里如果两个单元共享边界则它们被认为是相邻的例如 A 5 6 4 2 1 3 7 9 8 这里索引 0 0 的相邻元素位于索引 0 1 和 1 0 处索引 1 1 的相邻元素位于索引 0 1 1 0 2 1 处和 1 2 假设你
安塞布尔 + 10.11.6

我在非常干净地安装 10 11 6 时遇到了 Ansible 的奇怪问题我已经安装了brew zsh oh my zsh Lil snitch 和1password 实际上没有安装其他任何东西我安装了ansible brew ins
如何使用 Python 实现并行 gzip 压缩？

使用python压缩大文件 https stackoverflow com questions 9518705 big file compression with python给出了一个很好的例子来说明如何使用例如bz2 纯粹用 Pytho
使用 conda 安装额外功能

With pip我们可以使用方括号安装子包例如与阿帕奇气流 https pythonhosted org airflow installation html pip install airflow all 有类似的东西吗conda或者我必
Django：显示管理员验证错误的自定义错误消息

我正在使用 Django 1 2 4 我有一个模型其中有一个需要验证的字段当验证失败时我想向用户显示自定义错误消息模型编辑是在管理界面中完成的这就是我目前正在做的事情 def clean fields self exclude N
Matplotlib：检查空图

我有一个循环加载并绘制一些数据如下所示 import os import numpy as np import matplotlib pyplot as plt for filename in filenames plt figure i
访问影子 DOM 中的元素

是否有可能查找 Shadow DOM 中的元素与蟒蛇硒示例用例我有这个input with type date
gnuplot：第 1 行：无效命令

stackoverflow 上可爱的人们大家好我正在尝试使用 gnuplot 绘制数据我首先阅读表格并提取我想要的数据我将此数据写入 dat 文件截至目前我只是尝试通过命令行绘制它但会添加必要的代码以在 python 脚本工作后
具有重复值的 Sqlite 列

就说专栏吧aSQLite 数据库的非常重复始终有相同的 4 个值其他值可能稍后出现但不同值的数量将少于 1000 个 VALUES hello world it s a shame to store this str many tim
使用 python/scipy 进行 voronoi 和 lloyd 松弛

如何使用 Qhull 确定哪些 voronoi 单元按索引是正确的由现有顶点组成我正在尝试使用 LLoyds 算法和 scipy spatial Voronoi 它是 Qhull 的包装器生成的输入来执行约束松弛就代码而言

随机推荐

如何重写单元测试中调用被测试类的方法

我正在测试A类的函数func1 Func1有一个B类的局部变量并调用B的函数func2 代码看起来像这样 public Class A public func1 B object new B int x object func2 some
Flutter (iOS) - 在 generatedPluginRegistrant.m 中找不到模块“cloud_firestore”

我是颤振环境中的新生儿我试图设置与我的应用程序的 Cloud Firestore 连接我在 VSCode 上完成了大部分编码过程但在实现 firestore 后我尝试在 Xcode 中构建因为我在 VSCode 上遇到了一些错误
使用 Phonegap Build 在 Android 中隐藏状态栏

我已经在 config xml 文件中启用了全屏但是当键盘出现时状态栏也会显示并保持在那里除非我点击它在 Ios 中有一种方法可以避免这种情况但我还没有找到适用于 android 的任何内容至少我可以用 jquery 以编程方式
Spring 抛出 NoClassDefFoundError: MethodInterceptor 尽管类存在于类路径中

我正在使用 Spring MVC 和 Hibernate 开发一个简单的培训应用程序我使用 Maven 作为构建工具所有依赖项 spring hibernate 奥帕利安斯 junit 等使用 Maven 的 pom xml 文件进行
Java if/else 行为异常

我是一个真正的java新手所以如果这是一个无可救药的简单问题请原谅我我的 java 游戏服务器有以下内容 Get input from the client DataInputStream in new DataInputStream
如何始终将 PopUp 放置在 WPF 中的 ToggleButton 下

我想在单击切换按钮时在其下方放置一个弹出窗口在此弹出窗口中我想添加按钮和其他控件但是当我调整主窗口大小时如何确保弹出窗口始终位于切换按钮下方我的 XAML 代码
在 ARM 模板中定义时未应用 Azure 服务总线筛选器

我在下面定义了一个 ARM 模板片段它创建服务总线主题订阅和规则过滤器该规则与主题和订阅一起应用但过滤器的值为 1 1 为什么不应用该表达式 apiVersion 2017 04 01 name concat parameters
在 Unix 环境中检测过时的 pid 文件

在 Unix 环境中检测陈旧 pid 文件的标准跨平台方法是什么假设我想终止应用程序的旧实例但如果该应用程序已经退出我当然不想破坏具有相同 PID 的不相关进程现在我找到了一种在我的 Ubuntu 也可能是其他基于 GNU Lin
如何从 JPanel 中的操作交换 JPanel

我是 Java Swing 的新手但我一直无法找到一个优雅的解决方案来解决我的问题所以我想我应该在这里提出一个问题我试图根据当前 JPanel 中的按钮单击事件将当前 JPanel 更改为另一个 JPanel 本质上只是隐藏一个面板并
角度怪异：一个对象属性如何更改两个不同对象上的属性？

我正在使用 Angularjs 构建一个网站其中有一个对象列表 scope fieldsToShow fields type LOGGED IN fields type PERSONAL user 2 name Rick Astley 然
我不知道为什么这个 static_assert() 代码不起作用

这是代码 pragma once include
在classpath中打印spring.xml的路径

我在测试类中使用以下代码来加载类路径和 application content xml 文件中的所有 spring xml 文件 Override protected String getConfigLocations return new
在 Mongo 2.6 和 Pymongo 2.7.1 上使用 maxTimeMS 参数进行聚合查询

我无法在 Mongo 2 6 和 Pymongo 2 7 1 中使用 maxTimeMS 参数根据本页的文档官方 Mongodb 聚合页面聚合方法应该返回一个Cursor目的但是当我在本地运行查询时mongod实例 2 6 pymon
AWS-CDK：有什么方法可以通过输入参数传递vpc cidr？

我正在尝试将 vpc cidr 作为输入参数传递如下所示 import Stack StackProps Construct CfnParameter from aws cdk core import Vpc SubnetType fro
现有的 DAO 代码可以在 SQL Server 上运行吗？

如果我将数据从 Access MDB 传输到 SQL Server VB 应用程序中的 DAO 代码是否会针对 SQL Server 工作我意识到需要对初始连接调用进行更改但还有其他需要更改的地方吗这里有很多问题如果您使用 ADP
如何为每个页面调用一个方法？

我正在使用 Spring MVC 编写一个应用程序我有一个从数据库返回值的方法我想在网站的标题中显示这些值显示在所有页面上我怎样才能做到这一点我需要在每个控制器中调用这个方法声明一个类 ControllerAdvice注解然后
通过 TCP 读取嗅探数据

我正在开发一个应用程序该应用程序正在侦听传入电脑的数据并将其存储在数据库中当我尝试使用任何嗅探软件时它会解码数据并且我可以读取它但在我的代码中我根本无法阅读它它的格式是这样的 18222621516223418171188155
Hibernate：有第三级缓存吗？

在一次求职面试中一位招聘人员问我 hibernate 中有多少级缓存所以我描述了1级和2级他说正确但还有第三级缓存例如缓存一些不经常更改的表的结果如 CURRENCY 或 COUNTRY 并在每个 12 24 您想要的时间小时
使用纯 JavaScript 获取点击元素的索引

我需要知道单击元素的索引不知道该怎么做 for i 0 i lt document getElementById my div children length i document getElementById my div childr
将训练数据拆分为每个类的相同行数

我有一个非常大的数据集大约有 314554097 行和 3 列第三列是班级该数据集有两个类 0 和 1 我需要将数据分为测试数据和训练数据要分割我可以使用的数据 from sklearn cross validation impor

将训练数据拆分为每个类的相同行数

将训练数据拆分为每个类的相同行数 的相关文章

随机推荐

热门标签

将训练数据拆分为每个类的相同行数的相关文章