sklearn数据集随机切分(train_test_split)

2023-05-16

sklearn学习

给定数据集X和类别标签y,将数据集按一定比例随机切分为训练集和测试集。

代码

#!/usr/bin/env python
# -*- coding: utf-8 -*-

"""
功能:数据集按比例切分为训练集和测试集
时间:2017年3月11日 12:48:57
"""

from sklearn.cross_validation import train_test_split

# 生成200个句子,前100个和后100个类别分别对应1和2
X = [[u"这是", u"第1个", u"测试"]] * 100 + [[u"这是", u"第2个", u"测试"]] * 100
y = [1] * 100 + [2] * 100

# 随机抽取20%的测试集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2)
print len(X_train), len(X_test)

# 查看句子和标签是否仍然对应
for i in range(len(X_test)):
    print "".join(X_test[i]), y_test[i]

if __name__ == "__main__":
    pass

   
   
  • 1

实验结果

切分后的训练集和测试集标签仍然一一对应。

这里写图片描述

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

sklearn数据集随机切分(train_test_split) 的相关文章

  • 将长元组拆分为较小的元组

    我有一个长元组像 2 2 10 10 344 344 45 43 2 2 10 10 12 8 2 10 我试图将它分成元组的元组 例如 2 2 10 10 344 344 45 43 2 2 10 10 12 8 2 10 我是 pyth
  • PHP中如何分割汉字?

    我需要一些关于如何在 PHP 中拆分与英文单词和数字混合的汉字的帮助 例如 如果我读到 FrontPage 2000中文版應用大全 我希望得到 FrontPage 2000 中 文 版 應 用 大 全 or FrontPage 2 0 0
  • 从js数组中删除双引号

    我有这种类型的数组 80 529299450867271 7 3884550841172976 80 528953669541707 7 3875715810979612 80 528714422417153 7 3867339810469
  • 根据 Python 中的数组值拆分数组

    我有一个像这样的坐标数组 array 1 6 2 6 3 8 4 10 5 6 5 7 18 6 19 5 17 9 10 5 我想将数组拆分为6 and 7 协调 5 7 18 6 因为有一个间隙X那里的价值 我想得到两个单独的数组 ar
  • 如何将列表拆分为大小相等的块?

    如何将任意长度的列表拆分为大小相等的块 See also How to iterate over a list in chunks https stackoverflow com q 434287 To chunk strings see
  • strsplit 并保留第一个下划线之前的部分

    我想保留第一个下划线之后的部分 请参阅示例代码 colnames df EGAR00001341740 P32 1 EGAR00001341741 PN32 我尝试过 但没有给出P32 1但只有P32这是错误的 sapply strspli
  • 从 pyspark 中的数据帧列中删除最后一个管道分隔值

    我正在使用 Spark 2 1 并且有一个数据框列包含类似的值AB 12 XY 4 我想通过删除最后一个元素来创建一个新列 所以它应该显示为AB 12 XY 我尝试拆分 rsplit 不起作用 因此需要一些建议才能获得所需的输出 使用 Sp
  • 将 STDIN 拆分为多个文件(如果可能的话压缩它们)

    我有一个程序 gawk 将数据流输出到它的STDOUT 处理的数据实际上有 10 GB 我不想将其保留在单个文件中 而是将其分成多个块 并可能在保存之前对每个文件应用一些额外的处理 如压缩 我的数据是一系列记录 我不想拆分将记录减半 每条记
  • 将分割词和标点符号连接到正确的位置

    所以我尝试使用join 将字符串拆分为单词和标点符号后 但它在单词和标点符号之间使用空格连接字符串 b Hello who are you c join b 但这会返回 c Hello who are you 而且我要 c Hello wh
  • 如何将字符串分割成等长的子串?

    我正在寻找一个elegant way in Scala http www scala lang org 将给定字符串拆分为固定大小的子字符串 序列中的最后一个字符串可能更短 So split Thequickbrownfoxjumps 4
  • JavaScript 分割 URL

    我想分割 URL 的某些特定部分 这是我到目前为止所拥有的 URL 结构将如下所示 http www mydomain com page 2013 05 some page title html 变量query像
  • regexp_split_to_table 和 row_number

    我有一个包含字符串数据的表 如下所示 id string data 1 red green blue 2 orange 3 purple cyan 我需要将字符串数据拆分为具有行号的项目 id num item 1 1 red 1 2 gr
  • String.Split 不会删除分割文本,仅删除第一个字母

    这里发生了什么 issue CallAction具有以下值 Blah blah WebSite 9 20 2017 Containers remaining changed to 0 对其进行拆分 如下所示 issue CallAction
  • 如何在R中将文本拆分为两个有意义的单词

    这是我的数据框 df 中的文本 其中有一个名为 problem note text 的文本列 SSCIssue 钞票分配器故障执行检查 分配器故障 要求商店取出钞票分配器并将其放回去 仍然错误消息说前门已打开 因此 CE attn req联
  • 当时间戳不属于索引时,如何按时间戳对数据帧进行切片?

    如何使用时间戳来分割我的 pandas 数据帧 我打电话时得到以下价格df30m Timestamp Open High Low Close Volume 0 2016 05 01 19 30 00 449 80 450 13 449 80
  • Pandas Dataframe:将列拆分为多列,右对齐不一致的单元格条目

    我有一个 pandas 数据框 其中有一列名为 城市 州 国家 我想将此列分成三个新列 城市 州 和 国家 0 HUN 1 ESP 2 GBR 3 ESP 4 FRA 5 ID USA 6 GA USA 7 Hoboken NJ USA 8
  • 拆分为不同的换行符

    现在我正在做一个split在字符串上并假设用户的换行符是 r n像这样 string split r n 我想做的事分为两部分 r n要不就 n 那么正则表达式将如何分割其中的任何一个呢 你试过了吗 r n The 使得 r选修的 用法示例
  • 当转义引号存在时,在外部引号或外部方括号中分割逗号

    是否可以按照以下条件拆分字符串 用 即逗号 分隔 在每个元素上 忽略第一个 和最后一个 内的逗号检查 在每个元素上 忽略第一个 和最后一个 内的逗号检查 e g String source to char DATE YYYY MM DD I
  • Lua中按字符分割字符串

    我有像这样的字符串 ABC DEF 我需要将它们分开 字符并将两个部分分别分配给一个变量 在 Ruby 中 我会这样做 a b ABC DEF split 显然Lua没有这么简单的方法 经过一番挖掘后 我找不到一种简短的方法来实现我所追求的
  • C# 中将一个字符串拆分为另一个字符串

    我一直在使用Split 分割字符串的方法 但这似乎仅在您按字符分割字符串时才有效 有没有办法分割一个string 另一个字符串是按参数分割的 我尝试将拆分器转换为字符数组 但没有成功 换句话说 我想分割string THExxQUICKxx

随机推荐

  • eclipse解决中文乱码

    eclipse解决中文乱码 xff08 注释乱码 xff09 第一种 点击window gt perference gt general gt workspace里面的text file encoding改成other gt utf 8 步
  • Dynamic Web Module 4.0 requires Java 1.8 or newer.

    Dynamic Web Module 4 0 requires Java 1 8 or newer java代码没错 xff0c 但项目上有个红叉新建Dynamic Web项目 xff0c 报 Dynamic Web Module 4 0
  • 08-Linux账号管理学习

    Linux账号管理学习 账号管理 简介 Linux系统是一个多用户多任务的分时操作系统 xff0c 任何一个要使用系统资源的用户 xff0c 都必须首先向系统管理员申请一个账号 xff0c 然后以这个账号的身份进入系统 用户的账号一方面可以
  • 06-springboot集成ES详解

    springboot集成ES详解 1 new springboot项目 xff08 看项目记得配环境 xff0c 如jdk xff09 问题 xff1a 一定要保证我们导入的依赖和我们es版本一致 编写config配置类 span clas
  • 07-DockerFile

    文章目录 DockerFileDockerFile构建过程 DockerFile的指令 实战 构建自己的centosCMD 和 ENTRYPOINT 的区别实战 xff1a DockerFile制作tomcat镜像发布镜像发布镜像到阿里云镜
  • 23种设计模式

    此笔记从B站狂神说Java 获取 什么是设计模式 学习设计模式的意义 GoF23 oop七大原则 xff08 1 xff09 开闭原则 一个软件的实体应当对扩展开放 xff0c 对修改关闭 xff1b xff08 2 xff09 里氏替换原
  • springboot上传-下载文件-Hutool

    springboot上传 下载文件 Hutool 1 导入依赖 span class token tag span class token tag span class token punctuation lt span dependenc
  • springsecurity复习

    springsecurity 新建springboot项目 1 导入依赖 span class token tag span class token tag span class token punctuation lt span depe
  • Keras输出Tensor具体值

    Keras输出Tensor具体值 在Tensorflow中 xff0c 如果直接打印Tensor的值 xff0c 一般只会输出其格式 xff0c 例如 tf Tensor 但是有些时候就需要在程序中 xff0c 将具体的内容输出 xff1b
  • jenkins学习

    文章目录 jenkinsGitLab安装使用在ssh下安装gitlab1 安装依赖2 配置镜像3 开始安装gitlab常用命令 在docker下安装gitlab安装docker使用容器安装gitlab访问管理员账号登录 Jenkins安装安
  • java中操作redis

    对Hashmap的操作 span class token annotation punctuation 64 Autowired span span class token keyword private span span class t
  • C++ 网络编程 TCP 用select实现的并发 异步

    C 43 43 TCP网络编程 服务器端多线程处理会话连接 xiyangxiaoguo的博客 CSDN博客 上一篇采用的是建立新的线程的方法去处理一个新的客户端到服务器的TCP连接 xff0c 对于少量的客户端连接到服务器这种方法不存在问题
  • FFmpeg 命令常见操作

    1 转码 ffmpeg i source mp4 ss 20 t 10 c copy my mp4 ffmpeg ss 10 t 15 accurate seek i test mp4 c a copy c v copy tt mp4 i
  • FFprobe查看&统计视频信息

    1 查看音视频信息 1 1 查看基本信息 ffprobe span class token number 1280 span x720 h264 8mbps 30fps span class token punctuation span m
  • 百度2014校园招聘研发工程师笔试题+答案

    一 xff0c 简答题 30分 1 xff0c 当前计算机系统一般会采用层次结构存储数据 xff0c 请介绍下典型计算机存储系统一般分为哪几个层次 xff0c 为什么采用分层存储数据能有效提高程序的执行效率 xff1f 10分 xff08
  • Linux 查看文件夹大小,磁盘剩余空间(du/df)

    1 简介 du查看目录大小 xff0c df查看磁盘使用情况 2 du disk usage xff08 1 xff09 基本功能 递归查看文件夹下所有文件的大小 xff08 2 xff09 常用参数 xff1a h human reada
  • Python matplotlib高级绘图详解

    1 前言 前面我们介绍了使用matplotlib简单的绘图方法 xff08 见 xff1a Python应用matplotlib绘图简介 xff09 但是想要完全控制你的图形 xff0c 以及更高级的用法 xff0c 就需要使用 pyplo
  • ffmpeg视频精准剪切

    1 导言 ffmepg剪切视频 xff0c 很方便 xff0c 但是也有很大缺陷 xff1a xff08 1 xff09 剪切时间点不精确 xff08 2 xff09 有时剪切的视频开头有黑屏 造成这些问题的原因是ffmpeg无法seek到
  • AudioChannelManipulation

    Manipulating audio channels with ffmpeg Contents stereo mono streamstereo 2 mono filesstereo 2 mono streamsmono stereo2
  • sklearn数据集随机切分(train_test_split)

    sklearn学习 给定数据集X和类别标签y xff0c 将数据集按一定比例随机切分为训练集和测试集 代码 span class hljs comment usr bin env python span span class hljs co