数据标准化常见问题:对整个数据集数据标准化后再划分训练集、测试集和先对训练级标准化再将规则用于测试集有什么区别(Python实现)

2023-10-26

       在数据分析与挖掘、算法建模的都会用到数据标准化。数据的标准化(normalization)是将数据按比例缩放,使之落入一个小的特定区间。在某些比较和评价的指标处理中经常会用到,去除数据的单位限制,将其转化为无量纲的纯数值,便于不同单位或量级的指标能够进行比较和加权。

       但是经常会遇到一个问题:

       方式一:先对整个数据集数据标准化后再划分训练集、测试集

       方式二:先对训练级标准化再将规则用于测试集

       为什么这么做?这两种方式有什么区别?

       如果是做案例类学习研究,由于数据量是固定的,其实这两种方式不会有太大的区别;但是在实际的业务应用中,第二种方式还是会比第一种方式更可靠,因为会有实时的数据集进来应用模型,而这时的数据处理规则仍然采用建模前的规则会有一定的容错率。

       可以思考一下:

       第一种方式,先对整个数据集进行标准化之后,假设标准化规则的最大值为100,最小值为1,使数据的最大值为1,最小值为0.05,再将其划分为训练集和测试集,此时训练集或者测试集是同一个规则。

       第二种方式:先对训练级标准化再将规则用于测试集,本身训练集和测试集的极值(最大值,最小值)会不同,例如训练集最大值为100,标准化之后为1,而测试集最大值为200,按训练集的标准化规则为1.5,而如果用测试集的标准化规则就会为1。但此时的模型会将1看做100,而不是200,会造成误差,并且有实时数据来应用模型,采用训练集的标准化规则,更适合于模型。

from sklearn.model_selection import train_test_split
data_tr1,data_te1,target_tr,target_te = train_test_split(media_rfm.iloc[:,3:9],media_rfm['class'],test_size=0.2,random_state=10)
from sklearn.preprocessing import StandardScaler
stdScale = StandardScaler().fit(data_tr1) ## 生成规则
data_tr = stdScale.transform(data_tr1) ## 将规则应用于训练集
data_te = stdScale.transform(data_te1) ## 将规则应用于测试集

 

文章未经博主同意,禁止转载!

 

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

数据标准化常见问题:对整个数据集数据标准化后再划分训练集、测试集和先对训练级标准化再将规则用于测试集有什么区别(Python实现) 的相关文章

  • 使用 Python 和 Boto3 列出 S3 存储桶的目录内容?

    我正在尝试使用 Python 和 Boto3 列出 S3 存储桶中的所有目录 我正在使用以下代码 s3 session resource s3 I already have a boto3 Session object bucket nam
  • 在 Idle shell 中导入模块

    我正在尝试学习 python 但在导入模块时遇到问题 我有一个 pyc 文件 我正在尝试将其导入到名为 dfa pyc 的空闲 shell 中 我将该文件放在名为 xyz 的文件夹中 我使用以下命令导航到该文件夹 os chdir User
  • uWSGI 说:“ImportError:没有名为 wsgi 的模块”

    当uWSGI启动时 它会写入 ImportError No module named wsgi 我的 uwsgi xml
  • 如何解决:使用 .csv Dictreader 导入文件的 Python 因未定义字符而失败

    首先 我发现下列 https stackoverflow com questions 38019379 python unicodedecodeerror utf8 codec cant decode byte 0x91这与我的问题基本相同
  • pipx 如何知道要使用哪个 Python 版本?

    我是一个坚强的pyenv and poetry开始使用的用户pipx并希望了解更多有关其工作原理的信息 具体来说 我想了解它如何确定安装时使用哪个Python版本 我注意到它似乎在搜索PATH现有的应用程序参考 当您pipx install
  • 二维高斯函数不能产生正确的结果

    我想写一个返回一个的函数np array尺寸的nx x ny包含具有均值的中心高斯分布mu and sd sig 下面的代码在某些情况下有效 但在许多情况下无效 有什么问题或者我还应该写什么来获得我需要的东西 import matplotl
  • 类型错误:fit_transform() 需要 2 个位置参数,但给出了 3 个

    我有熊猫数据框df 我想对连续和分类特征进行编码df使用不同的编码器 我觉得用起来很舒服make column transformer 但是下面显示的代码失败了LabelEncoder 但可以很好地与OneHotEncoder handle
  • 使用 kdeplot 对数刻度

    我正在尝试使用 Seaborn 的 kdeplot 制作一个漂亮的自由能表面 热图 我非常接近 但无法找到改变颜色条比例的方法 颜色条比例很重要 因为它应该表示地图上不同坐标处的能量差异 我需要知道如何缩放颜色条的值 0 5961573 l
  • 带参数的多重继承

    我已经阅读了很多有关继承的内容 但我似乎无法理解为什么这会给我一个错误 使用Python 2 7 x class A object def init self value super A self init print First s va
  • pandas 左连接并更新现有列

    我是 pandas 的新手 似乎无法让它与合并功能一起使用 gt gt gt left gt gt gt right a b c a c d 0 1 4 9 0 1 7 13 1 2 5 10 1 2 8 14 2 3 6 11 2 3 9
  • 如何在 PyQt 中使用 QThreads 双向设置信号和槽?

    这是基于 ekhumoro 答案的后续问题here https stackoverflow com a 52005755 4464653 and here https stackoverflow com a 20818401 4464653
  • python 求数组中正数之和的函数

    我需要编写一个函数 它接受一个数字数组并找到所有数字的最大和 换句话说 我需要找到正数的总和 我写了这个 我收到 列表超出范围 想法 def maximum sub A x 0 i 0 for i in A while A i gt 0 x
  • 数据类的子类,带有一些断言

    我有一个冻结的数据类MyData保存数据 我想要一个杰出的子类MySpecialData只能保存长度为1的数据 这是一个有效的实现 from dataclasses import dataclass field dataclass froz
  • Python:从源代码安装模块

    当然你们都知道答案 而且很容易 但我是 python 新手 我在网上找到了一段代码 读取雅虎财经的股价 usr bin env python Copyright c 2007 2008 Corey Goldberg email protec
  • 了解 django admin readonly_fields

    我创建了一些代码来区分 Django admin 中的两个用户组 从而导致显示所有字段为只读或仅显示其中的一些字段 这些字段直接在 ModelAdmin 类中设置 首先这是代码 class PersonAdmin admin ModelAd
  • 从列表中删除元素的最佳方法

    我想知道从列表中删除元素的最佳方法 有效方法是什么 有功能很少 https docs python org 3 tutorial datastructures html more on lists由Python提供 some list re
  • Python setuptools:打包根目录(每个包不需要子目录)

    我需要将一个包写入存储库 但它是一个小型快速包 因此我认为不需要将文件放入子目录中 我只是想要 import mypkg module1 具有目录结构 root folder setup py init py the init for pa
  • 是否可以使用 numpy 中可用的函数将二维数组修补为子数组数组?

    是否可以使用 np reshape 和 np split 函数将二维数组修补为子数组数组 import numpy as np data np arange 24 reshape 4 6 print data 0 1 2 3 4 5 6 7
  • DateField 未呈现为 type="date"

    class Form Form plan start DateField Plan Start validators Required 这段代码将渲染这个 html
  • 使用 Python 2.7 解析 msg/eml 文件

    有没有可以解析msg或eml文件的库 我编写了一个脚本 一旦将电子邮件转换为 txt 文件 就会对其进行解析 但是我找不到一个电子邮件客户端 可以让我轻松地将电子邮件从 gui 拖放到文件夹中作为 txt 文件 如果有人知道这一点 我会很高

随机推荐

  • 在内部局域网内搭建HTTPs

    在内部局域网内搭建HTTPs 配置环境 Windows版本 Windows Server 2008 R2 Standard Service Pack 1 系统类型 64 位操作系统 内存 4GB 了解HTTPS 为什么需要 HTTPS 多数
  • 使用Python,OpenCV应用EAST文本检测器检测自然场景图像中的文本

    使用Python OpenCV应用EAST文本检测器检测自然场景图像中的文本 1 效果图 2 原理 2 1 为什么自然场景文本检测如此具有挑战性 2 2 替代EAST文本检测实现 3 源码 3 1 text detection py 3 2
  • Mac电脑开机出现带问号的文件夹并且闪烁 apple.com/support -2003F

    文章目录 1 视界 2 背景 2 1 开始 2 2 恐慌 2 3 转机 2 3 1 时间机器 2 3 2 重新安装 3 2 3 磁盘恢复 4 欣喜 5 神转折 6 忐忑 7 凉凉了 8 root账户 9 磁盘管理 10 两天后 11 小结
  • 性能测试-JMeter influxdb grafana性能测试监控平台-食用指南

    目录 influxdb grafana安装 influxdb grafana启动 JMeter性能数据写入influxdb JMeter 后端监听器 grafana配置 influxdb grafana安装 yum install infl
  • FreeRTOS任务基础

    任务特性 没有数量限制 一个优先级下也可以拥有多个任务 支持抢占 FreeRTOS为抢占式内核高优先级可以抢占低优先级的CPU使用权 支持优先级 决定任务运行的先后 每个任务都拥有堆栈导致了RAM使用量增大 抢占需考虑重入问题 任务状态 运
  • 操作系统 实验一 进程调度实验

    操作系统实验一 进程调度实验 题目描述 1 设计一个有N个进程并发的进程调度程序 每个进程由PCB 表示 PCB中包含进程名 优先数 服务时间等信息 2 用链表表示就绪队列 每个进程PCB用结构体结点表示 3 已知各进程的的到达时间等如下
  • vs打开qt的ui文件,报错闪退+已解决

    触发行为 使用vs打开项目 点击ui文件后 数秒后qt designer闪退 报错内容 解决 方法一 鼠标右击 在qt designer 打开后 闪退前 鼠标右击 方法二 打开qt designer 打开最近窗口 扩展 gt qt gt q
  • MapReduce job任务源码提交流程

    waitForCompletion submit 1建立连接 connect 1 创建提交Job的代理 new Cluster getConfiguration 1 判断是本地yarn还是远程 initialize jobTrackAddr
  • linux下go语言代理

    export GO111MODULE on export GOPROXY https goproxy cn
  • mapper的使用

    一 通用mapper概述 它是mybatis的一个插件 单表查询的时候 使用通用mapper会非常的方便 极大地方便开发人员 可以按照需要选择通用方法 还可以自定义通用方法 不过它也有一个非常大的局限性 只支持单表操作 不支持多表查询 1
  • 独立按键(通过按键点亮LED灯)

    我们前几节用到的是IO口的输出 这一节我们学习独立按键用到了IO口的输入 按键的接触是靠金属弹片接触 那么这个时候就会出现一个问题 按键按下就会出现抖动 根据原理图 当按键 K1或K2或K3或K4 按下 P31或P30或P32或P33 端口
  • esp8266 串口乱码

    编码问题 波特率问题 这里提一下波特率问题 8266的启动信息波特率为 74880 一般的串口调试工具没有 这里可以使用安可信串口调试助手解决
  • c++:STL-函数对象

    函数对象 函数对象的概念 1 重载函数调用操作符的类 其对象常称为函数对象 2 函数对象使用重载的 时 行为类似函数调用 也叫仿函数 本质 函数对象仿函数是一个类 不是一个函数 函数对象使用 特点 1 函数对象在使用时 可以像普通函数那样去
  • xss-labl 练习 (1--10关)

    xss lab 第一关 将name的值直接输出 可以利用 弹窗 第二关 使用第一关的方法 行不通 查看php源代码 在github上下载
  • 设计数字频率计FPGA

    设计数字频率计FPGA 数字频率计是电子测量中常用的一种仪器 它可以测量任何周期性信号的频率 在现代电子领域中 数字频率计的应用越来越广泛 其设计和实现成为了必不可少的技能 本文将介绍如何使用FPGA来实现数字频率计 在FPGA中实现数字频
  • python php 快速排序

    usr bin python coding UTF 8 def partition li left rigth temp li left 获取第一个值假定为列表的中间值 while left lt rigth 如果中间值的左边小于右边 则说
  • 分割字符串取最后一部分

    第一种方法 全分割 在取最后一部分 String dirDiveded fileName split String newName if dirDiveded length gt 0 newName dirDiveded dirDivede
  • 从零开始深度学习

    特点 从深度学习基础开始 快速进入重要高级架构的细节 从头开始实施所有内容 学习如何从头开始应用多层神经网络 卷积神经网络和循环神经网络 非常清晰和彻底的心智模型 伴随着工作代码示例和数学解释 使用易于理解的面向对象框架 从头开始实现多层神
  • js-使用attr()方法

    在使用attr 过程中遇到些许问题 总结归纳一下 获取xo标签attribute属性的值 xo attr attribute 设置attribute属性的值为value xo attr attribute value 设置多个attribu
  • 数据标准化常见问题:对整个数据集数据标准化后再划分训练集、测试集和先对训练级标准化再将规则用于测试集有什么区别(Python实现)

    在数据分析与挖掘 算法建模的都会用到数据标准化 数据的标准化 normalization 是将数据按比例缩放 使之落入一个小的特定区间 在某些比较和评价的指标处理中经常会用到 去除数据的单位限制 将其转化为无量纲的纯数值 便于不同单位或量级