机器学习之数据准备

2023-11-01

1、数据预处理的理由

在开始训练机器学习的模型之前，需要对数据进行预处理，这是一个必须的过程。不同算法对数据有不同的假设，需要按照不同的方式转换数据，这样做的目的是为了提高模型的准确度。

2、数据转换的方法

调整数据尺度
正态化数据
二值数据
代码实现

3、格式化数据

<1> 导入数据
<2> 按照算法的输入和输出整理数据
<3> 格式化输入数据
<4> 总结显示数据的变化

4、调整数据尺度

定类尺度：是对事物类别属性的一种测度，按照事物的属性进行分组或分类。
定序尺度：是对事物之间的等级或顺序的一种测度，可以比较优劣或排序。
定比尺度：是对事物类别或次序之间间距的测量。
定距尺度：可以准确地指出类别之间的差距。

from pandas import read_csv
from numpy import set_printoptions
from sklearn.preprocessing import MinMaxScaler
# ======================================================================
# 1、调整数据尺寸
# 导入数据
file_name = r'../pima_data.csv'
names = ['preg','plas','pres','skin','test','mass','pedi','age','class']
data = read_csv(file_name,names=names)
# 将数据分为输入数据和输出结果
array = data.values
print(array)
X = array[:,0:8]
print("="*40)
print(X)
Y = array[:,8]
print("="*40)
print(X)
'''
[[   6.     148.      72.    ...,    0.627   50.       1.   ]
 [   1.      85.      66.    ...,    0.351   31.       0.   ]
 [   8.     183.      64.    ...,    0.672   32.       1.   ]
 ..., 
 [   5.     121.      72.    ...,    0.245   30.       0.   ]
 [   1.     126.      60.    ...,    0.349   47.       1.   ]
 [   1.      93.      70.    ...,    0.315   23.       0.   ]]
========================================
[[   6.     148.      72.    ...,   33.6      0.627   50.   ]
 [   1.      85.      66.    ...,   26.6      0.351   31.   ]
 [   8.     183.      64.    ...,   23.3      0.672   32.   ]
 ..., 
 [   5.     121.      72.    ...,   26.2      0.245   30.   ]
 [   1.     126.      60.    ...,   30.1      0.349   47.   ]
 [   1.      93.      70.    ...,   30.4      0.315   23.   ]]
========================================
[[   6.     148.      72.    ...,   33.6      0.627   50.   ]
 [   1.      85.      66.    ...,   26.6      0.351   31.   ]
 [   8.     183.      64.    ...,   23.3      0.672   32.   ]
 ..., 
 [   5.     121.      72.    ...,   26.2      0.245   30.   ]
 [   1.     126.      60.    ...,   30.1      0.349   47.   ]
 [   1.      93.      70.    ...,   30.4      0.315   23.   ]]
'''
print('='*40)
transformer = MinMaxScaler(feature_range=(0,1))
# 数据转换
newX = transformer.fit_transform(X)
# 设定数据的打印格式
set_printoptions(precision=3)
print(newX)
'''
[[ 0.353  0.744  0.59  ...,  0.501  0.234  0.483]
 [ 0.059  0.427  0.541 ...,  0.396  0.117  0.167]
 [ 0.471  0.92   0.525 ...,  0.347  0.254  0.183]
 ..., 
 [ 0.294  0.608  0.59  ...,  0.39   0.071  0.15 ]
 [ 0.059  0.633  0.492 ...,  0.449  0.116  0.433]
 [ 0.059  0.467  0.574 ...,  0.453  0.101  0.033]]
'''
# ======================================================================
# 2、正态化数据
from sklearn.preprocessing import StandardScaler
'''
    正态化数据是有效处理符合高斯分布的数据的手段，输出结果以0为中位数，
方差为1，并作为假定数据符合高斯分布的算法的输入。
'''
print('#'*30,'正态化数据','#'*30)
# 导入数据
file_name = r'../pima_data.csv'
names = ['preg','plas','pres','skin','test','mass','pedi','age','class']
data = read_csv(file_name,names=names)
# 将数据分为输入数据和输出结果
array = data.values
X = array[:,0:8]
Y = array[:,8]
transformer = StandardScaler().fit(X)
# 数据转换
newX = transformer.transform(X)
# 设定数据的打印格式
set_printoptions(precision=3)
print(newX)
'''
[[ 0.64   0.848  0.15  ...,  0.204  0.468  1.426]
 [-0.845 -1.123 -0.161 ..., -0.684 -0.365 -0.191]
 [ 1.234  1.944 -0.264 ..., -1.103  0.604 -0.106]
 ..., 
 [ 0.343  0.003  0.15  ..., -0.735 -0.685 -0.276]
 [-0.845  0.16  -0.471 ..., -0.24  -0.371  1.171]
 [-0.845 -0.873  0.046 ..., -0.202 -0.474 -0.871]]
'''
# ======================================================================
# 3、标准化数据
from sklearn.preprocessing import Normalizer
'''
    标准化数据处理是将每一行的数据的距离处理成1（在线性代数中矢量距离为1）
的数据又叫做“归一元”处理，适合处理稀疏数据（具有很多0的数据）。
'''
print('#'*30,'标准化数据','#'*30)
# 导入数据
file_name = r'../pima_data.csv'
names = ['preg','plas','pres','skin','test','mass','pedi','age','class']
data = read_csv(file_name,names=names)
# 将数据分为输入数据和输出结果
array = data.values
X = array[:,0:8]
Y = array[:,8]
transformer = Normalizer().fit(X)
# 数据转换
newX = transformer.transform(X)
# 设定数据的打印格式
set_printoptions(precision=3)
print(newX)
'''
############################## 标准化数据 ##############################
[[ 0.034  0.828  0.403 ...,  0.188  0.004  0.28 ]
 [ 0.008  0.716  0.556 ...,  0.224  0.003  0.261]
 [ 0.04   0.924  0.323 ...,  0.118  0.003  0.162]
 ..., 
 [ 0.027  0.651  0.388 ...,  0.141  0.001  0.161]
 [ 0.007  0.838  0.399 ...,  0.2    0.002  0.313]
 [ 0.008  0.736  0.554 ...,  0.241  0.002  0.182]]
'''
# ======================================================================
# 4、二值数据
from sklearn.preprocessing import Binarizer
'''
    二值数据是使用值将数据转化为二值，大于阈值设置为1，
小于阈值设置为0，这个过程叫做二分数据或阈值转换。
'''
print('#'*30,'二值数据','#'*30)
# 导入数据
file_name = r'../pima_data.csv'
names = ['preg','plas','pres','skin','test','mass','pedi','age','class']
data = read_csv(file_name,names=names)
# 将数据分为输入数据和输出结果
array = data.values
X = array[:,0:8]
Y = array[:,8]
transformer = Binarizer(threshold=0.0).fit(X)
# 数据转换
newX = transformer.transform(X)
# 设定数据的打印格式
set_printoptions(precision=3)
print(newX)
'''
############################## 二值数据 ##############################
[[ 1.  1.  1. ...,  1.  1.  1.]
 [ 1.  1.  1. ...,  1.  1.  1.]
 [ 1.  1.  1. ...,  1.  1.  1.]
 ..., 
 [ 1.  1.  1. ...,  1.  1.  1.]
 [ 1.  1.  1. ...,  1.  1.  1.]
 [ 1.  1.  1. ...,  1.  1.  1.]]
'''

总结
- 这里总结了scikit-learn中对数据进行预处理的四种方法，这四种方法适用不同的场景，可以在
  实践中根据不同的算法模型来选择不同的数据预处理方法。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

机器学习与深度学习

python

人工智能

机器学习之数据准备的相关文章

Python 转换矩阵

我有一个如下所示的列表 2 1 3 1 2 3 1 2 2 2 我想要的是一个转换矩阵它向我显示如下序列 1 后跟 1 的频率是多少 1 后面跟着 2 的频率是多少 1 后跟 3 的频率是多少 2 后跟 1 的频率是多少 2 后跟 2 的
通过 python 中的另外两个修改数组[重复]

这个问题在这里已经有答案了假设我们有三个一维数组 A 长度为 5 B 长度相同示例中为5 C 更长比如长度为 100 C最初用零填充 A给出索引C应更改的元素它们可能会重复以及B给出应添加到初始零的值C 例如如果A 1 3 3
Flask 中“缺少 CSRF 令牌”，但它在模板中呈现

问题当我尝试登录使用 Flask login 时我得到Bad Request The CSRF session token is missing但令牌正在呈现在模板中 secret key 已设置并且我在本地运行localhost
Python - Unicode 到 ASCII 的转换

我无法在不丢失数据的情况下将以下 Unicode 转换为 ASCII u ABRA xc3O JOS xc9 I tried encode and decode他们不会这么做有人有建议吗 Unicode 字符u xce0 and u xc
查找与另一列 Pandas 中的唯一值关联的列中的值的交集

如果我有一个像这样的数据框非常小的例子 col1 col2 0 a 1 1 a 2 2 b 1 3 b 2 4 b 4 5 c 1 6 c 2 7 c 3 我想要所有的交集col2当价值观与其独特性相关时col1值因此在这种情况下交集
在 Linux 上使用多处理时，TKinter 窗口不会出现

我想生成另一个进程来异步显示错误消息同时应用程序的其余部分继续我正在使用multiprocessingPython 2 6 中的模块来创建进程我试图用以下命令显示窗口TKinter 这段代码在Windows上运行良好但在Linux上
Py2exe - Pmw WindowsError：[错误 3]

我正在尝试使用 Py2exe 构建独立的可执行文件我已经导入了 Pmw 类当我运行独立可执行文件时出现以下错误 Traceback most recent call last File py line 9 in
通过 Python 循环浏览网络上的目录并显示其内容（文件和其他目录）

同样的道理在Python中处理从源目录到目标目录的一组文件 https stackoverflow com questions 2593399 process a set of files from a source directory t
类型错误：此 COM 对象无法自动执行 makepy 过程 - 请为此对象手动运行 makepy

这是什么错误回溯错误 C Users DELL PycharmProjects MyNew venv Scripts python exe C Users DELL PycharmProjects MyNew agaaaaain py T
如何用正则表达式替换多个匹配/组？

通常我们会编写以下内容来替换一场比赛 namesRegex re compile r is life re I replaced namesRegex sub r butter There is no life in the void pr
如何通过 Python Requests 库使用基本 HTTP 身份验证？

我正在尝试在 Python 中使用基本的 HTTP 身份验证我正在使用Requests https docs python requests org 图书馆 auth requests post http hostname auth HT
如何展平解析树并存储在字符串中以进行进一步的字符串操作 python nltk

我正在尝试从树结构中获取扁平树如下所示我想将整个树放在一个字符串中就像没有检测到坏树错误一样 S NP SBJ NP DT The JJ high JJ seven day PP IN of NP DT the CD 400 NNS
Django 将 JSON 数据传递给静态 getJSON/Javascript

我正在尝试从 models py 中获取数据并将其序列化为views py 中的 JSON 对象模型 py class Platform models Model platformtype models CharField max len
如何创建用于霍夫曼编码和解码的树？

对于我的作业我将对霍夫曼树进行编码和解码我在创建树时遇到问题并且陷入困境不要介意打印语句它们只是让我测试并查看函数运行时的输出是什么对于第一个 for 循环我从主块中用于测试的文本文件中获取了所有值和索引在第二个 for 循
Python 读取未格式化的直接访问 Fortran 90 给出不正确的输出

这是数据的写入方式它是一个二维浮点矩阵我不确定大小 open unit 51 file rmsd nn output form unformatted access direct status replace recl Npoints
如何使用 enumerate 来倒数？

letters a b c 假设这是我的清单在哪里for i letter in enumerate letters 将会 0 a 1 b 2 c 我怎样才能让它向后枚举如 2 a 1 b 0 c 这是一个很好的解决方案并且工作完美 i
没有名为“turtle”的模块

我正在学习并尝试用Python3制作贪吃蛇游戏我正在进口海龟我正在使用 Linux mint 19 PyCharm python37 python3 tk Traceback most recent call last File hom
使用 MPI 的 Allreduce 对 Python 对象求和

我正在使用使用 Python 中的字典和计数器构建的稀疏张量数组操作我想让并行使用这个数组操作成为可能最重要的是我最终在每个节点上都有计数器我想使用 MPI Allreduce 或另一个不错的解决方案将其添加在一起例如使用计数
为boost python编译的.so找不到模块

我正在尝试将 C 代码包装到 python 中只需一个类即可导出两个函数我编译为map so 当我尝试时import map得到像噪音一样的错误 Traceback most recent call last File
如何同时接受int和float类型的输入？

我正在制作一个货币转换器如何让 python 同时接受整数和浮点数我就是这样做的 def aud brl amount From to ER 0 42108 if amount int if From strip aud and to

随机推荐

C#关于 SQL Server 数据库的操作

C 创建SQL Server数据库设置SQL Server数据库为只读状态修改和压缩SQL Server数据库新建删除和修改数据表修改新增和删除数据列代码 using System using System Collect
Leetcode——比较版本号

1 比较版本号 1 字符串模拟对字符串进行分割诸位比较修订号大小即可对于缺省的修订号位置使用 00 进行代指时间复杂度令 v1 长度为 n v2 长度为 m 整体复杂度为O max n m 空间复杂度 O n m O n m
敏捷测试

目录一敏捷软件研发思想及在企业中的做法 1 什么是敏捷开发如何理解 2 敏捷测试常用术语 3 主要角色及职责 4 敏捷开发每日站会 5 Scrum详细解释 6 敏捷软件开发宣言 http agilemanifesto org 7 敏捷
基于PyTorch的深度学习--创建卷积神经网络-面向对象的神经网络

本篇文章是翻译 https deeplizard com网站中的关于Pytorch学习的文章供学习使用原文地址为 https deeplizard com learn video k4jY9L8H89U 使用PyTorch创建神经网络
macOS免费串口工具coolTerm/Minicom/Comtool/Volt+(伏特加)/友善串口调试助手/screen/picocom

macOS下免费的串口调试工具不多图形化的工具有coolTerm comtool Volt 友善串口调试助手命令行的工具有minicom screen和picocom 1 coolTerm coolTerm 点击下载mac版是一个图形
win7下面怎么安装Active Directory

可以先安裝下面補丁網上可下載可區分簡體繁體版 Windows6 1 KB958830 x64 RefreshPkg msu Windows6 1 KB958830 x86 RefreshPkg msu 下面提供方法 1 根據環境選擇所
深度优先遍历（Depth-First Search, DFS）和广度优先遍历（Breadth-First Search, BFS）

深度优先遍历 DFS 问题1 什么是深度优先遍历 DFS 答案深度优先遍历是一种用于遍历树或图的算法它从根节点或其他起始节点开始首先探索尽可能深的分支然后回溯并继续探索其他分支它通常使用递归或栈来实现问题2 如何实现深度优先
C++ vector容器-45-vector互换和节省空间和预留空间

这篇来学习vector一个互换操作也就是有两个vector对象可以通过一个api 把两个对象互换过来实际上就是在内存中交换了对象的指针原来的指针指向新的vector对象这种交换有时候是很有必要特别是匿名vector对象进行交换
UE4蓝图系统详细讲解

关于UE4蓝图系统原理可以参考 UE4编辑器进阶里面清楚的讲解了关于编辑器开发所涉及到的知识点比如蓝图开发虚拟机开发蓝图编译反射数据序列化字节码等
解决Mac安装Homebrew失败

首先使用Homebrew官网的安装shell命令安装 bin bash c curl fsSL https raw githubusercontent com Homebrew install HEAD install sh 会出现如下错误
JSON.stringify()和JSON.parse()应用场景

前言 JSON stringify 将对象数组转换成字符串 JSON parse 将字符串转成json对象应用场景 1 a 浏览器创建获取 sessionStorage localStorage 数组内容 b 路由浏览器地址传参
如何新建一个duilib项目（手把手创建）

如何新建一个duilib项目 duilib示例项目下载 0积分下载 1 创建项目目录在桌面上新建一个文件夹 MyDuilib 用来做我们项目的根目录 2 创建一个Win32项目 1 打开VS2013 新建一个 Win32项目项目目录选择
uniapp运行到小程序之无法启动

创建了一个uniapp项目要求是在H5以及小程序都可运行 H5端很容易实现那么我们来一起探讨小程序遇到的问题首先 HbuilderX运行到微信小程序前提是要安装微信开发者工具来模拟手机上的小程序情景运行报错原因是微信小程序工具
国产WMS仓库管理系统排名

导读 WMS仓库管理系统是通过入库业务出库业务仓库调拨库存调拨和虚仓管理等功能对批次管理物料对应库存盘点质检管理虚仓管理和即时库存管理等功能综合运用的管理系统可以有效控制并跟踪仓库业务的物流及成本管理的全过程实现或完善企
学习笔记 JavaScript ES6 Webpack核心概念

学习内容入口 entry 出口 output Loader 插件 plugin 模式 mode ES6 新特性的语法是无法被浏览器所识别的浏览器只能识别ES5的语法所以ES6 需要使用一个工具把语法转化为ES5的语法这个工具就是B
MyBatis3框架详解（四）

一 select元素 select标签元素是用来定义查询操作的 id属性唯一标识符用来引用这条语句需要和接口的方法名一致 parameterType属性参数类型可以不传 mybatis会根据TypeHandler自动推断 resu
计算机网络3—网络层

IP报文的格式和各个字段的含义掌握IP分片如何避免IP分片在应用层做限制在传输层做限制如何确定分片顺序接收端如何确定所有分片都到了 IP线路路由表路由表每个字段的含义 ICMP协议查询报错 ICMP协议的层次和作用 IC
java异常NoClassDefFoundError

这个问题错误原因众多如下是我在解析数据时遇到的问题并附上解决方法遇到这样的问题 java lang ClassNotFoundException serialization Serializer 提示没有找到定义的Class 查看各个文
win下安装nextcloud_在 Windows 平台下搭建docker - nextCloud 个人云盘

一直感觉放在百度网盘里面的数据很不安全因为之前因为存一些技术教程被封过号再也没活过来正巧赶上盘当劳事件手里还有闲置硬件资源终于下定决心自己搭建一个 NAS 来用了先挂载到本地磁盘中因为我们不想因为存储的数据随着容器的删除而消失
机器学习之数据准备

1 数据预处理的理由在开始训练机器学习的模型之前需要对数据进行预处理这是一个必须的过程不同算法对数据有不同的假设需要按照不同的方式转换数据这样做的目的是为了提高模型的准确度 2 数据转换的方法调整数据尺度正态化数据二值数据

机器学习之数据准备

1、数据预处理的理由

2、数据转换的方法

3、格式化数据

4、调整数据尺度

机器学习之数据准备 的相关文章

随机推荐

热门标签

机器学习之数据准备的相关文章