机器学习的特征工程

2023-11-10

机器学习的特征工程

一、数据集
在这里插入图片描述
Kaggle网址：https://www.kaggle.com/datasets
UCI数据集网址： http://archive.ics.uci.edu/ml/
scikit-learn网址：http://scikit-learn.org/stable/datasets/index.html#datasets

sklearn数据集
1 scikit-learn数据集API介绍
（1）datasets.load_():加载获取流行数据集
(2)datasets.fetch_(data_home=None):获取大规模数据集，需要从网络上下载，函数的第一个参数是data_home，表示数据集下载的目录,默认是 ~/scikit_learn_data/

2.sklearn数据集返回值介绍
load和fetch返回的数据类型datasets.base.Bunch(字典格式):
data：特征数据数组，是 [n_samples * n_features] 的二维 numpy.ndarray 数组
target：标签数组，是 n_samples 的一维 numpy.ndarray 数组
DESCR：数据描述
feature_names：特征名,新闻数据，手写数字、回归数据集没有
target_names：标签名

from sklearn.datasets import load_iris
# 获取鸢尾花数据集
iris = load_iris()
print("鸢尾花数据集的返回值：\n", iris)
# 返回值是一个继承自字典的Bench
print("鸢尾花的特征值:\n", iris["data"])
print("鸢尾花的目标值：\n", iris.target)
print("鸢尾花特征的名字：\n", iris.feature_names)
print("鸢尾花目标值的名字：\n", iris.target_names)
print("鸢尾花的描述：\n", iris.DESCR)

3.数据集的划分
机器学习一般的数据集会划分为两个部分：
训练数据：用于训练，构建模型
测试数据：在模型检验时使用，用于评估模型是否有效

划分比例：
训练集：70% 80% 75%
测试集：30% 20% 30%

数据集划分api
sklearn.model_selection.train_test_split(arrays, *options)
x 数据集的特征值
y 数据集的标签值
test_size 测试集的大小，一般为float
random_state 随机数种子,不同的种子会造成不同的随机采样结果。相同的种子采样结果相同。
return 测试集特征训练集特征值值，训练标签，测试标签(默认随机取)

from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split


def datasets_demo():
    """
    对鸢尾花数据集的演示
    :return: None
    """
    # 1、获取鸢尾花数据集
    iris = load_iris()
    print("鸢尾花数据集的返回值：\n", iris)
    # 返回值是一个继承自字典的Bench
    print("鸢尾花的特征值:\n", iris["data"])
    print("鸢尾花的目标值：\n", iris.target)
    print("鸢尾花特征的名字：\n", iris.feature_names)
    print("鸢尾花目标值的名字：\n", iris.target_names)
    print("鸢尾花的描述：\n", iris.DESCR)

    # 2、对鸢尾花数据集进行分割
    # 训练集的特征值x_train 测试集的特征值x_test 训练集的目标值y_train 测试集的目标值y_test
    x_train, x_test, y_train, y_test = train_test_split(iris.data, iris.target, random_state=22)
    print("x_train:\n", x_train.shape)
    # 随机数种子
    x_train1, x_test1, y_train1, y_test1 = train_test_split(iris.data, iris.target, random_state=6)
    x_train2, x_test2, y_train2, y_test2 = train_test_split(iris.data, iris.target, random_state=6)
    print("如果随机数种子不一致：\n", x_train == x_train1)
    print("如果随机数种子一致：\n", x_train1 == x_train2)

    return None

二、特征工程
1.介绍
特征工程是使用专业背景知识和技巧处理数据，使得特征能在机器学习算法上发挥更好的作用的过程，会直接影响机器学习的效果。
特征工程包含内容：特征抽取、特征预处理、特征降维。

2.特征抽取(特征值化是为了计算机更好的去理解数据)
1 将任意数据（如文本或图像）转换为可用于机器学习的数字特征
2 特征提取API:sklearn.feature_extraction
3 字典特征提取

sklearn.feature_extraction.DictVectorizer(sparse=True,…)
DictVectorizer.fit_transform(X) X:字典或者包含字典的迭代器返回值：返回sparse矩阵
DictVectorizer.inverse_transform(X) X:array数组或者sparse矩阵 返回值:转换之前数据格式
DictVectorizer.get_feature_names() 返回类别名称

代码：

def dict_demo():
    """
    字典特征抽取
    :return:
    """
    data = [{'city': '北京', 'temperature': 100}, {'city': '上海', 'temperature': 60},
            {'city': '深圳', 'temperature': 30}]
    # 1、实例化一个转换器类
    transfer = DictVectorizer(sparse=True)

    # 2、调用fit_transform()
    data_new = transfer.fit_transform(data)
    print("data_new:\n", data_new.toarray(), type(data_new))
    print("特征名字：\n", transfer.get_feature_names_out())

    return None

sparse=True
在这里插入图片描述

sparse=False
在这里插入图片描述

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

机器学习的特征工程的相关文章

通过 python 中的另外两个修改数组[重复]

这个问题在这里已经有答案了假设我们有三个一维数组 A 长度为 5 B 长度相同示例中为5 C 更长比如长度为 100 C最初用零填充 A给出索引C应更改的元素它们可能会重复以及B给出应添加到初始零的值C 例如如果A 1 3 3
键入的完整命令行

我想获得输入时的完整命令行 This join sys argv 在这里不起作用删除双引号另外我不想重新加入已解析和拆分的内容有任何想法吗你太迟了当键入的命令到达 Python 时您的 shell 已经发挥了它的魔力例如引
Keras model.predict 函数给出输入形状错误

我已经在 Tensorflow 中实现了通用句子编码器现在我正在尝试预测句子的类概率我也将字符串转换为数组 Code if model model type universal classifier basic class probs
Flask 失败并显示“错误：导入‘X’时，引发了 ImportError”，但不显示错误。如何找到错误的根源？

当使用以下命令启动 Flask 应用程序时 flask run 我收到错误 Error While importing wsgi an ImportError was raised Usage flask OPTIONS COMMAND A
类型错误：“datetime.datetime”和“str”的实例之间不支持“>”

我是 python 日期和时间类型的新手我有一个日期值 date 2018 11 10 10 55 31 00 00 我需要检查该日期值是否超过 90 天我试过 from datetime import datetime from da
App Engine NDB：如何访问属性的 verbose_name

假设我有这个代码 class A ndb Model prop ndb StringProperty verbose name Something m A m prop a string value 当然现在如果我打印 m prop 它会
为什么 re.findall 在查找字符串中的三元组项时不具体。 Python

所以我有四行代码 seq ATGGAAGTTGGATGAAAGTGGAGGTAAAGAGAAGACGTTTGA OR 0 re findall r ATG 9 TAA TAG TGA seq 首先让我解释一下我正在尝试做什么如果这令人困惑
通过 Python 循环浏览网络上的目录并显示其内容（文件和其他目录）

同样的道理在Python中处理从源目录到目标目录的一组文件 https stackoverflow com questions 2593399 process a set of files from a source directory t
类型错误：此 COM 对象无法自动执行 makepy 过程 - 请为此对象手动运行 makepy

这是什么错误回溯错误 C Users DELL PycharmProjects MyNew venv Scripts python exe C Users DELL PycharmProjects MyNew agaaaaain py T
为什么将模块级代码放入函数中然后调用该函数在Python中速度更快？

在亚历克斯马尔泰利的回应中使 Python 脚本面向对象 https stackoverflow com questions 1813117 making a python script object oriented 他提到在 Pyth
Python 属性和 Swig

我正在尝试使用 swig 为一些 C 代码创建 python 绑定我似乎遇到了一个问题试图从我拥有的一些访问器函数创建 python 属性方法如下 class Player public void entity Entity enti
python Recipe：列出最接近等于值的项[关闭]

Closed 这个问题需要多问focused help closed questions 目前不接受答案考虑像这样的列表 0 3 7 10 12 15 19 21 我想获得最接近任何值的最近的最小数字所以如果我通过4 我会得到3 如果我
Django 2、python 3.4 无法解码 urlsafe_base64_decode(uidb64)

我正在尝试通过电子邮件激活用户电子邮件有效编码有效我使用了 django1 11 中的方法该方法运行成功在 Django 1 11 中以下内容成功解码为 28 其中 uidb64 b Mjg force text urlsafe
如何按 pandas 中的值对系列进行分组？

我现在有一只熊猫Series与数据类型Timestamp 我想按日期对其进行分组并且每组中有许多行具有不同的时间看似显而易见的方法类似于 grouped s groupby lambda x x date 然而熊猫的groupby按索
无法导入QUERY_TERMS

我正在运行一个网站Python and Django Django filters 2 1 installed Django 2 1 installed 当我运行时我收到以下错误 importError Could not import
从迭代器外部将 StopIteration 发送到 for 循环

有几种方法可以打破一些嵌套循环他们是 1 使用中断继续 for x in xrange 10 for y in xrange 10 print x y if x y gt 50 break else continue only exec
两种 ODE 求解器之间的差异

我想知道两者之间有什么区别ODEINT and solve ivp用于求解微分方程它们之间有什么优点和缺点 f1 solve ivp f 0 1 y0 y0 is the initial point f2 odeint f y0 0 1
pandas.read_fwf 忽略提供的数据类型

我正在从文本文件导入数据框我想指定列的数据类型但 pandas 似乎忽略了dtype input 一个工作示例 from io import StringIO import pandas as pd string USAF WBAN S
使用 MPI 的 Allreduce 对 Python 对象求和

我正在使用使用 Python 中的字典和计数器构建的稀疏张量数组操作我想让并行使用这个数组操作成为可能最重要的是我最终在每个节点上都有计数器我想使用 MPI Allreduce 或另一个不错的解决方案将其添加在一起例如使用计数
为boost python编译的.so找不到模块

我正在尝试将 C 代码包装到 python 中只需一个类即可导出两个函数我编译为map so 当我尝试时import map得到像噪音一样的错误 Traceback most recent call last File

随机推荐

用java写一个简单的考勤管理系统

我可以为您提供一个参考您可以使用Java语言来编写一个简单的考勤管理系统具体的步骤如下 1 定义考勤类它包括考勤日期考勤时间以及考勤状态 2 定义考勤管理类实现考勤的添加删除查看等操作 3 定义用户类它包括用户的姓名职位
GO语言网络编程（并发编程）并发介绍，Goroutine

GO语言网络编程并发编程并发介绍 Goroutine 1 并发介绍进程和线程 A 进程是程序在操作系统中的一次执行过程系统进行资源分配和调度的一个独立单位 B 线程是进程的一个执行实体是CPU调度和分派的基本单位它是比进程更小的
深入源码分析Spring boot 集成Pagehelper

引入依赖
Unity 代码实现多个Image帧动画播放

using UnityEngine using System Collections using System Collections Generic using UnityEngine UI using System RequireCom
小米9008刷机授权补丁_学会手机刷机这几种方法，这些问题都可以迎刃而解

智能手机bug很多尤其是安卓系统的手机不仅玩游戏卡运行慢有时候手机无法正常开机或者是无法开机一些功能不能使用有的是手机系统造成的只要通过给手机刷机这些问题都可以迎刃而解很多人刷机一般都是去手机维修店但是你看完这篇文章
golang中strings.split的使用，分割

package main import fmt strings func main fmt Printf q n strings Split a b b fmt Printf q n strings Split a boy a girl a
图技术在 LLM 下的应用：知识图谱驱动的大语言模型 Llama Index

LLM 如火如荼地发展了大半年各类大模型和相关框架也逐步成型可被大家应用到业务实际中在这个过程中我们可能会遇到一类问题是现有的哪些数据如何更好地与 LLM 对接上像是大家都在用的知识图谱现在的图谱该如何借助大模型发挥更大的
Jenkins构建(8):Jenkins 执行远程shell :Send files or execute commands over SSH

Jenkins 执行远程shell Send files or execute commands over SSH 一远程执行shell命令 python脚本 1 环境配置管理Jenkins gt Configure System 模块
idea 国内插件库_IDEA 超实用使用技巧分享（长篇）

前言工欲善其事必先利其器最近受部门的邀请给入职新人统一培训IDEA 发现有很多新人虽然日常开发使用的是IDEA 但是还是很多好用的技巧没有用到只是用到一些基本的功能蛮浪费IDEA这个优秀的IDE 同时在这次分享之后本人自己也
排序算法——基数排序（C语言）

基数排序的概念什么是基数排序基数排序是一种和快排归并希尔等等不一样的排序它不需要比较和移动就可以完成整型的排序它是时间复杂度是O K N 空间复杂度是O K M 基数排序的思想基数排序是一种借助多关键字的思想对单逻辑关键字进行
python爬虫从零开始_python爬虫---从零开始（一）初识爬虫

我们开始来谈谈python的爬虫 1 什么是爬虫网络爬虫是一种按照一定的规则自动地抓取万维网信息的程序或者脚本另外一些不常使用的名字还有蚂蚁自动索引模拟程序或者蠕虫互联网犹如一个大蜘蛛网我们的爬虫就犹如一个蜘蛛当在互联网遇到
计算机网络mask是什么意思,mask是什么意思

你知道mask是什么意思吗可能你在网络上偶尔会看到这样的词但网络上的新词多到数不清根本没有时间去仔细去了解下面就让我们带你一起来详细了解一下mask是什么意思吧 mask是什么意思假面具伪装遮蔽物 All guests wo
ppt拖动就复制_PPT快捷键丨这些快捷键可助你事半功倍

工欲善其事必先利其器如果你常用的快捷键只有Ctrl C Ctrl V 那你要仔细看下这篇文章了 PS 这个键盘是PPT做的哦后台回复键盘获取源文件快捷键顾名思义就是快和方便所以能熟练使用PPT快捷键会使我们变得更高效桔子
Shiro和Spring Security对比

一 Shiro简介 1 什么是Shiro Shiro是apache旗下一个开源框架它将软件系统的安全认证相关的功能抽取出来实现用户身份认证权限授权加密会话管理等功能组成了一个通用的安全认证框架 2 Shiro 的特点 Shir
VMware虚拟机连不上网络，最详细排查解决方案

虚拟机连不上网 ping某个网站时并显示此信息 ping www baidu com Name or service not known 步骤一排查Windows自身问题有可能这个问题不是你虚拟机有问题而是装虚拟机的Windows本身
【数据结构】数组和字符串

本文是对leetbook 数组和字符串学习完成后的总结数组和字符串数组简介寻找数组的中心索引搜索插入位置合并区间二维数组简介旋转矩阵零矩阵对角线遍历字符串简介最长公共前缀最长回文子串翻转字符串里的单词实现 st
前端开发同步和异步的区别？

在前端开发中同步一般指的是在代码运行的过程中从上到下逐步运行代码每一部分代码运行完成之后下面的代码才能开始运行异步指的是当我们需要一些代码在执行的时候不会影响其他代码的执行也就是在执行代码的同时可以进行其他的代码的执行不
转：安装MySQL遇到MySQL Server Instance Configuration Wizard未响应的解决办法

问题安装了MySQL之后进入配置界面的时候总会显示 MySQL Server Instance Configuration Wizard未响应一直卡死解决办法 Win7系统中以管理员的权限登录系统将C盘的ProgramData中
postman接口测试要点及错误总结

本文主要针对接口测试工具postman出现的常见错误及解决办法进行了总结请求分类及具体传参介绍 GET请求 GET请求是最常见的请求类型最常用于向服务器查询信息必要时可以将查询字符串参数追加到URL的末尾以便将信息发送给服务器 P
机器学习的特征工程

机器学习的特征工程一数据集 Kaggle网址 https www kaggle com datasets UCI数据集网址 http archive ics uci edu ml scikit learn网址 http scikit l

机器学习的特征工程

机器学习的特征工程

机器学习的特征工程 的相关文章

随机推荐

热门标签

机器学习的特征工程的相关文章