如何在sklearn中对分类特征进行编码？

2024-01-05

我有一个包含 41 个特征 [从 0 到 40 列] 的数据集，其中 7 个是分类特征。该分类集分为两个子集：

字符串类型的子集（列特征1、2、3）
int 类型的子集，二进制形式 0 或 1（列特征 6, 11, 20, 21）

此外，列特征 1、2 和 3（字符串类型）的基数分别为 3、66 和 11。在这种情况下，我必须对它们进行编码以使用支持向量机算法。这是我的代码：

import numpy as np
import pandas as pd
from sklearn import preprocessing
from sklearn import feature_extraction

df = pd.read_csv("train.csv")
datanumpy = df.as_matrix()
X = datanumpy[:, 0:40]  # select columns 1 through 41 (the features)
y = datanumpy[:, 41]  # select column 42 (the labels)

不知道用起来是否更好DictVectorizer() or OneHotEncoder()[出于我上面暴露的原因]，以及主要以哪种方式使用它们[就代码而言]X我拥有的矩阵。或者我应该简单地为字符串类型子集中的每个基数分配一个数字（因为它们具有高基数，因此我的特征空间将呈指数级增长）？

EDIT对于 int 类型的子集，我猜最好的选择是保持列特征不变（不要将它们传递给任何编码器）对于具有高基数的字符串类型子集，问题仍然存在。

这是迄今为止最简单的：

 df = pd.get_dummies(df, drop_first=True)

如果内存溢出或者速度太慢，则减少基数：

top = df[col].isin(df[col].value_counts().index[:10])
df.loc[~top, col] = "other"

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

scikitlearn

categoricaldata

onehotencoding

dictvectorizer

如何在sklearn中对分类特征进行编码？的相关文章

如何打印前面有一定数量空格的整数？

C has printf Xd Y 它只打印整数 X 并使其在控制台窗口上占据 Y 空格例如 printf 3d 10 console 10 printf 5d 5 console 5 我如何在 python 3 中使用它 This pr
需要根据数据框中的行号应用不同的公式

我正在努力在数据框中找到某种移动平均值该公式将根据正在计算的行数而变化实际场景是我需要计算Z列 Edit 2 以下是我正在使用的实际数据 Date Open High Low Close 0 01 01 2018 1763 95 176
在Python中将大文件（25k条目）加载到dict中很慢？

我有一个大约有 25000 行的文件它是 s19 格式的文件每行就像 S214780010 00802000000010000000000A508CC78C 像这样的事情怎么样我做了一个测试文件只有一行S21478001000802
在 python 中发送标头[重复]

这个问题在这里已经有答案了我有以下 python 脚本我想发送假标头信息以便我的应用程序就像 Firefox 一样运行我怎么能这么做呢 import urllib urllib2 cookielib username passw
我可以同时打开两个 Tkinter Windows 吗？

可以同时打开2个窗口吗 import tkinter as Tk import random import math root Tk Tk canvas Tk Canvas root background image Tk PhotoIma
NumPy 数组与 SQLite

我在 Python 中见过的最常见的 SQLite 接口是sqlite3 但是有什么东西可以很好地与 NumPy 数组或 rearray 配合使用吗我的意思是它可以识别数据类型不需要逐行插入并提取到 NumPy rec 数组中有点
cxfreeze virtualenv 中缺少 distutils 模块

从 python3 2 项目运行 cxfreeze 二进制文件时我收到以下运行时错误 project dist project distutils init py 13 UserWarning The virtualenv distuti
Python 中“is”运算符的语义是什么？

如何is运算符确定两个对象是否相同它是如何工作的我找不到它的记录来自文档 http docs python org reference datamodel html 每个对象都有一个身份一个类型和一个值对象的身份一旦发生就永远
如何在Python中手动对数字列表进行排序？

规格 Ubuntu 13 04 Python 3 3 1 背景 Python的初学者遇到了这个手动排序问题我被要求做的事情让用户输入 3 个数值并将它们存储在 3 个不同的变量中不使用列表或排序算法手动将这 3 个数字从小到大
argparse 不检查位置参数

我正在创建一个脚本它使用 argparse 接受位置参数和可选参数我已经阅读了 Doug 的教程和 python 文档但找不到答案 parser argparse ArgumentParser description script t
提高光线追踪命中功能的性能

我有一个简单的 python 光线追踪器渲染 200x200 的图像需要 4 分钟这对于我的口味来说绝对是太多了我想改善这种情况几点我为每个像素发射多条光线以提供抗锯齿功能每个像素总共发射 16 条光线 200x200x16
为什么 pip 已经是最新的了却要求我升级？

我全新安装了 python 3 7 1 64 位并使用最新的 pyCharm 作为我的 IDE 我在这台机器上没有安装其他 python 我去安装 numpy 并收到以下消息 venv C Users John PycharmProjec
Kivy TextInput 水平和垂直对齐（文本居中）

如何在 Kivy 的 TextInput 中水平居中文本 I have the following screen But I want to centralize my text like this 这是我的 kv 语言的一部分 BoxLa
使用具有可变数量索引的 numpy mggrid

如何将 numpy mgrid 与可变数量的索引一起使用我在 github 上找不到任何人将其与硬编码值以外的任何内容一起使用的示例 import numpy as np np mgrid 1 10 1 10 this works fin
Python GTK3 Treeview 向上或向下移动选择

如何在树视图中向上或向下移动所选内容我的想法是我可以使用向上和向下按钮将选择向上移动一行或向下移动一行我的 Treeview 使用 ListStore 不确定这是否重要首先我将使用我熟悉的 C 代码如果您在将其翻译为 Pytho
将 str.contains 映射到 pandas DataFrame

python 初学者我正在寻找创建字符串的字典映射以及关联的值我有一个数据框想要创建一个新列如果字符串匹配则会将该列标记为 x df pd DataFrame comp dell notebook dell notebook S3
如何将 pandas DataFrame 转换为 TimeSeries？

我正在寻找一种将 DataFrame 转换为 TimeSeries 而不拆分索引和值列的方法有任何想法吗谢谢 In 20 import pandas as pd In 21 import numpy as np In 22 dates
解析整数集的字符串并列出间隔

I have 2 5 7 9 12 string 我想从中获取 2 5 7 8 9 12 列表 python中有没有内置的函数 Thanks UPD 我想直接的答案是No 不管怎样谢谢你的片段使用一个建议者斯文马尔纳克 s 2
在自定义 keras 层的调用函数中传递附加参数

我创建了一个自定义 keras 层目的是在推理过程中手动更改前一层的激活以下是基本层它只是将激活值乘以一个数字 import numpy as np from keras import backend as K from keras
如何使 Django 自定义管理命令参数不再需要？

我正在尝试在 django 中编写自定义管理命令如下所示 class Command BaseCommand def add arguments self parser parser add argument delay type int

随机推荐

Windows 中的网络文件传输

我想使用 C 或 C 通过网络传输文件我应该查找哪些主题我怎样才能做到这一点您应该从选择协议开始 HTTPS http en wikipedia org wiki HTTPS and SFTP http en wikipedia or
Java ArrayList / String / 原子变量读取线程安全吗？

我一直在思考和阅读但可以找到绝对权威的答案我有几个由包含 ArrayList 字符串和原始值的对象组成的深层数据结构我可以保证这些结构中的数据不会改变没有线程会对列表进行结构更改更改引用更改原语我想知道读取这些结构中的数据是否
IOError：设备上没有剩余空间 - 哪个设备？

我正在将一个小文件 8 5 Mb 上传到 Flask 测试服务器文件上传完成后服务器报告 File home ubuntu virtualenvs eco app lib python2 7 site packages wtforms
Angular2 rxjs http.request.catch 对于某些 http 错误有奇怪的行为

我的 http 服务无法正确捕获一些 http 错误 catch 方法有 2 个不同的响应对象见下文 private fireRequest request Request Observable
Shmem vs tmpfs vs mmap [关闭]

就目前情况而言这个问题不太适合我们的问答形式我们希望答案得到事实参考资料或专业知识的支持但这个问题可能会引发辩论争论民意调查或扩展讨论如果您觉得这个问题可以改进并可能重新开放访问帮助中心 help reopen questi
ASP.NET MVC 脚本包未呈现

我已将以下行包含在BundleConfig cs file bundles Add new ScriptBundle bundles jqueryajax Include Scripts jquery unobtrusive ajax mi
Firestore如何从另一个集合文档id引用中获取集合值

I have two fire store collection with following reference image I want to get the firstName and title Here signup id is
C 中使用 enum 和 int 变量的区别

有什么区别 enum week Mon Tue Wed Thur Fri Sat Sun enum week day Wed and enum week Mon Tue Wed Thur Fri Sat Sun int day Wed in
for 循环中的 Swift async/await

我对 WWDC 2021 上宣布的 Swift 5 5 中新的异步等待模式感到摸不着头脑似乎涉及到很多学习内容但并不像想象的那么容易掌握我刚刚在 WWDC 视频中看到了这个 for 循环 for await id in static
列出所有没有远程的本地分支

问题我想要一种删除所有没有远程的本地分支的方法将分支名称通过管道传输到git branch D branch name 但是我首先如何获得该列表呢例如我创建一个没有遥控器的新分支 git co b no upstream 我列出了所
权限拒绝：从 pid=-1 访问服务 ComponentInfo {...}

我正在尝试使用 Google 的活动识别服务几天前一切都很顺利即我可以使用该服务连接来获取活动信息但今天我发现我再也收不到了查看日志后发现这个错误 05 15 21 19 27 196 W ActivityManager 765
使用内存映射文件的缺点

我的网络服务每分钟写入数千笔交易我们将它们保存在硬盘上我正在测试保存这些文件的不同方法并使用标准 IO 和 MemoryMapped 文件进行了一些测试在我的结果中使用 MemoryMapped 文件写入文件 20 k 文本文件
Xcode Server Bot 集成无法导出存档并出现断言失败：exportArchive：ipatool 失败并出现异常

我有一个使用 Xcode 7 2 和 Server 5 0 15 构建的服务器设置这样我们就可以进行 CI 我能够创建一个 Xcode 机器人来创建存档但它无法完成最后一步即将 ipa 存档导出到服务器以便可以通过临时构建下载它我
如何检查目录是否存在并如果不存在则创建一个新目录？

我尝试了以下方法但我认为它不是特别漂亮 let path target dir if std path Path new path exists std fs create dir path std fs create dir all h
如何将 iOS OSLog 与 Xamarin 结合使用？

我如何使用 iOSOSLog https developer apple com documentation os oslog在 Xamarin iOS 中我确实成功地使用了 NSLog 如下所示但我看不到如何使用 NSLog 设置子系
Django 不想显示媒体文件

我正在尝试输出我保存的图像如下所示 product image models ImageField blank True upload to images 我的 seetings py 看起来像 MEDIA URL media MEDIA
无法从传输连接读取数据：现有连接被远程主机强制关闭

我有一个服务器应用程序有时当客户端尝试连接时我会收到以下错误注意无法从客户端获取流或登录失败是我在 catch 语句中添加的文本它停止的行 sThread 第96行是 tcpClient TcpClient client c
过程参数中 Oracle UDT 的绑定无效

我正在尝试调用一个采用自定义数据类型的过程table of numbers作为参数之一这是类型的定义 create type num list as table of number 以及过程的定义 create or replace pr
运行数据融合管道将 csv 文件从 GCS 加载到 BigQuery 时，面临一些有关数据过程取消配置的问题

我正在使用数据融合创建一个管道它将 CSV 数据从 GCS 加载到 BigQuery 当我进行预览时它工作正常但是当我部署管道时它给了我以下错误 ERROR io cdap cdap internal provision task
如何在sklearn中对分类特征进行编码？

我有一个包含 41 个特征从 0 到 40 列的数据集其中 7 个是分类特征该分类集分为两个子集字符串类型的子集列特征1 2 3 int 类型的子集二进制形式 0 或 1 列特征 6 11 20 21 此外列特征 1 2 和

如何在sklearn中对分类特征进行编码？

如何在sklearn中对分类特征进行编码？ 的相关文章

随机推荐

热门标签

如何在sklearn中对分类特征进行编码？的相关文章