如何对新实例进行预处理以进行分类，使特征编码与 Scikit-learn 的模型相同？

2023-12-27

我正在使用数据多类分类创建模型，该模型有 6 个特征。我正在使用 LabelEncoder 使用下面的代码预处理数据。

#Encodes the data for each column.
def pre_process_data(self):
    self.encode_column('feedback_rating')
    self.encode_column('location')
    self.encode_column('condition_id')
    self.encode_column('auction_length')
    self.encode_column('model')
    self.encode_column('gb') 

#Gets the column using the column name, transforms the column data and resets
#the column
def encode_column(self, name):
    le = preprocessing.LabelEncoder()
    current_column = np.array(self.X_df[name]).tolist()
    self.X_df[name] = le.fit_transform(current_column)

当我想要预测一个新实例时，我需要转换新实例的数据，以便特征与模型中的特征匹配相同的编码。有没有一种简单的方法可以实现这一目标？

另外，如果我想保留模型并检索它，那么是否有一种简单的方法来保存编码格式，以便使用它来转换检索到的模型上的新实例？

当我想要预测一个新实例时，我需要转换新实例的数据，以便特征与模型中的特征匹配相同的编码。有没有一种简单的方法可以实现这一目标？

如果不完全确定您的分类“管道”如何运作，但您可以使用适合您的LabelEncoder一些新数据的方法 -le将转换新数据，前提是标签是训练集中存在的标签。

from sklearn import preprocessing
le = preprocessing.LabelEncoder()

# training data
train_x = [0,1,2,6,'true','false']
le.fit_transform(train_x)
# array([0, 1, 1, 2, 4, 3])

# transform some new data
new_x = [0,0,0,2,2,2,'false']
le.transform(new_x)
# array([0, 0, 0, 1, 1, 1, 3])

# transform data with a new feature
bad_x = [0,2,6,'new_word']
le.transform(bad_x)
# ValueError: y contains new labels: ['0' 'new_word']

另外，如果我想保留模型并检索它，那么是否有一种简单的方法来保存编码格式，以便使用它来转换检索到的模型上的新实例？

您可以像这样保存模型/模型的一部分：

import cPickle as pickle
from sklearn.externals import joblib
from sklearn import preprocessing

le = preprocessing.LabelEncoder()
train_x = [0,1,2,6,'true','false']
le.fit_transform(train_x)

# Save your encoding
joblib.dump(le, '/path/to/save/model')
# OR
pickle.dump(le, open( '/path/to/model', "wb" ) )

# Load those encodings
le = joblib.load('/path/to/save/model') 
# OR
le = pickle.load( open( '/path/to/model', "rb" ) )

# Then use as normal
new_x = [0,0,0,2,2,2,'false']
le.transform(new_x)
# array([0, 0, 0, 1, 1, 1, 3])

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

machinelearning

scikitlearn

如何对新实例进行预处理以进行分类，使特征编码与 Scikit-learn 的模型相同？的相关文章

在Python中不断寻找用户输入

我将如何编写一个始终寻找用户输入的 Python 程序我想我希望有一个等于输入的变量然后根据该变量的等于值会发生不同的情况因此如果变量是 w 那么它将执行某个命令并继续执行直到收到另一个输入例如 d 然后会发生不同的情况但直到
UnicodeDecodeError：“utf-8”编解码器无法解码位置 14 中的字节 0xb9：起始字节无效

我正在使用 Django REST 进行文件上传测试 Python3 6 2Django1 11djangorest框架 3 6 4Excel OSX 15 38 170902 操作系统 10 12 6 过去使用普通照片文件可以成功完成此操
Pygame 让精灵按照给定的旋转行走

很久以前我做了一个Scratch脚本我想用Pygame将其转换为Python 有很多示例显示图像的旋转但我想知道如何更改精灵的旋转以使其沿给定方向移动而不更改图像这是我的暂存代码这是我的 Pygame 精灵类 class Star
如何在python中确定过去的时区特定日期是否是夏令时？

有没有办法检查特定时区在我指定的日期是否处于夏令时 test dt datetime year 2015 month 2 day 1 pst pytz timezone America Los Angeles test dt pst loc
如何使用 python http.server 运行 CGI“hello world”

我使用的是 Windows 7 和 Python 3 4 3 我想在浏览器中运行这个简单的 helloworld py 文件 print Content Type text html print print print print h2 H
Colab 的使用限制持续多久？

当我对同一帐户的两个笔记本同时使用两个 GPU 约半小时后 Colab 已 12 小时未运行此消息不断弹出由于 Colab 中的使用限制您当前无法连接到 GPU 自从我上次使用 colab 以来已经过去了大约两个小时但该消息仍然弹出
类型错误：translate() 只接受一个参数（给定 2 个参数）[重复]

这个问题在这里已经有答案了我的代码在 python 2 x 版本上运行良好但是当我尝试在 python 3 x 版本上运行它时出现错误主题需要缩写短信编码中的任何消息 Code def sms encoding data star
如何计算查询集中每个项目的两个字段的总和

假设我有以下模型结构 class SomeModel Model base price DecimalField commision DecimalField 我不想存储total price在我的数据库中为了数据一致性并希望将其计算为ba
Django 说“id 可能不为 NULL”，但为什么会这样呢？

我今天要疯了我只是尝试插入一条新记录但它返回了 post blogpost id 可能不为 NULL 错误这是我的模型 class BlogPost models Model title models CharField max le
如何使用 ipywidgets 创建动态依赖下拉菜单？

我创建了一个带有两个下拉菜单的表单我的目标是使一个下拉列表依赖于另一个下拉列表这张图说明了我的目标和目前的情况 https i stack imgur com o9k5G png 下面的示例代码可以在 Google Colab 或 Ju
Scapy：如何将新层（802.1q）插入现有数据包？

我有一个数据包转储想要将 VLAN 标记 802 1q 标头注入到数据包中怎么做为了找到答案我查看了Scapy 插入新层和记录问题 https stackoverflow com q 17259592 1381638 这确实很有帮
将带有 md5 消息摘要和 DESede/CBC/PKCS5Padding 的 3DES 加密的 java 代码转换为 python

我有这个工作java代码它使用3DES加密对密码进行加密 import java security MessageDigest import java util Arrays import java util Base64 import
如何在python中访问矩阵每个元素的相邻单元格？

这里如果两个单元共享边界则它们被认为是相邻的例如 A 5 6 4 2 1 3 7 9 8 这里索引 0 0 的相邻元素位于索引 0 1 和 1 0 处索引 1 1 的相邻元素位于索引 0 1 1 0 2 1 处和 1 2 假设你
使用 conda 安装额外功能

With pip我们可以使用方括号安装子包例如与阿帕奇气流 https pythonhosted org airflow installation html pip install airflow all 有类似的东西吗conda或者我必
获取 python 模块的 2 个独立实例

我正在与以非 OO 方式编写的 python 2 x API 进行交互它使用模块全局范围来处理一些内部状态驱动的东西在它不再是单例的情况下需要它并且修改原始代码不是我们的不是一个选择如果不使用单独解释器的子进程运行有什么方法可
如何输入可变的默认参数

Python 中处理可变默认参数的方法是将它们设置为无 https stackoverflow com a 366430 5049813 例如 def foo bar None bar if bar is None else bar ret
python：xml.etree.ElementTree，删除“命名空间”

我喜欢 ElementTree 解析 xml 的方式特别是 Xpath 功能我有一个带有嵌套标签的应用程序的 xml 输出我想按名称访问此标签而不指定名称空间这可能吗例如 root findall molpro job 代替 ro
跟踪白色背景中的白球（Python/OpenCV）

我在 Python 3 中使用 OpenCV 来检测白场上的白黑球并给出它的精确 x y 半径和颜色我使用函数 cv2 Canny 和 cv2 findContours 来找到它但问题是 cv2 Canny 并不总是检测到圆的完整
如何从 python 中的字符串中删除 ANSI 转义序列

这是包含我的字符串的片段 ls r n x1b 00m x1b 01 31mexamplefile zip x1b 00m r n x1b 01 31m 该字符串是从我执行的 SSH 命令返回的我无法使用当前状态下的字符串因为它包含 A
具有重复值的 Sqlite 列

就说专栏吧aSQLite 数据库的非常重复始终有相同的 4 个值其他值可能稍后出现但不同值的数量将少于 1000 个 VALUES hello world it s a shame to store this str many tim

随机推荐

graphstudio 中可用的引脚在代码中不存在

我正在使用网络摄像头的源过滤器当我在 graphstudio 中使用过滤器时它有两个输出引脚然而在代码中对 IEnumPins gt next 的调用始终返回 S FALSE 我还寻找了另一个可以创建引脚的接口但没有找到这样的东
PHP S3上传进度

这种情况已经发生过很多次了但我仍然有点困惑很多答案只关注谈论上传进度条而不是从 S3 上传获取实际的上传进度我已经阅读了很多问题并找到了很多软件但我仍然没有更深入地理解 S3 上传的基本问题有没有一种方法可以上传到 S3 同时了
“TypeError：item.getAttachmentsAsync 不是函数”Outlook 加载项 office-js 与 Vue

我一直在关注此链接中的教程 https learn microsoft com en us javascript api outlook office messageread view outlook js preview getAttac
如何删除jquery添加的样式属性

我正在使用具有一些自定义要求的 devExpress 表更新休息了一天然后回去并使用 React Styling 正确完成了它感谢您的建议在屏幕截图中我禁用了某些单元格但是用户希望除所选行之外的所有单元格看起来均已禁用使用
跟随 NavigationLink 并返回后 SwiftUI .toolbar 消失

我已将 toolbar 添加到 NavigationView 的顶层最终将用于选择列表中的项目而无需使用滑动手势向上按钮向下按钮等我还有一个 navigationBar 正在进行用于访问帐户和设置的其他视图在大多数情况下它看
D3.js：结合缩放/画笔

我目前在 Mike Bostock 的工作画笔和缩放 https bl ocks org mbostock 34f08d5e11952a80609169b7917d4172例如尽管我没有在 svg 上覆盖矩形对象而是将其附加到我的图表上
在文本文件中求和整数的最快方法

Question 假设您有一个大型 ASCII 文本文件每行都有一个随机非负整数每个整数的范围从 0 到 1 000 000 000 文件中有 100 000 000 行读取文件并计算所有整数之和的最快方法是什么限制我们有 10M
如何通过在最近使用的文本框中单击光标按钮来插入文本？

我有一个带有多个文本框和一组按钮的表单使用下面的 Javascript 我可以单击一个按钮并将文本插入到指定的框中之一单击按钮时是否可以将文本插入到最近活动的文本框中目前我有这个但它使用的是文本框的特定 ID 而不是最近使用活动
是否可以仅使用免费软件在 C# 中将文档转换为 PDF 或编辑 PDF？

我有一个愚蠢的想法即创建一个 docx 或 rtf 或 pdf 格式的模板然后替换该文档中的文本以生成报告这似乎是比使用付费报告软件更好的方法嗯我相信我现在已经尝试了几乎所有的方法但我很惊讶用 pdf 做任何事都是不可能的 Tr
可通过 Jetpack Compose 中输入的文本 OutlinedTextField 进行调整

我有一个 OutlinedTextField 里面有 DropdownMenu 我希望在按下 DropdownMenu 列表内的项目后该项目的值开始位于 OutlinedTextField 内并根据文本的长度根据宽度进行调整我怎样才能
如何在.Net Core中启用nginx反向代理与gRPC配合使用？

我遇到了一个问题无法让 nginx 与 gRPC 一起正常工作我正在使用 Net core 3 1 来提供支持 REST 和 gRPC 的 API 我正在使用下面的 docker 镜像 Net Core 3 1 aspnet 3 1 a
连接 Google 表格中的两个范围

tl dr 如何使两个范围作为一个函数的参数出现例如我想查看 E 列中的每个单元格except E5 MY FUNCTION somehowjoin E1 E4 E6 E 背景我正在 Google Sheets 中编写项目跟踪器例如
在选择查询中插入子查询

我有一个组表和一个参与者表现在我需要为每个组插入一名参与者我将如何自动化这个 INSERT INTO Participants Name FirstName GroupID VALUES GENERIC GENERIC Grou
Atom Editor Golang - 转到声明不起作用

我已经完成了atom的全新安装并安装了go plus软件包我无法使用的一个功能是转到声明这就是为什么我仍然停留在崇高的土地上有谁知道这是否适用于 golang 我的项目似乎不需要 ctags 对于atom来说最好的方法是什么我尝
如何删除两个 UICollectionView 列之间的边距

我有 UICollectionView 我希望单元格之间没有间距然而尽管我尽了一切努力我似乎无法删除该空间 Code CGFloat collectionView UICollectionView collectionView la
java.lang.LinkageError：违反加载器约束

今天是个好日子我遇到过这样的链接错误问题 java lang LinkageError loader constraint violation when resolving method javax xml transform Trans
node.js + MySQL 和 JSON 结果 - 回调问题和对客户端没有响应

我想使用 node js 查询 mySQL 数据库并将结果作为 JSON 返回以在移动应用程序中使用不幸的是我的请求有点超时服务器在 2 分钟内没有执行任何操作直到日志文件显示我的请求console log 声明此外回调不会返回
自定义 jQuery 伪选择器接收未定义的参数

我正在尝试向 jQuery 添加自定义伪选择器目前使用的是 v1 8 0 基于我发现的一些不同的教程我本质上是在尝试实现一个不区分大小写的 contains 选择器我现在的化身看起来像这样 expr icontains functio
Flask-Admin 中的批量编辑

我正在使用 Flask Admin 我希望能够从列表视图中一次更新许多字段看来我正在寻找的是自定义操作我能够让它发挥作用但我怀疑不是以最好的方式我想知道是否可以做得更多烧瓶我现在做什么例如如果我正在更新表中的所有行cars具
如何对新实例进行预处理以进行分类，使特征编码与 Scikit-learn 的模型相同？

我正在使用数据多类分类创建模型该模型有 6 个特征我正在使用 LabelEncoder 使用下面的代码预处理数据 Encodes the data for each column def pre process data self se

如何对新实例进行预处理以进行分类，使特征编码与 Scikit-learn 的模型相同？

如何对新实例进行预处理以进行分类，使特征编码与 Scikit-learn 的模型相同？ 的相关文章

随机推荐

热门标签

如何对新实例进行预处理以进行分类，使特征编码与 Scikit-learn 的模型相同？的相关文章