在多个程序中正确使用 Scikit 的 LabelEncoder

2024-01-03

我手头的基本任务是

a) 读取一些制表符分隔的数据。

b) 进行一些基本的预处理

c) 对于每个分类列使用LabelEncoder创建映射。这有点像这样

mapper={}
#Converting Categorical Data
for x in categorical_list:
     mapper[x]=preprocessing.LabelEncoder()

for x in categorical_list:
     df[x]=mapper[x].fit_transform(df.__getattr__(x))

where df是一个 pandas 数据框并且categorical_list是需要转换的列标题的列表。

d) 训练分类器并将其保存到磁盘pickle

e) 现在在另一个程序中，加载保存的模型。

f) 加载测试数据并进行相同的预处理。

g) The LabelEncoder's用于转换分类数据。

h) 使用模型进行预测。

现在我的问题是，步骤g)工作正常吗？

作为文档LabelEncoder says

It can also be used to transform non-numerical labels (as long as 
they are hashable and comparable) to numerical labels.

那么每个条目每次都会散列到完全相同的值吗？

如果否，有什么好的方法可以解决这个问题。有什么方法可以检索编码器的映射吗？或者与 LabelEncoder 完全不同的方式？

根据LabelEncoder https://github.com/scikit-learn/scikit-learn/blob/main/sklearn/preprocessing/_label.py#L36实现，您所描述的管道才能正常工作当且仅当您fitLabelEncoder 在测试时使用具有完全相同的一组唯一值的数据。

有一种有点古怪的方法可以重用你在火车期间获得的 LabelEncoder。LabelEncoder只有一个属性，即classes_。你可以腌制它，然后像这样恢复

Train:

encoder = LabelEncoder()
encoder.fit(X)
numpy.save('classes.npy', encoder.classes_)

Test

encoder = LabelEncoder()
encoder.classes_ = numpy.load('classes.npy')
# Now you should be able to use encoder
# as you would do after `fit`

这似乎比使用相同的数据重新调整它更有效。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

pandas

scikitlearn

在多个程序中正确使用 Scikit 的 LabelEncoder 的相关文章

如何向数据添加填充以使其可以接受 pycrypto 库中的 AES256 加密算法

有人可以告诉我如何向数据添加填充使其可以接受 pycrypto 库 Python 中的 AES256 加密算法提前非常感谢看着文档 http www dlitz net software pycrypto doc 看来要由图书馆用户自
Python：用中值替换异常值

我有一个 python 数据框其中有一些异常值如果这些值不存在的话我想用数据的中值替换它们 id Age 10236 766105 11993 288 9337 205 38189 88 35555 82 39443 75 10762
pandas：使用运算符链接过滤 DataFrame 的行

大多数业务在pandas可以通过操作符链接来完成 groupby aggregate apply等但我发现过滤行的唯一方法是通过普通的括号索引 df filtered df df column value 这没有吸引力因为它需要我分配d
在Python中将距离矩阵转换为成对距离列表[关闭]

Closed 这个问题需要多问focused help closed questions 目前不接受答案假设Python中有以下距离矩阵 0 1 2 3 0 0 1 4 8 1 1 0 3 7 2 4 3 0 3 3 8 7 3 0 我想
如何在 pySpark 数据框中添加行 ID [重复]

这个问题在这里已经有答案了我有一个 csv 文件我在 pyspark 中将其转换为 DataFrame df 经过一番改造后我想在 df 中添加一列这应该是简单的行 ID 从 0 或 1 开始到 N 我将 df 转换为 rdd 并使
Pandas Dataframe.to_csv 小数=',' 不起作用

在 Python 中我正在将 Pandas Dataframe 写入 csv 文件并希望将小数分隔符更改为逗号像这样 results to csv D Data Kaeashi BigData ProcessMining Voorbe
类型错误：无法连接“str”和“instance”对象（python urllib）

写一个python程序我在使用时遇到了这个错误urllib urlopen功能 Traceback most recent call last File ChurchScraper py line 58 in
如何让MagicMock返回多个值

我想模拟一个图书馆 matplotlib对于它的价值并且遇到一个问题当调用模拟并期望返回元组时它会失败有一个更好的方法吗 Python 3 7 2 default Jan 13 2019 12 50 15 Clang 10 0 0
Altair 条形图具有可变宽度的条形？

我正在尝试在 Python 中使用 Altair 制作条形图其中条形的宽度根据源数据帧列中的数据而变化最终目标是获得如下所示的图表条形的高度对应于每种能源技术的边际成本在源数据框中以列形式给出条形宽度对应于每种能源技术的容量也以
如何使用 Tkinter 创建等宽网格列？

如何强制 Tkinter 应用程序窗口中的列宽度相等 tkdocs网站声明如下每列的宽度或每行的高度取决于列或行中包含的小部件的宽度或高度这意味着当绘制用户界面并将其划分为行和列时您无需担心每列或行的宽度相等或高度大概 TkD
如何在 PySide/PyQt 中制作一个位于屏幕中央的小部件？

这段代码有效但我想知道是否有更简单的方法 def center self qr self frameGeometry cp gui QDesktopWidget availableGeometry center qr moveCenter
Django外键：获取相关模型？

是否可以通过外键字段本身获取外键的相关模型例如如果我有 3 个模型 class ModelA models Model field1 models CharField max length 10 class ModelB models
您能否从函数、args 和 kwargs 确定变量将如何分配？

我有一些样板逻辑我想包装几个具有相同可选关键字的函数现在看起来像下面的代码但是这仅处理 opt key 作为关键字传递的情况而不是按位置传递解决这个问题的一种方法是了解如何解决参数分配是否有一些元函数接受函数 args 和 k
在 matplotlib 中分割图例

是否有可能将一个大图例分成多个通常是 2 个较小的图例 from pylab import t arange 0 0 2 0 0 01 s sin 2 pi t plot t s linewidth 1 0 label Graph1 g
os.path.expanduser("~") 的替代方案？

在Python 2 7 x中 os path expanduser Unicode 已损坏这意味着如果的扩展中包含非 ASCII 字符则会出现异常 http bugs python org issue13207 http bugs p
带参数的 Python 列表过滤

python中有没有一种方法可以在列表上调用过滤器其中过滤函数在调用期间绑定了许多参数例如有没有办法做这样的事情 gt gt def foo a b c return a lt b and b lt c gt gt myList 1 2
python 中的优化标准化

在优化过程中对输入参数进行归一化使它们处于同一数量级通常会很有帮助这样收敛效果会更好例如如果我们想要最小化 f x 而合理的近似值是 x0 1e3 1e 4 则将 x0 0 和 x0 1 归一化到大约相同的数量级可能会有所帮助
FileAllowed 不显示错误消息

我正在使用 WTForms 我正在对文件上传应用验证并将其限制为仅 jpg png 和 pdf 格式但是如果我输入不正确则不会出现错误消息我按照这个教程https flask wtf readthedocs io en stabl
Mac 上的 PythonXY？

如何在 Mac OS X Lion 上安装 Python 我开始了它应该能够通过 macports 但无论如何我找不到 mac ports 网站上所述的端口 pythonXY 我对 MAC 和 pythonXY 都不太了解但在 pyth
媒体文件上的 404 - Django

昨晚我将项目上传到 pythonanywhere com 我想在那里测试我的项目生产设置在我允许的模型之一中用户上传JPG 团队徽标上传过程运行良好文件位于我的 MEDIA ROOT 中问题是当我尝试在模板中访问它以将其显示在页

随机推荐

opencv 版本 3.* HogDescriptor 最多接受 1 个参数（给定 5 个）

我正在尝试使用 HogDescriptor 但收到此错误我在文档中看到构造函数可以采用多个参数我正在 python 3 6 和 opencv 3 2 中工作这是我的代码 def extract feature X Performs f
SetMaxOpenConns 和 SetMaxIdleConns

为什么有SetMaxOpenConns and SetMaxIdleConns 在里面doc http golang org pkg database sql DB SetMaxOpenConns 设置最大空闲连接数 SetMaxIdleC
SQL 表中的版本控制 - 如何处理？

这是一个带有一些填充数据的虚构场景出于税务目的我的虚构公司必须保留历史数据记录因此我在表中添加了版本列 TABLE EMPLOYEE with personal commentary ID VERSION NAME Position
如何在 selenium webdriver 中自动输入 type="color" ？

设想选择颜色输入其他详细信息并保存当我单击 html 元素颜色输入类型颜色时它会打开一个颜色选择器它是一个弹出窗口
使用 -lpthread，g++ 编译器错误，“未定义引用”信号量调用，例如“sem_open”

我是 posix 线程库的新手我尝试使用以下命令编译教程中的示例代码 g lpthread agreement cpp o agreement 但是我无法编译代码并收到以下错误消息 a3q2 cpp text 0x7e undefined
如何解决moodle全新安装问题mysql_full_unicode_support#File_format和mysql_full_unicode_support#Large_prefix

I am very new to Moodle When i am trying to install this i got this issue Please ref screenshot 任何人都可以帮我解决这个问题吗先感谢您奥姆卡
使用 R 中的属性值分布创建热图（不是密度热图）

你们中有些人可能已经看过超越苏打水汽水或可乐 http www4 ncsu edu jakatz2 project dialect html 我面临着类似的问题并且想创建一个类似的情节就我而言我有大量的地理编码观测值超过 100
增强变体类型碰撞

后续问题 https stackoverflow com questions 34229428 how to get around matching boost variant return types 所以我一直在玩 Boost Min
当它是参考（主题）时以编程方式获取颜色值

考虑一下样式 xml 属性 xml
尝试了解 C# 中与 NAudio 相关的缓冲区

我是一名化学专业的学生试图在 C 中使用 NAudio 从计算机的麦克风收集数据计划稍后切换到音频端口以防与如何回答这个问题有关我了解什么是源流以及 NAudio 如何使用事件处理程序来了解是否开始从所述流读取信息但在处理从流中
自动生成带有虚拟数据的sql插入语句[重复]

这个问题在这里已经有答案了可能的重复用虚拟数据填充 SQL 表的最快方法 https stackoverflow com questions 2899654 quickest way to fill sql table with dum
如何更改 Kubernetes hostpath-provisioner 挂载路径？

使用 MicroK8s 的存储附加组件默认情况下持久卷声明的存储位置为 var snap microk8s common default storage在主机系统上如何才能改变这一点呢查看声明hostpath provisioner
为什么 WPF 设计器无法加载调用非托管 DLL 的库？

我正在使用 Visual Studio 2008 NET 3 5 SP1 并且有一个包含以下模块的测试应用程序一个 C DLL 使用 1 的 C CLI DLL 使用 2 的 C WPF 应用程序当我尝试使用 2 中的类作为 WPF X
根据组合框选择过滤列表框

我有两个表 Person 和 Shift Person 有一个查找字段它与 Shift 是一对多的关系我想创建一个表单其中显示 Person 记录的列表框根据包含 Shift 记录的组合框的选择进行过滤换句话说我想在组合框中选择
如何解析本地文件中的json数据？

我对 json 解析非常陌生并尝试解析一个包含汽车列表的 json 文件但是当我解析时它给出 nil func jsonTwo let url Bundle main url forResource car list withExte
tkinter 与 matplotlib

我读到可以在 tkinter 中嵌入 pyplot 但我遇到了问题我需要显示一些框架其中主 Tkinter 窗口框架中的 pyplot and它必须对我的按键做出反应根据http matplotlib org examples use
NSFileManager 和 NSFilePosixPermissions

我想对 NSFilePosixPermissions 使用八进制权限用于 chmod 这是我现在所做的 NSFileManager manager NSFileManager defaultManager NSDictionary att
UI测试框架+持续集成？

所以我有一个继承的应用程序我想围绕它构建一个自动化测试套件该应用程序在设计时并未考虑到可测试性并且代码是一个大泥球我的计划是使用 UI 自动化测试框架并在 UI 级别创建一套测试直到我有足够的覆盖范围让我能够充满信心地开始重
类内声明的友元运算符中左手参数的隐式转换

我正在使用 CRTP 向类提供依赖于模板参数的函数添加在本例中添加operator and operator 使用模板类ImplAdd 对于前者应该对两个参数执行隐式转换这意味着我必须使用类内友元运算符如下所示 template
在多个程序中正确使用 Scikit 的 LabelEncoder

我手头的基本任务是 a 读取一些制表符分隔的数据 b 进行一些基本的预处理 c 对于每个分类列使用LabelEncoder创建映射这有点像这样 mapper Converting Categorical Data for x in cat

在多个程序中正确使用 Scikit 的 LabelEncoder

在多个程序中正确使用 Scikit 的 LabelEncoder 的相关文章

随机推荐

热门标签