sklearn.LabelEncoder 具有以前从未见过的值

2023-11-29

If a sklearn.LabelEncoder已经在训练集上进行了拟合，如果在测试集上使用时遇到新值，它可能会崩溃。

我能想到的唯一解决方案是将测试集中的所有新内容（即不属于任何现有类）映射到"<unknown>"，然后显式添加相应的类LabelEncoder之后：

# train and test are pandas.DataFrame's and c is whatever column
le = LabelEncoder()
le.fit(train[c])
test[c] = test[c].map(lambda s: '<unknown>' if s not in le.classes_ else s)
le.classes_ = np.append(le.classes_, '<unknown>')
train[c] = le.transform(train[c])
test[c] = le.transform(test[c])

这可行，但是有更好的解决方案吗？

Update

正如 @sapo_cosmico 在评论中指出的那样，考虑到我认为是实施更改，上述内容似乎不再起作用LabelEncoder.transform，现在似乎使用np.searchsorted（不知道以前是不是这样）。所以而不是附加<unknown>类到LabelEncoder已提取的类的列表，需要按排序顺序插入：

import bisect
le_classes = le.classes_.tolist()
bisect.insort_left(le_classes, '<unknown>')
le.classes_ = le_classes

然而，由于这总体上感觉相当笨重，我确信有更好的方法。

LabelEncoder 基本上是一个字典。您可以提取它并将其用于将来的编码：

from sklearn.preprocessing import LabelEncoder

le = preprocessing.LabelEncoder()
le.fit(X)

le_dict = dict(zip(le.classes_, le.transform(le.classes_)))

检索单个新项目的标签，如果项目丢失，则将值设置为未知

le_dict.get(new_item, '<Unknown>')

检索 Dataframe 列的标签：

df[your_col] = df[your_col].apply(lambda x: le_dict.get(x, <unknown_value>))

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

scikitlearn

sklearn.LabelEncoder 具有以前从未见过的值的相关文章

openpyxl 2.4.2：保存后公式生成的单元格值为空

我使用 openpyxl 打开文件编辑一些单元格并保存更改这是一个例子 import openpyxl book openpyxl load workbook sheet path sheet book active for row i
Matplotlib 标准化颜色条 (Python)

我正在尝试使用 matplotlib 当然还有 numpy 绘制轮廓图它有效它绘制了它应该绘制的内容但不幸的是我无法设置颜色条范围问题是我有很多图并且需要所有图都具有相同的颜色条相同的最小值和最大值相同的颜色我复制并粘贴了在
如何使用pycaffe重构caffe网络

我想要的是加载网络后我将分解一些特定的图层并保存新的网络例如原网数据 gt conv1 gt conv2 gt fc1 gt fc2 gt softmax New net 数据 gt conv1 1 gt conv1 2 gt c
如何自动替换多个文件的文本内容中的字符？

我有一个文件夹 myfolder包含许多乳胶表我需要替换其中每个字符即替换任何minus sign by an en dash 只是为了确定我们正在替换连字符INSIDE该文件夹中的所有 tex 文件我不关心 tex 文件名手动执
无法包含外部 pandas 文档 Pycharm v--2018.1.2

我无法包含外部 pandas 文档Pycharm v 2018 1 2 例如 numpy gt http docs scipy org doc numpy reference generated module name element na
python ttk treeview：如何选择并设置焦点在一行上？

我有一个 ttk Treeview 小部件其中包含一些数据行如何设置焦点并选择突出显示指定项目 tree focus set 什么也没做 tree selection set 0 抱怨尽管小部件明显填充了超过零个项目但未找到项目
如何使用 openpyxl 对工作簿中的 Excel 工作表/选项卡进行排序

我需要按字母数字对工作簿中的选项卡工作表进行排序我在用openpyxl https openpyxl readthedocs io en default 操作工作表您可以尝试排序workbook sheets list workboo
Pandas：根据列名进行列的成对乘法

我有以下数据框 gt gt gt df pd DataFrame ap1 X 1 2 3 4 as1 X 1 2 3 4 ap2 X 2 2 2 2 as2 X 3 3 3 3 gt gt gt df ap1 X as1 X ap2 X a
在wxpython中使用wx.TextCtrl并在按钮单击后显示数据的简单示例 - wx新手

我正在学习 python 并尝试使用 wxpython 进行 UI 开发也没有 UI exp 我已经能够创建一个带有面板按钮和文本输入框的框架我希望能够在文本框中输入文本并让程序在单击按钮后对输入框中的文本执行操作我可以获得一些关
使用 python 将文本发送到带有逗号分隔符的列

如何使用分隔符在 Excel 中将一列分成两列并使用 python 命名标题这是我的代码 import openpyxl w openpyxl load workbook DDdata xlsx active w active a a
Python int 太大，无法放入 SQLite

我收到错误 OverflowError Python int 太大无法转换为 SQLite INTEGER 来自以下代码块该文件约25GB 因此必须分部分读取 length 6128765 Works on partitions of
如何逐像素绘制正方形（Python，PIL）

在空白画布上我想使用 Pillow 逐像素绘制一个正方形我尝试使用 img putpixel 30 60 155 155 55 绘制一个像素但它没有执行任何操作 from PIL import Image def newImg img
Python 矩阵每一行的总和

lista 1 2 3 4 5 6 7 8 9 print lista def filas lista res for elemento in lista x sum lista elemento res append x print re
是否可以强制浮点数的指数或有效数匹配另一个浮点数（Python）？

这是我前几天试图解决的一个有趣的问题是否可以强制一个的有效数或指数float与另一个人一样float在Python中出现这个问题是因为我试图重新调整一些数据以便最小值和最大值与另一个数据集匹配然而我重新调整后的数据略有偏差大约小
asyncio - 多次等待协程（周期性任务）

我正在尝试为异步事件循环创建定期任务如下所示但是我收到 RuntimeError 无法重用已等待的协程异常显然 asyncio 不允许等待相同的可等待函数如中讨论的这个错误线程 https bugs python org issu
Google App Engine 中的自定义身份验证

有谁知道或知道我可以在哪里学习如何使用 Python 和 Google App Engine 创建自定义身份验证流程我不想使用 Google 帐户进行身份验证并且希望能够创建自己的用户如果不是专门针对 Google App Engin
如何对字符串列表进行排序？

在 Python 中创建按字母顺序排序的列表的最佳方法是什么基本回答 mylist b C A mylist sort 这会修改您的原始列表即就地排序要获取列表的排序副本而不更改原始列表请使用sorted http docs pyt
将 Scikit-Learn OneHotEncoder 与 Pandas DataFrame 结合使用

我正在尝试使用 Scikit Learn 的 OneHotEncoder 将 Pandas DataFrame 中包含字符串的列替换为 one hot 编码的等效项我的下面的代码不起作用 from sklearn preprocessin
如何识别图形线条

我有以下格式的路径的 x y 数据示例仅用于说明 seq p1 p2 0 20 2 3 1 20 2 4 2 20 4 4 3 22 5 5 4 22 5 6 5 23 6 2 6 23 6 3 7 23 6 4 每条路径都有多个点它们
使用 numpy 加速 for 循环

下一个 for 循环如何使用 numpy 获得加速我想这里可以使用一些奇特的索引技巧但我不知道是哪一个这里可以使用 einsum 吗 a 0 for i in range len b a numpy mean C d e f b i

随机推荐

Pyspark 中的 JSON 文件解析

我对 Pyspark 很陌生我尝试使用以下代码解析 JSON 文件 from pyspark sql import SQLContext sqlContext SQLContext sc df sqlContext read json f
网站图标在 IE 中不工作

我有一个使用自定义 favicon ico 的网站图标在除 IE 之外的所有浏览器中按预期显示当尝试在 IE 中显示图标时我得到大红色 x 当在另一个浏览器中显示图标时它显示得很好页面源码包括它确实可以在其他浏览器中工作谢谢你
jQuery + MarkItUp + Polymer - 让它发挥作用吗？

Using Polymer 我正在尝试创建一个可重用的组件markItUp这样我就可以在需要时使用富文本编辑器但是尽我所能我无法让它正确初始化 jQuery 选择器根本无法找到 textarea 元素来发挥其魔力我已经尝试了很多添加
子表中的外键约束允许插入父表中不存在的值

我正在使用 SQL Server 2012 我已经在表上定义了外键约束外键引用复合主键当一列具有 00000 而另一列为空时 fk 约束不起作用父表不包含 00000 两个 fk 列都有varchar数据类型下面是示例 INSERT
通知消息是否会计入collapse_key 限制？

根据Firebase 通知文档通知消息始终是可折叠的我试图弄清楚他们是否有一些内在的collapse key 如果是这样这是否算作collapse key每台设备最多 4 个你是对的从 Web 控制台发送的所有通知都是可折叠的这
drupal_add_css、drupal_add_js 不起作用

我在用drupal add css and drupal add js 将 CSS 和 JavaScript 文件添加到我的 Drupal 站点我在一个名为 control 的模块中执行此操作因此我正在使用的函数被称为control p
如何从 HTML 中删除多个空白字符？

我想删除来自用户端的额外空白但我无法预测 HTML 的格式例如 p It s interesting that you would try cfsetting since nothing in it s documentation wo
解析 YAML，即使在有序映射中也能获取行号

我需要获取 YAML 文件中某些键的行号请注意这个答案没有解决问题我确实使用鲁梅尔 yaml 并且答案不适用于有序地图 usr bin env python3 coding utf 8 from ruamel import yaml
Linux 上的匿名内存是页面缓存的一部分吗？

Is 匿名记忆即程序堆和堆栈 Linux 上页面缓存的一部分内核的链接文档没有说明这一点 But the Wikipedia entry about Page Cache contains a graphic look at the t
从静态方法调用非静态方法 C# [重复]

这个问题在这里已经有答案了可能的重复从静态方法调用非静态方法c 我们可以从创建实例的静态方法中调用非静态方法代码 public class Foo public void Data1 public static void Data2
仅检索数字并忽略字符串中的字母

我有 10A 或 20B 之类的琴弦我想要 10A 中的 10 个或 20B 中的 20 个如何使用 VBScript 或 QTP 内部命令仅从字符串中分割数字我会使用正则表达式 s 20B Set re New RegExp re
将字符串分配给不带双引号的对象

我有一个以编程方式构建的字符串 tot item1 item2 item3 item4 item5 item6 item7 item8 item9 item10 我需要用两个单引号括起来字符串上没有双引号并分配给一个对象mod this
具有键“MY KEY”的 ViewData 项的类型为“System.String”，但必须为“IEnumerable”类型

我尝试使用 ASP NET MVC 2 从使用 Linq 2 SQL 映射的数据库填充下拉列表但不断收到此错误我很困惑因为我声明了一个类型变量IEnumerable
如何在张量流中存储和重建权重字典

训练时我将权重存储在张量流变量的字典中我将权重字典与一些数据一起传递给模型函数以获得我想要的输出训练后我想将该字典存储在一个文件中以便我可以重新创建它这样我可以通过简单地将权重字典与新数据一起传递到同一模型函数来应用学习
如何在 Visual Studio 2015 中设置 TypeScript 环境

我正在使用社区版 Visual Studio 2015 我想设置环境以在 asp net webforms 应用程序中使用 TypeScript 我看到很多使用 Visual Studio Code 执行此操作的指南但没有在 Visual
除以两个整数不会返回预期结果

我目前正在编写一个程序需要实时显示的预览但预览当然是按比例缩小的然而当我缩放PictureBox向下尺寸不正确为了使比例正确宽度和高度的比例需要为 4 3 这是代码 private void FindOptimalRes Pi
Typescript 类变量和错误：“指的是一个值，但在这里被用作类型。您的意思是 typeof' ...”。究竟为什么？

这适用于 Javascript 和 Typescript class A const B class extends A var x new B console log x instanceof B x constructor name t
Zend Framework：如何连接两列并仍然使用 fetchPairs()？

我有一个带有选择元素的表单我需要用数据库中的值填充该元素具体来说当前用户的名称和 ID 这fetchPairs 函数对此非常有用但是我需要连接来自的值first name列和last name列并将其显示为选项标签有没有办法做到
<< 的运算符重载需要 const；产生头痛

我正在尝试超载operator lt lt 但它总是需要是const功能但是我想更改这个重载函数内的值我该怎么做呢 EDIT1 代码存根如下所示 class Check public void operator lt lt boost
sklearn.LabelEncoder 具有以前从未见过的值

If a sklearn LabelEncoder已经在训练集上进行了拟合如果在测试集上使用时遇到新值它可能会崩溃我能想到的唯一解决方案是将测试集中的所有新内容即不属于任何现有类映射到

sklearn.LabelEncoder 具有以前从未见过的值

sklearn.LabelEncoder 具有以前从未见过的值 的相关文章

随机推荐

热门标签

sklearn.LabelEncoder 具有以前从未见过的值的相关文章