当训练和测试的特征数量不同时，如何处理生产环境中的One-Hot Encoding？

2024-05-14

在做某些实验时，我们通常在 70% 上进行训练，在 33% 上进行测试。但是，当您的模型投入生产时会发生什么？可能会发生以下情况：

训练集：

-----------------------
| Ser |Type Of Car    |
-----------------------
|  1  | Hatchback     |
|  2  | Sedan         |
|  3  | Coupe         |
|  4  | SUV           |
-----------------------

经过 One-Hot 编码后，我们得到的是：

-----------------------------------------
| Ser | Hatchback | Sedan | Coupe | SUV |
-----------------------------------------
|  1  |     1     |   0   |   0    |  0 |
|  2  |     0     |   1   |   0    |  0 |
|  3  |     0     |   0   |   1    |  0 |
|  4  |     0     |   0   |   0    |  1 |
-----------------------------------------

我的模型已经过训练，现在我想将其部署到多个经销商。该模型针对 4 个特征进行训练。现在，某经销商只销售轿车和轿跑车：

测试集：

-----------------------
| Ser |Type Of Car    |
-----------------------
|  1  | Coupe         |
|  2  | Sedan         |
-----------------------

One-Hot 编码结果为：

---------------------------
| Ser | Coupe     | Sedan |
---------------------------
|  1  |     1     |   0   |
|  2  |     0     |   1   |
|  3  |     1     |   0   |
---------------------------

这里我们的测试集只有 2 个特征。为每个新经销商建立一个模型是没有意义的。生产中遇到此类问题如何处理？是否有其他编码方法可用于处理分类变量？

我假设您正在使用 pandas 进行单热编码。如果没有，你必须做更多的工作，但逻辑仍然是一样的。

import pandas as pd

known_categories = ['Sedan','Coupe','Limo'] # from training set

car_type = pd.Series(['Sedan','Ferrari']) # new category in production, 'Ferrari'

car_type = pd.Categorical(car_type, categories = known_categories)

pd.get_dummies(car_type)

结果是

    Sedan   Coupe   Limo
0   1.0      0.0    0.0    # Sedan entry
1   0.0      0.0    0.0    # Ferrari entry

由于法拉利不在已知类别列表中，因此法拉利的所有 1 ot 编码条目均为零。如果您在生产数据中发现新的车型，则编码该车型的行应全部为 0。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

machinelearning

featureselection

onehotencoding

当训练和测试的特征数量不同时，如何处理生产环境中的One-Hot Encoding？的相关文章

更改随机森林分类器的阈值

我需要开发一个没有或接近没有假阴性值的模型为此我绘制了召回率精度曲线并确定阈值应设置为 0 11 我的问题是如何定义模型训练时的阈值稍后在评估时定义它是没有意义的因为它不会反映新数据 X train X test y tr
漂亮的地图打印机会抛出类型错误

我已经使用配置了漂亮的打印机http wiki eclipse org CDT User FAQ How can I inspect the contents of STL containers 3F http wiki eclipse o
将 Poetry 与 PyEnv 一起使用并遇到 Python 版本问题

我正在使用 WSL2 Ubuntu 我一直在学习使用 Fastapi 进行后端 API 开发的课程我相信我的 Ubuntu 默认 python 是 3 8 我正在尝试使用 python 3 10 0 进行开发我做了以下事情 pyenv安
根据另一个数据框中找到的范围填充数据框中的列

我试图根据该记录的索引值是否落在另一个数据框中的两列定义的范围内来填充数据框中的列 df1 看起来像 a 0 4 1 45 2 7 3 5 4 48 5 44 6 22 7 89 8 45 9 44 10 23 df2 是 START ST
如何将 Google Cloud Storage 中的许多文件设为私有？

我进行了很多研究但无法为此提出解决方案以下是我用来在 GCP 中公开所有文件的代码 def make blob public bucket name blob name Makes a blob publicly accessible
如何使用 Twython 将 oauth_callback 值传递给 oauth/request_token

Twitter 最近刚刚强制执行以下规定 1 您必须通过oauth callbackoauth request token 的值这不是可选的即使您已经在 dev twitter com 上设置了一个如果您正在执行带外 OAuth 请通
Colab 的使用限制持续多久？

当我对同一帐户的两个笔记本同时使用两个 GPU 约半小时后 Colab 已 12 小时未运行此消息不断弹出由于 Colab 中的使用限制您当前无法连接到 GPU 自从我上次使用 colab 以来已经过去了大约两个小时但该消息仍然弹出
类型错误：translate() 只接受一个参数（给定 2 个参数）[重复]

这个问题在这里已经有答案了我的代码在 python 2 x 版本上运行良好但是当我尝试在 python 3 x 版本上运行它时出现错误主题需要缩写短信编码中的任何消息 Code def sms encoding data star
Scrapy Splash，如何处理onclick？

我正在尝试抓取以下内容我能够收到响应但我不知道如何访问以下项目的内部数据以抓取它我注意到访问这些项目实际上是由 JavaScript 和分页处理的这种情况我该怎么办下面是我的代码 import scrapy from scrapy
Django 说“id 可能不为 NULL”，但为什么会这样呢？

我今天要疯了我只是尝试插入一条新记录但它返回了 post blogpost id 可能不为 NULL 错误这是我的模型 class BlogPost models Model title models CharField max le
将相同的 Patch 实例添加到 matplotlib 中的多个子图中

我正在尝试将补丁的相同实例添加到 matplotlib 中的多个轴这是最小的例子 import matplotlib pyplot as mpl plt import matplotlib patches as mpl patches f
从 Spark 数据帧中过滤大量 ID

我有一个大型数据框其格式类似于 ID Cat date 12 A 201602 14 B 201601 19 A 201608 12 F 201605 11 G 201603 我需要根据大约 500 万个 Is 的列表来过滤行最直接的方
为什么在 __init__ 函数中声明描述符类会破坏描述符功能？

在下面的 B 类中我想要 set 每当您赋值给 A 类中的函数时就会调用该函数B a 相反将值设置为B a覆盖B a与价值 C类分配给C a工作正常但我想为每个用户类都有一个单独的 A 实例即我不想在 C 的一个实例中更改 a 来
检查列表是否已排序的 Pythonic 方法

有没有一种Python式的方法来检查列表是否已经排序ASC or DESC listtimestamps 1 2 3 5 6 7 就像是isttimestamps isSorted 返回True or False 我想输入一些消息的时间戳列
Python 在 64 位 vista 上获取 os.environ["ProgramFiles"] 的错误值

Vista64 计算机上的 Python 2 4 3 环境中有以下2个变量 ProgramFiles C Program Files ProgramFiles x86 C Program Files x86 但是当我运行以下命令时 impo
Scapy：如何将新层（802.1q）插入现有数据包？

我有一个数据包转储想要将 VLAN 标记 802 1q 标头注入到数据包中怎么做为了找到答案我查看了Scapy 插入新层和记录问题 https stackoverflow com q 17259592 1381638 这确实很有帮
列表中的“u”是什么意思？

这是我第一次遇到这种情况刚刚打印了一个列表每个元素似乎都有一个u在它前面即 u hello u hi u hey 它是什么意思为什么列表的每个元素前面都会有这个由于我不知道这种情况有多常见如果您想了解我是如何遇到它的我会很乐意
Django 按小时过滤

我找到了那个链接 http code djangoproject com attachment ticket 8424 time filters diff http code djangoproject com attachment tic
gnuplot：第 1 行：无效命令

stackoverflow 上可爱的人们大家好我正在尝试使用 gnuplot 绘制数据我首先阅读表格并提取我想要的数据我将此数据写入 dat 文件截至目前我只是尝试通过命令行绘制它但会添加必要的代码以在 python 脚本工作后
如何从Python枚举类中获取所有值？

我正在使用 Enum4 库创建一个枚举类如下所示 class Color Enum RED 1 BLUE 2 我要打印 1 2 作为某处的列表我怎样才能实现这个目标您可以执行以下操作 e value for e in Color

随机推荐

优化 CSS 交付 - Google 的建议

谷歌建议在 head 中使用非常重要的 CSS 内联并在内部使用其他 CSS
FB.ui Facebook 分享不适用于帖子？

当我发起行动时 FB ui method share this works fine href https www facebook com this works fine href https www facebook com 67850
如何使用 PHP 查找字符串中字符的序列模式？

假设我有随机的文本块 EAMoAAQAABwEBAAAAAAAAAAAAAAABAgMFBgcIBAkBAQABBQEBAAAAAAAAAAAAAAAGAgMEBQcBCBAAAQMDAgMEBQcIBQgGCwEAAQACAxEEBSEG
我想测量 ListView 的高度 (getHight() = 0)

我无法自己决定任务将是问我想测量 ListView 的高度无法捕捉渲染 ListView 的时刻 rssListView getHight 0 public class RSSactivity extends Activity publ
防止点击 MKAnnotation 时检测到 MKMapView 上的触摸事件

我有一个 UITapGestureRecognizer 当用户点击地图时它将在我的 MKMap 上隐藏和显示工具栏简单但是当用户点击 MKMapAnnotation 时我不希望地图以正常方式响应点击如上所述此外当用户点击地图
忽略 git 中的本地配置文件

Rails 应用程序中有一些本地文件属于我们存储库的一部分我希望 git 忽略它们基本上我希望 git 忽略我对 config environments 目录和 config application rb 文件中的任何内容所做的所有
如何调试 Node.js 应用程序？

如何调试 Node js 服务器应用程序现在我主要使用警报调试打印语句如下 sys puts sys inspect someVariable 一定有更好的调试方法我知道谷歌浏览器 http en wikipedia org wiki
jQuery 如何实现延迟滑动？

我正在使用以下 jQuery div 框向上滑动 5 秒后淡出有没有办法实现这一点因为该框需要很长时间才能出现 document ready function load limit slideUp 500 have tried fast
在 IIS URL 重写模块中自定义 HTTP 标头

我被一个简单的出站规则困住了我想修改HTTP内容类型 to 应用程序原子 xml 如果 URL 完全匹配http wayneye com Feeds Atom http wayneye com Feeds Atom 我的规则 XML
iPhone 应用程序中的文本在 ipad 中的 2x 模式下出现别名

我有一个适用于 iPhone 的应用程序使用高分辨率图像使其适用于 iPhone 和 iPad 但在 iPad 中所有文本在 2x 模式下都会出现别名是否可以让App在2x模式下自动改变字体大小或者我必须手动检测设备类型并处理字体大
如何更改 ansible_default_ipv4？

我想将 ansible default ipv4 更改为指向 eth1 而不是 eth0 我可以在剧本中或通过 extra vars 选项来执行此操作吗 ansible 使用命令 https github com ansible ansib
iOS 7 导航栏颜色在 iPhone 4 上无法正确显示

我的导航栏颜色在 iOS 7 中正常显示部署iOS 6 0 但如果系统版本是iOS 7 0或更高版本部分导航栏颜色在iPhone 4上无法正常显示在iPhone 5上工作正常我是这样做的 if SYSTEM VERSION GREA
有没有一种简单的方法可以根据多个标准进行排名，从而保留 R 中的联系？

当单个标准排序良好时 rank 函数会返回明显的结果 rank c 2 4 1 3 5 1 2 4 1 3 5 当单个标准具有联系时排名函数默认情况下将平均排名分配给联系 rank c 2 4 1 1 5 1 3 0 4 0 1 5
OSError: [WinError 193] %1 不是有效的 Win32 应用程序，同时使用 CTypes 在 python 中读取自定义 DLL

我正在尝试编写用 python 封装 C 库的代码我计划使用 CTypes 来完成此操作并使用 Visual Studio 来编译我的 DLL 我从一个简单的函数开始在 Visual Studio 内的标头中添加了以下内容然后将其构
如何在 Twilio 可编程聊天中的单个通道上侦听消息

Using twilio chat js https www npmjs com package twilio chat如何在单个频道上收听消息我发现这个问题 https stackoverflow com questions 54687
在 Xamarin 中获取 OutOfMemoryException

java lang OutOfMemoryError 考虑增加 JavaMaximumHeapSize Java 执行时内存不足 java exe 我的 Visualstudio Xamarin 项目出现内存不足异常请帮助我如何解决此问题
间歇性 PHP 抽象类错误

我已经为此奋斗了一段时间但无法弄清楚也许其他人也有或者 Slim PHP Apache 等这里有更深层次的问题在正常工作几个小时后我的 Slim 安装将开始给出所有路线均如此致命错误类 Slim Collection 包含 1
Electron — 无法显示自定义图标

我在以两种不同的方式设置 Electron 应用程序的图标时遇到问题非打包通过终端运行应用程序我的 main js 确实指定了一个图标值指向图标文件但它不适用包装使用电子包装器我的 package json 文件指定了
未捕获的 Kotlin 异常：kotlin.native.In CorrectDereferenceException：非法尝试访问非共享

我尝试使用 Kotlin MPP Multiplatform 开发 Android 和 iOS 之间的共享库但我面临着 iOS 中线程的问题对于我在 iOS 中的应用程序我在主线程中建立了对象但它可能调用其他线程中的函数并抛出此异常
当训练和测试的特征数量不同时，如何处理生产环境中的One-Hot Encoding？

在做某些实验时我们通常在 70 上进行训练在 33 上进行测试但是当您的模型投入生产时会发生什么可能会发生以下情况训练集 Ser Type Of Car 1 Hatchback 2 Sedan 3 Coupe 4 SUV 经过

当训练和测试的特征数量不同时，如何处理生产环境中的One-Hot Encoding？

当训练和测试的特征数量不同时，如何处理生产环境中的One-Hot Encoding？ 的相关文章

随机推荐

热门标签

当训练和测试的特征数量不同时，如何处理生产环境中的One-Hot Encoding？的相关文章