如何在预测数据上使用 Pandas get_dummies？

2024-01-20

使用熊猫后get_dummies在 3 个分类列上获得一个热编码数据框，我训练了（取得了一些成功）感知器模型。

现在我想根据新的观察来预测结果，它不是热编码的。

有什么办法可以记录get_dummies列映射要重新使用吗？

据我所知，目前没有自动程序可以做到这一点。在未来的发布中sklearn CategoricalEncoder对于这项工作将会非常方便。如果你克隆的话，你已经可以得到它了sklearngithub master 分支并自行构建。目前我想到了两个选择：

use LabelEncoder+OneHotEncoder组合，参见这个答案，例如 https://stackoverflow.com/a/50443410/9640384;
只需在训练 OHE 输出后检索（并存储，如果需要）列列表即可。然后运行pd.get_dummies在测试集/示例上。循环遍历输出测试 OHE 列，删除训练 OHE 中未出现的列，并添加测试 OHE 中缺失的列并用零填充。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

onehotencoding

如何在预测数据上使用 Pandas get_dummies？的相关文章

如何在 R 中对多个分类变量进行一次热编码

我正在研究一个预测问题并且正在 R 中构建一棵决策树我有几个分类变量我想在我的训练和测试集中对它们进行一致的单热编码我设法在我的训练数据上做到了这一点 temps lt X train tt lt subset temps sele
SciKit-Learn 标签编码器导致错误“参数必须是字符串或数字”

我有点困惑在这里创建一个 ML 模型我正处于尝试从大数据帧 180 列中获取分类特征并对其进行单热处理的步骤以便我可以找到特征之间的相关性并选择最佳特征这是我的代码 import labelencoder from skl
使用 one-hot 代码的 Tensorflow 混淆矩阵

我使用 RNN 进行多类分类这是我的 RNN 主要代码 def RNN x weights biases x tf unstack x input size 1 lstm cell rnn BasicLSTMCell num unit f
如何在字符级别对句子进行one-hot编码？

我想将一个句子转换为一个 one hot 向量数组这些向量将是字母表的独热表示它看起来像下面这样 hello h 7 e 4 l 11 o 14 会成为 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0
如何在 R 中使用大数据对多个变量进行热编码？

我目前有一个包含 260 000 行和 50 列的数据框其中 3 列是数字其余是分类我想要对分类列进行一次热编码以便执行 PCA 并使用回归来预测类别我怎样才能在 R 中完成下面的例子 Example V1 V2 V3 V4 V5
Python Numpy One 热销区域

制作这个 One Hot 编码矩阵的最佳方法是什么 array 1 0 0 1 0 0 0 1 0 0 0 1 0 1 0 1 0 0 as array 0 0 1 2 1 0 换句话说如何解码 One Hot 数组 Use np arg
使用 model.matrix 进行 One-hot 编码

model matrix 中有一些我不明白的东西当我输入一个没有截距的二进制变量时它返回两个级别 gt temp data lt data frame x sample c A B 1000 replace TRUE gt temp d
Pandas One hot 编码：将不太常见的类别捆绑在一起

我正在对一个分类列进行一次热编码该列有大约 18 种不同类型的值我想仅为那些出现超过某个阈值假设为 1 的值创建新列并创建另一个名为other values如果值不是那些频繁值则值为 1 我正在将 Pandas 与 Scikit
我是否必须对训练数据集和测试数据集分别进行 one-hot 编码？ [关闭]

Closed 这个问题需要多问focused help closed questions 目前不接受答案我正在研究分类问题并将数据分为训练集和测试集我有几个分类列大约 4 6 我正在考虑使用pd get dummies将我的分类值转
keras 中的 One-hot 编码标签

我有一组来自 CSV 文件中标签列的整数 1 2 4 3 5 2 班级数量为5即范围1 to 6 我想使用下面的代码对它们进行一次性编码 y df iloc 10 values y tf keras utils to categorical
如何在sklearn中对分类特征进行编码？

我有一个包含 41 个特征从 0 到 40 列的数据集其中 7 个是分类特征该分类集分为两个子集字符串类型的子集列特征1 2 3 int 类型的子集二进制形式 0 或 1 列特征 6 11 20 21 此外列特征 1 2 和
Python：海量数据的 One-hot 编码

我在尝试编码时不断遇到内存问题字符串标签到one hot编码大约有 500 万行和大约 10000 个不同的标签我已尝试以下方法但不断出现内存错误 from sklearn import preprocessing lb prepro
如何做 pd.get_dummies 或其他方式？

实际上我的问题是基于是否有更快的方法根据条件更新数据框列值 https stackoverflow com questions 46678400 is there a faster way to update dataframe col
如何在预测数据上使用 Pandas get_dummies？

使用熊猫后get dummies在 3 个分类列上获得一个热编码数据框我训练了取得了一些成功感知器模型现在我想根据新的观察来预测结果它不是热编码的有什么办法可以记录get dummies列映射要重新使用吗据我所知目前没有自动
Keras One Hot 编码内存管理 - 最好的出路

我知道这个问题已经以不同的方式得到了解答past https stackoverflow com questions 41058780 python one hot encoding for huge data 但我无法弄清楚并适合我的代码
ValueError：列的长度必须与键的长度相同

我运行下面的代码时遇到问题数据是我的数据框 X 是列车数据的列列表 L 是具有数值的分类特征列表我想对我的分类特征进行热编码所以我这样做但是会抛出 ValueError 列的长度必须与键相同对于最后一行经过长时间的研究我仍然不明
如何对具有变化的值的数据帧进行一致的热编码？

我正在获取数据帧形式的内容流每个批次在列中具有不同的值例如一批可能如下所示 day1 data state MS OK VA NJ NM city C B G Z F age 27 19 63 40 93 另一个像 day2 data
如何在训练/验证/测试中调整 pandas get_dummies？

我有 3 组数据训练验证和测试当我运行时 training x pd get dummies training x columns a b c 它给了我一定数量的功能但是当我在验证数据上运行它时它给了我一个不同的数字和相同的测试数
将数值和分类数据混合到具有密集层的 keras 序列模型中

我在 Pandas 数据框中有一个训练集我将此数据框传递到model fit with df values 以下是有关 df 的一些信息 df values shape 981 5 df values 0 array 163 0 6 83
将索引数组转换为 NumPy 中的 one-hot 编码数组

给定一个一维索引数组 a array 1 0 3 我想将其一次性编码为二维数组 b array 0 1 0 0 1 0 0 0 0 0 0 1 创建归零数组b有足够的列即a max 1 然后对于每一行i 设置a i 第列至1 gt

随机推荐

如何设置默认的Windows套件（SDK）版本？

我曾经在我的 C 应用程序中使用 Windows 8 1 SDK 一切正常今天我安装了 Windows 10 SDK 但找不到一种方法将其设为默认我可以在 Visual Studio 项目设置中对新的 SDK 路径进行硬编码但这是非常
Xcode - 单元测试 - 针对 iOS 12 进行编译，但模块的最低部署目标为 13

我在运行单元测试时遇到问题问题位于代码行下方 testable导入PROJECT NAME Error Compiling for iOS 12 1 but module PROJECT NAME has a minimum deploy
AndroidcameraSource.stop()导致应用程序冻结

我正在使用 google Vision API 构建一个具有二维码扫描仪的应用程序读取二维码后我无法停止相机流量是MainActivity gt QrActivity一旦二维码收到检测应用程序应返回到主活动如果我不打电话camer
重新定义/隐藏局部变量有多糟糕？

在将遗留项目升级到 VS2015 时我注意到存在很多错误例如在函数内部重新定义局部变量 void fun int count applesCount cout lt lt Apples cost lt lt count 1 25 for
Rails - 有两个父母的嵌套资源

假设我有一个带有两个父模型的子模型 Event has many tickets Person has many tickets Ticket belongs to Event Ticket belongs to Person 路线已映射
SocketException：使用 UdpClient 打开端口时“访问被拒绝”

我正在尝试开始侦听 Android 设备上的 UDP 端口之一我正在使用 Xamarin Forms 并在物理 Android 手机上测试它 public void StartListening int port 13000 Listen
手动更新 Carrierwave Uploader 安装的属性

我无法在由 Carrierwave 上传程序安装的属性上使用 model update attribute SQL 语句不会接受该值并将 NULL 添加到占位符如果我从模型类中删除 mount uploader 语句它会正常工作我正在
Angular ng-if="" 具有多个参数

我正在尝试开始角度开发在查看文档后仍然存在一些问题我怎样才能最好地写一个ng if有多个参数对应于 if a b or if a b 有可能的 span I m removed when the checkbox is uncheck
等待所有的 Promise 在 Node.js 中用 Bluebird 完成

在使用 bluebird 的 Node js 中等待所有 Promise 完成的最佳方法是什么假设我想从数据库中选择记录并将它们存储在 redis 中我想出了这个 loadActiveChannels function return K
如何以编程方式获取父主题

假设我在以下位置声明了以下自定义主题themes xml
计算 HH:mm 格式的时差

我有两个时间戳HH mm格式我需要计算它们之间的差异代表相同的时间间隔HH mm format JavaScript 有什么实用工具可以实现这一点吗我尝试使用Date对象但我找不到有用的东西你能帮助我吗您只需将两个日期相减即可
将 ControlParameter 添加到 SqlDataSource 会阻止查询和数据绑定吗？

我有一个 SqlDataSource 调用存储过程并且工作正常如果我添加一个
如何从片段中获取EditText

我创建了AlerDialog AlertDialog Builder alert new AlertDialog Builder appContext alert setTitle Add subcontractors setView R
java赋值中可能存在逻辑错误的误解

我在让这个项目正常工作方面遇到了很多问题但我目前一直致力于让这个课程正常工作它应该做的就是从无线电类中获取当前电台并将其传递给此类问题是我试图在 AM 和 FM 之间进行选择但每次运行它时它只显示 AM 电台我不明白为什么它会自
每个RAILS_ENV运行多个delayed_job实例

我正在开发一个具有多个 RAILS Env 的 Rails 应用程序 env name1 adapter mysql username root password host localhost database db name 1 env
Java 到 C# 的转换。如何在位图上绘制矩形？

首先我对 C 和 Java 都是菜鸟因此我被分配了将 java 小程序转换为 C 的任务除了使用鼠标事件通过拖放在屏幕上绘制矩形之外我还成功完成了所有操作应该发生的情况是当我单击鼠标并在屏幕上拖动鼠标时应该会出现一个没有填充
应用程序应该如何响应延迟的 SKPaymentTransaction？

我的应用程序中有应用内购买 iOS 8 的新功能是延迟交易部分描述见技术说明 https developer apple com library ios technotes tn2259 index html 我了解它的作用并且我不
让 Rails 2.3.x 忽略 i18n gem

我有一个 Rails 2 3 5 项目它使用 Rails 的本地化功能我也碰巧安装了 Rails 3 beta 这取决于 i18n gem Rails 2 3 5 很乐意自行处理本地化无需安装 i18n 但是如果 i18n gem 可
如何根据物体位置旋转图像？

首先对帖子的长度表示抱歉我正在开展一个根据叶子图像对植物进行分类的项目为了减少数据的方差我需要旋转图像以便茎在图像底部水平对齐 270 度到目前为止我在哪里到目前为止我所做的是创建一个阈值图像然后从那里找到轮廓并在对象周围
如何在预测数据上使用 Pandas get_dummies？

使用熊猫后get dummies在 3 个分类列上获得一个热编码数据框我训练了取得了一些成功感知器模型现在我想根据新的观察来预测结果它不是热编码的有什么办法可以记录get dummies列映射要重新使用吗据我所知目前没有自动

如何在预测数据上使用 Pandas get_dummies？

如何在预测数据上使用 Pandas get_dummies？ 的相关文章

随机推荐

热门标签

如何在预测数据上使用 Pandas get_dummies？的相关文章