Pandas：处理测试中看不见的数据

2024-07-04

我有一个训练数据集，正在构建一些机器学习模型。我无权访问测试集，并且想要处理在训练中未观察到测试中的分类特征之一的可能性。

这是一个玩具示例，说明了我的意思：

我有一个数据框，old，像这样：

old = pd.DataFrame({"car":["Audi", "BMW", "Mazda"]})

看起来像这样：

    car
0   Audi
1   BMW
2   Mazda

我现在像这样进行一次性编码：

new = pd.get_dummies(old)

并返回：

   car_Audi car_BMW car_Mazda
0      1       0       0
1      0       1       0
2      0       0       1

这一切都很好。但是，如果我在测试中遇到如下所示的行：

    car
0   Mercedes

我可以进行单热编码，但最终会得到一列我在测试中没有的列。

Pandas 有没有办法忽略测试中我在火车上没有看到的值？

因此，我的梅赛德斯行所需的输出是：

   car_Audi car_BMW car_Mazda
0      0       0       0

Thanks!

您可以使用reindex为了达成这个

old = pd.DataFrame({"car":["Audi", "BMW", "Mazda"]})
new = pd.get_dummies(old)
test= pd.DataFrame({"car":["Audi", "BMW", "Mazda","Mercedes"]})
pd.get_dummies(test).reindex(columns=new.columns)
Out[460]: 
   car_Audi  car_BMW  car_Mazda
0         1        0          0
1         0        1          0
2         0        0          1
3         0        0          0 # row 3 will be all 0 after modified

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

pandas

Pandas：处理测试中看不见的数据的相关文章

使用 Keras RNN 模型使用较少时间步长（不同维度）的数据进行预测

根据RNN的性质我们可以得到每个时间戳时间展开的预测概率的输出假设我训练一个具有 5 个时间步长的 RNN 每个时间步长有 6 个特征因此我必须像这样指定第一层假设我们使用具有 20 个节点的 LSTM 层作为第一层 model
导入文本文件：没有要从文件中解析的列

我正在尝试从 sys stdin 获取输入这是hadoop 的map reducer 程序输入文件为txt格式数据集预览 196 242 3 881250949 186 302 3 891717742 22 377 1 8788871
从Python运行Scrapy

我正在尝试从 Python 运行 Scrapy 我正在查看这段代码 source http doc scrapy org en 0 16 topics practices html from twisted internet import
Pandas DataFrame 到列表列表

将列表列表转换为 pandas 数据框很容易 import pandas as pd df pd DataFrame 1 2 3 3 4 5 但是如何将 df 转回列表列表呢 lol df what to do now print lol
如何在 Python 3 中使用 smtplib.sendmail() 对收件人姓名（而不是地址）中的国际字符进行编码？

我在 Python 3 程序中使用标准 smtplib sendmail 调用来发送电子邮件如下所示 smtp session sendmail The Sender lt email protected cdn cgi l email
如何使用Python读取MP3中的ID3标签？ [关闭]

Closed 这个问题需要多问focused help closed questions 目前不接受答案有人有在 MP3 文件或 WMA 文件中读写 ID3 标签的经验吗有一些库但我想从头开始深入Python https web a
Django - 旋转图像并保存

我想在 django 中为图像添加向左旋转和向右旋转按钮这似乎很容易但我浪费了一些时间尝试了在 stackoverflow 上找到的一些解决方案但还没有结果我的模型有一个 FileField class MyModel m
熊猫读_csv。如何忽略换行符之前的分隔符

我正在读取一个包含数值的文件 data pd read csv data dat sep header None 在文本文件中每行以空格结尾因此 pandas 等待不存在的值并在每行末尾添加一个 nan 例如 2 343 4 234
django value_list 外键中所有字段

我有一个类它有另一个类的外键 class MyEvent models Model msg models ForeignKey MyMessage event type models IntegerField choices EVENTS
Asyncio 函数在从脚本调用时有效，但在 Flask 路由中无效

我是 Python 和这些库模块的新手我正在编写一个简单的 ping 测试网络扫描仪作为学习项目我首先使用 asyncio 开发了一个脚本来 ping 网络上的地址 ip test py import asyncio import i
IDA Python - 为什么我的代码返回不正确的 ESP 值？

我制作了一个 ida python 代码用于检查代码覆盖率但是当我使用这个脚本时我遇到了运行时错误并且无法获得正确的 ESP 值我的代码 from idaapi import class DbgHook DBG Hooks def
上传大文件nginx + uwsgi

堆栈 flask 0 10 uwsgi 1 4 5 nginx 1 2 3 我可以通过我的应用程序上传小文件 CONTENT LENGTH 无效太大跳过 nginx 日志没有显示任何有用的内容我尝试了以下操作但没有成功 nginx配
解析srt字幕

我想解析srt字幕 1 00 00 12 815 gt 00 00 14 509 Chlapi jak to jde s t ma pracovn ma sv tlama 2 00 00 14 815 gt 00 00 16 498 Tro
使用 python 将数据复制到 Vertica

I use python and vertica python图书馆到COPY数据到Vertica DB connection vertica python connect conn info vsql cur connection cur
Python 中的 HTML 解析器 [关闭]

Closed 这个问题正在寻求书籍工具软件库等的推荐不满足堆栈溢出指南 help closed questions 目前不接受答案使用Python文档我发现了HTML解析器 http docs python org lib modu
SWIG Python 结构体数组

我已经搜索了几天试图弄清楚如何将结构数组转换为 Python 列表我有一个函数返回指向数组开头的指针 struct foo int member struct foo bar struct foo t malloc sizeof str
与 C 数组相比，带有 NumPy 数组内存视图的 Cython 性能较差

我遇到了一个非常奇怪的结果基准 http nbviewer ipython org github rasbt One Python benchmark per day blob master ipython nbs day4 python
将 LIVE SPEECH 与 Tkinter GUI 连接

我想将 pocketsphinx livespeech 与 Python tkinter GUI 连接起来这样 GUI 在前端可见而 Livespeech 在后端工作但是当我将 tkinter 代码与 livespeech 代码合并时
无法在 Debian lenny 上安装 python 模块“pycrypto”

我尝试通过下载源代码并执行以下命令来安装 pycrypto 模块python setup py install 然后出现错误 running install running build running build py running bu
在Python中返回外部函数错误

这就是问题给定以下 Python 程序假设用户从键盘输入数字 4 返回的值是多少 N int input enter a positive integer counter 1 while N gt 0 counter counter N

随机推荐

Java并发hashMap检索

ConcurrentHashMap文档说检索操作包括 get 通常不会阻塞因此可能与更新操作包括 put 和 remove 重叠检索反映了最近完成的更新操作在其开始时的结果更正式地说给定键的更新操作与报告更新值的该键的任何非
使用来自外部 JS 文件的 Google Analytics 异步代码

我正在尝试将 Google Analytics 跟踪代码的异步版本添加到网站我想将 JavaScript 保存在一个单独的文件中并从那里调用它这是我的 js 文件中当前的内容 function addLoadEvent func va
重命名由 android 10 中的应用程序创建的 Mediastore 文件。在 Android API 30 上工作，但在 API 29 中显示错误

在这里这个 renameFile 函数在 Android API 30 中工作但是它在 Android API 29 中不起作用并显示如下错误 java lang IllegalArgumentException 不允许移动不属于明
如何使用 w3m 呈现 EMAIL 消息中的 HTML 内容？

我如何使用 w3m 或其他方式在 EMAIL 消息中显示内嵌的 HTML 内容或者至少在外部 Web 浏览器中打开其 MIME 部分我找到的唯一解决方案是在 EmacsWiki 中但它是 1996 年的代码对我来说不起作用至少在
Chrome 与 Firefox 后台缓存

我有一个 drupal 网站其视图链接到详细信息页面视图具有分页功能问题是这样的在 FireFox 中当您从视图的第 8 页转到详细信息页面时然后单击后退按钮您最终会看到page 8的视图好的在 Chrome 中当您从视
在 TAM 中实施 ConQuest 评分命令

在 IRT 软件中ConQuest您可以使用命令 score 使用相同的清单变量原始数据但不同的编码来对多个维度潜在变量进行建模例如 score 1 2 3 0 1 2 0 1 0 items 1 3 将原始分数从 1 到 3 重新编
cloudwatch/eventbridge事件调用时如何获取ECS中的事件内容？

我们可以设置事件规则来触发ECS任务但我没有看到触发事件是否传递给正在运行的ECS任务以及任务中如何获取该事件的内容如果 Lambda 被触发我们可以从event变量例如在Python中 def lambda handler eve
如何在 Windows 上的 Chrome 中打开 Jupyter 笔记本

在我的 Windows PC 上我安装了 anaconda 当我打开 jupyter 笔记本时它会在 Internet Explorer 中打开但我想使用 Chrome 有谁知道如何实现这一目标如果您还没有创建笔记本配置文件请运行
redux fetch body 不能在无 cors 模式下使用

我有一个调用函数的操作 dispatch Api url my url method POST data data 这里我将数组作为数据传递 import fetch from isomorphic fetch export default
熊猫读_csv。如何忽略换行符之前的分隔符

我正在读取一个包含数值的文件 data pd read csv data dat sep header None 在文本文件中每行以空格结尾因此 pandas 等待不存在的值并在每行末尾添加一个 nan 例如 2 343 4 234
**线程“main”中的异常java.util.InputMismatchException**

我正在尝试从 txt 文件中获取一些记录并将其放入以下 Java 程序的数据库中 package Java Demo import java sql import java util import java io public class
Spring Boot，JPA 错误：“通过 JDBC 语句执行 DDL 时出错”

我正在尝试使用一个非常基本的到目前为止 Spring Boot 应用程序在我的 MySQL 数据库中添加一个条目我使用了在网上找到的一些零碎内容这是我试图遵循的代码 netgloo spring boot samples spring
在 C++ 中访问静态类变量？

复制 C 对静态类成员的未定义引用 https stackoverflow com questions 272900 c undefined reference to static class member 如果我有这样的类结构 head
Rust 中的 OOP 和共享/可变引用

在一系列编程课程的背景下我决定使用 Rust 而不是 C 作为支持编程语言这些课程的一方面致力于依赖于接口 dyn 特征的 OOP 动态调度最小接口的组合而不是深层继承树我知道 OOP 不太适合现代语言和方法但现有的代码库和 9
Windows下如何修改并保存Rprofile.site？

我希望使用 Notepad 编辑器在 Windows 7 R 2 11 1 下修改 Rprofile site 文件从 options help type text options help type html to options he
Node.js如何重现PHP MD5加密

我正在将现有的基于 php 的网站转换为 node js 应用程序并且我需要将这种加密方法从 php 复制到 js private static passwordSalt d2g6IOP U U VUIPU HN V URerjh0 rf
在 Ruby 中对数组使用冒泡排序方法 [关闭]

Closed 这个问题需要多问focused help closed questions 目前不接受答案我正在尝试将冒泡排序方法实现为 Ruby 的一个简单编码问题但遇到了一些麻烦我理解这个想法是查看第一个元素的值并将其与第二个元素的
将指针转换为64位整数，为什么在32位和64位平台上结果不同

我有一个这样的代码片段 up cpp include
如何将打印的 C 控制台导入到红色节点

我在 pi 上使用 Dragino rpi Lora 收发器 C 代码来向 Arduino 发送和接收数据包 C 代码运行良好打印接收到的数据包信噪比和时间戳但我想在节点 red 中使用它如何将接收到的数据包从 C 控制台导入到红色
Pandas：处理测试中看不见的数据

我有一个训练数据集正在构建一些机器学习模型我无权访问测试集并且想要处理在训练中未观察到测试中的分类特征之一的可能性这是一个玩具示例说明了我的意思我有一个数据框 old 像这样 old pd DataFrame car Audi

Pandas：处理测试中看不见的数据

Pandas：处理测试中看不见的数据 的相关文章

随机推荐

热门标签

Pandas：处理测试中看不见的数据的相关文章