如何在 Pandas DataFrame 的几列中进行 one-hot 编码，以便稍后与 Scikit-Learn 一起使用

2024-03-02

假设我有以下数据

import pandas as pd
data = {
    'Reference': [1, 2, 3, 4, 5],
    'Brand': ['Volkswagen', 'Volvo', 'Volvo', 'Audi', 'Volkswagen'],
    'Town': ['Berlin', 'Berlin', 'Stockholm', 'Munich', 'Berlin'],
    'Mileage': [35000, 45000, 121000, 35000, 181000],
    'Year': [2015, 2014, 2012, 2016, 2013]
 }
df = pd.DataFrame(data)

我想对“品牌”和“城镇”两列进行 one-hot 编码，以便训练分类器（例如使用 Scikit-Learn）并预测年份。

一旦分类器经过训练，我将想要预测新传入数据的年份（不在训练中使用），其中我将需要重新应用相同的热编码。例如：

new_data = {
    'Reference': [6, 7],
    'Brand': ['Volvo', 'Audi'],
    'Town': ['Stockholm', 'Munich']
}

在这种情况下，知道需要对多列进行编码，并且需要能够对新的列应用相同的编码，那么对 Pandas DataFrame 上的 2 列进行 one-hot 编码的最佳方法是什么？稍后数据。

这是一个后续问题如何在 SkLearn 中重用 LabelBinarizer 进行输入预测 https://stackoverflow.com/questions/46656327/how-to-re-use-labelbinarizer-for-input-prediction-in-sklearn

考虑以下方法 https://stackoverflow.com/a/31939145/5741205.

Demo:

from sklearn.preprocessing import LabelBinarizer
from collections import defaultdict

d = defaultdict(LabelBinarizer)

In [7]: cols2bnrz = ['Brand','Town']

In [8]: df[cols2bnrz].apply(lambda x: d[x.name].fit(x))
Out[8]:
Brand    LabelBinarizer(neg_label=0, pos_label=1, spars...
Town     LabelBinarizer(neg_label=0, pos_label=1, spars...
dtype: object

In [10]: new = pd.DataFrame({
    ...:     'Reference': [6, 7],
    ...:     'Brand': ['Volvo', 'Audi'],
    ...:     'Town': ['Stockholm', 'Munich']
    ...: })

In [11]: new
Out[11]:
   Brand  Reference       Town
0  Volvo          6  Stockholm
1   Audi          7     Munich

In [12]: pd.DataFrame(d['Brand'].transform(new['Brand']), columns=d['Brand'].classes_)
Out[12]:
   Audi  Volkswagen  Volvo
0     0           0      1
1     1           0      0

In [13]: pd.DataFrame(d['Town'].transform(new['Town']), columns=d['Town'].classes_)
Out[13]:
   Berlin  Munich  Stockholm
0       0       0          1
1       0       1          0

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

pandas

scikitlearn

如何在 Pandas DataFrame 的几列中进行 one-hot 编码，以便稍后与 Scikit-Learn 一起使用的相关文章

具有相同内容的拆分列表

例如我有以下列表 contents i have two pens prices 5 made in and 我想将它们分开使其具有与以下内容相同的内容 array 0 i have two pens array 1 prices 5 a
QTextEdit.find() 在 Python 中不起作用

演示问题的简单代码 usr bin env python import sys from PyQt4 QtCore import QObject SIGNAL from PyQt4 QtGui import QApplication QTe
使用 Python-AppKit-Objective C 转换为预组合 Unicode 字符串

苹果公司的这份文件技术问答 QA1235 http developer apple com qa qa2001 qa1235 html描述了一种将 unicode 字符串从组合版本转换为分解版本的方法由于我对包含某些字符例如重音符号的
PyQt：如何设置组合框项目可检查？

为了将 GUI 小部件数量保持在最低限度我需要找到一种方法来为用户提供下拉菜单项的选择这些菜单项可用于过滤掉 listWidget 项中显示的内容假设 listWidget 列出了 5 个不同类别的项目 Cat A Cat B Cat
Scrapy 仅抓取每个页面的第一个结果

我目前正在尝试运行以下代码但它只保留每个页面的第一个结果知道可能是什么问题吗 from scrapy contrib spiders import CrawlSpider Rule from scrapy contrib linkext
使用 Python 读取 App Engine 上的文件？

是否可以在 GAE 上打开文件来读取其内容并获取最后修改的标签我收到 IOError Errno 13 文件无法访问我知道我无法删除或更新但我相信阅读应该是可能的有人遇到过类似的问题吗 os stat f r st mtim 您可能
使用 RGB 数据将输入数据剪切到 imshow 的有效范围（对于浮点数为 [0..1]，对于整数为 [0..255]）

我尝试将 MRI 切片转换为 PNG 格式后运行图形切割算法我不断遇到以下问题 Clipping input data to the valid range for imshow with RGB data 0 1 for floats
python 没有名为serial的模块

我的 python 程序有问题我编写了程序来将数据温度从 arduino 获取到我的树莓派 sqlite 数据库但它在第 4 行导入串行处给了我一个错误提示 ImportError 没有名为串行的模块我使用 python3
构建一个简单的解析器，能够使用 PyParse 解析不同的日期格式

我正在构建一个简单的解析器它接受如下查询显示 fizi 从 2010 年 1 月 1 日到 2006 年 2 月 11 日的提交到目前为止我有 class QueryParser object def parser self stmn
Jupyter 笔记本中未显示绘图

我正在尝试为 Anscombe 数据集创建 2x2 图加载数据集并分离数据集中的每个类 import seaborn as sns import matplotlib pyplot as plt anscombe sns load dat
Keras ImageDataGenerator 相当于 csv 文件

我在文件夹中排序了一堆数据如下图所示我需要构建一个 DataIterator 以便将数据放入神经网络模型中当数据是图像时我找到了很多例子来解决这个问题使用 Keras 类图像数据生成器及其方法流自目录但当数据是 csv 结构时则
在 Python 中快速确定小于 10 亿的数字是否为素数

我目前在 python 中检查数字素数的算法对于 1000 万到 10 亿之间的数字来说速度很慢我希望它能够得到改进因为我知道我永远不会得到超过 10 亿的数字背景是我无法获得足够快的实现来解决项目 Euler 的问题 60 我在 7
Tornado：DummyFuture 不支持结果阻塞

我试图获得一个非常简单的初始服务器它可以异步获取 url 来工作但它会抛出 Exception DummyFuture does not support blocking for results 有这个SO https stacko
按最小值分组并用另一列中的值填充 NA

我有一个如下所示的示例数据框 df pd DataFrame data uid 1 1 1 2 2 3 pagename home blah blah home blah blah startpage NA NA NA home home
无法编辑，但可以在 Django 管理中添加新的内联

这是我的模型 class Note note models TextField null False blank False editable True user models ForeignKey to User null True bl
加载 IPython 笔记本时出错

一旦我用 Jupyter 打开笔记本文件它要求我转换文件我就再也无法在标准 IPython 笔记本中打开它了我收到以下错误 Error loading notebook Bad Request 2014 12 21 04 13 03
如何在 VS Code 宏中将焦点返回到编辑器，将 Python 文本发送到调试控制台？

我尝试按键绑定宏以将 python 文本发送到调试控制台并将焦点返回到 Visual Studio Code 中的编辑器这是我尝试过的安装了vscode python https marketplace visualstudio com
Python Pandas DateOffset 使用另一列中的值

我以为这会很容易但下面的内容并不适合我想要的只是尝试通过使用另一列中的值将天数添加到预先存在的日期时间列来计算新的日期列我下面的偏移列只有 1 位数字 df new date df orig date apply lambda x
如何获取DataFrame.pct_change来计算每日价格数据的每月变化？

我知道可以用periods争论但是如何将分布在一个月内例如交易日的每日价格数据进行回报化呢示例数据是 In 1 df AAPL 2009 01 02 16 00 00 90 36 2009 01 05 16 00 00 94 18
在 python 中使用 ftplib 时

这是导致错误的相关代码 ftp ftplib FTP server ftp login r user r pass change directories to the incoming folder ftp cwd incoming fil

随机推荐

获取共享缓存的逻辑 CPU 核心数（L1、L2、L3）

下面是一些 C 代码它使用以下命令检测 Windows 上 L1 L2 和 L3 CPU 缓存的大小 typedef BOOL WINAPI LPFN GLPI PSYSTEM LOGICAL PROCESSOR INFORMATION
错误：使用未分配的局部变量（对于字符串数组）

我正在从 App config 文件中读取连接字符串为此我有以下代码 try string dbnames int counter 0 foreach ConnectionStringSettings connSettings in Co
三.JSL：加载Blender模型需要本地服务器吗？

我正在使用 Three js 开发基于 Web 的 3D WebGL 应用程序我正在尝试使用以下代码加载 Blender 模型 JS 文件 var loader new THREE JSONLoader var jsonLoader ne
SQLAlchemy 在同一事务中删除和插入

我正在使用 SQLAlchemy 并在一个事务中我想要执行以下操作删除满足特定条件的所有记录假设这是Cars color red 现在我想插入满足特定条件的所有汽车例如Cars type Honda 现在假设我的数据库只是一个包含
如何调试 SwiftUI AttributeGraph 循环警告？

我在使用 SwiftUI 的应用程序中收到很多 AttributeGraph 循环警告有什么方法可以调试导致它的原因吗这是控制台中显示的内容 AttributeGraph cycle detected through attribute
创建一个通用 Swift 函数以返回 Core Data 实体数组

警告我对 Swift 和 Core Data 还很陌生我的代码中有几个函数返回特定实体类型的数组 func fetchStores gt Store var stores Store let fetchRequest NSFetchRe
TypeScript：导入的模块类不可见

我正在使用多个模块测试打字稿编译器这些模块将被编译为 AMD 模块我有一个模块测试和一个将使用它的单独文件 test ts export module test use strict export class Person age
相交的矩形

这是一个分析几何类型的问题我不确定我可以将其发布在这里但是我必须想出一个 Java 函数来执行此功能我在页面 swing 容器中有多个矩形我知道现在我需要找到哪些矩形彼此相交这里的一件好事是相交的矩形将始终具有相同的 y 分量并
SQL 选择一列中具有重复值的所有行

我有一个users中包含重复值的表employee id柱子我需要列出具有重复的employee ids 的所有行及其姓名我需要查看所有具有重复项的用户employee id这样我就可以消除哪些值是有效的冲突 SELECT name e
Windows Phone Silverlight 8.1 不支持 Windows.UI.Notifications.ToastNotification API？

我正在尝试验证我的应用程序但出现以下错误发现错误支持的 API 测试检测到以下错误 This API is not supported for this application type Api Windows UI Notifica
需要帮助以更有效的方式设计搜索算法

我有一个涉及生物领域的问题现在我有4个非常大的文件每个有1亿行但结构相当简单这些文件的每一行只有2个字段都代表一种基因我的目标是设计一种有效的算法可以实现以下目标在这 4 个文件的内容中找到一个圆圈圆定义为 field
解读 C++ 模板错误消息

当人们说 C 的错误消息对于模板来说非常糟糕时我真的开始理解他们的意思了对于像函数与其原型不匹配这样简单的事情我见过可怕的长错误有什么技巧可以破译这些错误吗编辑我同时使用 gcc 和 MSVC 他们俩看起来都非常可怕您可以尝试
如何从闭包内部修改在闭包外部定义的变量？

如何从闭包内部修改在闭包外部定义的变量 Code fn main let mut t foo to string println t let mut closure t clear closure println t 编译错误 cannot
为什么 jQuery 或 getElementById 等 DOM 方法找不到该元素？

可能的原因有哪些document getElementById id 或者任何其他 DOM 方法 jQuery 选择器找不到元素示例问题包括 jQuery 默默地无法绑定事件处理程序 jQuery getter 方法 val html t
当我更改控件的左侧位置和宽度时，如何阻止控件抽搐？

我有一个用户可以用鼠标调整大小的控件当它们移动到右侧时我只需更改宽度一切正常但是当它们移动左侧尺寸时我必须更改左侧和宽度属性控件的右侧明显抽搐在新位置显示旧宽度如果我使用边界同时设置左侧和宽度它仍然会抽搐是否将
删除中不存在的地方

我遇到的一个简单问题我从以下 SQL 中收到语法错误 DELETE FROM Blog Category c WHERE NOT EXISTS SELECT FROM Blog Posts p WHERE p postCategory b
C 中数组的递归和[重复]

这个问题在这里已经有答案了你好我正在学习 C 中的递归我试图找到元素的总和这是我的主要 int main int arr 1 2 3 4 5 int sum sum arr sum arr 4 printf nsum is d su
有和/或没有类型的 AWS DynamoDB 数据？

我正在使用aws sdk让 NodeJS 与 DynamoDB 表进行交互这是我第一次了解 DynamoDB 当使用像这样的调用时getItem or updateItem 数据结构包括类型如下所示 a S My string 有没有什
iPhone 应用程序提交到 App Store 所需的图形的完整列表

你好精彩的stackoverflowers 我希望这个问题在本网站的范围内我正准备向 AppStore 提交我的第一个 iPhone 应用程序我想确保我拥有所需的所有图形我还想确保我有 iPad 所需的图形和成为特色如果我幸运的话
如何在 Pandas DataFrame 的几列中进行 one-hot 编码，以便稍后与 Scikit-Learn 一起使用

假设我有以下数据 import pandas as pd data Reference 1 2 3 4 5 Brand Volkswagen Volvo Volvo Audi Volkswagen Town Berlin Berlin St

如何在 Pandas DataFrame 的几列中进行 one-hot 编码，以便稍后与 Scikit-Learn 一起使用

如何在 Pandas DataFrame 的几列中进行 one-hot 编码，以便稍后与 Scikit-Learn 一起使用 的相关文章

随机推荐

热门标签

如何在 Pandas DataFrame 的几列中进行 one-hot 编码，以便稍后与 Scikit-Learn 一起使用的相关文章