get_dummies (Pandas) 和 OneHotEncoder (Scikit-learn) 之间的优缺点是什么？

2024-02-08

我正在学习不同的方法将分类变量转换为机器学习分类器的数字。我遇到了pd.get_dummies方法和sklearn.preprocessing.OneHotEncoder()我想看看它们在性能和使用方面有何不同。

我找到了一个关于如何使用的教程OneHotEncoder() on https://xgdgsc.wordpress.com/2015/03/20/note-on-using-onehotencoder-in-scikit-learn-to-work-on-categorical-features/ https://xgdgsc.wordpress.com/2015/03/20/note-on-using-onehotencoder-in-scikit-learn-to-work-on-categorical-features/自从sklearn文档对此功能没有太大帮助。我有一种感觉，我做得不对......但是

可以解释一下使用的优点和缺点吗pd.dummies over sklearn.preprocessing.OneHotEncoder()反之亦然？我知道OneHotEncoder()给你一个稀疏矩阵，但除此之外我不确定它是如何使用的以及它比pandas方法。我使用它的效率低下吗？

import pandas as pd
import numpy as np
from sklearn.datasets import load_iris
sns.set()

%matplotlib inline

#Iris Plot
iris = load_iris()
n_samples, m_features = iris.data.shape

#Load Data
X, y = iris.data, iris.target
D_target_dummy = dict(zip(np.arange(iris.target_names.shape[0]), iris.target_names))

DF_data = pd.DataFrame(X,columns=iris.feature_names)
DF_data["target"] = pd.Series(y).map(D_target_dummy)
#sepal length (cm)  sepal width (cm)  petal length (cm)  petal width (cm)  \
#0                  5.1               3.5                1.4               0.2   
#1                  4.9               3.0                1.4               0.2   
#2                  4.7               3.2                1.3               0.2   
#3                  4.6               3.1                1.5               0.2   
#4                  5.0               3.6                1.4               0.2   
#5                  5.4               3.9                1.7               0.4   

DF_dummies = pd.get_dummies(DF_data["target"])
#setosa  versicolor  virginica
#0         1           0          0
#1         1           0          0
#2         1           0          0
#3         1           0          0
#4         1           0          0
#5         1           0          0

from sklearn.preprocessing import OneHotEncoder, LabelEncoder
def f1(DF_data):
    Enc_ohe, Enc_label = OneHotEncoder(), LabelEncoder()
    DF_data["Dummies"] = Enc_label.fit_transform(DF_data["target"])
    DF_dummies2 = pd.DataFrame(Enc_ohe.fit_transform(DF_data[["Dummies"]]).todense(), columns = Enc_label.classes_)
    return(DF_dummies2)

%timeit pd.get_dummies(DF_data["target"])
#1000 loops, best of 3: 777 µs per loop

%timeit f1(DF_data)
#100 loops, best of 3: 2.91 ms per loop

对于机器学习，你几乎肯定想使用sklearn.OneHotEncoder.对于简单分析等其他任务，您也许可以使用pd.get_dummies，这样比较方便一点。

注意sklearn.OneHotEncoder已更新到最新版本，以便接受字符串对于分类变量以及整数。

其关键在于sklearn编码器创建一个函数persists并且可以然后应用于使用相同分类变量的新数据集，并获得一致的结果.

from sklearn.preprocessing import OneHotEncoder

# Create the encoder.
encoder = OneHotEncoder(handle_unknown="ignore")
encoder.fit(X_train)    # Assume for simplicity all features are categorical.

# Apply the encoder.
X_train = encoder.transform(X_train)
X_test = encoder.transform(X_test)

请注意我们如何应用通过以下方式创建的相同编码器X_train到新的数据集X_test.

考虑如果发生什么情况X_test包含不同的级别X_train为其变量之一。例如，假设X_train["color"]仅包含"red" and "green"，但除了这些之外，X_test["color"]有时包含"blue".

如果我们使用pd.get_dummies, X_test最终会得到一个额外的"color_blue"列哪个X_train没有，并且不一致可能会在以后破坏我们的代码，特别是当我们正在喂食时X_test to an sklearn我们训练的模型X_train.

如果我们想在生产中处理这样的数据，我们一次接收一个示例，pd.get_dummies不会有什么用。

With sklearn.OneHotEncoder另一方面，一旦我们创建了编码器，我们就可以重用它以每次产生相同的输出，其中列仅用于"red" and "green"。我们可以明确地控制它遇到新关卡时会发生什么"blue"：如果我们认为这是不可能的，那么我们可以告诉它抛出一个错误handle_unknown="error";否则我们可以告诉它继续并简单地将红色和绿色列设置为 0，handle_unknown="ignore".

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

get_dummies (Pandas) 和 OneHotEncoder (Scikit-learn) 之间的优缺点是什么？的相关文章

cv2.drawContours() - 取消填充字符内的圆圈（Python，OpenCV）

根据 Silencer的建议我使用了他发布的代码here https stackoverflow com questions 48244328 copy shape to blank canvas opencv python 482465
Python 使用 Gstreamer 访问 USB 麦克风时遇到问题，以便在 Raspberry Pi 上使用 Pocketsphinx 执行语音识别

所以Python的表现就好像它根本听不到我的麦克风发出的任何声音问题就在这里我有一个Python 2 7 假设使用的脚本Gstreamer通过以下方式访问我的麦克风并为我进行语音识别口袋狮身人面像我在用着脉冲音频我的设备是树莓派我的
ImportError：运行 jupyter Notebook 时没有名为 IPython.paths 的模块？

我通过以下方式安装了 jupyter usr local opt python bin python2 7 m pip install jupyter 这将安装 ipython 版本 4 1 2 但是当我运行 jupyter Notebo
Python tkinter.filedialog Askfolder 干扰 clr

我主要在 Spyder 中工作构建需要弹出文件夹或文件浏览窗口的脚本下面的代码在spyder中完美运行在 Pycharm 中 askopenfilename工作良好同时askdirectory什么都不做卡住了但是如果在调试模式
如何在Python中高效地添加稀疏矩阵

我想知道如何在Python中有效地添加稀疏矩阵我有一个程序可以将大任务分解为子任务并将它们分配到多个 CPU 上每个子任务都会产生一个结果一个 scipy 稀疏矩阵格式为 lil matrix 稀疏矩阵尺寸为 100000x50
根据 Pandas 中的列表对多列进行排序

感谢有关如何根据 pandas 中的倍数列表对给定多列进行排序的任何提示如下所示 import pandas as pd sort a a d e sort b s1 s3 s6 sort c t1 t2 t3 df pd DataFra
揭秘sharedctypes性能

在 python 中可以在多个进程之间共享 ctypes 对象然而我注意到分配这些对象似乎非常昂贵考虑以下代码 from multiprocessing import sharedctypes as sct import ctypes
对使用 importlib.util 导入的对象进行酸洗

我在使用Python的pickle时遇到了一个问题我需要通过将文件路径提供给 importlib util 来加载一些 Python 模块如下所示 import importlib util spec importlib util sp
如何在Python中按AaB而不是ABa顺序对字符串进行排序

我正在尝试对字符串进行排序为 punnetsquare 制作基因型我目前的实现是 unsorted genotype ABaB sorted genotype sorted list unsorted genotype sorted s
Python：我不明白 sum() 的完整用法

当然我明白你使用 sum 与几个数字然后它总结所有但我正在查看它的文档我发现了这一点 sum iterable start 第二个参数 start 的作用是什么这太尴尬了但我似乎无法通过谷歌找到任何示例并且对于尝试学习该语言的
使用 Conda 更新特定模块会删除大量软件包

我最近开始使用 Anaconda Python 发行版因为它提供了许多开箱即用的数据分析库使用 conda 创建环境和安装软件包也轻而易举但是当我想更新 Python 本身或任何其他模块时我遇到了一些严重的问题我事先被告知我的很多
Werkzeug 中的线程和本地代理。用法

首先我想确保我正确理解了功能的分配分配本地代理功能以通过线程内的模块包共享变量对象我对吗其次用法对我来说仍然不清楚也许是因为我误解了作业我用烧瓶如果我有两个或更多模块 A B 我想将对象C从模块A导入到模块B 但我
从 python 检测 macOS 中的暗模式

我正在编写一个 PyQt 应用程序我必须添加一个补丁以便在启用暗模式的 Macos 上可以读取字体 app QApplication Fix for the font colours on macos when running dark
Flask 应用程序的测试覆盖率不起作用

您好想在终端的 Flask 应用程序中测试删除路由我可以看到测试已经过去它说 test user delete test app LayoutTestCase ok 但是当我打开封面时它仍然是红色的这意味着没有覆盖它请有人向我
sqlite3从打印数据中删除括号

我创建了一个脚本用于查找数据库第一行中的最后一个值 import sqlite3 global SerialNum conn sqlite3 connect MyFirstDB db conn text factory str c con
falcon，AttributeError：“API”对象没有属性“create”

我正在尝试测试我的猎鹰路线但测试总是失败而且看起来我把所有事情都做对了 my app py import falcon from resources static import StaticResource api falcon API
带有 RotatingFileHandler 的 Python 3 记录器超出 maxBytes 限制

我使用以下代码来限制日志文件的大小最小示例 import logging from logging handlers import RotatingFileHandler Set up logfile and message loggin
PIL - 需要抖动，但限制调色板会导致问题

我是 Python 新手正在尝试使用 PIL 来执行 Arduino 项目所需的解析任务这个问题涉及到Image convert 方法以及调色板抖动等选项我有一些硬件能够一次仅显示 16 种颜色的图像但它们可以指定为 RGB 三元
导入错误：无法导入名称“时间戳”

我使用以下代码在 python 3 6 3 中成功安装了 ggplot conda install c conda forge ggplot 但是当我使用下面的代码将其导入笔记本时出现错误 from ggplot import Impor
使用 Python 将对象列表转为 JSON

我在转换时遇到问题Object实例到 JSON ob Object list name scaping myObj base url u number page for ob in list name json string json du

随机推荐

在 CakePHP 中使用 Containable 行为后获取原始关联

背景 CakePHP 2 6 3 一个相当稳定的应用程序新行为 MyCustomBehavior 创建用于输出一些额外信息我有一个模特MyModel作为Containable 定义于AppModel 进而MyCustom 定义于MyMo
如何使用 pydantic 模式从 sqlalchemy 关系中获取单独的列

我有4张桌子 Hardware SoftwareName SoftwareVersion and Software The Software表有一个one to many有关系SoftwareName表和SoftwareVersion桌子
如何将配置变量添加到我的 CMake 脚本中？

我想添加一个用户在 cmake gui 中单击配置后必须设置的变量有没有办法做到这一点使用 set 命令指定 CACHE 参数例如 set NAME INCLUDE default value CACHE FILEPATH des
ColdFusion 非作用域与变量作用域：性能与可读性？

在我的 ColdFusion 代码中我养成了始终将变量作用域视为默认作用域的习惯即当另一个作用域不适合时我的理解是这提高了效率因为 ColdFusion 处理器不必花费周期来确定变量所包含的范围然而我一直对这让我的代码如此冗
随机生成数字、字母、符号密码

我想生成一个随机密码它应该由符号字母和数字组成例如 tqpV4aJ 我 WZuYvBv7 S OPToyu0u a 包含6 10个字符 b 恰好包含集合中的 1 个符号 c 恰好包含 1 位数字即 0 9 中的任何数字但不包括数
如何判断 Socket 何时已断开连接

在客户端我需要知道我的套接字连接何时是否已断开但是 Socket Connected 属性始终返回 true 即使在服务器端已断开连接并且我尝试通过它发送数据之后也是如此谁能帮我弄清楚这里发生了什么事我需要知道套接字何时被断开 S
webpackHtmlPlugin：控制注入文件的顺序

I use HtmlWebpackPlugin用于自动生成index thml与 webpack 编译的输出出于性能原因我将条目分成vendors and project 像那样 entry vendors vendors js Tim
跟踪目录中的所有文件以 git LFS 但忽略该目录中存在的单个文件夹

假设我有一个目录 my dir 和其中的一些文件我其中有一个子目录 my dir subdir 文件结构我的目录我的目录子目录如何通过 git LFS 跟踪 my dir 但不通过 git LFS 跟踪 my dir my dir
将深度复制构造函数添加到 std::unique_ptr

我想储存一些std unique ptr
在 OpenCV 上获取屏幕尺寸

如何获取 OpenCV 上的计算机屏幕分辨率我需要使用整个屏幕宽度并排显示两个图像 OpenCV 需要我想要创建的确切窗口大小您可以在有或没有 opencv 的情况下使用此解决方案跨平台解决方案 if WIN32 include
为什么 Vue.js 允许推送到 prop 数组？

当我们尝试直接更改 prop 值时 Vue js 会显示警告如下所示 Vue component Games template div ol li game li ol div
在C#中，有没有办法始终能够获取当前焦点窗口的选定文本内容？

在我的 c Net 应用程序中我一直在尝试能够检索当前聚焦窗口中当前选定的文本注意可以是windows中打开的任何窗口比如word 或者safari 我能够检索当前聚焦控件的句柄使用对 user32 dll 和 kernel32 d
C++ 中阿拉伯字符串的反转

如何使用 C 反转阿拉伯字符串例如的反义词是阿拉伯字母的形状根据单词中的位置而不同词首词中或词尾连接阿拉伯字母还有其他规则吗正如 Petesh 所说根据我能找到的参考资料例如维基百科 http en wikipedia o
d3 色阶 - 与多种颜色呈线性？

我正在尝试创建一些类似于量化标度的东西但其行为类似于线性色标当我尝试将多种颜色放入线性比例时它似乎只在前两种颜色之间进行缩放我想要多种颜色例如量化比例但在这些颜色之间淡入淡出我不确定这是否可能 red and green wo
NoSuchMethodError：Jersey 客户端中的 MultivaluedMap.addAll

我正在尝试使用 Jersey Client 模拟对我的 Web 服务的 HTTP 请求我尝试实施简单的例子 http jersey java net documentation latest user guide html d0e2365
如何在 Swift 中将键分配给 SKActions

我希望有人能够帮助我解决这个问题我似乎找不到一种方法来为removeActionWithKey 方法的Sprite Kit 的SKAction 分配键我还尝试将操作分配给字典中的键但程序无法识别键分配因此返回零值这是我尝试做的 v
C++中的动态对象[关闭]

Closed 这个问题需要细节或清晰度 help closed questions 目前不接受答案我从c 转到c 我不明白什么是动态对象所以想象一下你有 A 类并创建像 A a new A 这样的对象是正常的但是对象 a 是什么它和
客户端服务器程序的多线程

我正在尝试使用我一直在开发的客户端服务器程序来实现多线程我需要允许多个客户端同时连接到服务器我目前有 4 个类一个客户端一个服务器一个协议和一个处理线程的工作人员以下代码是我为这些类编写的代码套接字服务器类 public c
Jmeter 而控制器似乎没有将变量评估为数字

我正在编写一个 jmeter 脚本该脚本会不断加载数据直到表达到指定的大小我有一个 while 循环其中有一个 HTTP 采样器来加载数据然后是另一个带有 XPath 后处理器的 HTTP 采样器来检查表大小它们调用两个不同的
get_dummies (Pandas) 和 OneHotEncoder (Scikit-learn) 之间的优缺点是什么？

我正在学习不同的方法将分类变量转换为机器学习分类器的数字我遇到了pd get dummies方法和sklearn preprocessing OneHotEncoder 我想看看它们在性能和使用方面有何不同我找到了一个关于如何使用的教程

get_dummies (Pandas) 和 OneHotEncoder (Scikit-learn) 之间的优缺点是什么？

get_dummies (Pandas) 和 OneHotEncoder (Scikit-learn) 之间的优缺点是什么？ 的相关文章

随机推荐

热门标签

get_dummies (Pandas) 和 OneHotEncoder (Scikit-learn) 之间的优缺点是什么？的相关文章