Pandas sklearn one-hot 编码数据帧还是 numpy？

2024-05-01

如何将 pandas 数据帧转换为 sklearn one-hot-encoded（数据帧/numpy 数组），其中某些列不需要编码？

mydf = pd.DataFrame({'Target':[0,1,0,0,1, 1,1],
                   'GroupFoo':[1,1,2,2,3,1,2],
                    'GroupBar':[2,1,1,0,3,1,2],
                    'GroupBar2':[2,1,1,0,3,1,2],
                    'SomeOtherShouldBeUnaffected':[2,1,1,0,3,1,2]})
columnsToEncode = ['GroupFoo', 'GroupBar']

是一个已经标签编码的数据帧，我只想对标记的列进行编码columnsToEncode?

我的问题是我不确定是否pd.Dataframe or the numpy数组表示更好，以及如何将编码部分与另一部分重新合并。

到目前为止我的尝试：

myEncoder = OneHotEncoder(sparse=False, handle_unknown='ignore')
myEncoder.fit(X_train)
df = pd.concat([
         df[~columnsToEncode], # select all other / numeric
        # select category to one-hot encode
         pd.Dataframe(encoder.transform(X_train[columnsToEncode]))#.toarray() # not sure what this is for
        ], axis=1).reindex_axis(X_train.columns, axis=1)

注意：我知道熊猫：获取假人 https://stackoverflow.com/questions/36285155/pandas-get-dummies / http://pandas.pydata.org/pandas-docs/stable/ generated/pandas.get_dummies.html http://pandas.pydata.org/pandas-docs/stable/generated/pandas.get_dummies.html但这在训练/测试分割中效果不佳，我需要每次折叠这样的编码。

该库提供了几个分类编码器，使 sklearn / numpy 能够与 pandas 很好地配合https://github.com/wdm0006/categorical_encoding https://github.com/wdm0006/categorical_encoding

但是，他们还不支持“处理未知类别”

现在我会用

myEncoder = OneHotEncoder(sparse=False, handle_unknown='ignore')
myEncoder.fit(df[columnsToEncode])

pd.concat([df.drop(columnsToEncode, 1),
          pd.DataFrame(myEncoder.transform(df[columnsToEncode]))], axis=1).reindex()

因为这支持未知的数据集。现在，我会坚持使用 half-pandas half-numpy，因为 pandas 标签很好。对于数字列。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Pandas sklearn one-hot 编码数据帧还是 numpy？的相关文章

调整pandas read_sql_query NULL值处理？

当我做 from sqlalchemy import create engine import pandas as pd engine create engine sqlite conn engine connect conn execut
根据另一个非索引数组中的值从 numpy 数组中选择元素

假设我有以下两个数组 a array 1 L 74 423088306605 5 H 128 05441039929008 2 L 68 0581377353869 0 H 88 15726964130869 4 L 97 45015825
使用 Numpy 与 einsum 和 tensordot 进行相同的操作

假设我有两个 3D 数组A and B形状的 3 4 N and 4 3 N 我可以计算沿第三轴的切片之间的点积 with einsum np eisum ikl kjl gt ijl A B 是否可以执行相同的操作numpy tensor
python-messaging 无法处理 HTTP 请求

我正在使用下面的代码尝试使用 python messaging 发送彩信https github com pmarti python messaging blob master doc tutorial mms rst https gith
pandas dataframe 对列进行排序会引发索引上的 keyerror

我有以下数据框 df peaklatency snr 0 52 99 0 0 1 54 15 62 000000 2 54 12 82 000000 3 54 64 52 000000 4 54 57 42 000000 5 54 13 7
if(interactive()) 是否相当于 Python 中的“if __name__ == ”__main__“: main()”？

我希望 R 脚本有一个 main 函数可以在交互模式下执行但在获取文件时不应执行 main 函数已经有一个关于这个的问题了 https stackoverflow com questions 2968220 is there an r
函数内部变量的赋值会改变外部的赋值 - Python

我从使用 Matlab 转向使用 Python 使用函数时的变量赋值让我感到困惑我有一个代码如下 a 1 1 1 def keeps x y x y 1 2 return y def changes x y x y 1 2 return
使用 python 更改目录

我碰巧发现我无法从 python 代码中更改实际目录我的测试程序如下 from os import system def sh script system bash c s script sh cd home sh pwd 的输出pwd
在keras自定义损失中使用层输出

我正在 Keras 中开发自定义损失函数我需要第一层输出我怎样才能取回它 def custom loss y true y pred cross K mean K binary crossentropy y true y pred ax
如何让 IPython 按类别组织制表符补全的可能性？

当一个对象有数百个方法时制表符补全很难使用通常有趣的方法是由被检查对象的类而不是其基类定义或重写的方法如何让 IPython 对其制表符完成可能性进行分组以便首先检查对象的类中定义的方法和属性然后是基类中的方法和属性看起来像是
为什么Python安装程序不断弹出？

每当我尝试运行 Python 文件时都会自动弹出此窗口虽然我可以关闭它但有时它会连续打开 7 10 个窗口这令人恼火谁能告诉我为什么会发生这种情况 None
适用于 Python 的 GitLab CI 共享 Windows 运行器

我在 GitLab 中有一个 python 项目仓库我看到 GitLab 共享了可用的测试版 Windows 运行程序请参阅this https about gitlab com blog 2020 01 21 windows shar
Numpy 重新排列二维数组

我正在寻找一种快速公式来对 2D numpy 数组进行数值分箱通过分箱我的意思是计算子矩阵平均值或累积值对于前 x numpy arange 16 reshape 4 4 将被分割成 4 个 2x2 的子矩阵并给出 numpy ar
Python Sqlite3 获取 Sqlite 连接路径

给定一个 sqlite3 连接对象如何检索 sqlite3 文件的文件路径 The Python 连接对象 http github com python cpython blob master Modules sqlite connect
Chrome 已关闭，并出现错误 ERROR:network_change_notifier_win.cc(141)] WSALookupServiceBegin 失败，原因为：0

我的笔记本电脑操作系统是 windows 10 我使用 selenium webdriver 和 Python 当我通过脚本打开chrome浏览器时加载网页后chrome就关闭了下面是我的python代码和错误 from seleniu
如何从 Django 中的链接设置预定义的表单值？

我的项目是这样布局的 1 page has many categories 2 category belongs to page has many items 3 item belongs to category 当我进入一个页面时我想修
加入语音频道（discord.py）

当我尝试让我的机器人加入我的语音频道时出现以下错误 await client join voice channel voice channel 产生错误的行 Traceback most recent call last File usr
Django中的自动递增值

我在 django 中有一个表并尝试自动递增它的序列号在自定义模板中 for 循环用于变量自定义模板 for i in getodeskview tr td 1 td td i odesk id td td i hours td td
python 根据日期创建目录结构

我使用以下函数根据今天的日期创建目录 usr bin python import time datetime os today datetime date today todaystr today isoformat os mkdir to
Python google云函数部署失败-Madmom pip包

我正在尝试使用 madmom python pip 包部署 Python3 7 Google Cloud Function 但是指定madmom 0 16 1requirements txt 中的内容导致部署失败当我从requiremen

随机推荐

禅德导航。带有自定义选项的子菜单

在我的布局脚本中我也需要生成渲染我的菜单如果菜单项有一个子菜单我会更改我的菜单项以便它会呈现 li 原因是我会有一张图片 li li 网页元素存在 ul li a href da front news Nyt a li li cl
attributeError：模块“pyproj”没有属性“CRS”

地图数据库扫描 import geopandas as gpd import contextily as ctx import pyproj from mpl toolkits axes grid1 inset locator import
Python：从源代码安装模块

当然你们都知道答案而且很容易但我是 python 新手我在网上找到了一段代码读取雅虎财经的股价 usr bin env python Copyright c 2007 2008 Corey Goldberg email protec
无需使用abs函数或if语句即可获取绝对值

我在想如何在不使用的情况下获得整数的绝对值if声明也不abs 起初我使用的是左移位 lt lt 试图将负号移出范围然后将位右移回原来的位置但不幸的是它对我不起作用请让我知道为什么它不起作用以及其他替代方法 From 位摆弄黑客 htt
NSMutableAttributedString 的自动换行

我有 NSMutableAttributedString 并且字符串很长我想在 UIlabel 上显示它时进行自动换行如果是 NSString 我会继续做这样的事情动态 UILabel 截断文本 https stackoverflow
C++：如何通过时间和本地时间获取实际时间？

我正在寻找一种在 C 中以 HH MM SS 方式节省时间的方法我在这里看到它们有很多解决方案经过一番研究后我选择了time and localtime 然而似乎localtime函数有点棘手因为它says http rabbit
如何编写javadoc链接？

如何将链接写入 javadoc 目前我有类似的东西 link java lang Math sqrt double Math sqrt 生成文本Math sqrt应该链接到java lang Math sqrt double 然而 API
Kafka中如何使用事务以及如何使用abortTransaction？

我是 kafka 新手我使用 Kafka Producer Java api 面对Kafka的这个问题 Kafka Invalid transition attempted from state COMMITTING TRANSACTIO
读取pkcs12证书信息

我在读取证书信息时遇到问题我想以编程方式在 Android 中使用 java 和 bouncycastle 库来阅读完整信息现在我只是在控制台中使用 keytool 命令 gt keytool list keystore 1 p12
R: Knit 给出 SQL-chunk 错误

我想编织 R markdown 的输出其中包括几个 SQL 块但是如果我开始编织就会收到错误消息 Line 65 Error in eval expr envir enclos object pp dataset not found
使用 OOP 开发 WordPress 插件

我是插件开发的新手所以凡是我说得不对的地方请大家指正我有一个网站需要一个具有以下需求的播放器插件管理员可控的玩家注册表单其中包含一些详细信息显示所有注册玩家的列表页面已注册的玩家可以删除并相互比较在前端的 WordPres
当 Bool 变量变为 True 时更改标签

我不太确定如何解释这一点我将把代码放在伪代码中以便于阅读我几乎想要一个标签在类的 bool 变量更改时更改其文本我不确定我需要使用什么因为我使用的是 WPF 并且该类不能只更改我不更改的标签你不觉得吗我需要举办某种活动吗或者 W
android 2.2 谷歌地图错误

我使用 google map api 开发了一个在 android 2 1 上运行良好的项目但是当我在 android 2 2 上运行相同的项目时它遇到了一些错误显示的错误是 Android运行时致命异常 main AndroidRu
无法绑定到“*ngIf”，因为它不是 angular2 中“td”的已知属性

在我的 Angular 2 应用程序中在 ts 文件中我在下面点击了偶数 ViewPages Char string void this selectedPage Char 在html中我尝试绑定ngif中的选择页面 td name
为什么通过 gmail 的 SMTP 在本地工作但在我的生产服务器上不起作用？

我正在运行托管在 AWS 爱尔兰上的 Nodejs 服务器并使用 emailjs 发送电子邮件我使用的电子邮件帐户是 gmail 帐户我可以从本地计算机发送电子邮件没有任何问题但电子邮件无法从生产服务器发送出站防火墙设置为允许
Android 如何检查文件是否存在并创建一个？

我有以下问题我想将一个名为 data xml 的文件放入 sdcard appname 文件夹中并使用它来读取和写入应用程序数据因此当我的主要活动创建时我需要检查该文件是否存在 public class appname exten
如何在 Instagram 等应用中使用“@”提及用户

我正在创建一个具有照片共享功能的应用程序并且我正在尝试添加提及或标记用户的功能 Twitter 最初开始使用和用户名来标记用户但现在从 Facebook 到 Instagram 都在使用它这是iOS端实现的还是后端实现的我目前
将小数点数字转换为整数 - PowerShell

我正在编写一个 PowerShell 脚本它将带小数点的数字转换为整数 val 1024 24 如何将该值转换为整数我希望它是1024 使用向下取整四舍五入到较低的整数 Math Floor val 编辑如果只是丢弃小数部分不是您想
如何使用 Flutter 修复 VSCode 上的自动修复问题？

我更新了迂腐的软件包并最终出现了 1000 多个问题其中许多是首选单引号或不必要的等等只需单击一下即可修复它们我认为 eslint 或其他一些工具可以在 VSCode 中做到这一点有没有办法在 Flutter 项目中做到这一点我找
Pandas sklearn one-hot 编码数据帧还是 numpy？

如何将 pandas 数据帧转换为 sklearn one hot encoded 数据帧 numpy 数组其中某些列不需要编码 mydf pd DataFrame Target 0 1 0 0 1 1 1 GroupFoo 1 1 2

Pandas sklearn one-hot 编码数据帧还是 numpy？

Pandas sklearn one-hot 编码数据帧还是 numpy？ 的相关文章

随机推荐

热门标签

Pandas sklearn one-hot 编码数据帧还是 numpy？的相关文章