如何将一种热编码的结果加入到数据帧中？

2023-12-04

我想在人口普查数据集中执行 one-hot 编码：

https://archive.ics.uci.edu/ml/datasets/census+venue

我想要执行的列位于国家/地区列中，因此我做了以下操作：

import pandas as pd
from sklearn import preprocessing

def abrirArchivo(fileR):
    head=["gt lt 50","age","workclass","fnlwgt","edu","edu-num","mar-sta","occ","rela","race","sex","cap-gain","cap-loss","country","hpw"]
    f=pd.read_csv(fileR,sep=',')
    f.columns=head

    ohe=oneHot(f)
    print (ohe)

def oneHot(f):
    f[["country"]]=pd.get_dummies(f[["country"]])
    return f

但我收到一个错误：

ValueError: Columns must be same length as key

当我进行序数编码时，以下代码没有问题：

pp=preprocessing.OrdinalEncoder()
f[["country"]]=pp.fit_transform(f[["country"]])

我想要的是将转换后的 ohe（虚拟变量）连接到我原始的 panda 数据框，以便将其用于分类模型。

有什么帮助吗？

看看什么pd.get_dummies返回。现在，尝试考虑是否可以将其放入单个列中！不可能吧？

让我举例说明。假设你有一个 DataFrame

   col1  col2  
0     1  name1   
1     2  name2

Now, pd.get_dummies(df['col2'])返回：

     name1  name2
0     0     1
1     1     0

这是一个 DataFrametwo列，列中每个不同值对应一列col2.

如果你尝试做

df['col2'] = pd.get_dummies(df['col2'])

您基本上会尝试将具有两列的 DataFrame 放入一列中。不可能！就是这样ValueError: Columns must be same length as key means

如果您想将这些结果返回到df，你可以使用merge, concat or join。有很多不同的方式（SO中有很多关于此的问题）。一个例子是：

df = df.join(pd.get_dummies(df['col2'])).drop(columns='col2')

*Note: drop用于删除原始列。

get_dummies还有一个columns可用于创建虚拟对象的参数and一步删除原始列：

df = pd.get_dummies(df, columns=['col2'])

请注意，旧列名称成为新列prefix隔开prefix_sep下划线 (_):

   col1  col2_name1  col2_name2
0     1           1           0
1     2           0           1

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

pandas

如何将一种热编码的结果加入到数据帧中？的相关文章

Python 2.7 将比特币私钥转换为 WIF 私钥

作为一名编码新手我刚刚完成了教程教程是这样的 https www youtube com watch v tX XokHf nI https www youtube com watch v tX XokHf nI 我想用 1 个易于阅读
for 循环如何评估其参数

我的问题很简单 Does a for循环评估它每次使用的参数 Such as for i in range 300 python 是否会为此循环的每次迭代创建一个包含 300 个项目的列表如果是的话这是避免这种情况的方法吗 lst ra
TF map_fn 或 while_loop 用于不同形状的张量列表

我想处理不同形状的张量序列列表并输出另一个张量列表考虑每个时间戳上具有不同隐藏状态大小的 RNN 就像是输入 tf ones 1 2 2 tf ones 2 2 3 tf ones 3 2 1 输出 tf zeros 1 2 4 t
Tweepy StreamListener 到 CSV

我是 python 新手我正在尝试开发一个应用程序使用 Tweepy 和 Streaming API 从 Twitter 检索数据并将数据转换为 CSV 文件问题是此代码不会创建输出 CSV 文件也许是因为我应该将代码设置为在实现例
更新 Sqlalchemy 中的多个列

我有一个在 Flask 上运行的应用程序并使用 sqlalchemy 与数据库交互我想用用户指定的值更新表的列我正在使用的查询是 def update table value1 value2 value3 query update T
当单词以“|”分隔时如何读取文件（埃因霍温）？

在Python中我有一个文件其中的单词由例如 city state zipcode 我的文件阅读器无法区分单词另外我希望我的文件阅读器从第 2 行而不是第 1 行开始如何让我的文件阅读器分隔单词 import os import
更改 python tkinter canvas 中的线坐标

我画了一条线tkinter Canvas现在我想移动一端这可能吗例如和itemconfig import tkinter tk tkinter Tk canvas tkinter Canvas tk canvas pack line c
WindowsError：[错误 126] 使用 ctypes 加载操作系统时

python代码无法在Windows 7平台上运行 def libSO lib ctypes cdll LoadLibrary ConsoleApplication2 so lib cfoo2 1 3 当我尝试运行它时得到来自python
Apache Spark 中的高效字符串匹配

我使用 OCR 工具从屏幕截图中提取文本每个大约 1 5 句话然而当手动验证提取的文本时我注意到时不时会出现一些错误鉴于文本你好我真的很喜欢 Spark 我注意到 1 像 I 和 l 这样的字母被替换 2 表情符号未被正确提
PySide6.1 与 matplotlib 3.4 不兼容

当我只安装PySide6时 GUI程序运行良好但是一旦我安装了matplotlib及其依赖包包括pyqt5 则GUI程序将无法运行并输出以下错误消息 This application failed to start because no
如何使用 Django 项目设置 SQLite？

我已阅读 Django 文档仅供参考 https docs djangoproject com en 1 3 intro tutorial01 https docs djangoproject com en 1 3 intro tutor
distutils.errors.DistutilsPlatformError：需要 Microsoft Visual C++ 14.0

我想安装Pandas在我的机器上但出现以下消息错误 distutils errors DistutilsPlatformError 需要 Microsoft Visual C 14 0 获取它与 Microsoft Visual C 构
Python 惰性迭代器

我试图了解迭代器表达式如何以及何时被求值以下似乎是一个懒惰的表达 g i for i in range 1000 if i 3 i 2 然而这个在构造上失败了 g line strip for line in open xxx r if
如何使用 sys.path.append 在 Python 中导入文件？

我的桌面上有两个目录 DIR1 and DIR2其中包含以下文件 DIR1 file1 py DIR2 file2 py myfile txt 这些文件包含以下内容 file1 py import sys sys path append s
Python 类型安全吗？

根据维基百科 https en wikipedia org wiki Type system Type safety and memory safety 如果一种语言不允许违反类型系统规则的操作或转换计算机科学家就认为该语言是类型安全的
如何将回溯/sys.exc_info() 值保存在变量中？

我想将错误名称和回溯详细信息保存到变量中这是我的尝试 import sys try try print x except Exception ex raise NameError except Exception er print 0 s
检测 IDLE 的存在/如何判断 __file__ 是否未设置

我有一个脚本需要使用 file 所以我了解到 IDLE 没有设置这个有没有办法从我的脚本中检测到 IDLE 的存在 if file not in globals file is not set 如果你想做一些特别的事情 file 未设置
如何使用 matplotlib 为圆柱体的每个单独面添加颜色

我正在尝试为圆柱体的每个面着色但是我不确定如何进行我尝试了以下方法 for i in range 10 col append for i in range 10 for j in range 20 col i append plt cm
Python：高精度time.sleep

你能告诉我如何在 Win32 和 Linux 上的 Python 2 6 中获得高精度睡眠函数吗您可以在中使用浮点数sleep http docs python org library time html time sleep 该参数可以
Django 模型：如何使用 mixin 类来覆盖 django 模型以实现 save 等功能

我想在每次保存模型之前验证值所以我必须重写保存函数代码几乎是一样的我想把它写在 mixin 类中但失败了我不知道如何写 super func 我英语不好抱歉 class SyncableMixin object def sav

随机推荐

在提交 spring mvc 上绑定子对象

我是 Java 新手所以这个问题看起来很简单我有一个像这样的模型 Entity name website public class Website Id GeneratedValue strategy GenerationType ID
PhoneGap / JQuery Mobile - 键盘可见时页面样式中断

我有一个使用 Phonegap 和 JQuery Mobile 构建的应用程序每当软键盘显示时在表单输入等上整个页面都会调整大小图像按钮和文本我假设有什么东西破坏了CSS 其他人也遇到过这个问题或者知道为什么会发生这种情况吗
第 2 部分：Web Start 应用程序：并发问题

根据您的建议这个线程我尝试使用 FileLock 但是当我在文件中写入内容时 Excel 文件不知何故被损坏并且文件中没有任何内容它变空其中没有内容我有以下方法 void writeIntoTheFile XSSFWorkboo
如何在地图上绘制可视化线串

我有一些来自 Lng 和 lat 的坐标我将它们组合成一个线串线串由 2 个点组成从一点来说starting origin并从一点开始ending destination 这是 Linestring 列的代码 erg2 Linestr
使用 SqlDataAdapter 插入行

我想使用 SqlDataAdapter 将一行插入数据库我在 CustomerOrders 数据库中有 2 个表 Custormers 和 Orders 并且有一千多条记录我想创建一个 GUI 文本框用于将新客户和订单添加到数据库中各
捆绑 ArrayList > [重复]

这个问题在这里已经有答案了有没有办法通过ArrayList
Flask 登录和 Heroku 问题

我有一个示例 Web 应用程序在 Heroku 上运行 Flask 的 Flask http twittaclone herokuapp com 当我在本地主机上运行它时登录功能工作正常当我推送到 heroku 时它崩溃了不允许用
保存到 CSV 时 Spark 写入额外行

我向 parquet 写入了一个包含 1 000 000 行的文件当我读回 parquet 文件时结果是 1 000 000 行 df spark read parquet parquet path df count gt gt gt
当我在我的 Web 应用程序中发送 Ajax 请求时，控制器端会在 laravel 的请求参数中给我脚本

当我发送这个ajax请求时 ajax url URL to admin repcasetracker getdiscount data serialnumber serialnumberdata success function data
最大并发 TCP/IP 连接数 - Windows XP SP3

有谁知道 Windows XP SP3 上的最大并发 TCP IP 连接数是多少我正在尝试对一台机器进行负载测试并且想知道应用程序在我的例子中是java应用程序可以向该机器打开的最大tcp连接数是多少请注意您通常可能会受到客户端
如何使用内置的 .net 压缩类来压缩目录？

使用 System IO Compression 命名空间类 GZIPStream 和 DeflateStream 我成功地可以压缩和解压缩单个文件但是如果我传递目录名作为压缩目标则会出现安全异常我是否必须递归地枚举所有文件和子
同时抽象对象和行为的模式

我们有一个使用外部旅行系统并允许购买门票的项目我们在本地保存票证信息但实际状态在外部系统中定义 FirstCorpService srv1 new FirstCorpService FirstCorpTicket tkt1 srv1 b
如何检查 IEnumerable 返回 null 或是否有任何行？

我有一个类似于下面的 linq 查询 IEnumerable
日期时间和时间戳有什么区别

Sql Server 中日期时间和时间戳数据类型有什么区别一个是日期和时间另一个是每次更新行时更新的列类型注意时间戳已被弃用使用行版本反而
sum(Array) 表示索引超过矩阵维度[重复]

这个问题在这里已经有答案了我是Matlab的新手我试图做一些图像匹配图像X更大图像Y更小我们的目标是找到y与x的所有可能重叠然后计算每个这样的RGB的平方差和重叠即x 2 y 2 z 2 所以我在更大的图像中找到一个位置 i
使用 $.support.cors = true; 是否安全？在 jQuery 中？

我试图使用 jQuery 的 ajax 方法访问不同域上的 Web 服务经过一些研究后看起来它不允许这样做这是为了防止跨站点脚本而设计的我遇到了一个解决办法其中包括这一行 support cors true 在我的 javascr
基于位置的搜索结果查询速度慢

我有一个查询用于查找按位置排序的结果结果还必须考虑增值税因此这也在查询中遗憾的是在未缓存的情况下查询可能需要 4 秒以上的时间才能运行任何人都可以发现任何明显的问题或建议我可以做些什么来改进它吗只是为了澄清查询中发生的情况
在异步方法中返回和等待任务之间的区别[重复]

这个问题在这里已经有答案了下面的方法有什么区别吗其中一个比另一个更可取吗 public static async Task SendAsync1 string to string subject string htmlBody awai
Sails 1.0 模型没有主键

我尝试使用新版本 1 0 并重构我的项目我有一个问题但我现在不知道如何解决她我的 BD 上的某些表没有主键当我迁移到 sails 1 0 时出现此错误模型中friends 主键设置为id 但没有这样的在模型上找到属性您必须定
如何将一种热编码的结果加入到数据帧中？

我想在人口普查数据集中执行 one hot 编码 https archive ics uci edu ml datasets census venue 我想要执行的列位于国家地区列中因此我做了以下操作 import pandas as

如何将一种热编码的结果加入到数据帧中？

如何将一种热编码的结果加入到数据帧中？ 的相关文章

随机推荐

热门标签

如何将一种热编码的结果加入到数据帧中？的相关文章