如何做 pd.get_dummies 或其他方式？

2024-01-12

实际上，我的问题是基于：

是否有更快的方法根据条件更新数据框列值？ https://stackoverflow.com/questions/46678400/is-there-a-faster-way-to-update-dataframe-column-values-based-on-conditions

所以，数据应该是：

import pandas as pd
import io
t="""
AV4MdG6Ihowv-SKBN_nB    DTP,FOOD
AV4Mc2vNhowv-SKBN_Rn    Cash 1,FOOD
AV4MeisikOpWpLdepWy6    DTP,Bar
AV4MeRh6howv-SKBOBOn    Cash 1,FOOD
AV4Mezwchowv-SKBOB_S    DTOT,Bar
AV4MeB7yhowv-SKBOA5b    DTP,Bar
"""
data_vec=pd.read_csv(io.StringIO(t),sep='\s{2,}',names=['id','source'])
data_vec

这是 data_vec：

    id  source
0   AV4MdG6Ihowv-SKBN_nB    DTP,FOOD
1   AV4Mc2vNhowv-SKBN_Rn    Cash 1,FOOD
2   AV4MeisikOpWpLdepWy6    DTP,Bar
3   AV4MeRh6howv-SKBOBOn    Cash 1,FOOD
4   AV4Mezwchowv-SKBOB_S    DTOT,Bar
5   AV4MeB7yhowv-SKBOA5b    DTP,Bar

如果我想要如下结果：（这意味着如何矢量化多个标签或类别？）

                  _id  source_Cash 1  source_DTOT  source_DTP  Food  Bar
0  AV4MdG6Ihowv-SKBN_nB              0            0        1      1    0
1  AV4Mc2vNhowv-SKBN_Rn              1            0        0      1    0
2  AV4MeisikOpWpLdepWy6              0            0        1      0    1
3  AV4MeRh6howv-SKBOBOn              1            0        0      1    0
4  AV4Mezwchowv-SKBOB_S              0            1        0      0    1
5  AV4MeB7yhowv-SKBOA5b              0            0        1      0    1

如果重复，警告我删除！

一点str.split and pd.get_dummies magic, 灵感来自斯科特·波士顿 https://stackoverflow.com/a/46678704/4909087并改进（从原始版本）感谢约翰 https://stackoverflow.com/questions/46679401/how-to-do-pd-get-dummies-or-other-ways#comment80306925_46679401.

df = df.set_index('id').source.str.get_dummies(',')
df.columns = df.columns.str.split().str[0].str.lower()
df = df.add_prefix('source_').reset_index()

print(df)
                     id  source_bar  source_cash  source_dtot  source_dtp  \
0  AV4MdG6Ihowv-SKBN_nB           0            0            0           1   
1  AV4Mc2vNhowv-SKBN_Rn           0            1            0           0   
2  AV4MeisikOpWpLdepWy6           1            0            0           1   
3  AV4MeRh6howv-SKBOBOn           0            1            0           0   
4  AV4Mezwchowv-SKBOB_S           1            0            1           0   
5  AV4MeB7yhowv-SKBOA5b           1            0            0           1   

   source_food  
0            1  
1            1  
2            0  
3            1  
4            0  
5            0

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

pandas

scikitlearn

onehotencoding

如何做 pd.get_dummies 或其他方式？的相关文章

在 python 3 中使用子进程

我使用 subprocess 模块在 python 3 中运行 shell 命令这是我的代码 import subprocess filename somename py in practical i m using a real fil
Pyqt-如何因另一个组合框数据而更改组合框数据？

我有一个表有 4 列这 4 列中的两列是关于功能的一个是特征另一个是子特征在每一列中所有单元格都有组合框我可以在这些单元格中打开txt 我想当我选择电影院作为功能时我只想看到子功能组合框中的电影名称而不是我的数据中的
Python 是解释型的还是编译型的，或者两者兼而有之？

据我了解 An 解释的语言是由解释器将高级语言转换为机器代码然后执行的程序实时运行和执行的高级语言它一次处理一点程序 A compiled语言是一种高级语言其代码首先由编译器将高级语言转换为机器代码的程序转换为机器代码然后由执
PyTorch 给出 cuda 运行时错误

我对我的代码做了一些小小的修改以便它不使用 DataParallel and DistributedDataParallel 代码如下 import argparse import os import shutil import time
如何在VIM中设置文件的正确路径？

每当我击中 pwd在 vim 中命令总是返回路径C Windows system32 即使我在桌面上的 Python 文件中所以每当我跑步时 python 命令返回 python can t open file Users myname
Python tkinter.filedialog Askfolder 干扰 clr

我主要在 Spyder 中工作构建需要弹出文件夹或文件浏览窗口的脚本下面的代码在spyder中完美运行在 Pycharm 中 askopenfilename工作良好同时askdirectory什么都不做卡住了但是如果在调试模式
在相同任务上，Keras 比 TensorFlow 慢

我正在使用 Python 运行斩首 DCNN 本例中为 Inception V3 来获取图像特征我使用的是 Anaconda Py3 6 和 Windows7 使用 TensorFlow 时我将会话保存在变量中感谢 jdehesa 并
如何使用 Bokeh 动态隐藏字形和图例项

我正在尝试在散景中实现复选框其中每个复选框应显示隐藏与其关联的行我知道可以通过图例来实现这一点但我希望这种效果同时在两个图中发生此外图例也应该更新在下面的示例中出现了复选框但不执行任何操作我显然不明白如何更新用作源的数据
Python Django-如何从输入文件标签读取文件？

我不想将文件保存在我的服务器上我只想在下一页中读取并打印该文件现在我有这个 index html
Python Pandas：如何对组中的所有项目进行分组并为其分配 id？

我有 df domain orgid csyunshu com 108299 dshu com 108299 bbbdshu com 108299 cwakwakmrg com 121303 ckonkatsunet com 121303
如何在 Azure 数据工厂 - Databricks 中使用 continuation_token 获取 ADF Pipeline 运行详细信息的下一页？

我在用 adf client pipeline runs query by factory resourceGroupName 工厂名称过滤器参数的方法azure mgmt datafactory DataFactoryManageme
为什么我应该使用 WSGI？

使用 mod python 一段时间了我读了越来越多关于 WSGI 有多好的文章但没有真正理解为什么那么我为什么要切换到它呢有什么好处这很难吗学习曲线值得吗为了用 Python 开发复杂的 Web 应用程序您可能会使用更全面
在 Spyder 的变量资源管理器中查看局部变量

我是 python 新手正在使用 Spyder 的 IDE 我欣赏它的一项功能是它的变量资源管理器然而根据一些研究我发现它只显示全局变量我找到的解决方法是使用检查模块 import inspect local vars def m
使用 pybtex 将 bibtex 转换为格式化的 HTML 参考书目，例如哈佛风格

我正在使用 Django 并将 bibtex 存储在我的模型中并且希望能够以格式化 HTML 字符串的形式向我的视图传递引用使其看起来像哈佛引用样式使用中描述的方法Pybtex 无法识别 bibtex 条目 https stackov
在 Windows 上使用带有对数刻度的 matplotlib 时出现 Unicode 错误

我正在使用 python 2 6 和 matplotlib 如果我运行 matplotlib 库页面中提供的示例 histogram demo py 它工作正常我已经大大简化了这个脚本 import numpy as np import
以编程方式使用 Sphinx 特定指令解析 .rst 文件

我希望能够在 Python 中解析基于 sphinx 的 rst 以便进一步处理和检查就像是 import sphinx p sphinx parse path to file rst do something with p 似乎在 do
导入错误：无法导入名称“时间戳”

我使用以下代码在 python 3 6 3 中成功安装了 ggplot conda install c conda forge ggplot 但是当我使用下面的代码将其导入笔记本时出现错误 from ggplot import Impor
python 日志记录会刷新每个日志吗？

当我使用标准模块将日志写入文件时logging 每个日志会分别刷新到磁盘吗例如下面的代码会将日志刷新 10 次吗 logging basicConfig level logging DEBUG filename debug log fo
如何使用Python保存“完整的网页”而不仅仅是基本的html

我正在使用以下代码来使用 Python 保存网页 import urllib import sys from bs4 import BeautifulSoup url http www vodafone de privat tarife r
python 中的 after() 与 update()

我是 python 新手开始使用 tkinter 作为画布到目前为止我使用 update 来更新我的画布但还有一个 after 方法谁能给我解释一下这个函数请举个例子两者之间有什么区别 root after integer c

随机推荐

SurfaceView或TextureView组合

我在尝试着将实时效果应用于相机预览并在多个视图中显示我能怎么做就像camera2 https play google com store apps details id com dama camera2 snapshot https l
用Java编写文件时如何避免额外的头字节？

首先我没有使用高水平Java默认序列化将对象写入文件中我是manually在文件中写入一些基本类型变量这是示例 public class TestMain public static void main String args Obj
jQuery：根据名称和值选择复选框

我有以下 HTML
EndUpdateResource() 抛出错误 110 系统无法打开在输出位置打开 windowsexplorer 时指定的设备或文件

仅当在 D test output 可执行文件复制到的位置打开 Windows 资源管理器时以下代码才会在 EndUpdateResource 调用上引发 110 错误 std ifstream in C Windows notepad
密码盐如何帮助抵御彩虹表攻击？

我在理解密码盐的用途时遇到一些困难据我了解主要用途是阻止彩虹表攻击然而我所见过的实现这一点的方法似乎并没有真正使问题变得更加困难我看过很多教程建议盐的使用方式如下 hash md5 salt password 原因是散列现在映射的
ASP.NET 验证器比较两个日期相差不超过 12 个月

我有两个TextBox控制开始日期和结束日期输入我必须验证结束日期不大于开始日期并且开始日期和结束日期之间的差异不超过 12 个月你将不得不使用一个CustomValidator http msdn microsoft com en
带有 plesk 的 nginx 反向代理

我已经在这里看到了一些答案但似乎没有一个解决方案有效我有安装了 wordpress 的domain com 以及在domain com 6000上运行的脚本我希望能够让 script domain com 显示 domain com
何时使用 deferred.reject()？

我很困惑什么时候使用deferred resolve and deferred reject 快速示例 var doSomething function var deferred Deferred if typeof myVar objec
如何使用 Angular 验证表行数据？

I have table with ng repeat对于表行我想对单行数据进行内联编辑和验证但不可能使用form or ng form里面的表对于内联编辑我使用输入ng show inside td 所以我有两个问题这是内联编
具有大量 UNION 的 SPARQL 查询的替代方案

我在 Virtuoso 中存储了一些命名图表我想从提供的列表中找到与最多术语匹配的图表我的查询是以编程方式构建的如下所示 SELECT DISTINCT graph count DISTINCT match as matches WH
ModuleNotFoundError：没有名为“tensorflow.python.tools”的模块； “tensorflow.python”不是一个包

Tensorflow 完全可以在 Jupyter Notebook 上工作但是当我尝试 import tensorflow 在 pycharm 或只是在终端中我得到 Traceback most recent call last Fil
React-Native-Styled-Components：类型“DefaultTheme”上不存在属性“backgroundColor”

我正在为我的应用程序使用react native Typescript 我的样式组件版本是 styled components 5 3 0 我已经创建了自定义ThemeProvider并包装到我的根应用程序我的应用程序有切换深色主题我的
如何使用 IBM Bluemix Track & Plan 管理多个组件

我们有一个由多个不同组件不同功能语言组成的应用程序在 IBM Bluemix 中是否可以使用单个 Track Plan 功能来管理组件的工作项但将源代码保留在单独的 git 存储库中例如我希望整个应用程序有一个积压工作然后由
如何通过 FTP 访问我的 Azure 应用服务文件？ wwwroot 目录为空

使用 Azure 门户中应用服务页面导航上的部署中心链接我能够找到我的 FTP 凭据并使用它们轻松登录但是 wwwroot 文件夹中除了hostingstart html 之外没有任何文件但是当我使用 Azure 控制台时我的所有
Android NDK 无法使用两个 gradle 插件调试本机代码

我使用 NDK 和实验性 gradle 插件最初我能够调试我的本机代码然后我看到了这个问题https github com googlesamples android ndk issues 119 https github com go
如何在Android文件系统上模拟文件的“tail”命令？

我的 SD 卡上有文件我的应用程序使用它作为日志文件是否可以通过 adb 实时监视文件的所有更改喜欢与tail f sdcard myfile log命令这似乎对我很有用 adb shell while true do cat sl
如何使用OKHTTP发出post请求？

我读了一些将 json 发布到服务器的示例有人说 OkHttp 是 HttpUrlConnection 接口的实现由Java提供它提供了一个用于写入内容的输入流不知道或关心该内容是什么格式现在我想使用名称和密码参数向 URL
提取 Objective-c 二进制文件

是否可以提取二进制文件获取二进制文件背后的代码使用类转储您可以看到实现地址但是是否也可以看到实现地址中的代码有什么办法可以做到吗您的所有代码都会编译为单个指令并放置在可执行文件的文本部分中编译器负责将高级语言转换为更简单的处
简单的、结构类型的 XML 数据绑定（无需代码生成或反射）

我正在寻找一个 Java 库它允许我将 XML 编组到 Java 对象树反之亦然有很多库可以让我将 XML 绑定到JavaBeans由某些代码生成工具生成但是我不需要这些 JAXB JiBX Castor 等我需要的是一个工具
如何做 pd.get_dummies 或其他方式？

实际上我的问题是基于是否有更快的方法根据条件更新数据框列值 https stackoverflow com questions 46678400 is there a faster way to update dataframe col

如何做 pd.get_dummies 或其他方式？

如何做 pd.get_dummies 或其他方式？ 的相关文章

随机推荐

热门标签

如何做 pd.get_dummies 或其他方式？的相关文章