从 pandas 中具有多个值的列创建虚拟对象

2024-03-12

我正在寻找一种Python式的方法来处理以下问题。

The pandas.get_dummies()方法非常适合从数据帧的分类列创建虚拟对象。例如,如果该列的值位于['A', 'B'], get_dummies()创建 2 个虚拟变量并相应地分配 0 或 1。

现在,我需要处理这种情况。单个列,我们称之为“标签”,具有如下值['A', 'B', 'C', 'D', 'A*C', 'C*D'] . get_dummies()创建 6 个虚拟值,但我只想要其中 4 个,这样一行就可以有多个 1。

有没有办法以Python方式处理这个问题?我只能想到一些逐步的算法来获取它,但这不包括 get_dummies()。 谢谢

已编辑,希望更清楚!


我知道自从提出这个问题以来已经有一段时间了,但是(至少now有)一个由以下支持的单线文档 http://pandas.pydata.org/pandas-docs/stable/generated/pandas.Series.str.get_dummies.html:

In [4]: df
Out[4]:
      label
0  (a, c, e)
1     (a, d)
2       (b,)
3     (d, e)

In [5]: df['label'].str.join(sep='*').str.get_dummies(sep='*')
Out[5]:
   a  b  c  d  e
0  1  0  1  0  1
1  1  0  0  1  0
2  0  1  0  0  0
3  0  0  0  1  1
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

从 pandas 中具有多个值的列创建虚拟对象 的相关文章

随机推荐

  • 如何在 Swift 中将*正数*转换为数字数组

    我想转换一个positive数字到相应的数字列表中 数字也应该是整数 转换时 例如 1024 它应该返回 1 0 2 4 在 Swift 4 1 或更高版本中 let number 1024 let digits String number
  • 部署时使 Google Cloud Function 的 Firebase 缓存失效

    我最近使用 Cloud Functions 和 Firebase Hosting 实现了 SSR 当 JS 包构建时 它会收到一个缓存突发后缀 main 1 js 在我的函数内部 我有以下代码段用于缓存云函数的结果 res set Cach
  • winapi 中子窗口编辑控件上的 WS_TABSTOP

    在我的 WinAPI 应用程序中 我的子窗口中有一系列编辑控件 我希望用户能够通过按 Tab 键前进并按 Shift Tab 键返回来在它们之间移动 但我似乎不知道如何使用WS TABSTOP与子窗口 我想要发生的是 当用户单击 Tab 键
  • 将 HTML 元素的引用传递给自定义挂钩

    假设我有一个自定义挂钩 我将使用它来将单击事件侦听器添加到 HTML 元素中 我创建参考const buttonRef useRef null 因此第一次渲染时的值为 null ref 值仅在渲染方法的final 中分配 此时我的自定义钩子
  • 最低权限的身份服务器无法在 Azure 上正常工作

    我正在尝试实现一个遵循 OAUTH2 OIDC 协议的架构 为了做到这一点 我为客户端提供了 STS Identity Server v3 ASP NET WebApi 和 ASP NET MVC 应用程序 我的目标是将 STS 和 RES
  • 如何获取目录中的目录列表,如 list.files(),但改为“list.dirs()”

    我能够使用list files 获取给定目录中的文件列表 但如果我想获取目录列表 我该怎么做 它是否就在我面前作为一个选项list files 另外 我使用的是 Windows 所以如果答案是使用某些 Linux unix 命令 那对我来说
  • 将 Python SIGINT 重置为默认信号处理程序

    版本信息 操作系统 Windows 7 Python版本3 3 5 下面是我正在玩的一小段测试代码 目的是忽略CTRL C在执行某些代码时按下 之后CTRL C行为将会恢复 import signal import time try mar
  • 为什么 32 位内核可以运行 64 位二进制文​​件?

    在我的 OS X 机器上 内核是 32 位二进制文 件 但它可以运行 64 位二进制文 件 这是如何运作的 cristi diciu file a out a out Mach O 64 bit executable x86 64 cris
  • 如何为用户/连接设置一些上下文变量

    我目前使用 Firebird SQL 作为我的共享软件的数据库后端 还想支持 PG 9 3 在 FB 中 我使用 set get context 来执行此操作 设置上下文 http www firebirdsql org refdocs l
  • 如何在 swift 中下载 Pdf 文件并在文件管理器中查找

    我已经使用下面的代码下载了 pdf 我能够在应用程序数据容器中找到该文件 但从应用程序数据容器中我的设备需要 Mac x 代码或 iTunes 等 我可以给出文档的不同路径或在 iPhone 文件中查找 pdf 的其他位置吗 我可以选择使用
  • vba 是在相等比较中被视为零的空值

    我试图跳过值为零或为空的记录 截至目前 我有以下代码可以明确检查两者 但我觉得第二次检查是多余的 但我想确认我是对的 以便我可以删除 IF 的第二部分 IF CellInValue RowInCrnt ColInCrnt 0 Or Cell
  • git 分支切换 Laravel 时发生 ReflectionException 类不存在

    因此 在决定创建此问题之前 我阅读了大约 100 篇有关此问题的帖子 这个问题实际上非常具体 并且 100 可重现 我创建了一个 git 分支 我们可以称之为storeUpdate 在这个分支中我创建了一个名为 app Http Contr
  • C++ 中的成员函数指针 for_each

    我正在为一个学校项目开发一个 C 小型虚拟机 它应该像 dc 命令一样工作 由输入输出元件 芯片组 CPU 和 RAM 组成 我目前正在研究芯片组 其中我实现了一个小的解析类 以便能够从标准输入或文件中获取一些 Asm 指令 然后将这些指令
  • 样式方面的
    或填充/边距元素

    现在有了 HTML5 和 CSS3 就是使用 br 当可以使用边距 填充时标签会皱起眉头 编辑 这是关于我的用例的 div 元素之间的间距 但也欢迎一般最佳实践建议 实际上 关于它的使用有相当明确的规则 可以追溯到HTML 2 0 http
  • 在不知道列名的情况下重命名单个 pandas DataFrame 列

    我知道我可以使用以下方法重命名单个 pandas DataFrame 列 drugInfo rename columns col 1 col 1 new name inplace True 但我想重命名一个列根据其索引 不知道它的名字 虽然
  • 如何更改TFS中的System.State字段?

    我有需要更改的要求System State现场workitem当其他字段发生变化时 我知道 TFS 工作流程是基于状态的 即根据状态您可以更改其他字段的值 但如何走另一条路呢 Mayur 我认为您无法通过使用内置工作项工作流程来实现这一目标
  • Mysql 获取刚刚插入的行

    所以我正在设计一个函数 将一行插入 MySQL 数据库 该表有一个启用了自动增量的主键 所以我不插入该列的值 但PK是整个表中唯一唯一的列 如何获取刚刚插入的行 如果该函数在流量较小的情况下我看不到问题 但是当其负载越来越重时 我可以看到一
  • 优化 SSE 代码

    我目前正在为 Java 应用程序开发一个 C 模块 需要一些性能改进 请参阅提高网络编码性能 https stackoverflow com questions 7737488 improving performance of networ
  • 如何从命令行获取 Ruby 文档 [重复]

    这个问题在这里已经有答案了 有没有办法找出我的哪一部分ri不显示 Ruby 文档的命令 ruby version ruby 1 9 3p392 2013 02 22 revision 39386 i686 linux ri version
  • 从 pandas 中具有多个值的列创建虚拟对象

    我正在寻找一种Python式的方法来处理以下问题 The pandas get dummies 方法非常适合从数据帧的分类列创建虚拟对象 例如 如果该列的值位于 A B get dummies 创建 2 个虚拟变量并相应地分配 0 或 1