在 Pandas DataFrame 中拆分列列表

2024-03-25

我正在寻找解决以下问题的好方法。我当前的修复不是特别干净，我希望从您的见解中学习。

假设我有一个 Panda DataFrame，其条目如下所示：

>>> df=pd.DataFrame(index=[1,2,3],columns=['Color','Texture','IsGlass'])

>>> df['Color']=[np.nan,['Red','Blue'],['Blue', 'Green', 'Purple']]
>>> df['Texture']=[['Rough'],np.nan,['Silky', 'Shiny', 'Fuzzy']]
>>> df['IsGlass']=[1,0,1]

>>> df
                            Color                   Texture   IsGlass
    1                         NaN                  ['Rough']        1
    2              ['Red', 'Blue']                       NaN        0 
    3  ['Blue', 'Green', 'Purple']  ['Silky','Shiny','Fuzzy']       1

因此，索引中的每个观察结果都对应于我对它的颜色、纹理以及是否是玻璃的测量。我想做的是将其转换为一个新的“指标”DataFrame，方法是为每个观察到的值创建一列，如果我观察到它，则将相应的条目更改为 1，如果我没有信息，则将相应的条目更改为 NaN。

>>> df
         Red Blue Green Purple Rough Silky Shiny Fuzzy Is Glass               
    1    Nan  Nan  Nan   Nan    1     NaN   Nan   Nan     1        
    2     1    1   Nan   Nan    Nan   Nan   Nan   Nan     0 
    3    Nan   1    1     1     Nan    1     1     1      1

我有一个解决方案，它循环遍历每一列，查看其值，并通过一系列非 Nan 值的 Try/Excepts 拆分列表，创建一个新列等，然后连接。

这是我在 StackOverflow 上发表的第一篇文章 - 我希望这篇文章符合发布指南。谢谢。

堆叠技巧！

from sklearn.preprocessing import MultiLabelBinarizer

mlb = MultiLabelBinarizer()

df = df.stack().unstack(fill_value=[])

def b(c):
    d = mlb.fit_transform(c)
    return pd.DataFrame(d, c.index, mlb.classes_)

pd.concat([b(df[c]) for c in ['Color', 'Texture']], axis=1).join(df.IsGlass)

   Blue  Green  Purple  Red  Fuzzy  Rough  Shiny  Silky IsGlass
1     0      0       0    0      0      1      0      0       1
2     1      0       0    1      0      0      0      0       0
3     1      1       1    0      1      0      1      1       1

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python3x

pandas

DataFrame

pandasgroupby

在 Pandas DataFrame 中拆分列列表的相关文章

Python range() 和 zip() 对象类型

我了解功能如何range and zip 可以在 for 循环中使用然而我期望range 输出一个列表很像seq在 Unix shell 中如果我运行以下代码 a range 10 print a 输出是range 10 表明它不是一
获取 pandas 中最后一次出现特定值之后的所有行

我的数据框看起来像 ID colA 1 B 1 D 2 B 2 D 2 C 我已返回每组中事件 B 最后一次出现后的所有行输出将是 ID colA 1 D 2 D 2 C 我试过 a df colA str contains B grou
按列分组的数据帧上 R 中的行之间的差异

我希望通过 app name 获得不同版本的计数差异我的数据集如下所示 app name version id count difference 这是数据集 data structure list app name structure c
pandas 使用日期时间对象重新索引 DataFrame

是否可以重新索引 pandasDataFrame使用由日期时间对象组成的列我有一个数据框df包含以下列 Int64Index 19610 entries 0 to 19609 Data columns cntr 19610 non nul
重命名使用 Python Requests 下载的文件

我怎样才能替换名字pdf使用 Python Requests 下载的文件我想将其另存为Manual name1 pdf not as Elkinson 20Jeffrey pdf CSV 文件如下所示 Manual name1 https
高效地将大型 Pandas 数据帧写入磁盘

我正在尝试找到使用 Python Pandas 高效地将大型数据帧 250MB 写入磁盘或从磁盘写入的最佳方法我已经尝试了所有方法Python 数据分析但表现却非常令人失望这是一个更大项目的一部分该项目探索将我们当前的分析数据管理
如果另一列中的值为空，则删除重复项 - Pandas

我拥有的 df Name Vehicle Dave Car Mark Bike Steve Car Dave Steve 我想从名称列中删除重复项但前提是车辆列中的相应值为空我知道我可以使用 df dropduplicates
python中将对象数据类型转换为字符串问题

如何将对象数据类型结构转换为字符串数据类型下面的方法不起作用该列仍然存在object转换为字符串后 astype import pandas as pd df pd DataFrame country A B C D E df dtyp
在 Shiny 应用程序中过滤数据时，长度为 1 的字符向量除了第一个元素之外的所有元素都将被忽略错误

我有以下闪亮的应用程序 library shiny library rhandsontable library shinydashboard library ggplot2 library dplyr setwd C Users Marc
如果 pandas 数据框中的所有列都有空字符串，则删除行

我有一个数据框如下 Name Age 0 Tom 20 1 nick 21 2 3 krish 19 4 jack 18 5 6 jill 26 7 nick 期望的输出是 Name Age 0 Tom 20 1 nick 21 3 kri
如何在 python 中将最佳概率分布模型拟合到我的数据？

我有大约 20 000 行这样的数据 Id value 1 30 2 3 3 22 n 27 我对我的数据进行了统计平均值33 85 中位数30 99 最小值2 8 最大值206 95 置信区间0 21 所以大多数值在33左右并且有一些
Python - 不使用复制模块的深度复制

本质上问题是创建一个函数 deepcopy L 它将返回列表 L 的深层副本但是我们被告知不要使用 copy 模块或其中的任何函数我是入门课程的初学者老实说我在这方面很挣扎我们真正被告知的唯一一件事是我们应该使用递归来解决问题
使用管道语法处理模型列表

我经常喜欢拟合和检查与 R 数据框中的两个变量相关的多个模型我可以使用如下语法来做到这一点 require tidyverse require broom models lt list hp exp cyl hp cyl map df m
pip3：错误的解释器：没有这样的文件或目录

我正在尝试使用安装依赖项pip3 command 当前场景 Dev which python Users Dev anaconda bin python Dev which python3 usr local bin python3 Dev
pd.to_datetime 更改日期格式产生错误的日期

我从 csv 文件中提取了下表时间戳 user id 成本 val12011 年 1 月 1 日 1 1 32012 年 1 月 7 日 1 19 572013 年 1 月 9 日 1 21 632011 年 1 月 2 日 2 20 8
Python 3 sqlite 参数化 SQL 查询

我一直在尝试使用 Python 3 和 sqlite 模块进行参数化 SQL 查询并且仅使用一个变量就成功了但是当使用两个变量时我得到一个IndexError tuple index out of range错误关于导致此错误的原
使用 Tabula 通过 Python 读取 pdf 时出现 Java 错误

我已经安装了 tabula 库用于使用 python 将 pdf 读取到 pandas 数据框中但是当我运行代码时 import tabula df tabula read pdf sample1 pdf pages 1 我得到了例外
Python 3在for循环中更改字典键的值不起作用

我的 python 3 代码没有按预期工作 def addFunc x y print x y def subABC x y z print x y z def doublePower base exp print 2 base exp d
为什么 __instancecheck__ 没有被调用？

我有以下 python3 代码 class BaseTypeClass type def new cls name bases namespace kwd result type new cls name bases namespace p
ValueError：使用火炬张量时需要解压的值太多

对于神经网络项目我使用 Pytorch 并使用 EMNIST 数据集已经给出的代码加载到数据集中 train dataset dsets MNIST root data train True transform transforms T

随机推荐

文件夹浏览器对话框的问题

如果对话框中单击Make newfolder 则开始编辑刚刚创建的文件夹的名称并单击OK OKdialogrezalt返回但在属性中SelectedPath他将文件夹命名为New文件夹然后就有默认的名称发生这种情况是因为当我们创建时
为什么对 Deref::deref 结果断言会因类型不匹配而失败？

以下是Deref示例来自Rust 编程语言 https doc rust lang org book first edition deref coercions html除了我添加了另一个断言为什么assert eq与deref也相等 a
如何在nodeJS项目中使用Jest全局Setup和Teardown？

我使用 jest 将测试添加到我的 Node js 项目中但对于每个测试套件都有一个 beforeAll 方法用于创建新的测试服务器并连接到 mongo 数据库还有一个 afterAll 方法用于关闭测试服务器和数据库我想对所有测试
AWS DocumentDB 与 Robo 3T (Robomongo)

我想将 Mac 笔记本电脑上的 Robo 3T 以前称为 robomongo 与 AWS 的 DocumentDB 连接我遵循了大量教程但找不到任何特定于 DocumentDB 的教程在测试阶段它通过了步骤 1 连接到我的 EC2
INSTALL_FAILED_OLDER_SDK 的 minSdkVersion 低于设备 API 版本

在全新安装最新的 AndroidStudio 时运行新项目模板最小 SDK 选择为 15 ICS 尝试在运行 API 19 的 Nexus 5 上运行我收到 INSTALL FAILED OLDER SDK 错误并显示以下输出我没有
类型不匹配：无法从连接转换为连接

我想要 JDBC 连接到 MS Access 但 Class forName sun jdbc odbc JdbcOdbcDriver Connection con DriverManager getConnection jdbc odbc
如何在 Room 中插入具有一对多关系的实体

我正在使用 Room 构建一个数据库但我不知道如何将具有关系在我的例子中是一对多的新元素插入到数据库中没有解决方案曾经讨论过插入他们只讨论了查询数据这是 DAO Dao abstract class ShoppingListsD
在WPF中，为什么MouseLeave触发而不是MouseDown？

这是我的代码
这个特权准则有什么问题吗？

如何检查检查 php代码或页面中的权限我使用爆炸和 in array 用户登录并进入检查页面后代码必须检查用户的权限是否具有 dataDisplay 权限但检查页面中的代码不会执行此操作我的检查页面代码有什么问题这是
Windows10 上使用 VirtualBox 的 Vagrant：在您的 PATH 中找不到“Rsync”

我在 Windows 7 系统上使用 Vagrant 一段时间了现在我有一台装有 Windows 10 的新 PC 我安装了 Oracle Virtual Box 和 Vagrant 并尝试使用命令 vagrant up 启动计算机 Va
r 中的 ifelse 匹配向量

我有一个如下所示的数据框 gt df lt data frame A c NA 1 2 3 4 B c NA 5 2 6 4 C c NA NA 2 NA NA gt df A B C 1 NA NA NA 2 1 5 NA 3 2 2 2
C/C++ 的多线程内存分配器

我目前有大量的多线程服务器应用程序并且我正在寻找一个好的多线程内存分配器到目前为止我在以下两点之间左右为难太阳乌梅谷歌的tcmalloc 英特尔的线程构建块分配器埃默里伯杰的宝藏据我所知 hoard 可能是最快的但我在今天
为什么冒泡排序最好情况的时间复杂度是O(n)

我按照书中使用的方法推导了冒泡排序在最佳情况下的时间复杂度算法2 2 但结果是 O n 2 以下是我的推导希望大家帮我找出哪里错了 public void bubbleSort int arr for int i 0 len arr le
让 Kotlin 序列化器与 Retrofit 配合使用

我无法让 Kotlin Serializer 与 Retrofit 一起使用我在用com jakewharton retrofit retrofit2 kotlinx serialization converter 0 5 0与 Retr
如何用networkx绘制社区

如何使用 python networkx 绘制其社区的图表如下图所示图片网址 https data graphstream project org talks CSSS2012 media Community Structure2 jp
Pentaho Data Integration（最新版本）-未检测到 MySQL 驱动程序

我是这个工具的新手我正在尝试创建与数据库的 MySQL 连接但是当我按下测试按钮时它会显示以下消息 Error connecting to database MySQL configuracionesEF org pentaho
将 UITableView 作为容器视图嵌入到 UIViewController 中

我想添加一个文本字段和发送按钮该按钮粘贴在 uitableview 的底部类似于聊天应用程序我遇到过关于将 UITableView 作为容器视图嵌入到 UIViewController 中的评论然而他们似乎缺乏如何实现这一目标的例
自应用签名后文档已被更改或损坏 itext 5.5.11

基本上我收到错误自应用签名以来文档已被更改或损坏我按照 itext 网站的示例并根据我的情况进行了调整准备好要签名的文档添加append模式因为可以已经签署的文件调用 Web 服务来签署哈希值将签名哈希添加到准备好的文档中
如何在 Django 中验证电子邮件地址？ [复制]

这个问题在这里已经有答案了我编写了一个用于将电子邮件添加到时事通讯库的函数在我添加检查发送电子邮件的有效性之前它一直运行得很好现在每次我都会收到错误的电子邮件回复有人能看到这里有任何错误吗使用的正则表达式是 b w w w
在 Pandas DataFrame 中拆分列列表

我正在寻找解决以下问题的好方法我当前的修复不是特别干净我希望从您的见解中学习假设我有一个 Panda DataFrame 其条目如下所示 gt gt gt df pd DataFrame index 1 2 3 columns Col

在 Pandas DataFrame 中拆分列列表

在 Pandas DataFrame 中拆分列列表 的相关文章

随机推荐

热门标签

在 Pandas DataFrame 中拆分列列表的相关文章