从不同的数据框中获取数据

2023-12-23

我有一个数据框

Name    Subset    Type    System
A00     IU00-A    OP      A
A00     IT00      PP      A
B01     IT-01A    PP      B
B01     IU        OP      B
B03     IM-09-B   LP      A
B03     IM03A     OP      A
B03     IT-09     OP      A
D09     IT        OP      A
D09     IM        LP      A
D09     IM        OP      A

我已将其转换为

Subset Cluster    Type Cluster    Name          System
IU,IT             OP,PP           A00           A
IM,IM,IT          LP, OP, OP      B03, D09      A
IU,IT             OP,PP           B01           B

using

out = df.assign(Subset=df['Subset'].str[:2])\
        .sort_values(by=df.columns.tolist())\
        .groupby('Name', as_index=False)\
        .agg(**{'Subset Cluster': ('Subset', ', '.join), 
                'Type Cluster': ('Type', ', '.join), 
                'System': ('System', 'first')})\
        .groupby(['Subset Cluster', 'Type Cluster', 'System'], as_index=False)\
        .agg(', '.join)

在这个转换后的数据框中，我需要添加另一列，该列将为我提供特定名称的所有子集。

输出示例：

Subset Cluster    Type Cluster    Name          System    Subsets
IU,IT             OP,PP           A00           A         IU00-A,IT00
IM,IM,IT          LP, OP, OP      B03, D09      A         IM-09-B,IM03A,IT-09,IT,IM,IM   
IU,IT             OP,PP           B01           B         IT-01A,IU

我们可以分配Subset Cluster第一的;然后使用双groupby:

out = df.assign(**{'Subset Cluster': df['Subset'].str[:2]})\
        .sort_values(by=df.columns.tolist())\
        .groupby(['Name', 'System'], as_index=False)\
        .agg(', '.join).rename(columns={'Type':'Type Cluster'})\
        .groupby(['Subset Cluster', 'Type Cluster', 'System'], as_index=False)\
        .agg(', '.join)

Output:

  Subset Cluster Type Cluster System      Name                             Subset
0     IM, IM, IT   LP, OP, OP      A  B03, D09  IM-09-B, IM03A, IT-09, IM, IM, IT
1         IT, IU       PP, OP      A       A00                       IT00, IU00-A
2         IT, IU       PP, OP      B       B01                         IT-01A, IU

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

python3x

pandas

DataFrame

pandasgroupby

从不同的数据框中获取数据的相关文章

Python - 包和设置文件

我有一个 python 包需要从我的项目目录中提取设置这是我的项目当前的结构 Project bin mypackage package files Project myproject project files start py se
地图与星图的性能？

我试图对两个序列进行纯Python 没有外部依赖逐元素比较我的第一个解决方案是 list map operator eq seq1 seq2 然后我发现starmap函数来自itertools 这看起来和我很相似但事实证明在最坏的情
Python 可以使用单独的媒体播放器打开 mp3 文件吗？ [关闭]

Closed 这个问题需要多问focused help closed questions 目前不接受答案是否可以开一个mp3Python 中的文件可以使用Popen 我并不是要在程序中运行它我的意思是作为媒体播放器中的一个单独窗口或其
Accel 无法在 gedit 3 插件中工作

我试图为 Gedit 3 编写一个使用 GObject 自省的小插件下面显示的代码的相关部分只是为了建立一个环境然后我可以将函数放入按钮的回调中但是该按钮的加速器不起作用这段代码有什么问题我正在使用教程here http www
Pygame 玩家精灵没有出现

我一直在为学校计算机课做这个项目但无法让玩家精灵出现有人可以帮忙吗当我运行主游戏循环时除了玩家精灵之外所有内容都正确显示它应该由于箭头输入而在屏幕上移动并受到重力的影响当我删除图像并仅使用对象类和矩形时该代码也有效 impo
Python MySQL 模块

我正在开发一个需要与 MySQL 数据库交互的 Web 应用程序但我似乎找不到任何真正适合 Python 的模块我特别寻找快速模块能够处理数十万个连接和查询所有这些都在短时间内完成而不会对速度产生重大影响我想我的答案将是游戏领
将列表传递给 PyCrypto 中的 AES 密钥生成器

我尝试使用 Pycrypto 生成 AES 密钥但收到以下错误类型错误列表不支持缓冲区接口对于以下声明 aescipher AES new mykey AES MODE ECB mykey 属于类型list并包含 18854347
int 对象在尝试对数字的数字求和时不可迭代？ [复制]

这个问题在这里已经有答案了我有这个代码 inp int input Enter a number for i in inp n n i print n 但它抛出一个错误 int object is not iterable 我想通过将每个
如何抑制 pyinstaller 生成的可执行文件窗口中的所有警告

我已经使用 pyinstaller 从 python 文件生成了可执行文件该程序按其应有的方式工作但在我想隐藏的窗口中出现了一条警告消息当 python 文件在 IDE 中运行时以下行会抑制所有警告消息 warnings filte
为什么全新安装后会有pip和conda包？

All Windows 10 64 位 d l Anaconda 2 5 0 与 Python3 64 位并安装全新安装后我输入conda list 并且在软件包中我看到重复像 jupyter 1 0 0 py35 1 jupyte
如何在树莓派上更新到最新的 python 3.5.1 版本？

我昨天拿到了 Raspberry Pi 我已经在尝试用它来编写代码了我有一个计划在其上运行的程序但它仅与 Python 版本 3 5 0 或 3 5 1 兼容并且我在互联网上找到的所有内容似乎都已经过时与 Python 2 有关或
多线程写入文件

前几天刚开始使用 python 对多线程的整个概念还很陌生我在多线程时写入文件时遇到问题如果我按照常规方式执行此操作它会不断覆盖正在写入的内容使用 5 个线程写入文件的正确方法是什么不降低性能的最佳方法是在所有线程之间使用队列每
如何替换被测模块的文件访问引用

pyfakefs https code google com p pyfakefs 听起来非常有用它最初是作为核心 Python 模块的一个适度的假实现来开发的以支持中等复杂的文件系统交互并于 2006 年 9 月在 Google
Python unittest - 与assertRaises相反？

我想编写一个测试来确定在给定情况下不会引发异常测试是否有异常很简单is上调 sInvalidPath AlwaysSuppliesAnInvalidPath self assertRaises PathIsNotAValidOne MyO
具有条件的重复行 pandas dataframe python

我的数据框有问题我的 df 是 product power brand product 1 3 x 1500W brand A product 2 2x1000W 1x100W product 3 1x1500W 1x500W brand
仅对某些行的不同大小的两个 pandas 数据帧的列进行求和

我有两个 pandas 数据框如下所示 df1 n column1 0 5 0 0 0 1 6 0 0 0 2 7 0 0 0 3 8 0 0 0 4 9 0 0 0 5 10 0 0 0 df2 n column2 0 6 0 1 0
从 sublime_plugin.WindowCommand 获取当前文件名

我开发插件sublime text 3 并想要获取当前打开的文件路径 absolute1 self window view file name 在哪里self is sublime plugin WindowCommand 但失败了 Att
在 python 中使用递归替代 len()

作为 CS1301 问题的一部分我正在尝试使用递归编写一个函数该函数将执行与 len 完全相同的操作但是我有两个问题我正在使用全局变量但我在课程中还没有学到这一点 cs1301 自动评分器告诉我我的函数返回 26 而不是 13
Python请求401错误但url在浏览器中打开

我正在尝试从这个位置提取 json https www nseindia com api option chain indices symbol BANKNIFTY https www nseindia com api option cha
Tensorflow ctc_loss_calculator：找不到有效路径

当运行我的神经网络双向 LSTM 进行音频识别时我使用连接主义时间分类 CTC 但在某些时候训练网络时我几乎每批都会收到来自 Tensorflow 的警告 W tensorflow core util ctc ctc loss cal

随机推荐

使用 JLayeredPane 将多个 JPanel 添加到一个 JPanel 中

我正在尝试将多个面板添加到另一个面板我希望它们位于彼此之上因此我使用 JLayeredPane 我为每个按钮添加了一个按钮工作时应该出现两个按钮 import java awt Color import javax swing JBu
如果UDF公式失败，Excel VBA保留原始值

在各个单元格中我有一个引用 UDF 的指定公式 getValueFromWorkbook OtherWorkbook 10 The getValueFromWorkbookUDF 大致做了类似的事情 Function getValueFr
子域重定向到另一台服务器

我有一个通过共享托管计划托管的网站我的域名是在GoDaddy注册的域名服务器是我的共享主机的域名服务器到目前为止一切正常但我试图弄清楚如何添加子域并将其指向其他地方我想将 sub mydomain com 指向其他一些 IP 在
与 .pub 文件的 SSH 连接

我从客户那里得到了 id rsa pub 我被告知要连接到它我尝试添加密钥ssh copy id email protected cdn cgi l email protection 但它给出了错误 Permission denied p
按语法解析为 AST（或 .y+.lang => xml）的工具

给定一个词法分析器定义文件一个语法文件例如 postgresql y lflex 和 bison 程序来自它的源树以及由这些词法分析器和解析器定义的文件例如 SQL 查询以某种标准形式例如 XML 的 JSON 获取 AST 该
提取 XSLT 中单引号之间的文本

需要在之后提取文本单引号 E g div show div 变量是这样的
使用 .gitignore 忽略 node_modules

我使用 npm 启动了一个项目添加了一些依赖项然后使用ignit初始化了存储库git init 我想要目录node modules被git忽略所以我将它添加到 gitignore像这样文件 gitignore node modules
如何更新它以使用最新版本的引导程序？

我对中演示的功能感兴趣这把小提琴 http jsfiddle net hcL4s 用于显示模式对话框敲除结合是 Custom binding for making modals ko bindingHandlers bootstrapMo
什么是 C++ 模块权限？

我在 C 模块的上下文中看到了一些对术语权限的引用例如https gcc gnu org wiki cxx modules https gcc gnu org wiki cxx modules Baz Baz s declaratio
Android - 我似乎没有 ANIM 文件夹或 MAINANIM.xml 文档...这是为什么？

无论我在 res 目录中查找什么都只有 main xml 并且我应该有 res anim mainanim xml 但我没有它我的代码在这里逐帧动画 https stackoverflow com questions 3290290
从服务器下载和保存大量图像时出现 iOS 内存问题 (ARC)

以下代码从服务器下载 700 多个不同大小的图像这里的问题是内存即使使用 ARC 永远不会释放最终会出现内存警告然后应用程序退出我已经在这个方法中尝试过 autoreleasepool 但似乎不起作用另外我尝试在不同位置停止
为什么我在使用 np.nan 时得到 nan 作为字符串，而在使用 pd.NA 时得到缺失值？

抱歉我无法共享数据我尝试制作测试数据但它没有给出相同的错误或不同的缺失值如下所述在底部添加了更多信息pd NA 我正在用代码加载数据 df pd read csv C data csv 加载数据时我收到此警告 C Users Us
为什么我会收到“多重定义”错误？我如何解决它？

终端给出的命令 g main cpp 测试 cpp 错误信息 tmp ccvgRjlI o 在函数 test2 中 test cpp text 0x0 多个 test2 的定义 tmp ccGvwiUE o main cpp text 0x
TypeError：jquery 1.9.1 版本中的“in”操作数 obj 无效

ajax async false type POST url url module listing projectId data ajax true success function response each response funct
使图像的一部分透明

我想在按钮上放置图像但我希望图像的一部分是透明的我该怎么做呢 Try the Image OpacityMask http msdn microsoft com en us library ms743320 aspx财产您可以给它一个
将按钮的可见性绑定到两个文本框的内容的最简洁方法

我有一个Button在我的应用程序中我已将其功能绑定到是否TextBox是空的如下所示
提高始终加密证书的有效性

我正在使用 SQL Server 的始终加密功能使用受自签名证书保护的主密钥来加密数据库中的一些列该证书是使用 SQL 2016 的 Management Studio 创建的并且始终默认为比颁发日期提前一年的到期日期它存储在当前用
为什么 Clang 为引用和非空指针参数生成不同的代码？

这与为什么 GCC 不能为两个 int32 的结构生成最佳运算符 q 66263263 我在 godbolt org 上研究了这个问题的代码并注意到了这种奇怪的行为 struct Point int x y bool nonzero pt
Java FileHandler 禁用日志轮转

我正在尝试禁用日志轮换以供文件处理程序使用 FileHandler fh new FileHandler path run log 1000000 1 false 我想要的是一个日志为每次运行创建我不想轮换或备份旧文件但使用此初始化
从不同的数据框中获取数据

我有一个数据框 Name Subset Type System A00 IU00 A OP A A00 IT00 PP A B01 IT 01A PP B B01 IU OP B B03 IM 09 B LP A B03 IM03A OP

从不同的数据框中获取数据

从不同的数据框中获取数据 的相关文章

随机推荐

热门标签

从不同的数据框中获取数据的相关文章