根据 pandas 中另一列的值创建新列

2024-04-19

我有这个 pandas 数据框，其“代码”列包含顺序分层代码。我的目标是使用每个层次级别代码及其名称创建新列，如下所示：

原始数据：

    Code    Name
0   A       USA
1   AM      Massachusetts
2   AMB     Boston
3   AMS     Springfield
4   D       Germany
5   DB      Brandenburg
6   DBB     Berlin
7   DBD     Dresden

My Goal:

Code    Name           Level1   Level1Name      Level2  Level2Name      Level3      Level3Name
0   A   USA             A           USA          AM     Massachusetts   AMB         Boston
1   AM  Massachusetts   A           USA          AM     Massachusetts   AMB         Boston
2   AMB Boston          A           USA          AM     Massachusetts   AMB         Boston
3   AMS Springfield     A           USA          AM     Massachusetts   AMS         Springfiled
4   D   Germany         D           Germany      DB     Brandenburg     DBB         Berlin
5   DB  Brandenburg     D           Germany      DB     Brandenburg     DBB         Berlin
6   DBB Berlin          D           Germany      DB     Brandenburg     DBB         Berlin
7   DBD Dresden         D           Germany      DB     Brandenburg     DBD         Dresden

My Code:

import pandas as pd
df = pd.read_excel(r'/Users/BoBoMann/Desktop/Sequence.xlsx')
df['Length']=test.Code.str.len() ## create a column with length of each cell in Code
df['Level1']=test.Code.str[:1]   ## create the first level using string indexing
df['Level1Name'] = df[df['Length']==1]['Name']
df.head() ## This yields:



Code    Name          Length    Level1  Level1Name
0   A       USA             1         A     USA
1   AM      Massachusetts   2         A     NaN
2   AMB     Boston          3         A     NaN
3   AMS     Springfield     3         A     NaN
4   D       Germany         1         D     Germany
5   DB      Brandenburg     2         D     NaN
6   DBB     Berlin          3         D     NaN
7   DBD     Dresden         3         D     NaN

对于我当前的方法，如何在 Level1Name 列中将这些 NaN 分别转换为 USA 和德国？

一般来说，是否有更好的方法来实现为每个层次结构层创建列并将它们与另一列中各自的名称相匹配的目标？

IIUC，让我们使用这段代码：

df['Codes'] = [[*i] for i in df['Code']]
df_level = df['Code'].str.extractall('(.)')[0].unstack('match').bfill().cumsum(axis=1)
s_map = df.explode('Codes').drop_duplicates('Code', keep='last').set_index('Code')['Name']
df_level.columns = [f'Level{i+1}' for i in df_level.columns]
df_level_names =  pd.concat([df_level[i].map(s_map) for i in df_level.columns], 
                            axis=1, 
                            keys=df_level.columns+'Name')
df_out = df.join([df_level, df_level_names]).drop('Codes', axis=1)
df_out

Output:

  Code           Name Level1 Level2 Level3 Level1Name     Level2Name   Level3Name
0    A            USA      A     AM    AMB        USA  Massachusetts       Boston
1   AM  Massachusetts      A     AM    AMB        USA  Massachusetts       Boston
2  AMB         Boston      A     AM    AMB        USA  Massachusetts       Boston
3  AMS    Springfield      A     AM    AMS        USA  Massachusetts  Springfield
4    D        Germany      D     DB    DBB    Germany    Brandenburg       Berlin
5   DB    Brandenburg      D     DB    DBB    Germany    Brandenburg       Berlin
6  DBB         Berlin      D     DB    DBB    Germany    Brandenburg       Berlin
7  DBD        Dresden      D     DB    DBD    Germany    Brandenburg      Dresden

解释：

将字符串解压到创建“代码”列的字符列表中
使用创建“LevelX”列extractall和正则表达式.得到一个单个字符，那么bfill上面的 NaN 和cumsum沿着行到创建“LevelX”列
创建一个 pd.Series 来使用map通过致电explode关于“代码” 列在上面创建和drop_duplicates保留最后的值 “代码”然后set_index在“代码”上并将“名称”栏保留为创建“s_map”。
重命名名称 df_level 列以获取 Level1 而不是 Level0。
Use pd.concat与列表理解mapdf_level 列到使用 s_map 的 df_level_names。另外，使用keys要重命名的参数新列并附加“名称”
Use join将 df 与 df_levels 和 df_level_names 连接，然后drop“代码”列，创建所需的输出。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

pandas

DataFrame

python36

Hierarchical

根据 pandas 中另一列的值创建新列的相关文章

从数据框 R 列表中获取列

我是一个 R 初学者我被这个问题困扰了我有一个数据框并通过使用 split 函数创建了一个数据框列表例如 dfList lt split mtcars mtcars cyl 现在我想检索特定数据帧的列例如数据框 1 的第 2 列
带有存根列表的 Pandas Wide_to_long

我目前有以下数据框 1 1 1 2 1 3 1 4 1 5 2 1 9 5 10 1 10 2 10 3 10 4 10 5 0 0 049400 0 063812 0 097736 0 077222 0 112779 0 201620 0
Pandas 从重采样中检索添加行的索引

我有一个缺少行的数据框我对其进行插值和重新采样我想知道是否有办法在重新采样时获取添加到数据帧的行的索引这就是我创建重新采样插入数据帧的方式 import numpy as np import pandas as pd from d
合并 Pandas Dataframe：如何添加列和替换值

我有一个数据帧 df1 并想要合并其他许多数据帧 df2 以便合并发生在匹配的多索引上如果缺失将创建新列如果列已存在则替换值正确的 pandas 操作是什么以及使用什么参数我查看了 concat join merge
按应用于 Pandas 中同一列的条件进行计数

这是我的数据框 acc index veh count veh type 001 1 1 002 2 1 002 2 2 003 2 1 003 2 2 004 1 1 005 2 1 005 2 3 006 1 2 007 2 1 007
使用 python 中 pandas 的 read_excel 函数将日期保留为字符串

Python 2 7 10 尝试过 pandas 0 17 1 函数 read excel 尝试过 pyexcel 0 1 7 pyexcel xlsx 0 0 7 函数 get records 在Python中使用pandas时可以读取e
将 Pandas GroupBy 多索引输出从 Series 转换回 DataFrame

我有一个数据框 City Name 0 Seattle Alice 1 Seattle Bob 2 Portland Mallory 3 Seattle Mallory 4 Seattle Bob 5 Portland Mallory 我执
在 Spark Dataframe 中将空值替换为 null

我有一个包含 n 列的数据框我想用空值替换所有这些列中的空字符串我尝试使用 val ReadDf rawDF na replace columnA Map gt null and val ReadDf rawDF withColumn
获取列中唯一值的索引（pandas）

我需要获取具有唯一值的行号x 我得出以下解决方案 x pv index get level values get index level values dups x x duplicated unique get dup values un
因子不因式分解绘图的 x 轴标签

我有一个从 Excel 导入的数据框其中一列的格式为 dates Oct 17 Nov 17 Dec 17 Jan 18 Feb 18 Mar 18 Apr 18 May 18 Jun 18 Jul 18 Aug 18 所有其他列都只是数
熊猫系列名称

我试图将我的系列命名为 Points 但它没有显示为 Points Points pd Series 1 2 3 print Points name output None 我什至尝试重命名它但它仍然显示无 Points rename
尝试将稀疏 df 保存到 hdf5 时，获取“SparseDtype”对象没有属性“itemsize”？

我正在尝试将大型稀疏数据帧保存到 hdf5 文件但出现归因错误 one hot pd get dummies my DF columns cat sparse True one hot to hdf content data h5 tab
如何将 datetime64 数组转换为 int？

有了这个 pd Timestamp 31 12 1999 23 59 12 value gt gt 946684752000000000 我可以获得日期时间基本值的整数值如何对日期时间值数组完成此操作 df pd DataFrame a
使用 cut 为时间变量创建 24 个类别

在这里我导入数据对其进行一些操作这可能不是问题修复所在前两行设置了我的剪切参数 lab var num lt 0 24 times var lt c 0 100 200 300 400 500 600 700 800 900 10
PyQt MainWindow 在 Windows 上使用多处理

我尝试创建一个PyQt应用为了在后台运行进程并保持PyQt5应用程序可用于新指令我想使用multiprocessing 在 Windows 操作系统上当我从 Qt 调用函数时MainWindow与一起上课multiprocessin
合并 pandas 数据框中两列的连续日期

ID Order ID statr date end date Product Sub Product 746 001 08 Oct 2019 0 00 00 16 Nov 2019 0 00 00 LPP Abc 746 002 10 O
如何使用增量值向 Pyspark 中的 DataFrame 添加列？

我有一个名为 df 的 DataFrame 如下所示 Atr1 Atr2 Atr3 A A A B A A C A A 我想向其中添加一个具有增量值的新列并获取以下更新的 DataFrame Atr1 Atr2 Atr3
让垂直网格线出现在 matplotlib 的线图中

我想在绘图上同时获得水平和垂直网格线但默认情况下仅显示水平网格线我正在使用一个pandas DataFrame从 python 中的 sql 查询生成 x 轴上带有日期的线图我不知道为什么它们没有出现在日期上我试图寻找这个问题的答案
为什么删除 DataFrame 的列或部分会增加内存使用量，以及如何确保对未使用的 DataFrame 切片进行垃圾回收

处理大型 DataFrame 时您需要小心内存使用情况例如您可能想要分块下载大数据处理这些块然后从内存中删除所有不必要的部分我找不到任何有关处理垃圾收集的最佳程序的资源pandas 但我尝试了以下方法并得到了令人惊讶的结果 im
在 Seaborn 中的 distplot 或 kdeplot 的平均峰值处绘制一个点

我感兴趣的是自动绘制分布平均峰值上方的点由 kdeplot 或带有 kde 的 distplot 表示手动绘制点和线很简单但我很难推导出这个最大坐标点例如下面生成的 kdeplot 应该在大约 3 5 1 0 处绘制一个点 iri

随机推荐

git pre-status 或 post-status hook

我想运行 lintergit status 不过似乎没有pre status nor post status hook 如何给 git 添加一个 hook The 精美文档 https git scm com book en v2 Cust
微服务之间的通信

假设您有微服务 A B 和 C 它们当前都通过 HTTP 进行通信假设服务 A 向服务 B 发送请求服务 B 得到响应然后该响应中返回的数据必须发送到服务 C 进行一些处理然后最终返回到服务 A 服务 A 现在可以在网页上显示结果
注册用户时 django-registration 中出现 NotImplementedError

我有一个 django 应用程序并尝试使用django registration应用程序在其中下面是我的设置和代码设置 py INSTALLED APPS django contrib auth django contrib conte
SQL Server 2008删除特殊模式下的所有表

您好我想知道是否可以使用一个 sql 查询或特殊脚本删除在自定义模式例如 DBO1 下创建的数据库中的所有表 Thanks 这将为您生成所有 DROP TABLE 语句并打印 SQL 语句然后您可以在复制和执行之前验证它是否符合您的
我们什么时候应该考虑使用私有的还是受保护的？

只是想知道我们什么时候应该真正必须使用private or protected对于模型中的某些方法有时我不厌其烦地将我的方法分组private nor protected 我就让它保持原样但我知道这一定是一个不好的做法否则这两个分组
makefile patternrule 在目标文件名中带有更多通配符

我需要创建一个特殊的 makefile 规则最好通过一个示例来解释也许我们用规则创建文件 test pdf tex pdflatex jobname test tex result pdf tex pdflatex jobname re
Visual Studio 2010 调试速度慢

我在使用 Visual Studio 2010 时遇到问题当我开始调试时它运行缓慢 Internet Explorer 打开但网站加载速度极其缓慢我的同事和我在同一个项目上工作他没有任何这样的问题我的硬件是4G内存 Intel
Java Collections.sort(nodes) 使用什么排序？

我认为是MergeSort 即O n log n 但是以下输出不同意 1 0000000099000391 0000000099000427 1 0000000099000427 0000000099000346 5 0000000099
将 functools.partial 与部分参数一起使用[重复]

这个问题在这里已经有答案了尝试部分操作时我观察到以下行为首先我定义了一个函数foo它需要 2 个非关键字参数 gt gt gt def foo salutation name print salutation name 然后我使用
DJango过滤器查询集

我是 DJango 和 DRF 的新手并被要求管理一些 DJango DRF 相关代码经过大量搜索后我仍然无法找到有关 filter queryset 如何工作以及如何与不同参数一起使用的完整示例在某些地方我看到它的用法如下 sel
投票数据库架构

民意调查的最佳数据库架构是什么一对多关系对此有好处吗我正在考虑有两张桌子 poll questions int id varchar body datetime created at datetime updated at poll a
使用 python 字符串格式插入制表符

我正在尝试使用 format 形成一个字符串但无法弄清楚这一点 lems scaena persona improbus for i in lems print format i t whatever 但拉环并没有像我想象的那样拉紧实际
如何解决“在 iOS 上使用 expo 播放视频但没有声音”的问题

我使用世博会的视频组件我可以播放视频但在 iOS 中没有声音在安卓上没问题我该如何解决它
在运行时停止/启动 WCF MEX 服务

是否可以如何在运行时停止和启动自托管 WCF 服务的 HTTP MEX 侦听器而不影响主 WCF 服务请不要问我为什么要这样做这是一种绕过别人人为限制的黑客行为在重新测试和代码清理后重新添加了这个答案这是我添加到我的基于 WCF
R：sample()命令受约束

我试图从 0 到 7 随机抽取 7 个数字有替换但受到所选数字加起来为 7 的约束例如输出 0 1 1 2 3 0 0 没问题但输出1 2 3 4 5 6 7 不是有没有办法在添加约束的情况下使用示例命令我打算使用以示例命令作
“在预期的位置未找到 FROM 关键字”

SELECT distinct REPLACE CM NAME as CM NAME TO CHAR Booking Date MM DD YYYY AS Booking Date where Booking Date 03 20 2018
Logstash 解析时间戳半天上午/下午

Logstash 新手真的很喜欢它尝试解析包含时间戳的 CSV 文件想要解析时间戳并将其用作 timestamp字段我的 CSV 输入示例 input stdin filter filter the input by csv i e
使用 Microsoft.Web.Administration 远程管理 IIS 时身份验证期间出现 COMException

设想我需要远程管理与请求更改的服务器位于同一域的 IIS 服务器创建和销毁应用程序我有一个应用程序池设置为在授权帐户下运行我已经使用 IIS 管理器和 Web 池成功运行的帐户测试了远程配置因此我知道权限是正确的我通过代码执行此
为什么 Linq Cast<> 帮助器不能与隐式转换运算符一起使用？

在决定重复投票之前请阅读全文我有一个实现的类型implicit cast运算符转换为另一种类型 class A private B b public static implicit operator B A a return a b c
根据 pandas 中另一列的值创建新列

我有这个 pandas 数据框其代码列包含顺序分层代码我的目标是使用每个层次级别代码及其名称创建新列如下所示原始数据 Code Name 0 A USA 1 AM Massachusetts 2 AMB Boston 3 AMS

根据 pandas 中另一列的值创建新列

解释：

根据 pandas 中另一列的值创建新列 的相关文章

随机推荐

热门标签

根据 pandas 中另一列的值创建新列的相关文章