拆分 pandas DataFrame 元素中的字符串并重新组合列表的一部分

2024-02-29

我试图弄清楚如何在 pandas 元素中拆分字符串，然后重新组合拆分字符串的一部分。我有以下代码：

import pandas as pd

df = pd.DataFrame({'code': ['PC001-S002_D_CFI4-1_NN','PC001-S002_D_CFI4-1_NN','PC001-S002_D_CFI4-1_NN',
                            'PC001-S002_D_CFI4-1_ER','PC001-S002_D_CFI4-1_ER','PC001-S002_D_CFI4-1_ER']})

df['domain'] = df['code'].str.split("_")

此代码用于根据下划线分割字符串。现在我想获取列中生成的拆分列表并重新组合前三个元素，以便：

PC001-S001_D_CFI4-1_NN ==> PC001-S001_D_CFI4-1

如果我只是使用以下方法应用于字符串，我可以这样做：

a = 'PC001-S002_D_CFI4-1_NN'
b = a.split("_")[0:3]
c = "_".join(b)

然而，我尝试将其应用于熊猫，但没有取得太大成功。

任何建议都会受到极大的欢迎。

您可以使用系列.str.rsplit(...) https://pandas.pydata.org/pandas-docs/stable/generated/pandas.Series.str.rsplit.html:

In [11]: df['domain'] = df['code'].str.rsplit('_',1).str[0]

In [12]: df
Out[12]:
                     code               domain
0  PC001-S002_D_CFI4-1_NN  PC001-S002_D_CFI4-1
1  PC001-S002_D_CFI4-1_NN  PC001-S002_D_CFI4-1
2  PC001-S002_D_CFI4-1_NN  PC001-S002_D_CFI4-1
3  PC001-S002_D_CFI4-1_ER  PC001-S002_D_CFI4-1
4  PC001-S002_D_CFI4-1_ER  PC001-S002_D_CFI4-1
5  PC001-S002_D_CFI4-1_ER  PC001-S002_D_CFI4-1

或者只是删除最后一部分：

In [7]: df['domain'] = df['code'].str.replace(r'\_\w+?$','')

In [8]: df
Out[8]:
                     code               domain
0  PC001-S002_D_CFI4-1_NN  PC001-S002_D_CFI4-1
1  PC001-S002_D_CFI4-1_NN  PC001-S002_D_CFI4-1
2  PC001-S002_D_CFI4-1_NN  PC001-S002_D_CFI4-1
3  PC001-S002_D_CFI4-1_ER  PC001-S002_D_CFI4-1
4  PC001-S002_D_CFI4-1_ER  PC001-S002_D_CFI4-1
5  PC001-S002_D_CFI4-1_ER  PC001-S002_D_CFI4-1

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

pandas

DataFrame

拆分 pandas DataFrame 元素中的字符串并重新组合列表的一部分的相关文章

从 ffmpeg 获取实时输出以在进度条中使用（PyQt4，stdout）

我已经查看了很多问题但仍然无法完全弄清楚我正在使用 PyQt 并且希望能够运行ffmpeg i file mp4 file avi并获取流式输出以便我可以创建进度条我看过这些问题 ffmpeg可以显示进度条吗 https stack
如何使用 imaplib 获取“消息 ID”

我尝试获取一个在操作期间不会更改的唯一 ID 我觉得UID不好所以我认为 Message ID 是正确的但我不知道如何获取它我只知道 imap fetch uid XXXX 有人有解决方案吗来自 IMAP 文档本身 IMAP4消息号
如何在 pytest 中将单元测试和集成测试分开

根据维基百科 https en wikipedia org wiki Unit testing Description和各种articles https techbeacon com devops 6 best practices inte
填充两个函数之间的区域

import matplotlib pyplot as plt import numpy as np def domain x np arange 0 10 0 001 f1 lambda x 2 x x 2 0 5 plt plot x
在Python中调整图像大小

我有一张尺寸为 288 352 的图像我想将其大小调整为 160 240 我尝试了以下代码 im imread abc png img im resize 160 240 Image ANTIALIAS 但它给出了一个错误TypeErro
Python urllib.request.urlopen：AttributeError：'bytes'对象没有属性'data'

我正在使用 Python 3 并尝试连接到dstk 我收到错误urllib包裹我对SO进行了很多研究但找不到与这个问题类似的东西 api url self api base street2coordinates api body jso
使用鼻子获取设置中当前测试的名称

我目前正在使用鼻子编写一些功能测试我正在测试的库操作目录结构为了获得可重现的结果我存储了一个测试目录结构的模板并在执行测试之前创建该模板的副本我在测试中执行此操作 setup功能这确保了我在测试开始时始终具有明确定义的状态现在
如何解决使用 Spark 从 S3 重新分区大量数据时从内存中逐出缓存的表分区元数据的问题？

在尝试从 S3 重新分区数据帧时我收到一个一般错误 Caused by org apache spark SparkException Job aborted due to stage failure Task 33 in stage 1
Numpy 过滤器平滑零区域

我有一个 0 及更大整数的 2D numpy 数组其中值代表区域标签例如 array 9 9 9 0 0 0 0 1 1 1 9 9 9 9 0 7 1 1 1 1 9 9 9 9 0 2 2 1 1 1 9 9 9 8 0 2 2 1
如何设置 Celery 来调用自定义工作器初始化？

我对 Celery 很陌生我一直在尝试设置一个具有 2 个独立队列的项目一个用于计算另一个用于执行到目前为止一切都很好我的问题是执行队列中的工作人员需要实例化一个具有唯一 object id 的类每个工作人员一个 id 我想知
奇怪的 MySQL Python mod_wsgi 无法连接到 'localhost' (49) 上的 MySQL 服务器问题

StackOverflow上也有类似的问题但我还没有发现完全相同的情况这是在使用 MySQL 的 OS X Leopard 机器上一些起始信息 MySQL Server version 5 1 30 Apache 2 2 13 Uni
Seaborn Pairplot 图例不显示颜色

我一直在学习如何在Python中使用seaborn和pairplot 这里的一切似乎都工作正常但由于某种原因图例不会显示相关的颜色我无法找到解决方案因此如果有人有任何建议请告诉我 x sns pairplot stats2 hue
将 matplotlib 颜色图集中在特定值上

我正在使用 matplotlib 颜色图 seismic 绘制绘图并且希望白色以 0 为中心当我在不进行任何更改的情况下运行脚本时白色从 0 下降到 10 我尝试设置 vmin 50 vmax 50 但在这种情况下我完全失去了白色关
如何使用列表作为pandas数据框中的值？

我有一个数据框需要列的子集包含具有多个值的条目下面是一个带有运行时列的数据框其中包含程序在各种条件下的运行时 df condition a runtimes 1 1 5 2 condition b runtimes 0 5 0 7
python Soap zeep模块获取结果

我从 SOAP API 得到如下结果 client zeep Client wsdl self wsdl transport transport auth header lb E authenticate self login res cl
R 中的数据框操作 - 将单元格向左移动并删除 NA

我有一个数据框其列由随机分布的值和 NA 组成如下所示 a lt c S E NA S NA b lt c A NA M G K c lt c I NA NA NA L meh lt dataframe a b c 1 2 3 4 5
使用 NumPy 将非均匀数据从文件读取到数组中

假设我有一个如下所示的文本文件 33 346 1223 10 23 11 23 12 23 13 23 14 23 15 23 16 24 10 24 11 24 12 24 13 24 14 24 15 24 16 25 14 25 15
如何在 OSX 上安装 numpy 和 scipy？

我是 Mac 新手请耐心等待我现在使用的是雪豹 10 6 4 我想安装numpy和scipy 所以我从他们的官方网站下载了python2 6 numpy和scipy dmg文件但是我在导入 numpy 时遇到问题 Library F
使用 PyTorch 分布式 NCCL 连接失败

我正在尝试使用 torch distributed 将 PyTorch 张量从一台机器发送到另一台机器 dist init process group 函数正常工作但是 dist broadcast 函数中出现连接失败这是我在节点 0
Tkinter - 浮动窗口 - 调整大小

灵感来自this https stackoverflow com a 22424245 13629335问题我想为我的根窗口编写自己的调整大小函数但我刚刚注意到我的代码显示了一些性能问题如果你快速调整它的大小你会发现窗口没有像我希望

随机推荐

ffmpeg - 我可以将音频通道绘制为图像吗？

我想知道是否可以使用 ffmpeg 将视频或音频文件的音频通道绘制为图像或者是否有其他工具可以在 Win2k8 x64 上执行此操作我将这样做作为用户上传视频或音频文件后编码过程的一部分我使用 ColdFusion 10 来处理上传并
安装 phpredis MAC OSX

任何人都可以帮我在 MAC OSX 中安装 php redis 吗 brew install php redis 不工作 pecl install php redis 也不起作用无效的包名称包文件 php redis 自制错误自制错误
在 Postgres 中收集递归 JSON 键

我有 JSON 文档以 JSON 数据类型 Postgres 9 3 存储在 Postgres 中并且我需要递归地收集树中的键名称例如给定这个 JSON 树 files folder file1 property blah file2
更改 EF4 中的数据库表名称（实体框架 4）

有谁知道如何更改 EF4 实体框架 4 中实体的映射数据库表稍后编辑我想我已经在模型浏览器中找到了定义表名称的位置但它们的名称是只读的因此无法使用设计器对其进行编辑另外在 xml 模式中没有对表名称的引用根据我的搜索如果您只
unittest 测试用例中的重复代码

我有一个如下所示的测试用例 def MyTestCase unittest Testcase def test input01 self input read from disk input01 output run input valid
为什么字符范围类 [A-z] 匹配下划线？

在多种语言中尝试过结果相同 JavaScript 示例 A z test gt true A z test 0 gt false A z test gt false A z test A gt true 为什么第一个病例没有返回false
使用 JavaScript 调整图像大小并保存到磁盘

我试图将由 JavaScript 完成的调整大小的图像上传到服务器所以我尝试使用调整大小的图像设置文件输入后来我才知道除非用户选择文件否则我们无法更改文件输入 https stackoverflow com questions 169
如何在服务器上定位Sharepoint文档库源页面？

我正在使用 Sharepoint 文档库并且正在尝试查找文档库页面的源我正在 Sharepoint 服务器上工作我就是找不到它它应该存放在哪里谢谢你 SharePoint 不会将页面直接存储在文件系统中该机制有点不那么简单要了
多线程游戏 - 更新、渲染以及如何拆分它们

所以我正在开发一个游戏引擎并且已经取得了很好的进展然而我的引擎是单线程的将更新和渲染分成单独的线程的优点听起来是一个非常好的主意我该怎么做单线程游戏引擎概念上非常容易制作你有一个更新 gt 渲染 gt 睡眠 gt 重复的
Docker：b'json：无法将数字解组到字符串类型的 Go 结构字段 LogConfig.Config 中

我在 docker compose 中将我的应用程序配置为使用轮换日志遵循以下站点中的操作 https medium com Quigley Ja rotating docker logs keeping your overlay fol
Maven资源过滤

我想将构建信息写入属性文件我找到了 Maven 资源过滤插件这就是我的 pom 相关部分的样子
如何应用结构来对视图控制器操作的数据进行建模

我尝试在应用程序设计中更多地采用 Swift 的值类型但我遇到了一些初学者困难我知道那些基于意见的 StackOverflow 格式通常不太受欢迎但我认为这里有可能不是特别主观的最佳实践我理解结构的所有理论上的好处关于避免共享可变
无法绑定到“ngForOf”，因为它不是 Angular 9 中“tr”的已知属性

ngFor在我的应用程序中不起作用我将我的应用程序分成单独的模块并包含import CommonModule from angular common 进入我的子模块并import BrowserModule from angular pl
将常量呈现到 XML 文档中？

我有 2 个私有常量和一个公共方法 private const byte minAge 24 private const byte maxAge 29 public bool IsInAgeRange 我正在添加 XML 文档并且希望我的
TFSBuild 命令行 / vNext 2015

前提我认为这是 TFS 2015 中的错误缺失功能当我使用 TFS 网站创建新的构建非 xaml 定义时我无法使用命令行调用它TFSBuild start命令如果我创建标准 XAML 定义我可以使用命令行启动它知道命令行是否
Flyway并发迁移

我们有许多项目在许多服务器上运行并查找一个数据库我们正在考虑为每个项目设置 Flyway 来控制我们的数据库结构但是我们担心并发迁移问题如果某些项目在同一时间重新部署当然我们总是关心sql语法中的如果存在的事情当同一数据表
Laravel 更改输入值

在 Laravel 中我们可以通过以下方式获取输入值Input get inputname 我尝试通过这样做来改变值Input get inputname new value 但后来我收到错误消息说Can t use function
处理包含多行的 Excel 文件时出现错误 502

处理包含多行的 Excel 文件时出现错误 502 使用 Django Nginx 问题不在于文件的大小小于 1Mb 此页面可以正常处理 200 行的文件当文件有更多行时问题就会出现然后页面处理此文件的时间太长这是错误 2012 07
将图例移动到 ggplot2 的底部[重复]

这个问题在这里已经有答案了我创建了以下热图如果您注意到群组的图例位于右侧且垂直放置如何将图例移动到底部以便为 X 轴变量月份 M0 到 M55 提供更多空间此外您会注意到 X 轴元素重叠因此不清楚图表的输出 cohort c
拆分 pandas DataFrame 元素中的字符串并重新组合列表的一部分

我试图弄清楚如何在 pandas 元素中拆分字符串然后重新组合拆分字符串的一部分我有以下代码 import pandas as pd df pd DataFrame code PC001 S002 D CFI4 1 NN PC001 S

拆分 pandas DataFrame 元素中的字符串并重新组合列表的一部分

拆分 pandas DataFrame 元素中的字符串并重新组合列表的一部分 的相关文章

随机推荐

热门标签

拆分 pandas DataFrame 元素中的字符串并重新组合列表的一部分的相关文章