如何使用正则表达式合并数据框的多列？

2024-03-12

我有一个df如下

import pandas as pd

df = pd.DataFrame(
    {'number_C1_E1': ['1', '2', None, None, '5', '6', '7', '8'],
     'fruit_C11_E1': ['apple', 'banana', None, None, 'watermelon', 'peach', 'orange', 'lemon'],
     'name_C111_E1': ['tom', 'jerry', None, None, 'paul', 'edward', 'reggie', 'nicholas'],
     'number_C2_E2': [None, None, '3', None, None, None, None, None],
     'fruit_C22_E2': [None, None, 'blueberry', None, None, None, None, None],
     'name_C222_E2': [None, None, 'anthony', None, None, None, None, None],
     'number_C3_E1': [None, None, '3', '4', None, None, None, None],
     'fruit_C33_E1': [None, None, 'blueberry', 'strawberry', None, None, None, None],
     'name_C333_E1': [None, None, 'anthony', 'terry', None, None, None, None],
     }
)

我想要做的就是合并这些列，我们有两个规则：

如果一列删除_C{0~9} or _C{0~9}{0~9} or _C{0~9}{0~9}{0~9}等于另一列，这两列可以合并。

让我们来number_C1_E1 number_C2_E2 number_C3_E1举个例子，这里number_C1_E1 and number_C3_E1可以组合，因为它们都是number_E1 after removing _C{0~9}.

两个组合列应该去掉None values.

期望的结果是

  number_C1_1_E1 fruit_C11_1_E1 name_C111_1_E1 number_C2_1_E2 fruit_C22_1_E2 name_C222_1_E2
0              1          apple            tom           None           None           None
1              2         banana          jerry           None           None           None
2              3      blueberry        anthony              3      blueberry        anthony
3              4     strawberry          terry           None           None           None
4              5     watermelon           paul           None           None           None
5              6          peach         edward           None           None           None
6              7         orange         reggie           None           None           None
7              8          lemon       nicholas           None           None           None

有人有好的解决办法吗？

使用与上一个问题相同的方法，但还要为您的列计算重命名器：

group = df.columns.str.replace(r'_C\d+', '', regex=True)

names = df.columns.to_series().groupby(group).first()

out = (df.groupby(group, axis=1, sort=False).first()
         .rename(columns=names)
       )

选择：

group = df.columns.str.replace(r'_C\d+', '', regex=True)

out = (df.groupby(group, axis=1, sort=False).first()
         .set_axis(df.columns[~group.duplicated()], axis=1)
       )

Output:

  number_C1_E1 fruit_C11_E1 name_C111_E1 number_C2_E2 fruit_C22_E2 name_C222_E2
0            1        apple          tom         None         None         None
1            2       banana        jerry         None         None         None
2            3    blueberry      anthony            3    blueberry      anthony
3            4   strawberry        terry         None         None         None
4            5   watermelon         paul         None         None         None
5            6        peach       edward         None         None         None
6            7       orange       reggie         None         None         None
7            8        lemon     nicholas         None         None         None

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

pandas

如何使用正则表达式合并数据框的多列？的相关文章

Keras ZeroDivisionError：整数除法或以零为模

我正在尝试使用 Keras 和 Tensorflow 实现卷积神经网络我有以下代码 from keras models import Sequential from keras layers import Conv2D MaxPoolin
区分大小写的实体识别

我的关键字全部以小写形式存储例如折扣耐克鞋我正在尝试对其执行实体提取我遇到的问题是 spaCy 在 NER 方面似乎区分大小写请注意我不认为这是 spaCy 特有的当我跑步时 doc nlp u i love nike sho
高效地将大型 Pandas 数据帧写入磁盘

我正在尝试找到使用 Python Pandas 高效地将大型数据帧 250MB 写入磁盘或从磁盘写入的最佳方法我已经尝试了所有方法Python 数据分析但表现却非常令人失望这是一个更大项目的一部分该项目探索将我们当前的分析数据管理
如何检索分配给 Django 中的组的所有权限

我正在执行一项任务来检索分配给 Django 中的组的一组权限我可以使用以下代码获取创建的组但无法使用它来获取分配给它们的权限 from django contrib auth models import Group Permissio
如何在seaborn热图标签中使用科学计数法？

我正在尝试在 python 中使用seaborn 获取热图不幸的是即使数字非常大它也没有使用科学记数法我想知道是否有任何简单的方法可以转换为科学记数法或任何其他合理的格式这是显示问题的一段代码 import seaborn as
计算熊猫数据帧几个月的总和

我有一个 pandas 数据框如下所示 ID Year R1 R1 f KAR1 20201001 1 5 KAR1 20201101 2 6 KAR1 20201201 3 7 KAR1 20210101 4 8 KAR1 202102
如何将 numpy rearray 的子集转换为连续数组？

我有一个recarray来自读取 csv 文件我有兴趣将列的子集转换为连续浮点数组我想避免将它们转换为列表或将它们一一堆叠我尝试了中的建议https stackoverflow com a 11792956 https stackov
如何在动态执行的代码字符串中使用inspect.getsource？

如果我在文件中有这段代码 import inspect def sample p1 print p1 return 1 print inspect getsource sample 当我运行脚本时它按预期工作在最后一行源代码sampl
Pandas如何按时间段过滤DataFrame

我有一个包含下表的文件 Name AvailableDate totalRemaining 0 X3321 2018 03 14 13 00 00 200 1 X3321 2018 03 14 14 00 00 200 2 X3321 20
如何让 Streamlit 每 5 秒重新加载一次？

我必须每 5 秒重新加载 Streamlit 图表以便在 XLSX 报告中可视化新数据如何实现这一目标 import streamlit as st import pandas as pd import os mainDir os pa
如何处理 Tkinter 中的窗口关闭事件？

如何在 Python Tkinter 程序中处理窗口关闭事件用户单击 X 按钮 Tkinter 支持一种称为协议处理程序 http web archive org web 20201111215134 http effbot org tk
Python 或 C 语言中的 Matlab / Octave bwdist()

有谁知道 Matlab Octave bwdist 函数的 Python 替代品此函数返回给定矩阵的每个单元格到最近的非零单元格的欧几里得距离我看到了一个 Octave C 实现一个纯 Matlab 实现我想知道是否有人必须用 AN
异步异常处理程序：在事件循环线程停止之前不会被调用

我正在我的异步事件循环上设置异常处理程序但是在事件循环线程停止之前它似乎不会被调用例如考虑以下代码 def exception handler loop context print Exception handler called
在 anaconda 环境下运行 qsub

我有一个程序通常在 Linux 的 conda 环境中运行因为我用它来管理我的库指令如下 source activate my environment python hello world py 我怎样才能跑你好世界 py在与 PBS
避免“散点/点/蜂群”图中的数据点重叠

使用绘制点图时matplotlib 我想偏移重叠的数据点以使它们全部可见例如如果我有 CategoryA 0 0 3 0 5 CategoryB 5 10 5 5 10 我想要每一个CategoryA 0 数据点并排设置而不是彼此重叠
旧版本的 spaCy 在尝试安装模型时抛出“KeyError: 'package'”错误

我在 Ubuntu 14 04 4 LTS x64 上使用 spaCy 1 6 0 和 python3 5 为了安装 spaCy 的英文版本我尝试运行这给了我错误消息 ubun ner 3 NeuroNER master src pyt
为什么我的 PyGame 应用程序根本不运行？

我有一个简单的 Pygame 程序 usr bin env python import pygame from pygame locals import pygame init win pygame display set mode 400
python 日志记录替代方案 [关闭]

Closed 此问题正在寻求书籍工具软件库等的推荐不满足堆栈溢出指南 help closed questions 目前不接受答案蟒蛇记录模块 http docs python org library logging html使用起来
PYTHON：从 txt 文件中删除 POS 标签

我有以下 txt 文件其中包含 POS 词性 http en wikipedia org wiki Part of speech tagging 每个单词的标签不用 jj到说 vb 我 ppss是 bedz愤怒 jj在在 dt无与伦
用 Beautiful Soup 进行抓取：为什么 get_text 方法不返回该元素的文本？

最近我一直在用 python 开发一个项目其中涉及抓取一些网站的一些代理我遇到的问题是当我尝试抓取某个知名代理站点时当我要求 Beautiful Soup 查找 IP 在代理表中的位置时它并没有按照我的预期执行操作我将尝试查找每

随机推荐

“动态”CSS id 名称？如何将它们添加到 CSS 文件中？

我在应用程序中有动态生成的 DIV id 末尾有一个 ID 例如 div div div 等等如何在 CSS 文件中写入该 id 以便对其应用样式进一步建议您应该使用类来实现此功能并且您should you can 而是使用 attr
交换卡片时无法更新片段文本

我正在开发卡片刷卡和卡片翻转功能并且我正在使用 ViewPager 和片段我的问题是当我从左到右或从右到左滑动卡片时我无法更新片段内的 TextView 但是当我翻转卡片时它会更新 UI 我尝试了互联网上可用的所有解决方案但没有
正在关闭 Popover，[UIPopoverController dealloc] 在弹出窗口仍然可见时达到

我有一个 UIPopoverController 存储在我的视图控制器的一个强属性中当用户在弹出窗口可见时旋转 iPad 时我会关闭弹出窗口并将属性设置为 nil if self popover nil self popover dis
ASP.Net MVC 中的 Google Checkout

我有一个相当简单的 ASP Net 站点它使用 google checkout 我有一个图像按钮其 PostBackUrl 设置为传递隐藏字段值的 Google 地址效果很好我已经将此应用程序移至 MVC 但我不知道如何处理这个问题
Swift 可选转义闭包

编译错误Closure use of non escaping parameter completion may allow it to escape 这是有道理的因为它将在函数返回后被调用 func sync completion gt
使用 TFS 命令行 tf.exe 如何将存储库复制到我选择的文件夹位置？

我已开始在我的 MSVC 2015 C 项目中使用 TFVC 我习惯了像 git svn 这样的命令行存储库我可以简单地进行签出克隆等并将文件复制到我喜欢的任何文件夹中因此我已通过 MSVS2015 GUI 将工作区检出到映射位置
custom_command ECHO 带有特殊字符

我正在尝试使用 CMake 添加 custom command 并调用 COMMAND echo gt file txt 只要我把放进去配置文件就会生成但构建失败我也尝试过 echo 但似乎不起作用 add custom comma
移动相机位置以适应 LatLngBounds 的标记高度

我想将相机移动到适合的位置LatLngBounds关于标记高度到目前为止我可以使用以下代码来安装标记的锚点 LatLngBounds Builder builder new LatLngBounds Builder for Marker
AngularJS 1.2.0-rc.2 与 1.2.0 元素绑定

我最近将 AngularJS 框架从 1 2 0 rc 2 升级到 1 2 0 版本并遇到了一个奇怪的问题我还没有找到解决方法我之前解决的问题是强制输入字段在 on blur 事件而不是 on change 事件上触发我最初使用的指
指导我使用 phpleague 库实现 Oauth2 PHP 服务器

我在用Slim Framework With Eloquent ORM https packagist org packages illuminate database 尝试实施https github com thephpleague o
Intellij IDEA 编译所有模块，即使我只要求 1 个

我的项目中有几个具有复杂依赖结构的模块当我想编译并运行 1 个模块的单元测试时我希望 IDEA 忽略不相关模块中的任何编译错误我怎样才能做到这一点目前即使我说编译模块 1 IDEA 也会编译所有内容我不想为此设置几个不同的项目
如何控制提交网格作业时使用的 Perl 版本？

我正在与 SGE Sun Grid Engine 合作将作业提交到网格我也用perlbrew管理我安装的 Perl 版本我写了一些短文sh我用来运行需要特定 Perl 版本 5 12 2 的 perl 脚本的脚本如下所示 bin ba
使用 Datastax Cassandra 本机 Java 客户端管理不同一致性级别的最佳实践

使用 CQL3 Cassandra 一致性级别现在设置在会话级别本机 Java 客户端的 Datastax 文档指出会话实例是线程安全的通常每个应用程序只需要一个实例但我很难理解单个 Session 实例如何处理多个一致性级别例如
如何保留 SignalR 连接 ID

我正在尝试构建一个聊天应用程序其中用户 ID 由其自动生成的 signalR 连接 ID 表示页面刷新时实例化新连接时连接 ID 会发生变化有没有办法持久保存用户连接 ID 的状态直到浏览器会话结束即直到他结束客户端上的会话有
MySQL中将字符串存储为varchar的内存使用情况

我开始对MySQL的内存使用非常感兴趣所以我在这里看这个 http dev mysql com doc refman 5 0 en storage requirements html http dev mysql com doc refm
pandas 中一个聚合中包含多个 idxmin() 和 idmax() 的多重索引

在 R data table 中可以在一个聚合中使用 argmin 或 argmax 函数轻松聚合多列以 DT 为例 gt DT data table id c 1 1 1 2 2 2 2 3 3 3 col1 c 1 3 5 2 5
如何查看 IIS 8 上当前正在执行的 Web 请求

在 IIS 7 中我将单击工作进程然后单击查看当前请求以查看当前正在执行的所有请求 http technet microsoft com en us library cc732518 v WS 10 aspx http techn
本地化。 IE问题

我想做的是本地化
ASP.NET MVC Jquery Ajax post 表单序列化？

阿贾克斯功能 function form submit function if this valid ajax url this action type this method data model this serialize locat
如何使用正则表达式合并数据框的多列？

我有一个df如下 import pandas as pd df pd DataFrame number C1 E1 1 2 None None 5 6 7 8 fruit C11 E1 apple banana None None wate

如何使用正则表达式合并数据框的多列？

如何使用正则表达式合并数据框的多列？ 的相关文章

随机推荐

热门标签

如何使用正则表达式合并数据框的多列？的相关文章