使用正则表达式在 Pandas Series 的各个单元格内分隔逗号分隔的值

2024-07-01

我有一个来自数据库的 csv 文件，我已将其转换为我正在尝试清理的 Pandas DataFrame。问题之一是多个值已输入到需要拆分的单个单元格中。复杂的因素是有一些字符串注释（也带有逗号）需要保持完整。下面的示例以系列形式说明了该问题。

我拥有的：

Index  |  values    
0      | 2.54,3.563
1      | bad design, right?

我想要的是：

Index  |   level_0   |  values      
0      |     0       |    2.54   
1      |     0       |    3.563 
2      |     1       |    bad design, right?

正如您所看到的，有逗号分隔我想要拆分的值，逗号后面没有空格，而字符串注释中的逗号后面都有空格。应用正则表达式进行拆分似乎很容易。我下面的解决方案使用另一个 StackOverflow 解决方案中的策略，即使用 Series.str.split 将值分成单独的列，然后堆叠这些列。这个策略效果很好。然而，在这种情况下，正则表达式显然没有识别分割。这是我的代码：

Import pandas as pd

# Example Series:
data = pd.Series(("2.54,3.56", "3.24,5.864", "bad design, right?"), name = "values")

# Split cells with multiple entries into separate rows 
split_data = data.str.split('[,]\b').apply(pd.Series)

# Stack the results and pull out the index into a column (which is sample number in my case)
split_data = split_data.stack().reset_index(0)
split_data = split_data.reset_index(drop=True)

我是正则表达式的新手，但从我看过的指南以及使用几个特定于 Python 的正则表达式沙箱来看，正则表达式 []\b 似乎应该分割值，而不是注释。但是，它不会使用此正则表达式分割任何内容。

这是调试器的结果，它表明这应该有效：调试演示 https://www.debuggex.com/r/UwTVnYS7GRSkAKJL

我在这里错过了一些简单的事情吗？使这项工作有更好的想法吗？我正在使用 Python 3.5，如果这有什么区别的话。谢谢。

我倾向于使用前瞻；如何操作取决于您的预期数据。

这是一个消极的前瞻。它说“一个逗号后面不跟空格”，如果你是的话，这将是首选sure所有带逗号的注释都有空格，并且希望将“red,green”视为要分割的内容。

data.str.split('[,](?!\s)').apply(pd.Series)

另一种选择是对看起来像有效值的东西进行积极的预测；你的例子是数字，所以例如这只会在逗号后跟一个数字上分割：

data.str.split('[,](?:\d)').apply(pd.Series)

正则表达式非常强大，但老实说，如果这是一个长期问题，我不确定这个解决方案是否适合您。将大多数情况作为一次性迁移应该没问题，但从长远来看，我会考虑在问题出现之前尝试解决问题。无论如何，这是 Debuggex 的 python 正则表达式备忘单，以防它对您有用：https://www.debuggex.com/cheatsheet/regex/python https://www.debuggex.com/cheatsheet/regex/python

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

使用正则表达式在 Pandas Series 的各个单元格内分隔逗号分隔的值的相关文章

使用具有阿拉伯字符的 json.dumps 将字典转换为 json [重复]

这个问题在这里已经有答案了我有一本包含阿拉伯语单词的字典例如 data name name print json dumps data file open data json a encoding utf 8 Output name u
在Python中使用argparse解析整个JSON

我正在尝试使用 ARGPARSE 库在一个简单的参数中解析整个 Json 问题是当它遇到儿子内部的不同元素例如和时它会突然停止这是测试代码 parse py import argparse parser argparse Argu
Pytorch不支持one-hot向量？

我对 Pytorch 如何处理 one hot 向量感到非常困惑在这个tutorial https pytorch org tutorials beginner blitz cifar10 tutorial html 神经网络将生成一个
如何在pytorch中使用多个GPU？

我使用此命令来使用 GPU device torch device cuda 0 if torch cuda is available else cpu 但是我想使用两个 GPUjupyter 像这样 device torch devic
如何交换两个 DataFrame 列？

In MATLAB to swap the first and second columns of a table A one would do this1 A A 2 1 3 end 如果有类似的方便方法可以做到这一点A是一只熊猫Data
如何在 Anaconda（Jupyter 笔记本）中导入 python 自定义类

我无法找到如何使用 anaconda 中的 Jupyter 笔记本在 Python 中导入自定义类在我的工作文件夹中有一个文件用户 ipynb 包含类名User 在同一文件夹中的其他文件中我尝试使用以下命令导入此类从用户导入用户我
Python/Excel - IOError: [Errno 2] 没有这样的文件或目录:

尝试从文件中提取 xlsx 文档并将数据编译到单个工作表中尽管文件存在但仍收到 IOError 程序如下 loop that pulls in files from folder import os create directory fr
如何在不破坏 DataFrame.append() 的情况下子类化或以其他方式扩展 pandas DataFrame？

我有一个复杂的对象我想围绕 pandas DataFrame 构建我尝试使用子类执行此操作但是即使在使用时附加到 DataFrame 也会重新初始化新实例中的所有属性 metadata 按照推荐here https pandas p
关闭Python线程以防止内存泄漏

如何关闭 Python 线程以确保线程内内存中的所有内容都从内存中清除目前我有一个通过以下方式加入的线程列表 for t in threadlist t join 5 这些线程最初是通过循环传递给每个线程的参数列表来创建的myfunc它
如何 setup.py 我依赖 PyTorch 的包

我正在创建一个依赖于 PyTorch 的 Python 包 PyTorch的安装命令如下来自https pytorch org https pytorch org pip3 install torch 1 8 2 cu102 torchv
DataFrame.stack() 之后的新索引级别名称

注意这个问题 https stackoverflow com questions 26002474 pandas name of the column after a group by function 28303765 28303765看
在heroku上安装pdftotext库

pdftotext 库是requirements txt 中的要求在尝试推送到 heroku 时出现以下错误 remote Running setup py install for pdftotext started remote Ru
Python pandas 使用 read_hdf 和 HDFStore.select 从 HDF5 文件读取特定值

所以我使用一个简单的数据集创建了 hdf5 文件如下所示 gt gt gt pd read hdf STORAGE2 h5 table A B 0 0 0 1 1 1 2 2 2 3 3 3 4 4 4 使用这个脚本 import pan
python中1+1可以等于3吗？ [复制]

这个问题在这里已经有答案了在继续之前我知道人们应该never做这个这个问题纯粹是出于教育目的我进行这个练习是为了更好地理解 python 的内部结构ctypes 以及它们如何工作我知道在 python 中更改整数的值相对容易其实
抓取框架 NTSCtoUSB 加密狗、opencv2、python 包装器

Context 我一直在研究 opencv2 的 python 包装器我想尝试一些想法并使用类似于汽车后视摄像头的广角摄像头我从一辆报废的撞车上得到了一根它有 4 根电线我从电线的颜色编码中进行了有根据的猜测将其连接起来以便
使用后禁用按钮

最近我决定重写我的不和谐机器人并添加按钮到目前为止我遇到的主要问题是我无法禁用按钮就在被按下之后人们被告知是关于button disabled True实际上它会禁用该按钮但它只是将其发送为禁用状态因此永远无法按下它我想要的是能够
相当于 C++ 中用于缓冲读取的 python 生成器

Guido Van Rossum 在此展示了 Python 的简单性article http neopythonic blogspot com 2008 10 sorting million 32 bit integers in 2mb h
使用 Python API 创建文件后如何立即从 Google Vault 导出下载文件？

使用 Python API 我创建了一个导出如何使用相同的授权服务下载导出中的 zip 文件创建导出时我可以看到 cloudStorageSink 的 bucketName 和 objectNames 但是我找不到任何有关如何使用创建
通过串口从python向Arduino发送数据

如果在串行端口上读取字符 s 我试图让 Arduino 触发继电器该字符 s 是由 python 根据从屏幕读取的图像发送的我的问题是arduino似乎无法从串行端口读取因为它从不执行if条件我的猜测是两者之间存在某种死锁这就是为
OpenCV中如何在点之间画线？

我有一个元组数组 a 375 193 364 113 277 20 271 16 52 106 133 266 289 296 372 282 OpenCV中如何在点之间画线这是我的代码不起作用 for index item in enu

随机推荐

Spark SQL中如何按时间间隔分组

我的数据集如下所示 KEY Event Type metric Time 001 event1 10 2016 05 01 10 50 51 002 event2 100 2016 05 01 10 50 53 001 event3 20
如何在node.js中编写转换流

我有一个 csv 解析器作为一系列转换流实现 process stdin pipe iconv decodeStream win1252 pipe csv parse pipe buildObject pipe process stdout
使用 querySelectorAll 获取选定的选项

我想知道是否可以在 Javascript 中获取当前选定的选项
使用支持流式传输的 basicHttpBinding 保护 WCF 服务

我的问题是关于安全访问仅向我们公司内部用户公开的 WCF 服务的最佳也称为最不痛苦方法目标是确保只能通过每个用户安装的单个 Windows 窗体应用程序访问该服务当调用该服务时我希望该服务能够验证它是从允许的应用程序调用的要保
java代码中的问号

有人能解释一下下面代码中的问号吗 INITIAL PERMANCE 也是代码中的静态最终常量但是语法的最后一行被称为什么 Synapse AbstractCell inputSource float permanence inputSou
可变参数模板中的可变参数模板推导

我不确定标题是否有意义但这个例子实际上非常简单 A converter struct with a generic constructor template
终止宏在验证时进一步执行

我有一个method A 从多种方法调用在方法 A 的条件下我必须终止宏我看到一个选项是Exit sub但这只会退出当前的sub ie method A 剩下的程序继续进行如何处理这个问题 Sub mainMethod method
使用水晶报表和 VS2010 安装项目无法注册水晶 dll

我在VS2010中构建了一些水晶报表并为其创建了一个安装项目它在我的开发计算机上部署得很好但在尝试将其安装到客户端计算机上时出现以下错误我用谷歌搜索这个错误有一段时间了发现 VC 2005 可再发行组件是一个先决条件我已将这些合
如何在视图中调用存储过程？

如何调用在视图中返回数据的存储过程这可能吗 SQL Server 中不允许这种构造内联表值函数可以作为参数化视图执行但仍然不允许像这样调用 SP 下面是一些交替使用 SP 和内联 TVF 的示例您会发现 TVF 更加灵活它基本上更
如果没有发生触摸事件，Android SurfaceView 会变慢

我正在制作一款游戏除了游戏循环之外一切都很顺利我正在使用 SurfaceView 并绘制 2D Sprites 位图目前游戏是一艘穿过小行星带的飞船飞船停留在屏幕中央手机向任一方向倾斜以移动小行星小行星改变位置而不是玩家当旧的
JavaScript 相当于 htonl？

对于 AJAX 请求我需要发送一个幻数作为请求正文的前四个字节首先是最高有效字节以及请求正文中的其他几个非常量值 JavaScript 中是否有相当于 htonl 的东西例如给定 0x42656566 我需要生成字符串 Bee
使用 jsoup 收集倒计时器并为 android 设置计时器

我想解析 eBay 上的倒计时器 span class 5g 20h span 如何用 jsoup 解析它以在 android studio 上创建倒计时器我可以像平常一样解析它吗element 像下面这样更新 getMsFromStr
如何从 Tokio 中的非主线程运行异步任务？

use std thread use tokio task 0 3 4 tokio main async fn main thread spawn task spawn async println 123 join 编译时我收到警告 war
F# 泛型/函数重载语法

我对如何在没有显式类型声明的情况下将函数标记为泛型感到困惑 a gt a let add a b a b 这给了我们 val add a int gt b int gt int 但是我们可以立即调用 add Hello World 现在 a
matplotlib中有制作散点图矩阵的函数吗？

散点图矩阵示例 matplotlib pyplot中有这样的函数吗对于那些不想定义自己的函数的人来说 Python 中有一个很棒的数据分析库称为Pandas http pandas pydata org 在那里可以找到分散矩阵 http
激活虚拟环境不起作用

我创建了两个 virtualenv 并安装了两个不同版本的 django 现在我在激活两个环境时遇到问题我喜欢这样 source Django1 6 bin activate 然后我看到环境被激活了然后我这样做 pip install
Boost的Dijkstra算法教程

我很难弄清楚如何使用 Boost 的 Dijkstra 算法我已经阅读了他们的示例和文档但我仍然无法理解如何使用它 Boost的文档 http www boost org doc libs 1 50 0 libs graph doc d
当我尝试使用 LWJGL 库加载声音时，为什么会收到错误“NoClassDefFoundError: sun/misc/Unsafe”？

This is the screenshot of my Eclipse project files 当我尝试启动时出现以下错误new Sound Res MouseClick ogg 我的班级中的对象AudioPlayer在第 15 行
find -regex 比 find | 慢grep

我有一个使用正则表达式查找文件的脚本代码如下 find dir grep regex 该脚本运行有点太慢我想优化它搜索需要一些时间来执行我希望从中获得更好的性能我尝试过这个尝试 find dir regex regex 我预计结果
使用正则表达式在 Pandas Series 的各个单元格内分隔逗号分隔的值

我有一个来自数据库的 csv 文件我已将其转换为我正在尝试清理的 Pandas DataFrame 问题之一是多个值已输入到需要拆分的单个单元格中复杂的因素是有一些字符串注释也带有逗号需要保持完整下面的示例以系列形式说明了该问题

使用正则表达式在 Pandas Series 的各个单元格内分隔逗号分隔的值

使用正则表达式在 Pandas Series 的各个单元格内分隔逗号分隔的值 的相关文章

随机推荐

使用正则表达式在 Pandas Series 的各个单元格内分隔逗号分隔的值的相关文章