Pandas 使用正则表达式分隔符读取 csv

2023-12-08

我一直在尝试读取这样的自定义 csv 文件：

6 Rotterdam NLD Zuid-Holland 593321 
19 Zaanstad NLD Noord-Holland 135621 
214 Porto Alegre BRA Rio Grande do Sul 1314032 
397 Lauro de Freitas BRA Bahia 109236 
547 Dobric BGR Varna 100399 
552 Bujumbura BDI Bujumbura 300000 
554 Santiago de Chile CHL Santiago 4703954 
626 al-Minya EGY al-Minya 201360 
646 Santa Ana SLV Santa Ana 139389 
762 Bahir Dar ETH Amhara 96140 
123 Chicago 10000 
222 New York 200000

我尝试了正则表达式https://regex101.com/以下代码有效：

这有效

# https://regex101.com/
s = "6 Rotterdam NLD Zuid-Holland 593321 "
pat = r'(\d+)\s+([\D]+)\s(\d+)\s+'

m = re.match(pat,s)
m.groups() # ('6', 'Rotterdam NLD Zuid-Holland', '593321')

我得到了正确的答案，但是当我将代码应用于 pandas read_csv 时，不知何故它无法工作。

我的尝试

import numpy as np
import pandas as pd
from io import StringIO

s = """6 Rotterdam NLD Zuid-Holland 593321 
19 Zaanstad NLD Noord-Holland 135621 
214 Porto Alegre BRA Rio Grande do Sul 1314032 
397 Lauro de Freitas BRA Bahia 109236 
547 Dobric BGR Varna 100399 
552 Bujumbura BDI Bujumbura 300000 
554 Santiago de Chile CHL Santiago 4703954 
626 al-Minya EGY al-Minya 201360 
646 Santa Ana SLV Santa Ana 139389 
762 Bahir Dar ETH Amhara 96140 
123 Chicago 10000 
222 New York 200000  """;

sep = r'(\d+)\s+|([\D]+)\s+|(\d+)\s+'
df = pd.read_csv(StringIO(s), sep=sep,engine='python')
df

我得到了很多 Nans，如何只得到 3 列？

Column names are: ID CITY POPULATION

类似的问题

如何读取pandas中包含数字字符串数字的自定义表？

您使用该模式match（提取）文本，但在 pandas 方法中你是分裂与图案。

如果每行开头只能有 1、2 或 3 位数字，请使用

sep = r'(?:(?<=^\d)|(?<=^\d{2})|(?<=^\d{3}))\s+|\s+(?=\S+\s*$)'

See the 正则表达式演示。您可以通过在第一个非捕获组中添加更多后视来扩展它。

Details

(?:(?<=^\d)|(?<=^\d{2})|(?<=^\d{3}))\s+- 1+ 个空格 (\s+) 前面带有 1 位数字 (\d), 或 2 位数字 (\d{2}), 或 3 位数字 (\d{3}) 在字符串 (^)
| - or
\s+(?=\S+\s*$)- 1+ 个空格后跟 1+ 个非空格字符，然后是字符串末尾之前的任何尾随 0+ 个空格。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

regex

pandas

Pandas 使用正则表达式分隔符读取 csv 的相关文章

有没有办法在 Altair 箱线图中格式化工具提示值

是否可以格式化箱线图工具提示中的值由此织女星文档 https vega github io vega lite docs boxplot html tooltip encoding channels 看起来是这样但我不太清楚如何使用 A
如何将多项式拟合到带有误差线的数据

我目前正在使用 numpy polyfit x y deg 将多项式拟合到实验数据然而我想拟合一个基于点误差使用加权的多项式我已经发现scipy curve fit http docs scipy org doc scipy refe
numpy：与索引数组有效求和

假设我有 2 个矩阵 M 和 N 都有 gt 1 列我还有一个索引矩阵 I 有 2 列 1 列代表 M 一列代表 N N 的索引是唯一的但 M 的索引可能出现多次我想要执行的操作是 for i j in w M i N j 除了 fo
SparkSession 初始化需要很长时间

SparkSession 初始化需要很长时间才能成功这是我的代码 import findspark findspark init import pyspark from pyspark sql import SparkSession sp
Python int和float在64位系统中的内存消耗

我正在 Python 3 4 的 64 位系统中尝试以下代码以了解不同原始数据类型的内存消耗 import sys print sys getsizeof 45 prints 28 print sys getsizeof 45 2 pri
Python：当为变量分配新内容时，“旧”内存是否被释放？

如果为变量分配了任何新内容为旧内容分配的内存是否会正确释放例如在以下脚本中在为 a 分配一些新内容后变量 a 作为零数组的内存是否会被释放 import numpy a numpy zeros 1000 a a 1 我想象
如何在 Django Admin 中禁用事务？

I used transaction non atomic requests for 被超越的save in Person model如下所示 store models py from django db import models fro
如何实现带有 ([start ,] stop [ step]) 签名的 python 方法，即左侧的默认关键字参数

由于在 python 3 X 中 build idrange 函数返回的不再是一个列表而是一个可迭代的一些旧代码在我使用时失败range 方便地生成我需要的列表所以我尝试实现我自己的lrange像这样的函数 def lrange st
在 pandas eval 中调用 round()、ceiling()、floor()、min()、max()

正如标题所说有没有办法在 pandas eval 中支持 round ceiling min max floor 函数数据框 import pandas as pd import numexpr as ne op d ID 1 2 3
使用 Pytest 捕获 SystemExit 消息

我正在使用 pytest 编写测试我遇到了一些函数抛出异常的情况SystemExit如果输入错误终端上会显示一些错误消息我想为以下情况编写测试SystemExit抛出并验证输出错误消息中是否有特定字符串这是代码 def test v
Pandas 使用 NaN 进行数据透视或重塑数据框

我有这个数据框我需要根据以下数据进行旋转或重塑frame col df frame 0 0 1 1 2 2 3 0 4 1 5 2 pvol 0 nan 1 nan 2 nan 3 23 1 4 24 3 5 25 6 vvol 0 10
Python 调试器是否会介入生成器？

我目前正在使用 NetBeans IDE 和 Jython 2 5 1 当逐步调试我的项目时一旦遇到生成器的迭代调试器就会直接转到代码末尾输出工作正常但是一旦满足第一个生成器就无法进行逐步调试这是所有 Python IDE 中 P
python中终止进程的跨平台方法

当我尝试使用 subprocess Popen terminate 或 Kill 命令终止 Windows 中的进程时出现访问被拒绝错误如果文件不再存在我真的需要一种跨平台的方式来终止进程是的我知道这不是做我正在做的事情的最优雅的
PyGTK TreeView 中的自动换行

如何在 PyGTK TreeView 中自动换行文本 gtk TreeView 中的文本是使用 gtk CellRendererText 渲染的文本换行归结为在单元格渲染器上设置正确的属性为了让文本换行您需要设置wrap width单
Drupal URL 重写冲突

我已将 Drupal 7 安装在站点的根目录中 htaccess 文件自安装以来未曾修改过不过我还在子目录中设置了 CodeIgniter 我在 CI 目录中创建了一个 htaccess 文件其中包含从 url 中删除 index p
深度学习——一些关于caffe的幼稚问题

我试图了解 caffe 的基础知识特别是与 python 一起使用我的理解是模型定义比如给定的神经网络架构必须包含在 prototxt file 当您使用数据训练模型时 prototxt 您将权重模型参数保存到 caffemode
我以为 Python 通过引用传递了所有内容？

采取以下代码 module functions py def foo input new val input new val module main py input 5 functions foo input 10 print input
函数调用中的星号[重复]

这个问题在这里已经有答案了我正在使用 itertools chain 以这种方式展平列表列表 uniqueCrossTabs list itertools chain uniqueCrossTabs 这与说有什么不同 uniqueCr
WTforms 表单未提交但不输出验证错误

我正在尝试使用以下方式上传文件flask uploads工作和遇到一些障碍我会告诉你我的flask查看函数 html 希望有人能指出我缺少的内容基本上发生的情况是我提交了表格但失败了if request method POST and
Pepper Robot：如何将 Python 地标检测移植到 Choregraphe？

我正在尝试编写一个小程序让 Pepper 通过 Choregraphe 检查房间内的地标用于地标检测的常规 Python 代码工作得很好但我无法将其移植到 Choregraphe http doc aldebaran com 2 5

随机推荐

如何将参数从 Behat.yml 获取到 php 文件？

我有一个 Behat yml default context parameters user xyz password abc 我还有一个名为 FeatureContext php 的文件它通过以下方式从 behat yml 检索值 pu
IBM Worklight 6.0 - 无法访问 Worklight 服务器

当我尝试通过右键单击应用程序名称 gt 运行方式 gt 构建全部并部署来构建和部署我的应用程序时我在控制台中收到失败通知无法将应用程序部署到 Worklight 服务器请验证 Worklight 服务器已启动且可访问我先安装了Ecl
rvm 安装 - /usr/local/rvm ：权限被拒绝（在此之前，我在 Ubuntu 中错误地删除了主目录）[重复]

这个问题在这里已经有答案了可能的重复如何修复使用 SUDO 完成的 RVM 安装我在我的服务器 myuser 上创建了一个用户登录并运行此命令 curl L get rvm io bash s auto dotfiles 一切都很好
DBCP Tomcat 连接池泄漏
作业：使用 R 模拟抛硬币直到连续正面朝上

我是 R 新手因此在这里询问尚未找到非常有用的详细模拟教程问题陈述是这样的模拟抛硬币20次并记录正面的数量和最长的头模拟抛硬币并记录所需的抛掷次数直到依次连续出现 2 3 4 次正面负二项式使用不同的种子进行 100
C++类成员函数指针指向函数指针

我使用 luabind 作为我的 lua 到 C 包装器 Luabind提供了一种使用我自己的回调函数来处理lua抛出的异常的方法 set pcall callback 因此我解释了文档中的一个示例更改是 logger gt log 函
hibernate envers：合并和 saveOrUpdate

我正在开发 spring hibernate envers 应用程序经过大量谷歌搜索后事情终于对我有用但我仍然有几个问题早些时候我正在使用saveOrUpdate为了保存或更新实体但当与恩弗斯一起工作时它是扔一个nonUn
Windows 应用程序中 DataGridView 中的货币格式

我无法在 DataGridView 上显示货币格式你们能看一下这段代码吗 private void dataGridView1 DataBindingComplete object sender DataGridViewBindingCo
R 函数（如 str()、summary() 和 head()）的 Python pandas 等价物是什么？

我只知道describe 功能还有其他类似的功能吗str summary and head 在熊猫中info 方法创建与 R 非常相似的输出str gt str train data frame 891 obs of 13 variabl
单击时循环遍历数组

我想知道如何在单击时循环遍历数组中的值当显示数组的最后一个值时下一次单击应再次显示数组的第一个值我认为我已经很接近了但是当我到达数组的最后一个值时我必须单击两次才能再次显示第一个值这是我的 JavaScript var myAr
PHP - 使用explode()函数将值分配给关联数组

我想分解一个字符串但结果数组具有特定的字符串作为键而不是整数 IE 如果我有一个字符串 Joe Bloggs 我想将其分解以便我有一个关联数组例如 arr first name Joe arr last name Bloggs 目前
在 vscode 中安装 ionide-fsharp 时出现错误“未找到中央目录记录签名结尾”

我已经安装了 VS Code 版本 1 8 1 机器是Windows 7 64位安装 ionide fsharp 扩展时出现错误未找到中央目录记录签名末尾 VS Code 的 1 7 2 版本似乎可以工作但是这个问题似乎在 1 8
android 对话框上的轮式选择器

我想从旋转轮获取文本作为密码您能给我任何用于从中获取文本的旋转轮的示例吗我没有得到任何好的例子提前致谢我试图得到这个旋转轮最后我已经构建了我的轮子来从用户那里获取文本我给出了四个整数的例子 package com example
在ggplot2中使用facet_grid()函数时，如何使用labeller()函数让列总计出现在facet的标签中

这是一个数据集可以为我的问题提供背景信息 library tidyr library dplyr library ggplot2 set seed 1 dfr2 lt tibble x1 factor sample letters 1 3
如何在 BitmapFactory 中保持图像质量相同

我已将位图图像转换为字符串以保存它 Bitmap photo extras getParcelable data ByteArrayOutputStream baos new ByteArrayOutputStream photo comp
将许多子目录拆分为一个新的、单独的 Git 存储库

这个问题与将许多子目录分离到新的单独的 git 存储库中 Git 子树和多个目录我不想分离单个子目录而是想分离几个子目录例如这是我的文件夹结构 app1 file1 file2 folder1 folder2 app2 file3
来自输入文件的动态数组

我是初学者所以如果这确实是一个愚蠢的问题我很抱歉我的任务是从输入文件中打印出动态数组我尝试用谷歌搜索它发现了一些类似的问题但答案都是使用向量等但我们还没有学到这些还说必须使用函数这就是我想出的 include
如何从 PL/pgSQL 写入磁盘上的文件？

我想做相当于 c 或 php fopen 和 fwrite 的操作我不想将表转储到磁盘我正在尝试在开发过程中进行一些调试日志记录您可以在 postgres 函数中使用 plpythonu f open f write f close
Bootstrap 下拉菜单隐藏在模式中

您好我正在尝试获取引导下拉列表以显示模型内的列表我想我要说的是当我单击下拉菜单时它会展开但如果列表比模型长它将切断列表的其余部分导致用户无法选择所有选项我一直在谷歌搜索并看到这篇文章点击这里这与我的问题非常相似然而他们说
Pandas 使用正则表达式分隔符读取 csv

我一直在尝试读取这样的自定义 csv 文件 6 Rotterdam NLD Zuid Holland 593321 19 Zaanstad NLD Noord Holland 135621 214 Porto Alegre BRA Rio

Pandas 使用正则表达式分隔符读取 csv

这有效

我的尝试

类似的问题

Pandas 使用正则表达式分隔符读取 csv 的相关文章

随机推荐

热门标签