列标题中的多个分隔符也会分隔行值

2024-03-09

我在读取文件时遇到了一些关于定义多个分隔符的问题。最初在我之前的帖子中解决了读取列标题中带有多个分隔符的文件并跳过某些行 https://stackoverflow.com/questions/45695040/reading-files-with-multiple-delimiter-in-column-headers-and-skipping-some-rows-a/45695342#45695342感谢@piRsquared

当我详细查看我的真实数据时，我意识到某些列具有 .cd 或 .dvd 扩展名，当我应用上面的解决方案时，它们也被分离为一个新列，并且上面的解决方案开始不起作用！

b.txt

skip1
 A1| A2 |A3 |A4# A5# A6 A7| A8 , A9
1,2,3,4,5.cd,6,7,8.dvd,9
1,2,3,4,5.cd,6,7,8.dvd,9
1,2,3,4,5.cd,6,7,8.dvd,9

END123
Some other data starts from here

并使用以下命令读取 b.txt 文件solution https://stackoverflow.com/questions/45695040/reading-files-with-multiple-delimiter-in-column-headers-and-skipping-some-rows-a/45695342#45695342 above

txt = open('b.txt').read().split('\nEND')[0]
pd.read_csv(
    pd.io.common.StringIO(txt),
    sep=r'\W+',
    skiprows=1,index_col=False, engine='python')

   A1  A2  A3  A4  A5  A6  A7  A8  A9
0   1   2   3   4   5  cd   6   7   8
1   1   2   3   4   5  cd   6   7   8
2   1   2   3   4   5  cd   6   7   8

A5列应该有行

5.cd
5.cd
5.cd

A9 列也是如此

8.dvd
8.dvd
8.dvd

我们应该有 A9 列，但似乎由于这种冲突它消失了。

EDIT:

我将与我的真实数据几乎相似的身份

 skip rows
 A1| A2| A3|A4# A5#  |  A6 | A7  , A8,  A9  | A10 |
 1 | 2 | 3 |4 # 5 #  | 6.cd|7.dvd,   ,      | 10  | 
 1 | 2 | 3 |4 # 5 #  | 6.cd|     ,   ,   9  | 10  |
 1 | 2 | 3 |4 # 5 #  |     |7.dvd,   ,      | 10  |

END123
Some other data starts from here

并尝试过

txt = open('real_dat.txt').read().split('\nEND')[0]
_, h, txt = txt.split('\n', 2)
pat = r'[\|, ,#,\,]+'
names = re.split(pat, h.strip())

df=pd.read_csv(
    pd.io.common.StringIO(txt),
    names=names,skiprows=1,index_col=False,
    engine='python')

并得到这个输出！

更新答案
删除空格更容易...让我知道这是否有效

txt = open('b.txt').read().split('\nEND')[0] \
    .replace(' ', '').replace('|\n', '\n').split('\n', 1)[1]

pd.read_csv(
    pd.io.common.StringIO(txt),
    sep=r'#\||\||#|,',
    engine='python')

   A1  A2  A3  A4  A5    A6     A7  A8   A9  A10
0   1   2   3   4   5  6.cd  7.dvd NaN  NaN   10
1   1   2   3   4   5  6.cd    NaN NaN  9.0   10
2   1   2   3   4   5   NaN  7.dvd NaN  NaN   10

旧答案

I used \W+作为一种快速、简单的方法来解析您所显示的内容。下面我使用了一些更具体的内容来满足您实际需要的分隔符。

txt = open('b.txt').read().split('\nEND')[0]
pd.read_csv(
    pd.io.common.StringIO(txt),
    sep=r'[\|, ,#,\,]+',
    skiprows=1,index_col=False, engine='python')

   A1  A2  A3  A4    A5  A6  A7     A8  A9
0   1   2   3   4  5.cd   6   7  8.dvd   9
1   1   2   3   4  5.cd   6   7  8.dvd   9
2   1   2   3   4  5.cd   6   7  8.dvd   9

但是，我仍然认为这是一种更干净的方法。在这里，我将标头的解析与其余数据的解析分开。这样，我假设数据应该只使用,作为分隔符。

txt = open('b.txt').read().split('END')[0]
_, h, txt = txt.split('\n', 2)
pat = r'[\|, ,#,\,]+'
names = re.split(pat, h.strip())

pd.read_csv(
    pd.io.common.StringIO(txt),
    names=names, header=None,
    engine='python')

   A1  A2  A3  A4    A5  A6  A7     A8  A9
0   1   2   3   4  5.cd   6   7  8.dvd   9
1   1   2   3   4  5.cd   6   7  8.dvd   9
2   1   2   3   4  5.cd   6   7  8.dvd   9

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

列标题中的多个分隔符也会分隔行值的相关文章

如何让python优雅地失败？

我只是想知道如何让 python 在所有可能的错误中以用户定义的方式失败例如我正在编写一个处理大项目列表的程序并且某些项目可能不符合我定义的格式如果 python 检测到错误它目前只会输出一条丑陋的错误消息并停止整个过程但是
无法使用 BeautifulSoup 和 Requests 抓取下拉菜单

我想抓取百年灵网站上的产品页面以获取各种信息示例页面 https www breitling com gb en watches navitimer b01 chronograph 46 AB0127211C1A1 https www b
Tipfy：如何在模板中显示blob？

鉴于在 gae 上使用tipfy http www tipfy org python 以下模型 greeting avatar db Blob avatar 显示 blob 此处为图像的模板标签是什么在这种情况下斑点是一个图像这很棒
Perl 是否有相当于 Python 的 `if __name__ == '__main__'` 的功能？

有没有一种方法可以确定当前文件是否是 Perl 源中正在执行的文件在 Python 中我们使用以下结构来做到这一点 if name main This file is being executed raise NotImplemente
使用多级解决方案计算二维网格中的最近邻

我有一个问题在 x y 大小的网格中我提供了一个点并且我需要找到最近的邻居在实践中我试图在 pygame 中找到距离光标最近的点该点跨越颜色距离阈值计算如下 sqrt rgb1 0 rgb2 0 2 rgb1 1 rgb2 1
将一维数组转换为下三角矩阵

我想将一维数组转换为较低的零对角矩阵同时保留所有数字我知道numpy tril函数但它用零替换了一些元素我需要扩展矩阵以包含所有原始数字例如 10 20 40 46 33 14 12 46 52 30 59 18 11 22 30
通用详细视图 ProfileView 必须使用对象 pk 或 slug 调用

我是 Django 2 0 的新手在访问我的个人资料页面视图时收到此错误它适用于像这样的网址path users
在rails中，如何将记录作为csv文件返回

我有一个名为 Entries 的简单数据库表 class CreateEntries lt ActiveRecord Migration def self up create table entries do t t string firs
Pandas groupby apply 执行缓慢

我正在开发一个涉及大量数据的程序我正在使用 python pandas 模块来查找数据中的错误这通常工作得非常快然而我当前编写的这段代码似乎比应有的速度慢得多我正在寻找一种方法来加快速度为了让你们正确测试它我上传了一段相当大的
PyArmor - 打包为一个可执行文件

当我执行此命令时您好使用 PyArmor pyarmor pack main py 它将它打包到一个名为的文件夹中dist里面包含我的 exe 以及许多 Python 扩展文件据我所知 PyArmor 使用 PyInstaller 来
根据第三个变量更改散点图中的标记样式

我正在处理多列字典我想绘制两列然后根据第三列和第四列更改标记的颜色和样式我很难改变 pylab 散点图中的标记样式我的方法适用于颜色不幸的是不适用于标记样式 x 1 2 3 4 5 6 y 1 3 4 5 6 7 m k l l
Jupyter Notebook 中的深色模式绘图 - Python

我正在使用 Jupyter Notebook 目前正在使用 JupyterThemes 的深色日光主题我注意到我的绘图不是处于黑暗模式并且文本仍然是黑色并且在日光照射的背景上无法读取 JupyterThemes 的自述文件建议在 ipy
如何使用 django-pyodbc (ubuntu 16.04) 配置数据库设置 Django-MSSQL？

我是 Django 新手目前正在尝试使用另一个数据库来保存我的模型即MS SQL 我的数据库部署在docker容器中 903876e64b67 microsoft mssql server linux bin sh c opt mssq
Django Rest Framework POST 更新（如果存在或创建）

我是 DRF 的新手我阅读了 API 文档也许这是显而易见的但我找不到一个方便的方法来做到这一点我有一个Answer与 a 具有一对一关系的对象Question 在前端我曾经使用 POST 方法来创建发送到的答案api answe
在python中读取PASCAL VOC注释

我在 xml 文件中有注释例如这个它遵循 PASCAL VOC 约定
在Python中连续解析文件

我正在编写一个脚本该脚本使用 HTTP 流量行解析文件并取出域目前仅将它们打印到屏幕上我正在使用 httpry 将流量连续写入文件这是我用来删除域名的脚本 usr bin python import re input open r
在 Python 中访问 argparse 的参数值

我正在尝试为我的程序设置一些简单的标志参数但无法弄清楚如何访问它们我有 argparser parser argparse ArgumentParser description Simple PostScript Interpreter
在父类中访问子类变量

我有一个父类和一个继承的子类我想知道如何访问我的父类中的子类变量我尝试了这个但失败了 class Parent object def init self print x class Child Parent x 1 x Child Er
在python中对列表列表执行行总和和列总和

我想用python计算矩阵的行和和列和但是由于信息安全要求我无法使用任何外部库因此为了创建矩阵我使用了列表列表如下所示 matrix 0 for x in range 5 for y in range 5 for pos in
Python 中的字符串slugification

我正在寻找 slugify 字符串的最佳方法蛞蝓是什么 https stackoverflow com questions 427102 in django what is a slug 我当前的解决方案基于这个食谱 http code

随机推荐

从 USB 闪存驱动器自动运行程序 [关闭]

Closed 这个问题是无关 help closed questions 目前不接受答案我一直在互联网上寻找配置闪存驱动器以自动播放位于其根文件夹中的文件的方法但似乎没有任何效果目前我有一个presentation html 文件
如何使用 javascript 在 getSelection() 中查找所选文本的索引？

我正在尝试将样式应用于用户选择的文本鼠标拖动为此我需要获取所选文本的开始和结束索引我尝试过使用 indexOf 方法但它返回所选子字符串的第一次出现我想要子字符串相对于原始字符串的实际位置例如如果我选择位置 3 处的字母 O
当条件产生时结束线程。 C/C++

我有一个 C 代码用于检查鼠标的左下角是否已被按下它工作正常但我不知道如何在调用 Final 函数后取消挂钩并退出当前线程这是代码 LRESULT CALLBACK mouseProc int nCode WPARAM wParam
如何修复 Windows 批处理文件 FOR 命令返回“活动代码页：65001”

如果我正确理解这个批处理脚本 for f usebackq tokens i in time t do echo i echo done 应该只打印时间然后完成相反在我的机器上 Windows 10 Pro x64 它打印 gt te
我可以访问 ExchangeFilterFunction 上的请求/响应正文吗？

给定一个交换使用WebClient 按自定义过滤ExchangeFilterFunction Override public Mono
Android Media3 会话和控制器 - 播放未开始

我正在尝试实现AndroidMedia3 https developer android com guide topics media media3MediaSessionService 和 MediaController 但由于某种原因播
通过管道 mysqldump 到 mysql

有时我需要将MySQL数据库 db1 复制到另一个数据库 db2 我发现这个命令简洁有效 mysqldump opt db1 mysql db2 它工作正常但现在它因以下错误而中断 ERROR 1064 42000 位于第 1586 行
通过 IIS 管理器 7.5 托管 WCF 服务与 net.tcp 绑定

我对托管 Web 应用程序和 Web 服务相当陌生虽然我成功地托管了一个 Web 应用程序但在尝试使用 net tcp 绑定托管 WCF 服务时我遇到了一个又一个的障碍我的场景如下我有一个托管 Web 应用程序需要通过 IIS
根据下拉列表中的选择将 TYPO3 EXT:powermail 邮件发送到不同的收件人

我经常需要根据表单中选择字段的选择将 powermail 表单发送到不同的接收者我使用 TYPO3 7 6 x 和 Powermail 3 3 0 如何才能做到这一点在 EXT powermail 的 slackchannel 中 al
将值推入数组时，nil:NilClass 的未定义方法“[]”

我正在尝试创建一个包含数组的哈希值 create new hash to store customers and their projects customers Hash new get all customers from Mite M
是否可以以编程方式访问 RSA 安全 ID 以用于测试自动化？

我有一个要求需要在登录身份验证期间从 RSA 令牌输入安全 ID 然后开始运行自动化测试是否可以通过任何 api 或任何其他方式以编程方式访问 RSA 令牌值以便测试流程可以完全自动化我们通过执行以下操作自动登录到使用 rsa s
Angular ui-router 中 $state.transitionTo() 和 $state.go() 之间的区别

在 AngularJS 中我看到有时我们使用 state transitionTo 有时我们使用 state go 谁能告诉我它们有何不同以及何时应使用其中一种而不是另一种您指的是AngularUI 路由器 https github c
CSS 网格 - 可重复的网格模板区域

假设我们有一个包含 7 项的新闻条目列表我使用 CSS 网格创建了一个模式该模式应该在 6 个项目后重复出现 supports display grid list display grid grid gap 25px grid temp
使用 cin - C++ 进行良好的输入验证循环

我正在上第二节 OOP 课第一节课是用 C 教授的所以我是 C 新手目前我正在使用 cin 练习输入验证所以这是我的问题我构建的这个循环是验证输入的好方法吗或者有更常见接受的方法吗 Thanks Code int taxabl
如何将照片发布到 facebook iphone fbconnect

您好我正在使用 FBConnect 发布到 Facebook 现在我需要发布库中的照片或用相机拍摄的照片有人知道如何执行此操作吗我在谷歌中搜索过但找不到适合我的代码我找到了这个方法 FBRequest uploadPhotoReq
iOS - css/js - 覆盖滚动但阻止正文滚动

我知道有一些与此类似的问题但它们要么不适合我的用例要么接受的答案有一个缺陷不适合我所以我有一个包含元素列表的页面单击列表中的元素将打开一个覆盖层其中包含有关该元素的详细信息我需要该覆盖层可滚动但我不希望覆盖层下的页面其余部
仅从列表中检索非重复元素

从 Python 列表中仅检索非重复元素的最佳选项是什么假设我有以下列表 lst 1 2 3 2 3 4 我想检索以下内容 lst 1 4 2 and 3在该列表中不是唯一的因此不会检索到它们 Use collections Count
从文本文件中删除特定字符串的最后一个实例，而不更改该字符串的其他实例

我有一个 C 程序其中使用大量 RegEx Replace 来替换文本文件中的文本这是我的问题在我的文本文件中我有一个代码例如 M6T1 该代码在文本文件中的多个位置列出但是我只想从文本文件的底部最后一个实例删除它文本文
Android 支持多种分辨率和多个布局文件夹

现在我支持多个分辨率和多个布局文件夹我正在使用 android development studio 我制作了 3 个不同的文件夹 layout layout large port 1280x720 layout normal port
列标题中的多个分隔符也会分隔行值

我在读取文件时遇到了一些关于定义多个分隔符的问题最初在我之前的帖子中解决了读取列标题中带有多个分隔符的文件并跳过某些行 https stackoverflow com questions 45695040 reading files wi

列标题中的多个分隔符也会分隔行值

列标题中的多个分隔符也会分隔行值 的相关文章

随机推荐

热门标签

列标题中的多个分隔符也会分隔行值的相关文章