读取列标题中具有多个分隔符的文件并在末尾跳过一些行

2024-04-26

我是新来的Python我想用pandas用于读取数据。我已经做了一些搜索和努力来解决我的问题，但我仍然在挣扎。提前感谢您的帮助！

我有一个如下所示的 .txt 文件；

skip1
 A1| A2 |A3 |A4# A5# A6 A7| A8 , A9
1,2,3,4,5,6,7,8,9
1,2,3,4,5,6,7,8,9
1,2,3,4,5,6,7,8,9

END***
Some other data starts from here

第一个任务是我想指定 A1、A2、A3、A4、A5、A6、A7、A8 和 A9 作为列名称。但是，有多个分隔符，例如' ','|','#'这使得在读取文件时分配分隔符变得很麻烦。我这样尝试过；

import pandas as pd
import glob
filelist=glob.glob('*.txt')
print(filelist)

df = pd.read_csv(filelist,skiprows=1,skipfooter=2,skipinitialspace=True, header=0, sep=r'\| |,|#',engine='python')

但当我检查Spyder的数据浏览器df时，似乎什么也没有发生。

第二个任务是在读取过程中删除从行开始的数据END***我不需要。标头始终具有相同的长度。但是，skipfooter 需要跳过的行数，这应该在文件之间进行更改。

已经提出了一些问题，但似乎我无法让他们解决我的问题！

如何使用多个分隔符读取 pandas 中的 txt 文件 https://stackoverflow.com/questions/36559763/how-to-read-txt-file-in-pandas-with-multiple-delimiters

将文本导入带有多个分隔符的 pandas https://stackoverflow.com/questions/26551662/import-text-to-pandas-with-multiple-delimiters/26551913

pandas-在将文件读入文件时忽略特定字符串之后的所有行 https://stackoverflow.com/questions/19138175/pandas-ignore-all-lines-following-a-specific-string-when-reading-a-file-into-a

编辑：关于删除读取删除从行开始的数据END

如果b.txt文件是这样的 b.txt

skip1
 A1| A2 |A3 |A4# A5# A6 A7| A8 , A9
1,2,3,4,5,6,7,8,9
1,2,3,4,5,6,7,8,9
1,2,3,4,5,6,7,8,9

END123
Some other data starts from here

使用下面的第二种解决方案；

txt = open('b.txt').read().split('\nEND')[0]
_, h, txt = txt.split('\n', 2)
pat = r'[\|, ,#,\,]+'
names = re.split(pat, h.strip())

pd.read_csv(
    pd.io.common.StringIO(txt),
    names=names, header=None,
    engine='python')

得到这个，

   A1  A2  A3  A4  A5  A6  A7  A8  A9
0   1   2   3   4   5   6   7   8   9
1   1   2   3   4   5   6   7   8   9
2   1   2   3   4   5   6   7   8   9

分割文件，然后从字符串中读取

txt = open('test.txt').read().split('\nEND***')[0]
pd.read_csv(
    pd.io.common.StringIO(txt),
    sep=r'\W+',
    skiprows=1, engine='python')

   A1  A2  A3  A4  A5  A6  A7  A8  A9
0   1   2   3   4   5   6   7   8   9
1   1   2   3   4   5   6   7   8   9
2   1   2   3   4   5   6   7   8   9

我们可以非常明确地解析标头并将文件的其余部分解析为 csv

txt = open('test.txt').read().split('\nEND***')[0]
_, h, txt = txt.split('\n', 2)
pat = r'[\|, ,#,\,]+'
names = re.split(pat, h.strip())

pd.read_csv(
    pd.io.common.StringIO(txt),
    names=names, header=None,
    engine='python')

   A1  A2  A3  A4  A5  A6  A7  A8  A9
0   1   2   3   4   5   6   7   8   9
1   1   2   3   4   5   6   7   8   9
2   1   2   3   4   5   6   7   8   9

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

读取列标题中具有多个分隔符的文件并在末尾跳过一些行的相关文章

Pyenv 无法在 Cygwin 上安装 python: ModuleNotFoundError: No module named '_ctypes'

我正在尝试设置 Cygwin 环境以使用 pyenv 来管理 python 版本我没有管理员权限所以我使用以下命令运行设置 no admin flag 我使用 Cygwin 包管理器应用程序解决了一些依赖关系但我被困在了这一点上 Mo
Python 使用 M2Crypto 通过 S/MIME 对消息进行签名

我现在花了几个小时但找不到我的错误我想要一个简单的例程来创建 S MIME 签名消息稍后可以与 smtplib 一起使用这是我到目前为止所拥有的 usr bin python2 7 coding utf 8 from future
将 matplotlib png 转换为 base64 以在 html 模板中查看

背景你好我正在尝试制作一个简单的网络应用程序按照教程计算阻尼振动方程并将结果的 png 返回到 html 页面然后将其转换为 Base64 字符串 Problem 该应用程序运行正常只是在计算结果时返回损坏的图像图标可能是因为
在加载“cv2”二进制扩展期间检测到递归

我有一个小程序在 pyinstaller 编译后返回 opencv 错误但无需编译即可工作我在 Windows 10 上使用 Python 3 8 10 Program 导入 pyautogui将 numpy 导入为 np导入CV2
理解@property装饰器和继承[重复]

这个问题在这里已经有答案了这里是 Python 3 以防万一它很重要我试图正确理解如何实现继承 property使用我已经搜索了 StackOverflow 并阅读了大约 20 个类似的问题但无济于事因为他们试图解决的问题略有不同
在函数调用之间保存数据的Pythonic方式是什么？

对我来说上下文是我需要在调用修改该值的函数之间保留的单个 int 的信息我可以使用全局但我知道这是不鼓励的现在我使用了包含 int 的列表形式的默认参数并利用了可变性以便在调用之间保留对值的更改如下所示 def increm
向 Python 2.6 添加 SSL 支持

我尝试使用sslPython 2 6 中的模块但我被告知它不可用安装OpenSSL后我重新编译2 6 但问题仍然存在有什么建议么您安装了 OpenSSL 开发库吗我必须安装openssl devel例如在 CentOS 上在
在ansible中合并字典

我目前正在构建一个使用 ansible 安装 PHP 的角色并且在合并字典时遇到一些困难我尝试了多种方法来做到这一点但我无法让它像我想要的那样工作 A vars file my default values key value my
管理文件字段当前 url 不正确

在 Django 管理中只要有 FileField 编辑页面上就会有一个当前框其中包含指向当前文件的超链接但是此链接会附加到当前页面 url 因此会导致 404 因为不存在这样的页面例如 http 127 0 0 1 8000
如何从数据框的单元格中获取值？

我构建了一个条件从我的数据框中提取一行 d2 df df l ext l ext df item item df wn wn df wd 1 现在我想从特定列中获取一个值 val d2 col name 但结果我得到一个包含一行和一列
如何在matplotlib中基于x轴更改直方图颜色

我有根据 pandas 数据框计算出的直方图我想根据 x 轴值更改颜色例如 If the value is 0 the color should be green If the value is gt 0 the color shoul
在Python中计算结构体的CRC

我有以下结构来自 C 中的 NRPE 守护程序代码 typedef struct packet struct int16 t packet version int16 t packet type uint32 t crc32 value
PyQt - 如何检查 QDialog 是否可见？

我有个问题我有这个代码 balls Ball for i in range 1 10 因此当我说 Ball 时这将在 QDialog 上绘制一个球然后当这完成后我正在移动球QDialog无限循环中我想说类似的话while QDi
请求response.iter_content()获取不完整的文件（1024MB而不是1.5GB）？

您好我一直在使用此代码片段从网站下载文件到目前为止小于 1GB 的文件都很好但我注意到 1 5GB 文件不完整 s is requests session object r s get fileUrl headers headers
django 组合对两个不同基本模型的查询

我有两个不同的查询集我想将两个查询集合并 q1 tbl nt 123 objects values list id value geometry filter restriction height exclude condition id
测试中的模型 - Django 1.7 问题

我正在尝试将我的项目移植为使用 Django 1 7 除了一件事之外一切都很好测试文件夹内的模型 Django 1 7 新迁移在内部运行 migrate 命令在运行syncdb之前这意味着如果模型未包含在迁移中它将不会填充到数据库
如何让你的精灵在pygame中跳跃

目前我已经制作了一个平台游戏可以左右移动我的角色他从地上开始关于如何让他跳的任何想法因为我不明白目前如果我按住向上键我的玩家精灵将连续向上移动或者如果我按下它我的玩家精灵将向上移动并保持向上我想找个办法远离他让我重新跌
使 matplotlib 图形默认看起来像 R？

Is there a way to make matplotlib behave identically to R or almost like R in terms of plotting defaults For example R t
如何使用 Python 将我的 GoPro Hero 4 相机直播连接到 openCV？

我在尝试从我的新 GoPro Hero 4 相机捕获实时流并使用 openCV 对其进行一些图像处理时遇到麻烦这是我的试用创建的窗口上没有显示任何内容 import cv2 import argparse import time imp
在读/写二进制数据结构时访问位域

我正在为二进制格式编写一个解析器这种二进制格式涉及不同的表这些表同样采用二进制格式通常包含不同的字段大小其中 50 100 个之间大多数这些结构都有位域并且在 C 语言中表示时看起来像这样 struct myHeader uns

随机推荐

销毁与解除分配

在 Accelerated C 第 11 章中作者提出了一个使用数组模拟 std vector 行为的 Vector 类他们使用分配器类来处理内存管理的作用uncreate函数是销毁数组的每个元素并释放为数组分配的空间 templat
conda创建环境没有响应

我想安装 python 2 7 作为 conda 环境 conda create n python2 python 2 7 anaconda Collecting package metadata current repodata json
拥有集合侦听器的好方法？

有没有比将 Java 集合包装在实现观察者模式的类中更好的方法来在 Java 集合上设置侦听器你应该检查一下釉面清单 http publicobject com glazedlists 它包含可观察的 List 类每当添加删除替换元
@Transactional 注释的替代方案

spring中回滚事务除了 Transactional注解还有什么替代方案我已经使用了这个注释但我想要在 catch 块中回滚事务的方式有什么办法吗提前致谢这是一个草稿 public class SomeService imple
Firebase云功能不触发onCreate

尝试使用 Cloud Functions 处理联系表单提交以发送电子邮件 Hello World 功能正常启动所以我认为设置很好该表单填充消息集合但我没有收到以下触发器的日志条目或错误 const functions requi
@types/jest index.d.ts 文件返回错误

我刚刚将 types jest 安装到了我的 stenciljs 入门应用程序中现在当我开始我的项目时新安装的节点包返回了几个错误这是我访问时返回的错误npm start我的项目 ERROR TypeScript node modu
自动调整 ggplot 中条形的大小以实现多个图形 R 的均匀性

我在循环中生成几个条形图它们都根据输出大小从绘图设备大小假设而不是根据条形大小调整大小这意味着具有两个条形图的图具有粗条形图而具有 6 个条形图的图具有细条形图但两个输出的大小相同下面的代码代表了我的带有可重现数据的脚本我
在 C#4 中向 ProgressChanged 事件添加额外参数

这是我的代码简单下载器 public void DownloadFile string urlAddress string location using webClient new WebClient webClient Download
SQL——排序数据

因此我的学校老师要求我从现有数据库中整理一些数据这很容易手动完成但如果记录超过 100 条则时间太长他是这样问我的有单独的桌子其中一个称为联系人有 2 列 ID 姓名第二个称为电子邮件和第三个 CONT EMAIL 他
将 uint64_t 转换为 std::string

如何将 uint64 t 值传输到 std string 我需要构造包含该值的 std string 例如这样的事情 void genString uint64 t val std string str some code for str
如何从 FinalBuilder 输出将被 TeamCity 捕获的消息？

我正在运行 TeamCity Professional 4 5 3 和 FinalBuilder Pro 6 TeamCity 使用命令行任务运行 FinalBuilder 项目如何让 FinalBuilder 将消息打印到构建日志中以
如何限制素材输入中的特殊字符

我有一个材料输入控件我在用户输入时限制了特殊字符但是当在任何编辑器中键入一些单词并复制并粘贴带有特殊字符的单词时这是不起作用的我已经为此编写了指令以防止特殊字符但是可以在复制粘贴中提供更好的解决方案限制应用程序组件 html
强连通分量有什么用？

我发现了几种可以解释的算法how在有向图中找到强连通分量但没有解释why你会想要这样做强连通分量有哪些应用您应该查看 Coursera 上 Tim Roughgarden 的算法简介课程对于他所讨论的每一种算法他都会解释其一些应用
使用 Active Directory 验证 Sharepoint？

只需要找到一种简单的方法来让 AD 进行身份验证作为 Sharepoint 站点的登录名这相当快速和简单地开始吗 Thanks 对于 SharePoint 2007 请参阅此article http technet microsoft c
更改 R 中函数的默认参数

我正在跟进这个答案 https stackoverflow com a 62946040 7223434 我想知道是否有办法设置参数的默认值rug to FALSE和论证multiline to TRUE在生成的图中library effe
在 :before 和 :after 上为每个元素声明“content”属性是否会带来巨大的性能问题？

您可能知道如果您愿意使用 before and or after伪元素没有在其中设置文本您仍然需要声明content 使它们可见我刚刚将以下内容添加到我的基本样式表中 before after content 所以我不必再进一步声明了
移动设备上的全屏画布

我创建了一个小型画布游戏希望它能够在 PC 和移动设备上运行在 PC 上画布区域可以按预期工作但在为移动设备设计时就会出现问题有没有一种方法 CSS 或 javascript 可以让用户双击网站内的画布区域时变成全屏除非画布足够
如何有效地使用 python 中的空数据填充文件？

我需要创建不包含数据的任意大小的文件它们可能相当大虽然我可以循环遍历并写入一个空字符直到达到文件大小但这看起来很难看 with open filename wb as f what goes here 执行此操作的有效 Python
如何获取特定CSS列的内容

对不起我的英语不好我正在使用 css 多列布局有没有办法获取特定列的内容或者如何找到分隔列的字符串的索引 div class foo div
读取列标题中具有多个分隔符的文件并在末尾跳过一些行

我是新来的Python我想用pandas用于读取数据我已经做了一些搜索和努力来解决我的问题但我仍然在挣扎提前感谢您的帮助我有一个如下所示的 txt 文件 skip1 A1 A2 A3 A4 A5 A6 A7 A8 A9 1 2 3

读取列标题中具有多个分隔符的文件并在末尾跳过一些行

读取列标题中具有多个分隔符的文件并在末尾跳过一些行 的相关文章

随机推荐

热门标签

读取列标题中具有多个分隔符的文件并在末尾跳过一些行的相关文章