从 csv 中读取 pandas 数据帧，以非固定标头开始

2024-05-09

我有许多数据文件是由我的实验室中使用的一些相当黑客的脚本生成的。该脚本非常有趣，因为它在标头之前附加的行数因文件而异（尽管它们具有相同的格式并具有相同的标头）。

我正在编写一个批处理来将所有这些文件处理为数据帧。如果我不知道位置，如何让 pandas 识别正确的标题？我知道确切的 heder 文本，以及它之前的两行文本（它们是唯一的连续实例）\r\n在文档中）。

我尝试在文档末尾定义空跳过，并选择每个文件包含的（幸运的是）固定数量的数据行：

df = pd.read_csv(myfile, skipfooter=0, nrows=267)

那不起作用。

您还有什么进一步的想法吗？

您可以打开文件并迭代它直到连续\r\n满足，并将结果传递给解析器，即

with open(csv_file_name, 'rb') as source:
    consec_empty_lines = 0
    for line in source:
        if line == '\r\n':
            consec_empty_lines += 1
            if consec_empty_lines == 2: 
                break
        else:
            consec_empty_lines = 0
    df = pd.read_csv(source)

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

Parsing

csv

pandas

DataFrame

从 csv 中读取 pandas 数据帧，以非固定标头开始的相关文章

如何使用 imaplib 获取“消息 ID”

我尝试获取一个在操作期间不会更改的唯一 ID 我觉得UID不好所以我认为 Message ID 是正确的但我不知道如何获取它我只知道 imap fetch uid XXXX 有人有解决方案吗来自 IMAP 文档本身 IMAP4消息号
Django 模型在模板中不可迭代

我试图迭代模型以获取列表中的第一个图像但它给了我错误即模型不可迭代以下是我的模型和模板的代码我只需要获取与单个产品相关的列表中的第一个图像模型 py class Product models Model title models
使用 Python pandas 计算调整后的成本基础（股票买入/卖出的投资组合分析）

我正在尝试对我的交易进行投资组合分析并尝试计算调整后的成本基础价格我几乎尝试了一切但似乎没有任何效果我能够计算调整后的数量但无法获得调整后的购买价格有人可以帮忙吗这是示例交易日志原始数据 import pandas as pd
C# 将数据写入 CSV 文件

我正在尝试写入csv使用 C 语言逐行文件这是我的功能 string first reader 0 ToString string second image ToString string csv string Format 0 1 n
为什么在 Python 2.4 中使用 Unicode 数据会出现 ASCII 编码错误，而在 2.7 中却不会？

我有一个程序当在 Python 2 7 中运行时会生成正确的 Unicode 输出到标准输出当在 Python 2 4 中运行时我得到UnicodeEncodeError ascii codec can t encode chara
如何解决使用 Spark 从 S3 重新分区大量数据时从内存中逐出缓存的表分区元数据的问题？

在尝试从 S3 重新分区数据帧时我收到一个一般错误 Caused by org apache spark SparkException Job aborted due to stage failure Task 33 in stage 1
Hive：如何分解嵌入 CSV 文件中的 JSON 列？

从 CSV 文件带有标题和管道分隔符中我得到了以下两个内容其中包含一个 JSON 列内部有一个集合如下所示第一种情况使用没有名称的 JSON 集合 ProductId IngestTime ProductOrders 918
奇怪的 MySQL Python mod_wsgi 无法连接到 'localhost' (49) 上的 MySQL 服务器问题

StackOverflow上也有类似的问题但我还没有发现完全相同的情况这是在使用 MySQL 的 OS X Leopard 机器上一些起始信息 MySQL Server version 5 1 30 Apache 2 2 13 Uni
将 matplotlib 颜色图集中在特定值上

我正在使用 matplotlib 颜色图 seismic 绘制绘图并且希望白色以 0 为中心当我在不进行任何更改的情况下运行脚本时白色从 0 下降到 10 我尝试设置 vmin 50 vmax 50 但在这种情况下我完全失去了白色关
如何将 UDF 中的结构或类数组返回到数据帧列值中？

d ID 1 pID 1000 startTime 2018 07 02T03 34 20 endTime 2018 07 03T02 40 20 ID 1 pID 1000 startTime 2018 07 02T03 45 20 en
在 pytube3 中获取 youtube 视频的标题？

我正在尝试构建一个应用程序来使用 python 下载 YouTube 视频pytube3 但我无法检索视频的标题这是我的代码 from pytube import YouTube yt YouTube link print yt titl
在 Pandas 中使用正则表达式的多种模式

我是Python编程的初学者我正在探索正则表达式我正在尝试从描述列中提取一个单词数据库名称我无法给出多个正则表达式模式请参阅下面的描述和代码描述 Summary AD1 Low free DATA space in data
python Soap zeep模块获取结果

我从 SOAP API 得到如下结果 client zeep Client wsdl self wsdl transport transport auth header lb E authenticate self login res cl
mac osx 10.8 上的初学者 python

我正在学习编程并且一直在使用 Ruby 和 ROR 但我觉得我更喜欢 Python 语言来学习编程虽然我看到了 Ruby 和 Rails 的优点但我觉得我需要一种更容易学习编程概念的语言因此是 Python 但是我似乎找不到适用于
迭代 my_dict.keys() 并修改字典中的值是否会使迭代器失效？

我的例子是这样的 for my key in my dict keys my dict my key mutate 上述代码的行为是否已定义假设my dict是一本字典并且mutate是一个改变其对象的方法我担心的是改变字典中的值可能
当鼠标悬停在上面时，intellisense vscode 不显示参数或文档

我正在尝试将整个工作流程从 Eclipse 和 Jupyter Notebook 迁移到 VS Code 我安装了 python 扩展它应该带有 Intellisense 但它只是部分更糟糕我在输入句点后收到建议但当将鼠标悬停在其上方
无法在前端使用 JavaScript Fetch API 将文件上传到 FastAPI 后端

我正在尝试弄清楚如何将图像发送到我的 API 并验证生成的token那是在header的请求到目前为止这就是我所处的位置 app post endreProfilbilde async def endreProfilbilde requ
在Python中按属性获取对象列表中的索引

我有具有属性 id 的对象列表我想找到具有特定 id 的对象的索引我写了这样的东西 index 1 for i in range len my list if my list i id specific id index i break
从 Twitter API 2.0 获取 user.fields 时出现问题

我想从 Twitter API 2 0 端点加载推文并尝试获取标准字段作者文本和一些扩展字段尤其是用户字段端点和参数的定义工作没有错误在生成的 json 中我只找到标准字段但没有找到所需的 user fields 用户
如何使用 php 将 *.xlsb 转换为数组或 *.csv

我正在尝试转换 xlsb文件到php array or csv文件或至少 xls 我尝试使用PHPExcel 但看起来它无法识别该文件中的内容我注意到你可以重命名 xlsb文件到 zip文件然后使用命令行解压缩unzip zip 之

随机推荐

Ionic 2 获取离子输入值

我正在使用 ionic 2 创建登录名请不要只回答您只需要添加 ngModules 属性如果您认为这就是解决方案请解释原因解释一下就像对孩子做的那样我的代码在login ts import Component from ang
Android Windows：它们何时以及如何创建？

我已经阅读了标准的 Windows 相关文档并翻阅了一堆源代码试图理解 Android 如何以及何时窗口已创建我相信我已经拥抱它并愿意对其进行验证或更正据我所知只有两种方法可以获得 Window 对象的句柄 1 Activit
在 ANTLR4 中如何检查行的第一个字符是否为“*”？

我正在尝试为一种相对简单但特殊的语言编写一个解析器简单地说规则之一是注释行用星号表示only如果该星号是该行的第一个字符我如何在 ANTLR4 中正式化这样的规则我考虑过使用 START LINE COMMENT n n gt sk
HashSet 与 LinkedHashSet

它们之间有什么区别我知道 LinkedHashSet 是 HashSet 的有序版本维护一个跨所有元素的双向链接列表使用此类代替 HashSet 当您关心迭代顺序时当你迭代 HashSet 时顺序是不可预测的而 LinkedHa
.NET JIT 编译的代码缓存在哪里？

NET 程序首先被编译为 MSIL 代码当它被执行时 JIT编译器会将其编译为本机机器代码我想知道这些JIT编译的机器代码存储在哪里它只存储在进程的地址空间中吗但由于程序的第二次启动比第一次快得多我认为即使在执行完成后该本机代
SVG 文本元素上的 CSS 转换在 Safari 中不起作用

尝试在父 SVG 中放置电池指示器 SVG
SQL Server 2005 - 达到表行大小限制

有没有一种干净的方法可以在向表添加新列之前确定表的行大小并且不超过 8060 字节的限制例如如果表行长度当前为 8055 字节并且我想添加日期时间 8 字节则这将结束因为它将变为 8063 字节不包括空映射但是如果我添加一
Django CreateView：在验证之前设置用户

我有一个模型根据对象是由用户还是系统创建对其名称字段使用不同的验证 class Symbol models Model name models CharField name unique True max length 64 creat
使用（linq to sql）更新错误

我有两个表通过外键 CarrierID 绑定 Carrier CarrierID CarrierName CarrierID 1 CarrierName DHL CarrierID 2 CarrierName Fedex Vendor V
Spring Boot：在映射级别指定端口

Spring Boot 我希望实现以下目标一些 URL 路径映射到一个端口一些映射到另一个端口换句话说我想要这样的东西 public class Controller1 RequestMapping value path1 port
运行此 AVD 需要 HAXM

我在 android studio 中创建了模拟器并在其中创建了一些应用程序当我运行时它给我一个错误参见图 1 当我用谷歌搜索时它告诉我你的系统不支持虚拟化但我的系统支持它参见图 2 现在我的问题是当我的系统支持虚拟化时为什
线程睡眠阻止我的 Swing 应用程序执行

我的应用程序发生的事情是有道理的但我不知道如何修复它以下是我的应用程序功能的简要描述计时器窗口应显示在屏幕右下角并显示实时时间一小时后它应该执行一些操作我还没有决定该操作我面临的问题是定时器 java当我刷新实时计时器的秒数时
单击窗口后才检测到 keydown

在我的 Web 应用程序中我有一个用于打开菜单的键的事件侦听器仅当我单击页面上的任意位置后此功能才可以正常工作我尝试将焦点添加到窗口加载但这仍然不会让 keydown 函数运行直到我单击页面上的某个位置之后有谁知道这是否可能
如何使用 BFG 删除受保护的提交

使用 BFG 清理存储库时 https rtyley github io bfg repo cleaner https rtyley github io bfg repo cleaner 遇到以下情况 Protected commits T
TortoiseSVN 错误“工作副本已锁定”“sqlite：尝试写入只读数据库” - 这可能是由不正确的权限引起的吗？

应用程序的工作副本在尝试更新时返回所描述的错误此错误是否是由于没有足够的权限写入该文件夹或其中的某些文件而导致的我尝试过释放锁定功能乌龟告诉我没有锁定我在 Windows 下使用 TortoiseSVN 时遇到了这个错误显
使用 foreach 循环和 XmlNodeList C# 将新节点附加到节点列表

目前我处理的是这样的XML类型 XML FILE http 20drive google com open id 0By5BxgNi9eGcRldxcEZNU0FDTzQ 参考XML文件我想检查一个节点如果找不到该节点我必须将该节点附
Rglpk - 梦幻足球阵容优化器 - For 循环输出的 Rbind

我有一个使用 Rgplk 的梦幻足球阵容优化器它使用for循环生成多个最佳阵容其数量由用户输入代码如下 Lineups lt list for i in 1 Lineup no matrix lt rbind as numeric D
自定义 WPF 工具提示

我想创建一个 WPF 工具提示其中包含工具提示标题的标签然后创建一个包含更详细文本的文本块我在资源字典中创建了以下样式
用于客户端存储和服务器端同步的javascript库[关闭]

Closed 这个问题正在寻求书籍工具软件库等的推荐不满足堆栈溢出指南 help closed questions 目前不接受答案我正在寻找一个 javascript 库它可以让我将数据存储在客户端数据库中并在后台自动将数据库同
从 csv 中读取 pandas 数据帧，以非固定标头开始

我有许多数据文件是由我的实验室中使用的一些相当黑客的脚本生成的该脚本非常有趣因为它在标头之前附加的行数因文件而异尽管它们具有相同的格式并具有相同的标头我正在编写一个批处理来将所有这些文件处理为数据帧如果我不知道位置如何让 pan

从 csv 中读取 pandas 数据帧，以非固定标头开始

从 csv 中读取 pandas 数据帧，以非固定标头开始 的相关文章

随机推荐

热门标签

从 csv 中读取 pandas 数据帧，以非固定标头开始的相关文章