如何避免读取 pandas.read_excel 中的空行

2024-02-25

我有一个包含一百万行的 Excel 工作表。只有前一百行左右有数据。其余行都是空的。 pandas.read_excel 内部使用 xlrd 来读取数据。反过来，xlrd 会读取整张纸并花费大量时间（大约 65 秒）。我尝试了下面的代码。但无法减少阅读时间。

df= pd.read_excel(file_path, sheetname=sheetname,nrows=1000, skiprows=1, header=None)

我的机器有 8GB RAM，运行 Windows 10 操作系统。我正在使用熊猫0.25.3

还有其他优化方案可以减少阅读时间吗？

keep_default_na=False参数可以减少读取时间并忽略 Excel 文件中的 NaN 值。

用法示例：

df = pd.read_excel('test.xlsx', keep_default_na=False)

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python3x

pandas

如何避免读取 pandas.read_excel 中的空行的相关文章

如果文件为空，如何跳过文件行

python 3中的程序这是我的第一个涉及文件的程序我需要忽略注释行以开头和空行然后拆分这些行以便它们可迭代但我不断收到 IndexError 消息指出字符串索引超出范围并且程序在空行处崩溃 import os path
将 Python 3.5 项目转换为 Jython - UnicodeDecodeError: 'unicodeescape' 编解码器无法解码位置 4-10 中的字节：非法 Unicode 字符

我的最终目的是将正在运行的 Python 项目转换为 Jython 解释器因为将添加一些 java API Details 最新的 Jython 是 2 7 我的项目可以使用 Python 3 5 运行所以我采取了以下方法第一件事是利
数据框 - 平均列

我在 pandas 中有以下数据框 Column 1 Column 2 Column3 Column 4 2 2 2 4 1 2 2 3 我正在创建一个数据框其中包含第 1 列和第 2 列第 3 列和第 4 列等的平均值 ColumnA
如何使用 matplotlib 在误差条图的尖端显示水平线？

我可以使用下面的代码生成误差条图代码生成的图表显示了代表错误的垂直线y 我希望在这些错误的尖端有水平线误差线但我不知道该怎么做 import numpy as np import matplotlib pyplot as plt x
如何在单元测试中模拟 subprocess.call

我使用的是 python 3 3 我必须测试一个使用的方法call来自 subprocess py I tried subprocess call MagicMock with patch subprocess call as TU cal
更改QLineEdit的ClearButton图标

我想在Windows 10 1909 64位上的Python 3 8和PyQt5 5 15 0 上更改我的QLineEdit的ClearButton图标稍后我想在Linux上运行代码我尝试应用此处找到的代码如何在 QLineEdit
如何从列表类别中对 pandas 数据框进行排序？

所以我在下面有这个数据集我想根据我的列表从名称列进行排序以及按 A 升序和按 B 降序排序 import pandas as pd import numpy as np df1 pd DataFrame from items A 1
jupyter 服务器 dfdata.to_clipboard 从远程到本地计算机。如何？

我有一个数据框说dfdata in a 在远程计算机上运行的 jupyter 服务器笔记本我想将远程计算机内存中的数据帧访问到本地计算机例如粘贴dfdata脱颖而出通常当笔记本服务器在本地运行时我这样做dfdata to clip
Spyder 未检测到导入的 python 文件中的更改

我正在使用 Spyder 3 2 4 Python 3 6 Spyder 不会检测导入的 python 文件中的更改例如测试2 py def func return 5 测试1 py import test2 a test2 func
如何修复 TypeError: G 必须是 'd' 矩阵？

目标尝试通过优化过程运行玩具数据集我遇到以下错误 TypeError Traceback most recent call last
如何使用 BeautifulSoup 从表中选择特定行？

So I have a question related to a previous question but I realized I needed to go one level more to get an 11 digit NDC
如何从下面的html中提取数据？

我想要从中提取数据的 Html 是 div class infoMessageInner p span class ng binding Fiber r best lld till adressen Tj nsterna kan du be
bs4 `next_sibling` VS `find_next_sibling`

我在使用时遇到困难next sibling 并且类似地与next element 如果用作属性我不会得到任何返回但如果用作find next sibling or find next 然后就可以了来自doc https www cru
仅将 pandas df 的前 N 行写入 csv

如何仅将前 N 行或从 P 到 Q 行从 pandas 数据帧写入 csv 而不首先对 df 进行子集化由于内存问题我无法对要导出的数据进行子集化我正在考虑一个逐行写入 csv 的函数谢谢 Use head https pandas
使用 Apache Beam python 创建 Google 云数据流模板时出现 RuntimeValueProviderError

我无法使用 python 3 7 暂存云数据流模板它在一个参数化参数上失败了apache beam error RuntimeValueProviderError RuntimeValueProvider option input typ
父子进程之间的通信

我正在尝试创建一个具有一个或多个子进程的 Python 3 程序父进程生成子进程然后继续处理自己的业务有时我想向特定的子进程发送一条消息由其捕获该消息并采取行动此外子进程在等待消息时需要处于非锁定状态它将运行自己的循环来维护服
如何结合pytube和tkinter标签来显示进度？

我正在编写从 youtube 下载歌曲的小程序使用 pytube 我想添加 python tkinter GUI 以在下载文件时显示百分比值现在当我执行代码时程序首先下载文件大约需要 60 秒然后才显示 100 的标签如果我希
Pandas 日期时间格式

是否可以用零后缀表示 pd to datetime 似乎零被删除了 print pd to datetime 2000 07 26 14 21 00 00000 format Y m d H M S f 结果是 2000 07 26 14
使用字典映射数据帧索引

为什么不df index map dict 工作就像df column name map dict 这是尝试使用index map的一个小例子 import pandas as pd df pd DataFrame one A 10 B 2
Pandas Merge (pd.merge) 如何设置索引和连接

我有两个 pandas 数据框 dfLeft 和 dfRight 以日期作为索引 dfLeft cusip factorL date 2012 01 03 XXXX 4 5 2012 01 03 YYYY 6 2 2012 01 04 XX

随机推荐

读取文件内容时出现奇怪的字符

我不确定出了什么问题 for line in open textfile r print line Output abcd 该文件是使用 textpad 使用 Unix EOL 和 UTF8 编码创建的现在它可以在 notepad 上使
屏幕阅读器无法读取 Firefox 中的 Aria-Live

我遇到一个问题屏幕阅读器无法读取 FireFox 中 aria live 部分中更改的文本这是一个简单的页面示例在 Chrome 中屏幕阅读器会读取更改而在 FireFox 中则不会 div div 难道我做错了什么除了人们在
MySQL查询选择过去N天的记录

我有一张桌子上面有date added列的格式为2014 09 30 20 39 17我有一个网页其中包含供用户使用的过滤器选项基本上我想使用变量来选择不同的日期范围如下所示 SELECT FROM table WHERE date
Pandas：如何将多索引数据帧与单个索引数据帧连接起来，以及自定义排序

我有一个 MultiIndex pandas DataFramedf multi like import pandas as pd df multi pd DataFrame A A1 0 234 2002 A A1 1 324 2550
添加角度为 10 的 swagger-UI

如何添加招摇的用户界面在你的角度应用程序中我已经多次搜索这个问题发现只有一个解决方案并且它是使用完成的swagger ui dist包但在最新版本的https www npmjs com package swagger ui告诉使用
NSTextField 优于 NSOpenGLView

我用 NSOpenGLView 创建了一个窗口将 openGL 内容渲染到其中我想向视图添加一些按钮和文本字段我可以使用界面生成器或代码添加 NSTextFields 和 NSButtons 但它们不会出现 NSOpenGLVie
如何修改Eclipse代码辅助中非活动行的颜色？

首先已经有类似的问题 https stackoverflow com questions 4402087 how to change the color of the currently selected line in a code a
如何强制安装软件包？

我正在尝试通过以下方式安装以下软件包composer https packagist org packages cartalyst sentry dev feature laravel 5 https packagist org packa
为什么 JAXB 2 RI 的 XJC 简单模式会更改集合名称？

JAXB简单绑定模式将集合名称修改为其复数版本例如附加数据变为附加数据有什么解决方案可以改变这种行为吗我需要一个与 XSD 字段名称相同的 Java 字段名称和方法名称我的绑定文件
忠实地保留已解析 XML 中的注释

我希望在操作 XML 时尽可能忠实地保留注释我设法保留了注释但内容正在被 XML 转义 usr bin env python add host to tomcat py import xml etree ElementTree as E
如何获取 Laravel 中已注册的路由路径列表？

我希望找到一种方法来创建一个包含 Laravel 4 中注册的路由路径的数组本质上我希望得到一个类似这样的列表 login join password 我确实遇到了一个方法Route getRoutes 它返回一个包含路由信息和资源的对
如何解决 RASA NLU 中未对齐的实体注释错误

我正在尝试将 LUIS 架构模型导入 RASA 并尝试使用 spacy scikit 管道对其进行训练我正在使用 RASA NLU v0 10 4 但是当我尝试加载 LUIS 模型架构时 ner crf 组件会抛出实体注释未对齐警告尽管
垂直滚动的整页背景图像

我正在尝试创建一个页面其中背景图像响应浏览器的屏幕尺寸但是我需要该图像下的内容这样如果该人向下滚动背景图像就会结束这很难解释所以我尝试创建一个图像以使其更清晰尝试这个Fiddle http jsfiddle net Uwt6
即使测试通过，鼻子测试跑步者也会显示日志记录

我在用nosetests test py运行单元测试 import unittest import logging class Test unittest TestCase def test pass self logging getLog
Twitter Bootstrap 导航栏的按钮可以左对齐吗？

我希望该按钮出现在移动设备上菜单的左侧 Twitter Bootstrap 可以实现这一点吗这是我的标记
如何使用 log4net 记录 Trace 消息？

我正在使用 log4net 将写入日志消息记录到滚动日志文件中现在我还将重定向所有跟踪消息System Diagnostics Trace到该日志文件我该如何配置呢我试图在 log4net 文档中找到任何相关内容但没有成功有可能吗
如何在 Python Shell 中换行？

在 IDLE 中假设我想用两行编写以下内容 x 3 print x 5 但是当我输入 x 3 并按 Enter 时它会执行分配如何让它在两行都输入后执行已阅读 Python 教程的第一页但没有回答这个有趣的问题 Use the
Django 按向后外键排序

我目前有以下型号 class ChatRoom models Model creator models ForeignKey User points to the initial user class Message models Mode
使用 Flash 或 Silverlight 进行语音识别

我正在开发一个网络用户界面来输入一些不是很复杂但需要实时加载的信息我认为该应用程序可以利用语音识别来促进任务该界面的核心是使用 Javascript 和 jQuery 构建的但可以轻松包含 flash 或 silverlight 组件
如何避免读取 pandas.read_excel 中的空行

我有一个包含一百万行的 Excel 工作表只有前一百行左右有数据其余行都是空的 pandas read excel 内部使用 xlrd 来读取数据反过来 xlrd 会读取整张纸并花费大量时间大约 65 秒我尝试了下面的代码但无法

如何避免读取 pandas.read_excel 中的空行

如何避免读取 pandas.read_excel 中的空行 的相关文章

随机推荐

热门标签

如何避免读取 pandas.read_excel 中的空行的相关文章