我有一个包含一百万行的 Excel 工作表。只有前一百行左右有数据。其余行都是空的。 pandas.read_excel 内部使用 xlrd 来读取数据。反过来,xlrd 会读取整张纸并花费大量时间(大约 65 秒)。我尝试了下面的代码。但无法减少阅读时间。
df= pd.read_excel(file_path, sheetname=sheetname,nrows=1000, skiprows=1, header=None)
我的机器有 8GB RAM,运行 Windows 10 操作系统。
我正在使用熊猫0.25.3
还有其他优化方案可以减少阅读时间吗?
keep_default_na=False
参数可以减少读取时间并忽略 Excel 文件中的 NaN 值。
用法示例:
df = pd.read_excel('test.xlsx', keep_default_na=False)
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)