Python：使用 Openpyxl 读取大型 Excel 工作表

2024-04-02

我有一个 Excel 文件，其中包含大约 400 个工作表，其中 375 个工作表需要保存为 CSV 文件。我尝试过 VBA 解决方案，但 Excel 在打开此工作簿时遇到问题。

我创建了一个 python 脚本来做到这一点。然而，它会迅速消耗所有可用内存，并且在导出 25 张后几乎停止工作。有人对我如何改进这段代码有建议吗？

import openpyxl

import csv

import time

print(time.ctime())

importedfile = openpyxl.load_workbook(filename = "C:/Users/User/Desktop/Giant Workbook.xlsm", data_only = True, keep_vba = False)

tabnames = importedfile.get_sheet_names()

substring = "Keyword"

for num in tabnames:

    if num.find(substring) > -1:
        sheet=importedfile.get_sheet_by_name(num)        
        name = "C:/Users/User/Desktop/Test/" + num + ".csv"
        with open(name, 'w', newline='') as file:
            savefile = csv.writer(file)
            for i in sheet.rows:
                savefile.writerow([cell.value for cell in i])
        file.close()
print(time.ctime())

任何帮助，将不胜感激。

Thanks

编辑：我正在使用 Windows 7 和 python 3.4.3。我也愿意接受 R、VBA 或 SPSS 中的解决方案。

尝试使用read_only=True财产为load_workbook()类，这会导致您的工作表成为IterableWorksheet，这意味着您只能迭代它们：您不能直接使用列/行号来访问其中的单元格值。这将提供near constant memory consumption根据文档 http://openpyxl.readthedocs.org/en/latest/optimized.html .

另外，您不需要关闭file; the with声明会为你处理这个问题。

例子 -

import openpyxl

import csv

import time

print(time.ctime())

importedfile = openpyxl.load_workbook(filename = "C:/Users/User/Desktop/Giant Workbook.xlsm", read_only = True, keep_vba = False)

tabnames = importedfile.get_sheet_names()

substring = "Keyword"

for num in tabnames:

    if num.find(substring) > -1:
        sheet=importedfile.get_sheet_by_name(num)        
        name = "C:/Users/User/Desktop/Test/" + num + ".csv"
        with open(name, 'w', newline='') as file:
            savefile = csv.writer(file)
            for i in sheet.rows:
                savefile.writerow([cell.value for cell in i])
print(time.ctime())

From 文档 http://openpyxl.readthedocs.org/en/latest/optimized.html -

有时，您需要打开或写入非常大的 XLSX 文件，而 openpyxl 中的常见例程将无法处理该负载。幸运的是，有两种模式使您能够以（接近）恒定的内存消耗读取和写入无限量的数据。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

Excel

csv

Python：使用 Openpyxl 读取大型 Excel 工作表的相关文章

Django 营业时间

我想添加诊所的营业时间我已经对此进行了调查在 Django 中实现开放时间的任何现有解决方案 https stackoverflow com questions 8128143 any existing solution to imp
使用 keras 澄清 Yolo v3 模型输出

我将 yolo v3 模型与 keras 一起使用该网络为我提供了形状如下的输出容器 1 13 13 255 1 26 26 255 1 52 52 255 所以我找到了这个link https www cyberailab com ho
使用python编辑html，但是lxml将漂亮的html实体转换为奇怪的编码

我正在尝试使用 python 带有 pyquery 和 lxml 来更改和清理一些 html Eg html div p It 146 s a spicy meatball p div lxml html clean 函数 clean ht
Cypher Neo4j 无法加载外部资源

在 Windows 环境中我尝试加载带有以下语句的 csv 文件 LOAD CSV WITH HEADERS FROM file E Neo4j customers csv AS row 它似乎无法正常工作并返回无法加载外部资源文件
让 python 脚本打印到终端而不作为标准输出的一部分返回

我正在尝试编写一个返回值的 python 脚本然后我可以将其传递给 bash 脚本问题是我想要在 bash 中返回一个单一值但我想要一些东西一路打印到终端这是一个示例脚本我们称之为 return5 py usr bin env p
如何进行重定向并保留查询字符串？

我想进行重定向并保留查询字符串就像是self redirect加上发送的查询参数那可能吗 newurl my new route urllib urlencode self request params self redirect ne
如何同时有效地运行多个 Pytorch 进程/模型？ Traceback：分页文件太小，无法完成此操作

背景我有一个非常小的网络我想用不同的随机种子进行测试该网络几乎只使用了我的 GPU 计算能力的 1 因此理论上我可以同时运行 50 个进程来同时尝试许多不同的种子 Problem 不幸的是我什至无法在多个进程中导入 pytorch 当
在Python中，如何通过去掉括号和大括号来打印Json

我想以一种很好的方式打印 Json 我想去掉方括号引号和大括号只使用缩进和行尾来显示 json 的结构例如如果我有一个像这样的 Json A A1 1 A2 2 B B1 B11 B111 1 B112 2 B12 B121 1
matplotlib - 将文本包装在图例中

我目前正在尝试绘制一些pandas数据通过matplotlib seaborn 然而我的一个专栏标题特别长拉长了情节考虑以下示例 import random import pandas as pd import matplotlib p
Python SQLite3 SQL注入漏洞代码

我知道下面的代码片段由于 format 的原因很容易受到 SQL 注入的攻击但我不知道为什么有谁明白为什么这段代码容易受到攻击以及我从哪里开始修复它我知道这些代码片段使输入字段保持打开状态以便通过 SQL 注入执行其他恶意命令但不
关于具有自定义损失的 3 输出 ANN 的加权

我正在尝试定义一个自定义损失函数它在回归模型中接收 3 个输出变量 def custom loss y true y pred y true c K cast y true float32 Shape batch size 3 y pre
Python正则表达式替换引号中的文本（引号本身除外）

例如我有一个测试字符串 content I opened my mouth Good morning I said cheerfully 我想使用正则表达式删除双语音标记之间的文本但不删除语音标记本身所以它会返回 I opened m
Python：处理图像并保存到文件流

我需要使用 python 处理图像应用过滤器和其他转换然后使用 HTTP 将其提供给用户现在我正在使用 BaseHTTPServer 和 PIL 问题是 PIL 无法直接写入文件流因此我必须写入临时文件然后读取该文件以便将其发
哈希 freezeset 与排序元组

在 Python 中给定一组可比较的可散列的元素s 散列是否更好frozenset s or tuple sorted s 这取决于你在做什么创建一个更快frozenset 比排序tuple but frozenset占用的内存比tu
Python：如何“杀死”类实例/对象？

我希望 Roach 类在达到一定量的饥饿时死亡但我不知道如何删除该实例我的术语可能有误但我的意思是窗户上有大量蟑螂我希望特定的蟑螂完全消失我会向您展示代码但它很长我将蟑螂类添加到策划者类蟑螂种群列表中一般来说每个
如何读取多个文件并将它们合并到一个 pandas 数据框中？

我想读取位于同一目录中的多个文件然后将它们合并到一个 pandas 数据框中如果我这样做的话它会起作用 import pandas as pd df1 pd read csv data 12015 csv df2 pd read csv
如何在 Jupyter Notebook 中选择 conda 环境

我安装了 Anaconda 5 3 和 Python 3 7 根环境之后我使用 Python 3 6 创建了一个新环境 py36 我激活了新环境activate py36 conda env list表明环境是活跃的但是当我启动 Jup
model.predict() 返回类而不是概率

Hello 我是第一次使用 Keras 我训练并保存了一个模型作为 json 文件及其权重该模型旨在将图像分为 3 个类别我的编译方法 model compile loss categorical crossentropy optim
如何使用 Matplotlib 可视化标量二维数据？

所以我有一个网格网格矩阵 X 和 Y 以及标量数据矩阵 Z 我需要将其可视化最好是一些 2D 图像在各点处带有颜色显示 Z 值我做了一些研究但没有找到任何能完全满足我想要的效果的东西 pyplot imshow Z 看起来不错
如何从 Pandas 数据框函数调用中回顾之前的行？

我正在研究回测交易系统我有一个包含 OHLC 数据的 Pandas 数据框并添加了几个计算列 https stackoverflow com questions 12376863 adding calculated columns t

随机推荐

Flutter 在编译发布时是否会删除调试模式代码？

我想知道将密码直接放在 Dart 代码中是否安全如下所示 Flutter在编译发布时会删除代码吗当然我想确保代码无法被反编译以便可以提取用户名和密码 bool get isInDebugMode bool inDebugMode f
如何从 JavaScript 中完全禁用键盘快捷键

我正在使用 Phaser 2 2 2 开发打字游戏有一个方法叫做 game input keyboard addKeyCapture array of keycodes 这适用于空格无页面滚动点逗号破折号破折号导致一个网页向后但
具有多个边界的类型参数

此代码编译 import java io Serializable import java util Arrays class Test
JQuery 垃圾收集 - 这会干净吗？

许多文章例如msdn http msdn microsoft com en us library dd361842 28VS 85 29 aspx 已经说过当涉及到循环引用时在某些浏览器中无法清除循环引用DOM对象和一个JS obje
WinForms C# 中自定义对象类型的跨进程拖放

这个问题 https stackoverflow com questions 1213074 winforms interop drag drop from winforms wpf与我感兴趣的内容很接近但又不完全是我有一个用 C 编写
在 Tornadoweb 中禁用模板处理

我必须使用 Tornado Web 作为我们现有 AngularJs 应用程序的 RESTful 后端在 Angular 应用程序中大量使用我想将龙卷风的角度文件作为静态文件提供有没有办法禁用tornado的处理模板以避免与torna
Ruby on Rails 中的延迟作业如何工作？

我对此很陌生对延迟工作的工作原理不太困惑我知道它会创建一个表并将作业放入表中然后我需要运行 rake jobs work 启动后台进程现在我的问题是 DJ 脚本是否每分钟检查一次表当时间与 job at 时间匹配时它会运行该作业
删除与模型关联的文件 - django

我的一个模型中有以下代码 class PostImage models Model post models ForeignKey Post related name images figure out a way to have image
Xamarin.Android 绑定无效操作码

最近收到一个新的 Android SDK aar 来绑定在 Xamarin 中最初开始绑定时我收到错误 COMPILETODALVIK Uncaught translation error com android dx cf code
如何解析xsd:dateTime格式？

xsd dateTime 类型的值可以有多种形式如描述于RELAX NG http books xmlschemata org relaxng ch19 77049 html 如何将所有表单解析为时间或日期时间对象它实际上是一种非常受限
如何通过我自己的模板使用内置密码重置/更改视图

例如我可以指出url accounts password reset to django contrib auth views password reset在上下文中使用我的模板文件名但我认为需要发送更多上下文详细信息我需要确切地知道为
使用python打印月份和日期

我试图在 python 中仅打印月份和日期如下所示 09 December 08 October 我怎么能这么做呢 Try this import datetime now datetime datetime now print now
命令行参数 - 所需对象：'objshell.NameSpace(...)'

我正在编写一个脚本该脚本将利用 Windows 的内置功能来解压缩提供的 zip 文件我对 vbscript 还很陌生所以有些语法让我有点困惑我正在使用一些现有代码并尝试修改它以便它将采用命令行选项作为文件名如果我使用命令行传递
仅向一个应用程序发送广播意图，而不使用显式意图

我有个问题我正在做一个外部 android 服务应用程序可以注册它来接收信息信息通过广播从服务返回到应用程序并通过broadcastReceiver 问题是如果我这样做sendBroadcast 任何应用程序都可以监听其他应用程序的
结构末尾的大小为 0 的数组[重复]

这个问题在这里已经有答案了我正在学习的系统编程课程的教授今天告诉我们要定义一个末尾带有零长度数组的结构体 struct array size t size int data 0 typedef struct array array 这是一
极长工作流程的 Cucumber 场景

我们需要为一个功能测试一个漫长的步骤过程从登录到许多模式对话框多步骤表单以及不同角色的用户都在交互我们如何将这个过程的各个部分分解为单独的场景这是一个例子 Scenario New Manuscript Given I am on
如何获取用户当前在 Spotify 应用程序中收听的内容的信息 [关闭]

Closed 这个问题需要多问focused help closed questions 目前不接受答案 Android 应用程序在后台运行并使用 Spotify SDK 能否获取用户当前在 Spotify Android 应用程序中收听
是否有复杂的 Java WorkQueue API？

我正在寻找具有以下功能的 WorkQueue API java util Queue兼容的优惠可选集合语义单处理和批处理并发当然调度 different processing policies 等到下一次计划执行如果批量大小
PowerPivot 中的滚动 12 个月总和

在 PowerPivot Excel 2016 中我编写了滚动 12 个月销售额总和的公式如下所示 Rolling Sum CALCULATE Sales DATESBETWEEN Sales Date FIRSTDATE DATEAD
Python：使用 Openpyxl 读取大型 Excel 工作表

我有一个 Excel 文件其中包含大约 400 个工作表其中 375 个工作表需要保存为 CSV 文件我尝试过 VBA 解决方案但 Excel 在打开此工作簿时遇到问题我创建了一个 python 脚本来做到这一点然而它会迅速消

Python：使用 Openpyxl 读取大型 Excel 工作表

Python：使用 Openpyxl 读取大型 Excel 工作表 的相关文章

随机推荐

热门标签

Python：使用 Openpyxl 读取大型 Excel 工作表的相关文章