如何在 Python 中将读取的大型 csv 文件分割成大小均匀的块？

2024-01-05

基本上我有下一个过程。

import csv
reader = csv.reader(open('huge_file.csv', 'rb'))

for line in reader:
    process_line(line)

看这个相关question https://stackoverflow.com/questions/312443/how-do-you-split-a-list-into-evenly-sized-chunks-in-python。我想每100行发送一次流程线，以实现批量分片。

实现相关答案的问题是 csv 对象是不可订阅的并且不能使用 len。

>>> import csv
>>> reader = csv.reader(open('dataimport/tests/financial_sample.csv', 'rb'))
>>> len(reader)
Traceback (most recent call last):
  File "<stdin>", line 1, in <module>
TypeError: object of type '_csv.reader' has no len()
>>> reader[10:]
Traceback (most recent call last):
  File "<stdin>", line 1, in <module>
TypeError: '_csv.reader' object is unsubscriptable
>>> reader[10]
Traceback (most recent call last):
  File "<stdin>", line 1, in <module>
TypeError: '_csv.reader' object is unsubscriptable

我该如何解决这个问题？

只需让你的reader通过将其包装成可下标list。显然，这会破坏非常大的文件（请参阅Updates below):

>>> reader = csv.reader(open('big.csv', 'rb'))
>>> lines = list(reader)
>>> print lines[:100]
...

进一步阅读：如何在 Python 中将列表分割成大小均匀的块？ https://stackoverflow.com/questions/312443/how-do-you-split-a-list-into-evenly-sized-chunks-in-python

Update 1（列表版本）：另一种可能的方法是在迭代行时处理每个卡盘：

#!/usr/bin/env python

import csv
reader = csv.reader(open('4956984.csv', 'rb'))

chunk, chunksize = [], 100

def process_chunk(chuck):
    print len(chuck)
    # do something useful ...

for i, line in enumerate(reader):
    if (i % chunksize == 0 and i > 0):
        process_chunk(chunk)
        del chunk[:]  # or: chunk = []
    chunk.append(line)

# process the remainder
process_chunk(chunk)

Update 2（生成器版本）：我还没有对它进行基准测试，但也许你可以通过使用块来提高性能发电机:

#!/usr/bin/env python

import csv
reader = csv.reader(open('4956984.csv', 'rb'))

def gen_chunks(reader, chunksize=100):
    """ 
    Chunk generator. Take a CSV `reader` and yield
    `chunksize` sized slices. 
    """
    chunk = []
    for i, line in enumerate(reader):
        if (i % chunksize == 0 and i > 0):
            yield chunk
            del chunk[:]  # or: chunk = []
        chunk.append(line)
    yield chunk

for chunk in gen_chunks(reader):
    print chunk # process chunk

# test gen_chunk on some dummy sequence:
for chunk in gen_chunks(range(10), chunksize=3):
    print chunk # process chunk

# => yields
# [0, 1, 2]
# [3, 4, 5]
# [6, 7, 8]
# [9]

有一个小问题，如@totalhack https://stackoverflow.com/users/10682164/totalhack 指出 https://stackoverflow.com/questions/4956984/how-do-you-split-reading-a-large-csv-file-into-evenly-sized-chunks-in-python/4957046?noredirect=1#comment103177531_4957046:

请注意，这会一遍又一遍地产生具有不同内容的同一对象。如果您计划对每次迭代之间的块执行所需的所有操作，那么这种方法效果很好。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

如何在 Python 中将读取的大型 csv 文件分割成大小均匀的块？的相关文章

Keras ZeroDivisionError：整数除法或以零为模

我正在尝试使用 Keras 和 Tensorflow 实现卷积神经网络我有以下代码 from keras models import Sequential from keras layers import Conv2D MaxPoolin
为什么 pandas 在简单的数学运算上比 numpy 更快？

最近我观察到 pandas 的乘法速度更快我在下面的例子中向您展示了这一点如此简单的操作怎么可能做到这一点这怎么可能呢 pandas 数据帧中的底层数据容器是 numpy 数组测量我使用形状为 10k 10k 的数组数据框 i
区分大小写的实体识别

我的关键字全部以小写形式存储例如折扣耐克鞋我正在尝试对其执行实体提取我遇到的问题是 spaCy 在 NER 方面似乎区分大小写请注意我不认为这是 spaCy 特有的当我跑步时 doc nlp u i love nike sho
在推送到容器注册表之前如何对构建的映像运行测试？

从 gitlab 文档中可以看出如何使用 kaniko 创建 docker 镜像 build stage build image name gcr io kaniko project executor debug entrypoint sc
minAreaRect OpenCV 返回的裁剪矩形 [Python]

minAreaRectOpenCV 中返回一个旋转的矩形如何裁剪矩形内图像的这部分 boxPoints返回旋转矩形的角点的坐标以便可以通过循环框内的点来访问像素但是在 Python 中是否有更快的裁剪方法 EDIT See code在
如何使用我自己的自定义表单覆盖 django-rest-auth 中的表单？

我正在使用 django rest auth 并尝试通过覆盖表单的方法之一来修复密码重置视图中的错误尽管我已经使用不同的 django rest auth 表单成功完成了类似的操作但我无法让它在这个表单上工作无论我做什么都会使用旧的
如何在seaborn热图标签中使用科学计数法？

我正在尝试在 python 中使用seaborn 获取热图不幸的是即使数字非常大它也没有使用科学记数法我想知道是否有任何简单的方法可以转换为科学记数法或任何其他合理的格式这是显示问题的一段代码 import seaborn as
绝对导入不起作用，但相对导入起作用

这是我的应用程序结构 foodo setup py foodo init py foodo py models py foodo foodo foodo py从导入类models py module from foodo models im
如何使用 python、openCV 计算图像中的行数

我想数纸张所以我正在考虑使用线条检测我尝试过一些方法例如Canny HoughLines and FLD 但我只得到处理过的照片我不知道如何计算有一些小线段就是我们想要的线我用过len lines or len contours
检查子字符串是否在字符串列表中？

我之前已经找到了这个问题的一些答案但它们对于当前的Python版本来说似乎已经过时了或者至少它们对我不起作用我想检查字符串列表中是否包含子字符串我只需要布尔结果我找到了这个解决方案 word to check or wordlis
从字典中绘制直方图

我创建了一个dictionary计算 a 中出现的次数list每个键的内容我现在想绘制其内容的直方图这是我想要绘制的字典的内容 1 27 34 1 3 72 4 62 5 33 6 36 7 20 8 12 9 9 10 6 11 5
Python sys.modules 包含尚未导入的模块

我试图了解加载的模块与导入的模块之间的区别如果有的话我正在使用 Python 2 7 3 并且只是从命令行运行 Python 如果我执行 import sys sys modules 我得到一个列表其中包括os 例如文档说sys m
如何全局安装 Python（开发）依赖项，以便我不必在每个 venv 中重新安装它们？

我希望在为每个项目创建的每个 venv 虚拟环境中都可以使用一些 Python 依赖项例如 black flake8 和 pytest 这可能吗如果可以如何实现我想安装这三个once在我的主要 Python 安装下我必须在启动新
如何处理 Tkinter 中的窗口关闭事件？

如何在 Python Tkinter 程序中处理窗口关闭事件用户单击 X 按钮 Tkinter 支持一种称为协议处理程序 http web archive org web 20201111215134 http effbot org tk
有没有办法拉伸整个显示图像以适应给定的分辨率？

我最近一直在使用pygame制作游戏遇到了一个小问题基本上我希望能够将屏幕上的整个图像我已经传输到它的所有内容拉伸到用户将窗口大小调整到的分辨率我在 pygame 和堆栈溢出的文档中搜索了很多但我似乎找不到答案这可能吗我的
旧版本的 spaCy 在尝试安装模型时抛出“KeyError: 'package'”错误

我在 Ubuntu 14 04 4 LTS x64 上使用 spaCy 1 6 0 和 python3 5 为了安装 spaCy 的英文版本我尝试运行这给了我错误消息 ubun ner 3 NeuroNER master src pyt
使用 Numpy 进行多维批量图像卷积

在图像处理和分类网络中一个常见的任务是输入图像与一些固定滤波器的卷积或互相关例如在卷积神经网络 CNN 中这是一种极其常见的操作我已将通用版本任务减少为 Given 一批 N 个图像 N H W D 和一组 K 个滤镜 K H W
如何在 Qt 中以编程方式制作一条水平线

我想弄清楚如何在 Qt 中制作一条水平线这很容易在设计器中创建但我想以编程方式创建一个我已经做了一些谷歌搜索并查看了 ui 文件中的 xml 但无法弄清楚任何内容 ui 文件中的 xml 如下所示
OSError: [WinError 193] %1 不是有效的 Win32 应用程序，同时使用 CTypes 在 python 中读取自定义 DLL

我正在尝试编写用 python 封装 C 库的代码我计划使用 CTypes 来完成此操作并使用 Visual Studio 来编译我的 DLL 我从一个简单的函数开始在 Visual Studio 内的标头中添加了以下内容然后将其构
正则表达式 - 匹配不包含字符串的模式

我对正则表达式很陌生并且一直在寻找方法来做到这一点但没有成功给定一个字符串我想删除以 abc 开头以 abc 结尾且中间不包含 abc 的任何模式如果我做 abc abc abc 它将匹配以 b 开头以 abc 结尾并且中间包

随机推荐

MATLAB 图形在插入 LaTeX 时不具有相同的大小（尽管使用相同的代码生成）

我正在 MATLAB 中生成一些图形并尝试将它们插入到 LaTeX 中然而当我这样做时它们通常没有相同的大小尽管我使用相同的设置来生成它们例如我当前使用的 MATLAB 代码是这个 lsize 16 Label fontsiz
如何使用“kubectl patch --type='json'”更新秘密

我创建了一个这样的秘密 kubectl create secret generic test from literal username testuser from literal password 12345 我想将用户名更新为testu
如何为 msbuild.exe 指定其他包含目录

我正在尝试安装 nodejs 模块 ibm db 我遇到的问题是为了安装此模块 node gyp 需要使用 msbuild 构建它但它不会检测我已安装的一些头文件如何将附加头文件的目录添加到某个路径以便 msbuild exe 在尝
识别字符串中的特殊非字母数字字符

我正在研究密码验证该验证应该只允许 a z 0 9 和这些字符 lt gt 我尝试使用正则表达式但我不太擅长使用它们而且我不确定这是否可能或者我是否没有转义正确的字符 var allowedCharacters A Za Z0 9
VTKCamera焦点和位置的差异

我正在使用 vtkCamera 并尝试移动它并使其看起来在某个点例如如果我想把相机放在 x y z 并让它看看 0 0 0 例如使用 openGL 中的 gluLookAt 我们会将眼睛坐标设置为 x y z 和中心坐标 0 0 0
Angular 6服务注入Interceptor后未定义

我找不到任何方法来注入我的认证服务 inside 错误处理拦截器它返回给我一个不明确的注入后的对象否则会抛出错误这是我的错误处理拦截器 import Injectable from angular core import Auth
为列表列表中的每个列表创建单独的 Counter() 对象和 Pandas DataFrame

我能找到的所有其他答案都专门提到了在列表列表中聚合所有嵌套列表而我希望为每个列表单独聚合我目前有一个列表列表 master list a a b b b c c c d d d a a a c c c c c c a a f f f 我
Netbeans 中的 Arduino（处理）库和控制

我正在尝试控制 4 个 LED 并从 4 个触点获取模拟输入该程序是用java编写的因此要访问arduino的功能例如AnalogRead 和将LED设置为高或低导入处理库可以让程序使用这些功能吗我还想知道如果程序会自行传输到a
Durandal 登录页面重定向模式

TL DR要求用户登录才能查看 Durandal 单页面应用程序 SPA 中的某些页面的好模式是什么我需要一个系统如果用户尝试导航到需要登录的页面他们会被重定向到登录页面在此登录页面上成功进行身份验证后我希望应用程序将它们重定向
XSLT 默认模板混淆

我对 XSLT 处理器节点的方式感到困惑假设我有一个像这样的 XML 文档
将大数据写入套接字时最小化副本

我正在编写一个处理图像大数据的应用程序服务器在将图像数据发送回客户端时我试图尽量减少副本我需要发送给客户端的处理后的图像位于从 jemalloc 获得的缓冲区中我想到的将数据发送回客户端的方式是 1 简单的写调用 Allocat
由于表已存在而无法插入表中？

我有一个用户表我想将数据插入到我的用户表中我有一个声明 SELECT columna columnb INTO my table FROM my other table WHERE conditions 我收到以下错误 SQL Serv
在 Ruby 中，我可以在不使用正则表达式的情况下检查字符串是否包含字母吗？

我正在使用 Rails 5 我想知道一个变量您可以假设它是一个字符串是否至少包含一个字母大写或小写但是我不想使用正则表达式我注意到如果编码不是 UTF 8 正则表达式往往会崩溃所以我想知道如何检查字符串是否至少有一个字母这不
从 Eclipse 3.3 升级到 3.4（或未来版本）的最佳方法是什么

过去我在从 Eclipse 版本升级到另一个版本时遇到过问题我想知道 StackOverflow 上的 Eclipse 用户如何处理 Eclipse 版本之间的升级使用发行版是解决方案吗停留在过去的释放点直到被迫前进这是一个好主意
捕获 OutOfMemoryException 使调试变得困难

当我调试程序并尝试在立即窗口中执行某些操作时有时会在立即窗口中显示一条错误消息由于内存不足函数评估被禁用例外它还显示当通过将鼠标悬停在对象上来查看对象的属性时在尝试找到问题的原因后我将其范围缩小到这个小代码示例 using
32 小时前不包括周末 php

所以我有一个脚本可以对 32 48 和 72 小时前进行多次检查基本上我会检查数据库中至少 x 小时前的条目现在效果很好如下所示 date date Y m d H i s strtotime 32 hours q SELECT FR
如何将MySQL表中的数据获取到Java JTable中？

我正在开发 Java 项目我需要将一组特定的数据加载到JTable 有人可以向我解释如何做到这一点吗这些是我在名为 order processing 的数据库中的 mrnform 表中的字段 Date varchar 10 NOT NU
如何设置 Windows 计划任务在后台运行？ [关闭]

Closed 这个问题是无关 help closed questions 目前不接受答案有谁知道如何使用 Windows 任务计划程序设置计划任务在后台运行似乎没有任何选择可以做到这一点 As noted https stackover
尝试从安全站点生成 Web 服务客户端时出现奇怪的证书错误

当尝试使用 AXIS1 4 Wsdl2Java 工具为安装在安全 IIS 站点上的 Web 服务生成客户端代码时我收到一个奇怪的错误当我运行该工具时出现以下 SSL 异常 javax net ssl SSLHandshakeExcep
如何在 Python 中将读取的大型 csv 文件分割成大小均匀的块？

基本上我有下一个过程 import csv reader csv reader open huge file csv rb for line in reader process line line 看这个相关question https s

如何在 Python 中将读取的大型 csv 文件分割成大小均匀的块？

如何在 Python 中将读取的大型 csv 文件分割成大小均匀的块？ 的相关文章

随机推荐

热门标签

如何在 Python 中将读取的大型 csv 文件分割成大小均匀的块？的相关文章