在python中读取大csv文件的行

2024-01-11

我有一个非常大的 csv 文件，无法完全加载到内存中。所以我想一块一块地读取它，将其转换为numpy数组，然后再做一些处理。

我已经检查过了：在Python中读取大文件的惰性方法？ https://stackoverflow.com/questions/519633/lazy-method-for-reading-big-file-in-python

但这里的问题是它是一个普通的阅读器，我无法在 csvReader 中找到任何指定大小的选项。

另外，因为我想将行转换为 numpy 数组，所以我不想将任何行读成两半，所以我不想指定大小，而是想要一些可以在阅读器中指定“行数”的东西。

是否有任何内置功能或简单的方法可以做到这一点。

The csv.reader https://docs.python.org/2/library/csv.html#csv.reader不会将整个文件读入内存。当您迭代文件时，它会逐行懒惰地迭代文件reader目的。所以你可以只使用reader像平常一样，但是break无论您想阅读多少行，都可以从迭代中开始。您可以在用于实现的 C 代码reader object http://hg.python.org/cpython/file/7a1737033a23/Modules/_csv.c.

Initializer for the reader objecT:
static PyObject *
csv_reader(PyObject *module, PyObject *args, PyObject *keyword_args)
{
    PyObject * iterator, * dialect = NULL;
    ReaderObj * self = PyObject_GC_New(ReaderObj, &Reader_Type);

    if (!self)
        return NULL;

    self->dialect = NULL;
    self->fields = NULL;
    self->input_iter = NULL;
    self->field = NULL;
    // stuff we dont care about here
    // ...
    self->input_iter = PyObject_GetIter(iterator);  // here we save the iterator (file object) we passed in
    if (self->input_iter == NULL) {
        PyErr_SetString(PyExc_TypeError,
                        "argument 1 must be an iterator");
        Py_DECREF(self);
        return NULL;
    }

static PyObject *
Reader_iternext(ReaderObj *self)  // This is what gets called when you call `next(reader_obj)` (which is what a for loop does internally)
{
    PyObject *fields = NULL;
    Py_UCS4 c;
    Py_ssize_t pos, linelen;
    unsigned int kind;
    void *data;
    PyObject *lineobj;

    if (parse_reset(self) < 0)
        return NULL;
    do {
        lineobj = PyIter_Next(self->input_iter);  // Equivalent to calling `next(input_iter)`
        if (lineobj == NULL) {
            /* End of input OR exception */
            if (!PyErr_Occurred() && (self->field_len != 0 ||
                                      self->state == IN_QUOTED_FIELD)) {
                if (self->dialect->strict)
                    PyErr_SetString(_csvstate_global->error_obj,
                                    "unexpected end of data");
                else if (parse_save_field(self) >= 0)
                    break;
            }
            return NULL;
        }

如你看到的，next(reader_object) calls next(file_object)内部。因此，您将逐行迭代两者，而不将整个内容读入内存。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

在python中读取大csv文件的行的相关文章

Tkinter：消息小部件中锚点选项的正确值是多少？

我一直在学习 tkinterTkinter 中的消息小部件 https python course eu tkinter message widget in tkinter php at Python 课程和教程 https python
如何指定聚类的距离函数？

我想对给定距离的点进行聚类奇怪的是似乎 scipy 和 sklearn 聚类方法都不允许指定距离函数例如在sklearn cluster AgglomerativeClustering 我唯一可以做的就是输入一个亲和力矩阵这将非常
LibreOffice 并行将 .docx 转换为 .pdf 效果不佳

我有很多 docx 文件需要转换为 pdf 将它们一一转换需要很长时间所以我编写了一个 python 脚本来并行转换它们 from subprocess import Popen import time import os os chdi
使用 pandas.date_range() 生成多个日期时间，每周两个日期

我在用着pd date range start date end date freq W MON 每周一生成每周频率日期时间start date 2017 01 01 and end date 2017 12 31 这意味着每月大约生成 4
定义Python源代码编码的正确方法

PEP 263 http www python org dev peps pep 0263 定义如何声明Python源代码编码通常 Python 文件的前两行应以以下内容开头 usr bin python coding
如何在python中附加两个字节？

说你有b x04 and b x00 你如何将它们组合起来b x0400 使用Python 3 gt gt gt a b x04 gt gt gt b b x00 gt gt gt a b b x04 x00
数据框 - 平均列

我在 pandas 中有以下数据框 Column 1 Column 2 Column3 Column 4 2 2 2 4 1 2 2 3 我正在创建一个数据框其中包含第 1 列和第 2 列第 3 列和第 4 列等的平均值 ColumnA
使用 Python 3 动态插入到 sqlite

我想使用 sqlite 写入多个表但我不想提前手动指定查询有数十种可能的排列例如 def insert sqlite tablename data list global dbc dbc execute insert into tab
python celery -A 的无效值无法加载应用程序

我有一个以下项目目录 azima init py main py tasks py task py from main import app app task def add x y return x y app task def mul
如何使用 opencv python 计算乐高积木上的孔数？

我正在开发我的 python 项目我需要计算每个乐高积木组件中有多少个孔我将从输入 json 文件中获取有关需要计算哪个程序集的信息如下所示 img 001 red 0 blue 2 white 1 grey 1 yellow 1 r
如何在 Python 中的函数入口、内部和退出处进行日志记录

我希望能够使用 Python 日志记录工具在我的代码中进行简单且一致的日志记录我能够执行以下操作我希望所有现有未来的模块和函数都有输入和完成日志消息我不想添加相同的代码片段来定义日志记录参数如下所示don t want t
在 Mac OS X 上安装 libxml2 时出现问题

我正在尝试在我的 Mac 操作系统 10 6 4 上安装 libxml2 我实际上正在尝试在 Python 中运行 Scrapy 脚本这需要我安装 Twisted Zope 现在还需要安装 libxml2 我已经下载了最新版本 2 7 7
如何在 Django Rest 框架中编写“删除”操作的测试

我正在为 Django Rest Framework API 编写测试我一直在测试删除我对创建的测试工作正常这是我的测试代码 import json from django urls import reverse from re
Python 2 的 `exceptions` 模块在 Python3 中丢失了，它的内容到哪里去了？

一位朋友提到对于 Python 2 假设您在命令行上的路径环境变量中有它 pydoc exceptions 非常有用知道它应该可以为他每周节省几分钟的网络查找时间我自己每周都会用谷歌搜索一次例外层次结构所以这对我来说也是一个有用的提
Flask 应用程序路由中的多个参数

烧瓶怎么写app route如果我在 URL 调用中有多个参数这是我从 AJax 调用的 URL http 0 0 0 0 8888 createcm summary VVV change Feauure 我试图写我的烧瓶app rout
如何从列表类别中对 pandas 数据框进行排序？

所以我在下面有这个数据集我想根据我的列表从名称列进行排序以及按 A 升序和按 B 降序排序 import pandas as pd import numpy as np df1 pd DataFrame from items A 1
Python守护进程：保持日志记录

我有一个将一些数据记录到磁盘的脚本 logging basicConfig filename davis debug log level logging DEBUG logging basicConfig filename davis er
仅允许正小数

在我的 Django 模型中我创建了一个如下所示的小数字段 price models DecimalField u Price decimal places 2 max digits 12 显然价格为负或零是没有意义的有没有办法将小数
Python 中的 Unix cat 函数 (cat * > merged.txt)？ [复制]

这个问题在这里已经有答案了一旦建立了目录有没有办法在Python中使用Unix中的cat函数或类似的函数我想将 files 1 3 合并到 merged txt 我通常会在 Unix 中找到该目录然后运行 cat gt merged
描述符“join”需要“unicode”对象，但收到“str”

代码改编自here http wiki geany org howtos convert camelcase from foo bar to Foo Bar def lower case underscore to camel case s

随机推荐

如何将树的结果传递或通过管道传输到Powershell？

如何通过文件数组找到tree 有人居住吗 posh gt posh gt tree Get Item Directory home nicholas powershell Mode LastWriteTime Length Name d 2
css 文件中字体的相对文件路径

我有一个在标题中引用的样式表除了以下特定代码之外所有 css 都可以在其中运行 font face font family icomoon src url fonts icomoon eot hsw0h3 src url fonts i
NSDateFormatter 具有自定义格式的相对日期格式

所以我的目的是列出如下所示的日期 Today August 28 Tomorrow August 29 Friday August 30 etc 问题是我似乎只能如此接近 When I setDoesRelativeDateFormatti
Google_Service_OAuth2 是 PHP 中的“未定义类型”

我正在尝试使用 Google Sign in 登录但它显示 Google Service OAuth2 为未定义类型我找到了这个堆栈帖子 Google Service Oauth2 未定义 https stackoverflow com
Spark 中的分区和分桶有什么区别？

我尝试优化两个 Spark 数据帧之间的联接查询我们称它们为 df1 df2 在公共列 SaleId 上联接 df1非常小 5M 所以我在spark集群的节点之间广播它 df2 非常大 200M 行所以我尝试通过 SaleId 对其进行
BERT 中 NER 的正确格式化数据应该是什么样子？

我正在使用 Huggingface 的transformers库并希望使用 BERT 执行 NER 我试图找到一个明确的示例说明如何使用 BERT 正确格式化 NER 的数据从我发现的论文和评论中我并不完全清楚假设我们有以下句子和标
修改C++函数中指针指向的位置

我一直在修改指针的指针上陷入困境问题是我不明白为什么我的代码有效我想做的是修改函数中指针指向的位置然后在我的主函数中访问该值我尝试了很多次这是我让它发挥作用的唯一方法 include
Hadoop Nodemanager 和 Resourcemanager 未启动

我正在尝试在 Ubuntu 13 10 64 位上设置最新的 Hadoop 2 2 单节点集群操作系统是全新安装的我尝试过使用 java 6 64 位和 java 7 64 位按照以下步骤操作后this http raseshmori
PHP - Strtotime - 添加时间

我有这个变量 timestamp strftime Y m d h M S a time 我只是想增加三个小时并重复它我已经看到了可以执行 60 60 3 方法或硬编码 3 小时的方法它可以理解这些单词获得这个结果的最佳方法是什么
在 ASP.NET Web API 控制器的 nunit 测试中实例化新的 System.Web.Http.OData.Query.ODataQueryOptions

我有一个 ASP NET MVC4 Web API 项目其中包含 ApiController 继承控制器该控制器接受 ODataQueryOptions 参数作为其输入之一我正在使用 NUnit 和 Moq 来测试该项目这使我能够从
midi 文件解析，无法识别的事件类型

我在尝试解析 MIDI 文件时遇到问题我正在尝试解析 frets on fire 游戏使用的注释文件它只使用 midi 文件所以我认为这无关紧要如果你们中的任何人熟悉它我遇到的问题是一般的 midi 问题我有一个文件其中有一个
我需要一个不会弄乱我打开的窗口的消息泵

我的应用程序我正在开发的安装程序的引导应用程序需要启动一些其他应用程序我的安装程序和满足安装程序先决条件的第三方安装程序并等待它们完成为了允许 GUI 进行屏幕更新在等待应用程序完成时我使用有关空闲循环处理的 Visual St
Node.js 在 for 循环中调用回调函数

我试图在 a 中调用一个函数for循环问题是该函数在循环完成后被调用以下面为例它打印到控制台 here1 here1 here2 here2 代替 here1 here2 here1 here2 report forEach item
LINQ Lambda 连接错误 - 无法从使用情况推断

我在加入两个 DbSet 时遇到问题并继续收到无法推断错误我努力寻找解决方案所以我想我会分享我的简单答案乔恩斯基特 Jon Skeet 和其他人发表了几篇很棒的帖子但大多数答案都超出了我的理解范围这是给我带来麻烦的代码 us
Rails 在新控制器中结合 RESTful 方法

我有一个 Rails 应用程序其中users create projects 目前这些是嵌套的并作为单独的操作完成 Auser寄存器然后从project仪表板创建一个新的project 为了提高转化率以及跟踪来自 adwords
PySpark - 将单个整数列表与列表列进行比较

我正在尝试检查 Spark 数据帧带有列表的列中的哪些条目包含给定列表中最大数量的值我想出的最好的方法是迭代数据框rdd foreach 并使用 python 比较给定列表与每个条目set1 intersection set2 我的问
??空合并运算符 --> 合并是什么意思？

我很想撒谎说英语是我的第二语言但事实是我只是不知道合并是什么意思我知道什么在 C 中是 does 但这个名字对我来说没有意义我查了一下这个词我知道它是加入的同义词空连接运算符仍然没有意义有人可以启发我吗我很想撒谎说
如何使用UIAppearance外观WhenContainedIn：

我注意到在 iOS5 中我们可以通过以下方式自定义 UIKit 控件UIAppearance我开始使用它我想用appearanceWhenContainedIn 定制UINavigationBar s tintColor在不同的班级例如
使用 puppeteer 和 MutationObserver 检测 DOM 更改

我想检测某些加载页面上的 DOM 更改例如本地新闻页面上添加的新文章并在检测后执行某些操作发送电子邮件在此示例中我尝试检测子节点是否已从父节点目标 div 节点添加或删除并在检测后在控制台中输出某些内容我需要实现暴露功能
在python中读取大csv文件的行

我有一个非常大的 csv 文件无法完全加载到内存中所以我想一块一块地读取它将其转换为numpy数组然后再做一些处理我已经检查过了在Python中读取大文件的惰性方法 https stackoverflow com questio

在python中读取大csv文件的行

在python中读取大csv文件的行 的相关文章

随机推荐

热门标签

在python中读取大csv文件的行的相关文章