Pandas 根据列的值有效地分块读取大型面板 CSV

2024-01-11

我有一个很大的 CSV 文件（磁盘上约 50 GB），但无法立即将其完全读入内存。数据集本身是面板数据，看起来像

ID Time     Col 1 ... Col N
1  2000/1/1 ...
1  2000/1/2
...
2  2000/1/1 ...
...

我加载这些数据的想法是以块的形式读取它，进行一些预处理以减少大小，然后单独保存每个块。我知道使用pd.read_csv(..., chunksize=1000)这让我可以循环大小为 1000 的块，但为了使预处理准确，我更愿意循环遍历与 ID 列相对应的块。（对应于特定的所有行ID需要进行准确的预处理）

换句话说，假设我有一个较小的文件，其中包含所有ID值（例如 1-1000）。然后，我想做一些类似的事情

list_of_id_chunks = [ [1,2,3], [4,5,6], [7,8,9], ... ] # Split the total IDs into chunks of 3 IDs each

for chunk_of_ids in list_of_id_chunks:
    # 1. Read the large csv file with only the rows where `ID` is in chunk_of_ids
    # (For the first iteration, this should have rows with ID = 1, 2, or 3)
    # 2. Do some preprocessing to trim file size
    # 3. Save files in csv, feather, etc

有什么建议么？

您可以从这样的事情开始，它一次读取文件 100 万行，按 ID 分解每个块，然后按 ID 保存到新文件。最后，每个 ID 都会有一个单独的文件。

with pd.read_csv('big_file.csv', chunksize=1e6) as reader:
    for chunk in reader:
        for name, group in chunk.groupby('ID'):
            group.to_csv(f'big_file_id_{name}.csv', mode='a', index=False, header=False)

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

pandas

Bigdata

Pandas 根据列的值有效地分块读取大型面板 CSV 的相关文章

Django：如何测试“HttpResponsePermanentRedirect”

我正在为我的 django 应用程序编写一些测试在我看来它使用 HttpResponseRedirect 重定向到其他一些网址那么我该如何测试呢姜戈TestCase类有一个方法assertRedirects https docs d
从正在运行的 python 脚本检测优化标志是否为 -O 或 -OO

有时我想生成一个子进程其优化标志与启动父进程时使用的优化标志相同我可以使用类似的东西 optimize not debug 但这样我就可以匹配两者 O and OO flags 是否有一些 python 内部状态包含该信息经过一番深
为什么 .setGeometry() 不改变 QWidget 实例的大小？

我想使用 QWidget 更改 QPushButton 的大小 setGeometry https doc qt io qtforpython 5 PySide2 QtWidgets QWidget html PySide2 QtWidge
在 Numpy 中切片后确定结果数组的形状

我很难理解在 numpy 中切片后如何确定结果数组的形状例如我使用以下简单代码 import numpy as np array np arange 27 reshape 3 3 3 slice1 array 1 2 1 slice2
如何确定非阻塞套接字是否真正连接？

这个问题不仅限于Python 这是一个一般的套接字问题我有一个非阻塞套接字想要连接到一台可访问的机器在另一端该端口不存在为什么 select 仍然成功我预计会超时 sock send 因管道损坏而失败 select 之后如何确定
即使使用 .loc[row_indexer,col_indexer] = value 时也会设置 WithCopyWarning

这是我的代码中得到的行之一SettingWithCopyWarning value1 Total Population value1 Total Population replace to replace value 4 然后我将其更改为
可以在 TensorFlow 中使用排名相关作为成本函数吗？

我正在处理偶尔充满异常值的极其嘈杂的数据因此我主要依靠相关性来衡量我的神经网络的准确性是否可以明确使用诸如等级相关性斯皮尔曼相关系数之类的东西作为我的成本函数到目前为止我主要依赖 MSE 作为相关性的代理我现在面临三个主要障碍
如果字段值在外部列表中，Django 会注释布尔值

想象一下我有这个 Django 模型 class Letter models Model name models CharField max length 1 unique True 还有这个列表 vowels a e i o u 我想查询
如何从 Dockerfile 安装 Python 3.7 和 Pip

我正在尝试构建基于 Ubuntu 18 04 的自定义 Docker 映像 Ubuntu 预装了 Python 3 6 但我想 1 安装 Python 3 7 2 将其设置为默认 Python 版本这样就可以使用python代替pytho
如何在 Python 中将彩色输出打印到终端？

是否有与 Perl 等效的 Python 语言 print color red print
如何在python中检索aws批处理参数值？

流程 Dynamo DB gt Lambda gt 批处理如果将角色 arn 插入动态数据库它是从 lambda 事件中检索的然后使用submit job角色 arn 的 API 被传递为 parameters role arn ar
具有多个元素的数组的真值是二义性错误吗？ Python

from numpy import from pylab import from math import def TentMap a x if x gt 0 and x lt 0 5 return 2 a x elif x gt 0 5 a
将输入发送到 python 子进程而不等待结果

我正在尝试为一段代码编写一些基本测试该代码通常通过 stdin 无休止地接受输入直到给出特定的退出命令我想检查程序是否在给出一些输入字符串时崩溃经过一段时间来考虑处理但似乎无法弄清楚如何发送数据而不是陷入等待我不知道的输出关心我
Airflow Python 单元测试？

我想为我们的 DAG 添加一些单元测试但找不到任何单元测试有 DAG 单元测试框架吗有一个端到端的测试框架存在但我猜它已经死了 https issues apache org jira browse AIRFLOW 79 https
导入错误：没有名为 google.auth 的模块

当我尝试导入时firebase admin in python 2 7我收到错误导入错误没有名为 google auth 的模块这是Docker文件 https github com ammaratef45 Attendance bl
Flask WTForms 使用变量自动填充 StringField

我有一个表格我想用上一页收到的信息自动填充一些字段但如果他们想调整它它需要是可更改的我正在为我的 SelectField 使用动态创建的列表但添加 StringField 并不成功请参阅下面的我的代码 forms py clas
Python组合目录中的所有csv文件并按日期时间排序

我有 2 年的每日数据分成每月文件我想将所有这些数据合并到一个按日期和时间排序的文件中我正在使用的代码组合了所有文件但不按顺序我正在使用的代码 import pandas as pd import glob os import cs
为什么我们应该在 def __init__(self, n) -> None: 中使用 -> ？

我们为什么要使用 gt in def init self n gt None 我读了以下摘录来自 PEP 484 https www python org dev peps pep 0484 the meaning of annotatio
如何禁止 celery 中的 pickle 序列化

Celery 默认使用 pickle 作为任务的序列化方法如中所述FAQ http ask github com celery faq html isn t using pickle a security concern 这代表一个安全漏
如何将列表字典写入字符串而不是 CSV 文件？

This 堆栈溢出问题 https stackoverflow com questions 37997085 how to write a dictionary of lists to a csv file将列表字典写入 CSV 文件的答案

随机推荐

Python - 如何通过空格将标点符号与单词分开，在标点符号和单词之间只留下一个空格？

我有以下字符串 input I love programming with Python 3 3 Do you It s great I give it a 10 10 It s free to use no involved 除了和之
Node.js 准备好用于生产了吗？ [关闭]

Closed 这个问题是基于意见的 help closed questions 目前不接受答案开始一个新项目它基本上是一个博客评论系统我们正在考虑使用 Node js 作为后端服务器 Node js 是否已准备好应对此类事情还是还
在swift 3和核心图形中画一条直线

我正在尝试使用核心图形和 swift 3 绘制一条直线但是当调用touchesmoved 时它会创建多条线而不仅仅是一条线使用的代码如下 import UIKit class ViewController UIViewContro
不需要的 onItemSelected 调用

我有 36 个微调器我已经用一些值初始化了它们我已经与他们一起使用了 onItemSelectedListener 像往常一样用户可以与这些旋转器交互触发 onItemSeected 函数一个问题是调用是在 init 期间进行的
无法让 Swagger UI 与 Spring boot 一起使用

我正在尝试让 Swagger UI 与 Spring Boot 1 2 1 一起使用我按照以下说明进行操作https github com martypitt swagger springmvc https github com mart
Thrift - 每个 Socket 都有不同的 Handler 实例

我正在 Thrift 中开发一个代理服务器我的问题是传入代理的每个连接都使用相同的处理程序实例代理的客户端实现位于处理程序中因此所有客户端都通过同一连接与终端服务器进行通信我有 n 个客户端 gt n 个套接字 gt 1 个处
Android Studio 操作栏颜色未改变

在 styles xml 中运行 Android 5 0 lollipop
搜索引擎 Lucene 与数据库搜索

我正在使用 MySQL 数据库并且一直在使用数据库驱动的搜索数据库引擎和Lucene搜索引擎有何优缺点我想获得有关何时何地使用它们的建议我建议你阅读全文搜索引擎与 DBMS https lucidworks com 2009 09
Unix 路径搜索 C 函数 [关闭]

很难说出这里问的是什么这个问题是含糊的模糊的不完整的过于宽泛的或修辞性的无法以目前的形式得到合理的回答如需帮助澄清此问题以便重新打开访问帮助中心 help reopen questions 我正在编写 UNIX shell 程
如何使用 awk、Perl 或 Python 挖掘 XML 文档？

我有一个具有以下数据格式的 XML 文件
python 无法通过电子邮件发送附件文件

我有以下代码可以正常工作但它不会发送附件文件 import smtplib import os from email mime multipart import MIMEMultipart from email mime text im
如何确定 jQuery 中匹配元素的元素类型？

我通过 ID 名称匹配 ASP Net 生成的元素但我有一些元素可能根据页面上下文呈现为文本框或标签我需要确定匹配的是文本框还是标签以便知道是通过 val 还是通过 html 获取内容 id endOfIdToMatch each f
对标准化数据的曲线拟合结果进行非标准化

我正在拟合指数衰减函数lsqvurcefit in Matlab 为此我首先正常化 http en wikipedia org wiki Standard score Standardizing in mathematical stati
mysql进程无法停止

我最近在 Ubuntu 12 04 操作系统桌面上安装了 5 5 28 29 2 Percona Server GPL 版本 29 2 我尝试使用不同的方法停止服务器 sudo etc init d mysql stop sudo kill
地址簿中记录的 ABRecordID（地址簿中插入记录的唯一 ID）

我在向 iPhone 的联系人添加记录时遇到了困难情况是这样的我有一个视图其中创建联系人并将其插入到 iPhone 的联系人中我想要的是有没有办法找到插入的记录联系人的唯一 ID 在其他视图中访问联系人将需要它请赐教我这一点
如何在 IntelliJ IDEA 中选择骆驼化单词的单个单词

IntelliJ IDEA 中移动或选择骆驼化单词的单个单词的快捷方式是什么假设我有一个 LongMultiWordVariableName 我希望能够将光标移动到每个单词以进行编辑或选择变量的部分 Eclipse has a short
backbonejs + cors 和 save() 方法

我正在尝试执行 POST 抛出保存方法这是我的模型 app Models Dummy Backbone Model extend initialize function url http anotherdomain Hello 当我执行时
VSO(TFS) - 获取当前日期时间作为变量

如何获取当前日期时间并将其作为变量传递给某些部署任务您可以定义具有任意值的变量然后将该变量修改为当前日期详细步骤如下在release中定义一个变量 Assume the variable name is time and we se
solrj：添加后需要显式提交吗？

我正在使用solrClient add SolrInputDocument doc 将文档逐一添加到我的方法solr 之后我明确地打电话solrClient commit 是必须的吗我见过一些add方法它指定一个delay for co
Pandas 根据列的值有效地分块读取大型面板 CSV

我有一个很大的 CSV 文件磁盘上约 50 GB 但无法立即将其完全读入内存数据集本身是面板数据看起来像 ID Time Col 1 Col N 1 2000 1 1 1 2000 1 2 2 2000 1 1 我加载这些数据的想法是

Pandas 根据列的值有效地分块读取大型面板 CSV

Pandas 根据列的值有效地分块读取大型面板 CSV 的相关文章

随机推荐

热门标签