加载 pandas 数据帧，其块大小由列变量确定

2023-11-27

如果我有一个太大而无法用 pandas 加载到内存中的 csv 文件（在本例中为 35gb），我知道可以使用 chunksize 分块处理该文件。

但是我想知道是否可以根据列中的值更改块大小。

我有一个 ID 列，然后每个 ID 都有几行包含信息，如下所示：

ID,   Time,  x, y
sasd, 10:12, 1, 3
sasd, 10:14, 1, 4
sasd, 10:32, 1, 2
cgfb, 10:02, 1, 6
cgfb, 10:13, 1, 3
aenr, 11:54, 2, 5
tory, 10:27, 1, 3
tory, 10:48, 3, 5
ect...

我不想将 ID 分成不同的块。例如，将处理大小为 4 的块：

ID,   Time,  x, y
sasd, 10:12, 1, 3
sasd, 10:14, 1, 4
sasd, 10:32, 1, 2
cgfb, 10:02, 1, 6
cgfb, 10:13, 1, 3 <--this extra line is included in the 4 chunk

ID,   Time,  x, y
aenr, 11:54, 2, 5
tory, 10:27, 1, 3
tory, 10:48, 3, 5
...

是否可以？

如果没有，也许使用带有 for 循环的 csv 库，如下所示：

for line in file:
    x += 1
    if x > 1000000 and curid != line[0]:
        break
    curid = line[0]
    #code to append line to a dataframe

尽管我知道这只会创建一个块，并且 for 循环需要很长时间来处理。

如果逐行迭代 csv 文件，您可以yield具有依赖于任何列的生成器的块。

工作示例：

import pandas as pd

def iter_chunk_by_id(file):
    csv_reader = pd.read_csv(file, iterator=True, chunksize=1, header=None)
    first_chunk = csv_reader.get_chunk()
    id = first_chunk.iloc[0,0]
    chunk = pd.DataFrame(first_chunk)
    for l in csv_reader:
        if id == l.iloc[0,0]:
            id = l.iloc[0,0]
            chunk = chunk.append(l)
            continue
        id = l.iloc[0,0]
        yield chunk
        chunk = pd.DataFrame(l)
    yield chunk

## data.csv ##
# 1, foo, bla
# 1, off, aff
# 2, roo, laa
# 3, asd, fds
# 3, qwe, tre
# 3, tre, yxc   

chunk_iter = iter_chunk_by_id("data.csv")

for chunk in chunk_iter:
    print(chunk)
    print("_____")

Output:

   0     1     2
0  1   foo   bla
1  1   off   aff
_____
   0     1     2
2  2   roo   laa
3  2   jkl   xds
_____
   0     1     2
4  3   asd   fds
5  3   qwe   tre
6  3   tre   yxc
_____

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

pandas

chunks

加载 pandas 数据帧，其块大小由列变量确定的相关文章

如何跳过财务图中的空日期（周末）

ax plot date dates dates highs lows 我目前正在使用此命令来绘制财务高点和低点Matplotlib http en wikipedia org wiki Matplotlib 效果很好但如何删除 x 轴上
如何在 kubernetes 上使多个 pod 相互通信

我是 Kubernetes 新手我正在尝试通过 microk8s 将应用程序部署到 Kubernetes 该应用程序包含Python Flask后端 Angular前端 Redis和MySQL数据库我将映像部署在多个 Pod 中状态显
查找 python 数据框中每行的最高值

我想找到每行中的最高值并返回 python 中该值的列标题例如我想找到每行的前两个 df A B C D 5 9 8 2 4 1 2 3 我希望我的输出看起来像这样 df B C A D 您可以使用字典理解来生成largest n数据帧
使用 Python 的 optparse 模块时如何遵守 PEP 257 文档字符串？

根据PEP 257 http www python org dev peps pep 0257 multi line docstrings命令行脚本的文档字符串应该是它的使用消息脚本的文档字符串 a 独立程序应该可用作为其使用消息
Python Pandas 从宽到长的格式更改以及列标题拆分

我有一个包含以下列标题和行示例的表 Subject Test1 Result1 Test1 Result2 Test2 Result1 Test2 Result2 0 John 10 0 5 20 0 3 我想将其改造成 Subject l
如何使用 boto3 从 AWS Cognito 获取经过身份验证的身份响应

我想使用 boto3 获取访问 AWS 服务的临时凭证用例是这样的我的 Cognito 用户池中的用户登录到我的服务器我希望服务器代码为该用户提供访问其他 AWS 服务的临时凭证我有一个存储我的用户的 Cognito 用户池我有一
修复类以在 Flask 会话中启用对象存储[重复]

这个问题在这里已经有答案了我有一个自定义类 Passport 其中包含活动用户身份和权限我曾经将它存储在会话中如下所示 p Passport p do something fancy session passport p 它就奏效了
[python]没有属性“TessBaseAPI”

当我编译代码时出现错误 import tessercat api tesseract TessBaseAPI 错误是 AttributeError 模块对象没有属性 TessBaseAPI 我已经安装了tesseract via pip
SQLAlchemy：检查给定值是否在列表中

问题在 PostgreSQL 中检查某个字段是否在给定列表中是使用IN操作员 SELECT FROM stars WHERE star type IN Nova Planet SQLAlchemy 的等价物是什么INSQL查询我尝试过
Highcharts 奇怪的分组行为

我正在使用延迟加载 http www highcharts com stock demo lazy loading加载 OHLC 数据的方法在服务器端我使用 Python MySQL 并有 4 个包含 OHLC 数据的表时间间隔为 5
导入错误：没有名为“wordcloud”的模块

我正在努力将 wordcloud 安装到我的环境中这是我正在运行的代码 import os import matplotlib pyplot as plt from wordcloud import WordCloud 我收到以下错误 I
什么时候用==，什么时候用is？

奇怪的是 gt gt gt a 123 gt gt gt b 123 gt gt gt a is b True gt gt gt a 123 gt gt gt b 123 gt gt gt a is b False Seems a is b
如何将字符串方法应用于数据帧的多列

我有一个包含多个字符串列的数据框我想使用对数据帧的多列上的系列有效的字符串方法我希望这样的事情 df pd DataFrame A 123f 456f B 789f 901f df Out 15 A B 0 123f 789f 1 45
Numpy 通过一个数组的值总结另一个数组

我正在尝试找到一种矢量化方法来完成以下任务假设我有一个 x 和 y 值的数组请注意 x 值并不总是整数并且可以为负数 import numpy as np x np array 1 1 1 3 2 2 2 5 4 4 dtype flo
使用 plone.api 创建文件的 Python 脚本在设置文件时出现错误 WrongType

Dears 我正在创建一个脚本python来在Plone站点中批量上传文件安装是UnifiedInstaller Plone 4 3 10 该脚本读取了一个txt 并且该txt以分号分隔在新创建的项目中设置文件时出现错误下面是脚本 f
如何从外语线程调用Python函数（C++）

我正在开发一个程序使用 DirectShow 来抓取音频数据媒体文件 DirectShow 使用线程将音频数据传递给回调我的程序中的函数然后我让该回调函数调用另一个函数 Python 中的函数我使用 Boost Python 来包
单击 selenium 中的链接时循环遍历表格的行（python）

示例页面源代码如下所示 div class div1 table class foot market tbody td class today name td tbody tbody td class today name td tbody
在Python中打开网站框架或图像

所以我对 python 相当熟练并且经常使用 urllib2 和 Cookies 来实现网站自动化我刚刚偶然发现了 webbrowser 模块它可以在默认浏览器中打开一个网址我想知道是否可以从该 url 中仅选择一个对象并打开它具
Python模糊字符串匹配作为相关样式表/矩阵

我有一个文件其中包含 x 个字符串名称及其关联的 ID 本质上是两列数据我想要的是一个格式为 x by x 的相关样式表将相关数据作为 x 轴和 y 轴但我想要 fuzzywuzzy 库的函数 fuzz ratio x y 作为输出
Chrome + 另一个进程：进程间通信比 HTTP/XHR 请求更快？

我有一个进程 1 对视频流进行实时图像处理我需要在 Chrome 中的 HTML 页面中渲染该视频同一台计算机上的进程 2 在canvas or img or videoHTML5 元素由于我有 1000x1000 像素 x 3 字节

随机推荐

mysqldump 仅转储具有特定前缀的数据库

我有大约 100 个不同的数据库我想使用 mysqldump 转储以前缀 asd 开头的数据库我尝试了这个但它不起作用 mysqldump u user p pwd h server url asd single transactio
在 Swift 中更改导航栏颜色

我使用选择器视图来允许用户选择整个应用程序的颜色主题我计划更改导航栏背景和可能的选项卡栏的颜色如果可能的话我一直在研究如何做到这一点但找不到任何 Swift 示例谁能给我一个我需要用来更改导航栏颜色和导航栏文本颜色的代码示例选
Angular 2 - Jquery | Angular 2 - Jquery | Angular 2 - Jquery | Angular 2 - Jquery使用鼠标位置添加样式（上/左）

我正在寻找一种在 Angular 2 中的特定位置鼠标事件 x y 添加 div 组件的方法 https jsfiddle net lennartquerter w2c7uqw6 this xPos xPos this yPos yPos
在 Vim 中映射 Esc 键

I m a beginning Vim user I hate pressing the Esc key which is a little far on my T61 In order to return to command mode
Android：EditText 中多行且无自动建议

是否可以有一个允许多行且不显示建议的 EditText 我尝试使用以下代码 android inputType textFilter textMultiLine 我在这个中看到了question 但这对我不起作用如果我尝试同时使用两者 E
使用 Lodash 将 JavaScript 数组拆分为块

我需要将 JavaScript 数组拆分为n大小的块例如给定这个数组 a1 a2 a3 a4 a5 a6 a7 a8 a9 a10 a11 a12 a13 and a n等于 4 输出应该是这样的 a1 a2 a3 a4 a5 a6 a
Jquery——任何事件都会触发动作[重复]

这个问题在这里已经有答案了 jquery 中是否有任何事件触发时会触发函数的东西我想要这样的东西 anyEvent function error html on blur change click dblclick error focus
WKWebView reload() 无法刷新当前页面

离线时第一次加载网页失败然后我连接网络呼叫reload 刷新当前页面但这不起作用 WKNavigationDelegate无法得到任何回调功能reloadFromOrigin 也不工作但医生说 abstract Reloads th
.net mvc 中从 Bootstrap 3.7 更新到 5.0.2 产生错误 - System.NullReferenceException

我卸载了 net MVC 应用程序附带的基本引导模板并从 NuGetPackage Manager 安装了引导程序 5 0 2 现在我在运行时遇到这个问题构建正在成功发生 System NullReferenceException HR
在 F# 中将列表拆分为两个相等的列表

我对 F 确实很陌生我需要一些关于 F 问题的帮助我需要实现一个剪切函数将列表分成两半以便输出切 1 2 3 4 5 6 val it int 列表 int 列表 1 2 3 4 5 6 我可以假设列表的长度是偶数我还希望定义一
AutoMapper 如何根据上下文以不同方式将对象 A 映射到对象 B

呼叫所有 AutoMapper 专家我希望能够根据运行时的上下文以不同的方式将对象 A 映射到对象 B 特别是我想忽略一种映射情况下的某些属性并在另一种情况下映射所有属性我遇到的是 Mapper CreateMap 可以在不同的映射
是否可以关闭特定更新的休眠版本增量？

是否可以使用休眠更新数据库中的实体而不修改实体的版本使用我的 Web 应用程序用户可以创建或更新实体在任何用户操作之后处理这些实体的另一个异步进程在哪里如果用户在实体处理之前打开实体进行更新但在处理之后尝试保存实体则
在构建期间自动化 xsd.exe

我需要一种在构建期间基于 xsd 文件自动重新生成 cs 文件的方法最好不涉及任何自定义加载项这也需要在 CI 构建上运行我不确定我是否遗漏了一些明显的东西或者这在我看来真的很棘手吗我使用这个脚本 echo off cd 1 ca
从 Typescript 中的 http url 导入 ES6 模块

我正在编写一个 ES6 模块它依赖于使用 http url 指定的其他 ES6 模块如下所示 import el mount from https cdnjs cloudflare com ajax libs redom 3 26 0
将闭合曲线拟合到一组点

我有一组点pts形成一个循环看起来像这样这有点类似于31243002 但我不想将点放在点对之间而是想通过点拟合一条平滑的曲线坐标在问题末尾给出所以我尝试了类似的方法scipy文档关于插值法 values pts tck inter
Sklearn - 如何预测所有目标标签的概率

我有一个包含目标变量的数据集可以有 7 个不同的标签我的训练集中的每个样本只有一个目标变量标签对于每个样本我想计算每个目标标签的概率所以我的预测将由每行 7 个概率组成在sklearn网站上我读到了有关多标签分类的内容但这似乎
Windows 应用商店 - 拉伸图标

我在 Windows 商店中遇到了一个小问题我已在提交中上传了所有必需的图形并且该应用程序具有所有必需的图形包括框和平铺图像然而在商店中应用程序入口使用的是宽图像问题是它使用的宽图像实际上是一个被拉伸的框图像有什么想法出了什
使用 .NET SDK 按路径获取 Microsoft Graph Drive 项目

因为它是有记录的使用 Microsoft Graph REST API 您可以以及其他选项通过 ID 或路径获取项目这工作正常正如预期的那样 GET me drive items item id children GET me d
WPF：禁用列表框，但启用滚动

整个早上我都在用头撞这个问题基本上我有一个列表框我希望防止人们在长时间运行的过程中更改选择但允许他们仍然滚动解决方案所有的答案都很好我选择了吞咽鼠标事件因为这是最直接的我将 PreviewMouseDown 和 Previ
加载 pandas 数据帧，其块大小由列变量确定

如果我有一个太大而无法用 pandas 加载到内存中的 csv 文件在本例中为 35gb 我知道可以使用 chunksize 分块处理该文件但是我想知道是否可以根据列中的值更改块大小我有一个 ID 列然后每个 ID 都有几行包含信息

加载 pandas 数据帧，其块大小由列变量确定

加载 pandas 数据帧，其块大小由列变量确定 的相关文章

随机推荐

热门标签

加载 pandas 数据帧，其块大小由列变量确定的相关文章