Pandas/Python 中的分块、处理和合并数据集

2024-04-03

有一个很大的数据集，其中包含字符串。我只想使用宽度通过 read_fwf 打开它，如下所示：

widths = [3, 7, ..., 9, 7]
tp = pandas.read_fwf(file, widths=widths, header=None)

这会帮助我标记数据 https://stackoverflow.com/questions/29800023/the-best-way-to-mark-split-dataset-in-each-string, 但系统崩溃了（适用于 nrows=20000）。然后我决定按块（例如 20000 行）进行操作，如下所示：

cs = 20000
for chunk in pd.read_fwf(file, widths=widths, header=None, chunksize=ch)
...:  <some code using chunk>

我的问题是：在对块进行一些处理（标记行、删除或修改列）之后，我应该在循环中做什么来将块合并（连接？）回到 .csv 文件中？或者还有别的办法吗？

我假设自从阅读了整个文件

tp = pandas.read_fwf(file, widths=widths, header=None)

失败，但分块读取有效，文件太大而无法一次读取，并且您遇到了 MemoryError。

在这种情况下，如果您可以分块处理数据，那么连接CSV 中的结果，您可以使用chunk.to_csv以块的形式写入 CSV：

filename = ...
for chunk in pd.read_fwf(file, widths=widths, header=None, chunksize=ch)
    # process the chunk
    chunk.to_csv(filename, mode='a')

注意mode='a'以附加模式打开文件，以便每个文件的输出chunk.to_csv调用附加到同一文件中。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

pandas

MERGE

Dataset

chunking

Pandas/Python 中的分块、处理和合并数据集的相关文章

Python 小数.InvalidOperation 错误

当我运行这样的东西时我总是收到此错误 from decimal import getcontext prec 30 b 2 3 Decimal b Error Traceback most recent call last File Te
有条件填写 pandas 数据框

我有一个数据框df列中包含浮点值A 我想添加另一列B这样 B 0 A 0 for i gt 0 B i if np isnan A i then A i else Step3 B i if abs B i 1 A i B i 1 lt 0
Python 使用 M2Crypto 通过 S/MIME 对消息进行签名

我现在花了几个小时但找不到我的错误我想要一个简单的例程来创建 S MIME 签名消息稍后可以与 smtplib 一起使用这是我到目前为止所拥有的 usr bin python2 7 coding utf 8 from future
使用字母而不是数字进行顺序计数[重复]

这个问题在这里已经有答案了我需要一种方法将字符串递增到 z 然后将 aa 递增到 az 然后将 ba 递增到 bz 依此类推就像 Excel 工作表中的列一样我将向该方法提供前一个字符串它应该增加到下一个字母 PSEUDO C
Python 字典 - 在 2 个字符的字符串中查找第二个字符，该字符产生最小值

我想提交密钥的第一部分并返回该密钥的剩余部分以最小化值并从第一部分开始例如 d ab 100 ac 200 ad 500 如果我要进去 a I would like to return b min d s s for s in d i
Pyinstaller --onefile 警告文件已存在但不应存在

跑步时Pyinstaller onefile 并开始得到结果 exe 会出现多个弹出窗口并显示以下警告 WARNING file already exists but should not C Users myuser AppData L
向 Python 2.6 添加 SSL 支持

我尝试使用sslPython 2 6 中的模块但我被告知它不可用安装OpenSSL后我重新编译2 6 但问题仍然存在有什么建议么您安装了 OpenSSL 开发库吗我必须安装openssl devel例如在 CentOS 上在
如何使用 python 操作系统更改驱动器？

我正在尝试更改当前目录C to Y 我试过 import os os chdir Y 但我不断收到错误消息提示无法找到驱动器本质上我正在寻找相当于 cd d cmd 中的命令你确定吗Y 确实是有效的驱动器号吗 Try os chdir
如何使用python读取最后一行的特定位置

我有一个太大的 txt 文件并且有几行类似的行如下所示字1 字2 字3 字4 553 75 我对位置 4 值感兴趣即最后一行 553 75 我的文件文本 word1 word2 word3 word4 553 20 word1 w
InvalidArgumentException：消息：无效参数：“using”必须是字符串

我对 python 很陌生试图创建可重用的代码当我尝试通过传递 Login 类下使用的所有参数来调用 test main py 中的 Login 类和函数 login user 时我收到错误 InvalidArgumentExcept
如何使用 msgpack 进行读写？

如何序列化反序列化字典data with msgpack http msgpack org The Python 文档 http msgpack python readthedocs io en latest badge latest似乎
Floyd-Warshall 算法：获取最短路径

假设一个图由一个表示n x n维数邻接矩阵我知道如何获得所有对的最短路径矩阵但我想知道有没有办法追踪所有最短路径 Blow是python代码实现 v len graph for k in range 0 v for i in range
如何从数据框的单元格中获取值？

我构建了一个条件从我的数据框中提取一行 d2 df df l ext l ext df item item df wn wn df wd 1 现在我想从特定列中获取一个值 val d2 col name 但结果我得到一个包含一行和一列
PyQt - 如何检查 QDialog 是否可见？

我有个问题我有这个代码 balls Ball for i in range 1 10 因此当我说 Ball 时这将在 QDialog 上绘制一个球然后当这完成后我正在移动球QDialog无限循环中我想说类似的话while QDi
psutil：测量特定进程的CPU使用率

我正在尝试测量进程树的 cpu 使用率目前获取进程没有子进程的 cpu usage 就可以了但我得到了奇怪的结果 import psutil p psutil Process PID p cpu percent 还给我float g
django 组合对两个不同基本模型的查询

我有两个不同的查询集我想将两个查询集合并 q1 tbl nt 123 objects values list id value geometry filter restriction height exclude condition id
在 Tensorflow 2.0 中的简单 LSTM 层之上添加 Attention

我有一个由一个 LSTM 和两个 Dense 层组成的简单网络如下所示 model tf keras Sequential model add layers LSTM 20 input shape train X shape 1 trai
使 matplotlib 图形默认看起来像 R？

Is there a way to make matplotlib behave identically to R or almost like R in terms of plotting defaults For example R t
Selenium Python 使用代理运行浏览器[重复]

这个问题在这里已经有答案了我正在尝试编写一个非常简单的脚本该脚本从 txt 文件获取代理不需要身份验证并用它打开浏览器然后沿着代理列表循环此操作一定次数我确实知道如何打开 txt 文件并使用它我的主要问题是让代理正常工作我见
Shap - 颜色条不显示在摘要图中

显示summary plot时不显示颜色条 shap summary plot shap values X train 我尝试过改变plot size 当绘图较高时会出现颜色条但它非常小看起来不应该 shap summary plo

随机推荐

Laravel livewire 渲染后 Bootstrap 选择不起作用

我有一个引导选择器 https developer snapappointments com bootstrap select 在第一次渲染时工作正常的元素它的初始化为 document ready function select sel
使用 g++ 进行动态共享库编译

我正在尝试编译以下简单的 DL 库示例代码程序库 HOWTO http tldp org HOWTO Program Library HOWTO dl libraries html与 g 这只是一个示例以便我可以学习如何使用和编写共享库
R 中是否有用于病例对照匹配（个体 1:N 匹配）的软件包（不是倾向评分匹配）？

我想在 R 中进行病例对照研究的个体匹配 1 N Matching 或 MatchIt 包用于倾向评分匹配不适用于病例对照匹配另一方面我无法根据病例对照研究设计找到合适的个体 1 N 匹配方案有没有任何包可以做到这一点或其他代码过程
还需要 Json2/Json3 库吗？

快问是否需要包含Json2 库 http www json org js html不再了吗我是否在某处读到过 JavaScript 现在支持 JSON 作为标准因此不再需要解析它 Json2 与标准 JavaScript 支持相比有什
希望自定义键盘仅用于我的应用程序并在应用程序失去焦点时恢复以前的键盘

我按照中的精彩轮廓制作了这个自定义键盘这个链接 http code tutsplus com tutorials create a custom keyboard on android cms 22615并且不使用 Eclipse 我使
如何使用存储库模式在 EF Core 3.0 中进行并行异步查询？

我有像这样的存储库 public interface IEmployeeRepository Task
Auth0 Lock 中的用户注册事件

The authenticated 身份验证成功后会发出事件 lock on authenticated function authResult 但是有什么方法可以检测新用户何时注册您的应用程序或者我是否必须将用户存储在数据库中并在每次用
CKEditor 4 下拉按钮插入占位符

我发现两个独立的插件 StrInsert and Placeholder 第一个插件创建插入字符串的下拉菜单第二个插件插入占位符 here s the screenshot for StrInsert plugin and for Pla
如何使用 ggplot2 在世界地图上绘制单个点？

在世界地图上如何绘制单个点 all states lt map data usa p lt p geom polygon data all states aes x long y lat group group legend FALSE
调用 Scan 操作时如何解决（AccessDeniedException）：用户：arn：aws：sts ...无权执行：dynamodb：对资源进行扫描..”？

我正在尝试使用 Elastic Beanstalk 和 Flask 将类似 Instagram 的应用程序部署到 AWS 使用后电子部署命令我能够访问应用程序主页这不需要访问 DynamoDB 表当我尝试登录时应用程序应访问 Dyn
SQL Server 2008 中的 PIVOT/UNPIVOT

我得到的子父表如下主表 MasterID Description 子表 ChildID MasterID Description 使用 PIVOT UNPIVOT 如何在单行中获得如下结果 if MasterID 1 有 x 子记录 M
过早重构？ [关闭]

Closed 这个问题是基于意见的 help closed questions 目前不接受答案我们都听说过过早优化 http en wikipedia org wiki Program optimization When to optim
在数据库表中标记已删除的记录

有时您想将数据库表记录标记为已删除而不是永久删除它对吗你是怎样做的到目前为止我一直在使用布尔已删除字段但我不确定这是否是一个好的方法就是这样一个布尔字段指示记录已被删除我用过几次我称该字段为IsDeleted 这通
为什么我的 bash 函数返回错误的值？

fact if 1 eq 1 then return 1 else y expr 1 1 fact y b 1 return b fi echo enter read n fact n echo 这是一个求数字阶乘的程序输出在 5 以内都
如何读取用户上传的文件，而不将其保存到数据库

我希望能够读取用户上传的 XML 文件小于 100kb 但不必先将该文件保存到数据库中我不需要当前操作之后的文件其内容被解析并添加到数据库中但是解析文件不是问题由于本地文件可以通过以下方式读取 File read export
eclipse sts 4 中没有集成图视图？

甚至不再有创建 spring bean 配置文件的选项从 3 9 过渡到 4 的过程中大量功能消失了如果是这样的话似乎他们在 Eclipse 端为 IDE 不可知论牺牲了相当多 Spring Tools 4 不再包含对 Spring
NumPy 堆栈或将数组附加到数组

我从 NumPy 开始给定两个np arrays queu and new path queu 0 0 0 1 new path 0 0 1 0 2 0 我的目标是得到以下queu queu 0 0 0 1 0 0 1 0 2 0 我试过
如何将github存储库配置为spring云服务器的配置存储库？

我已经创建了一个 github 存储库https github com Nisarg04 microservices config repo git 我希望将其视为配置存储库另外我有一个 Spring Cloud 服务器它从本地存储库
Objective-C 变量...指向自身？

我在 Apple 的一些用于处理键值观察的示例代码中发现了这种构造添加观察者时您可以添加一个上下文以 void 变量的形式该上下文可以唯一标识 KVO 调用如果您希望多个 KVO 调用触发相同的操作则特别有用因为单个上下文可以
Pandas/Python 中的分块、处理和合并数据集

有一个很大的数据集其中包含字符串我只想使用宽度通过 read fwf 打开它如下所示 widths 3 7 9 7 tp pandas read fwf file widths widths header None 这会帮助我标记数据

Pandas/Python 中的分块、处理和合并数据集

Pandas/Python 中的分块、处理和合并数据集 的相关文章

随机推荐

热门标签

Pandas/Python 中的分块、处理和合并数据集的相关文章