pandas处理大文件

2023-05-16

目录

思路一：分而治之

思路二：精简数据

demo

思路一：分而治之

分而治之，分批次加载大文件，每次读取一定行数的数据，读一批处理一批。

此方法简单有效，易实现，但可能适用性不高，因为有些场景就是要加载全部数据。

例如read_csv函数里的参数：chunksize 和 iterator。

chunksize用于指定每次加载的行数。iterator是用于打开获取迭代对象的开关。

官方文档没有实例代码，我会在demo里补充。

官方文档路径：pandas.read_csv — pandas 1.4.0 documentation

思路二：精简数据

1、使用usecols参数按需指定要加载的列，过滤用不到的列，大大降低内存。

2、指定每列数据类型，尽量使用占用字节小的数据类型。【高阶技能】这个另开一篇讲解。pandas的内存使用_Talk is cheap. Show me the code-CSDN博客调用 info() 时会显示 DataFrame 的内存使用情况（包括索引）https://blog.csdn.net/haohaizijhz/article/details/122722847

3、替换愿文件里的空值为默认值，再加载。如果存在空值，容易导致第2步指定的数据类型失效。

can'kaocan'kacan'kcancacpandas空值类型提升 NaN类型提升_Talk is cheap. Show me the code-CSDN博客

此方法第一步简单有效，易实现；第二步比较精细，需要耐心；第三步需要注意，需要时时检查空值情况。

demo

chunksize = 1 * 10 ** 7   # 每1千万行处理一次数据
reader = pd.read_csv(a_BIG_input_file, encoding = 'utf-8', iterator=True, chunksize=chunksize)
chunk_num  = 0
for chunk in reader:
    print("Chunk: " + str(chunk_num) + ' >'*30 + '\n')
    df = chunk
    diy_fun_process_1(df)
    diy_fun_process_1(df)
    chunk_num += 1

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

pandas处理大文件的相关文章

Debian squid配置

Basic squid conf etc squid3 squid conf instead of the super bloated default config file auth param basic program usr lib
Linux安装mysql以及遇到的问题解决办法

话不多说 xff0c 直接开干 xff1a 1 mysql下载地址 xff08 这里使用的是5 7 28 xff09 官网地址 xff1a https dev mysql com downloads mysql 百度云地址 xff1a ht
kali-linux的搭建

vmware kali的搭建使用vmware搭建kali需要有kali的官方镜像 xff0c 这里给出镜像的下载地址 https mirrors tuna tsinghua edu cn kali images kali 2022 3 k
C++学习（一三零）规范路径canonical paths

每个文件都只有一个规范路径 xff0c 可以有多个绝对路径和相对路径绝对路径与系统相关如果路径中别名快捷方式符号链接等内容 xff0c 规范路径都会将他们解析到实际的文件路径下
树莓派4B外接电视机没反应的问题的解决

解决办法 xff0c 修改文件 boot config txt
宇宙射线 c++ || DFS

题目一个射线 xff0c 初始方向向上一段时间后会分裂 xff0c 向该方向的左右45度分裂2条射线宇宙射线会分裂那次 xff0c 每次会前进ai个单位长度输入描述第一行一个正整数 n n lt 61 30 表示分裂n次第二行包
DDL 的恐惧 || 贪心

题目 ZJM 有 n 个作业 xff0c 每个作业都有自己的 DDL xff0c 如果 ZJM 没有在 DDL 前做完这个作业 xff0c 那么老师会扣掉这个作业的全部平时分所以 ZJM 想知道如何安排做作业的顺序 xff0c 才能尽可能
TT's Magic Cat -- 差分

题意 TT 有一只猫 xff0c 它从世界地图选了 n 个城市 xff0c 用 ai 表示每个城市的资产猫会给出几个操作 xff0c 区间 l r 的城市资产都加 c 在q次操作后 xff0c 输出所有城市的资产 Input 第一行有
平衡字符串 c++ || 尺取法

题目一个长度为 n 的字符串 s xff0c 其中仅包含 Q W E R 四种字符如果四种字符在字符串中出现次数均为 n 4 xff0c 则其为一个平衡字符串现可以将 s 中连续的一段子串替换成相同长度的只包含那四个字符的任意字符串
掌握魔法の东东 II Gym-270437

题目从瑞神家打牌回来后 xff0c 东东痛定思痛 xff0c 决定苦练牌技 xff0c 终成赌神 xff01 东东有 A B 张扑克牌每张扑克牌有一个大小整数 xff0c 记为a xff0c 范围区间是 0 到 A 1 xff09 和
week 13 程序设计必做题

A TT 的神秘任务1 xff08 必做 xff09 Example Input span class token number 8 span span class token number 10 span span class token
VS2019配置wxWidgets v3.1.5开发环境

编译wxWidgets库如果只是使用wxWidgets DLL库可以省略编译这一步 xff0c 直接下载编译好的库 http wxwidgets org downloads 点击 34 Download Windows Binarires
「LOJ#10015」「一本通 1.2 练习 2」扩散（并查集

题目描述一个点每过一个单位时间就会向 444 个方向扩散一个距离 xff0c 如图所示 xff1a 两个点 a b 连通 xff0c 记作 e a b xff0c 当且仅当 a b的扩散区域有公共部分连通块的定义是块内的任意两个点 u
haproxy使用技术及配置详解

以下内容来源于网络 xff0c 感谢原作者性能 HAProxy借助于OS上几种常见的技术来实现性能的最大化单进程事件驱动模型显著降低了上下文切换的开销及内存占用 O 1 事件检查器 event checker 允许其在高并发连接中对任
Edge浏览器，找不到本地书签或收藏夹更新时丢失了，我该怎样找回？

1 不要着急 xff0c 可以通过以下目录找回 Edge浏览器的书签 xff0c 保存地址 xff0c 在最新版本必然保存在以下位置 xff1a C Users 用户名 AppData Local Packages Microsoft Mi
ubuntu系统实现远程控制

今天在做实验的时候发现用视觉模拟激光竟然用之前的远程启动不了节点 xff08 之前是用工作站连接turtlebot上面的TK1的 xff09 xff0c 然后最后还是用了俩台电脑进行远程控制 xff0c 用到了一点小配置 xff0c 在这里
C++11多线程并发中的std::thread、std::mutex和std::future

C 43 43 11 新标准中引入了五个头文件来支持多线程编程 xff1a lt atomic gt lt thread gt lt mutex gt lt condition variable gt 和 lt future gt lt a
银河麒麟操作系统以root用户登录的方法

默认情况下 xff0c 银河麒麟V10操作系统不允许root用户登录 xff0c 也不告诉你密码是什么 xff0c 但是如果需要root用户登录的时候 xff0c 可以使用命令 xff1a su 输入密码后 xff0c 就能进入root用户
安装卸载EMBY,jellyfin

这是个回忆记录 xff0c 怕时间久了忘记了 xff0c 记录可能不太全环境是 xff1a UNAS xff0c debian xff0c 1 安装emby xff0c 去官网下载emby deb 用命名安装安装后访问正常卸载就麻烦了
centos8 OPEN LDAP部署

英文安装文档比较清晰 xff0c 不过为了以防万一还是记录一下 1 安装 openldap openldap servers root 64 yl08 tools yum install openldap openldap servers

随机推荐

[CentOS入门]（一）Linux基础

登陆系统方式 xff1a 文本登陆图形登陆远程登陆终端的使用方式 xff1a centos有5个虚拟文本终端 xff0c 1个图形终端 tty 命令查看当前虚拟终端系统支持多用户 xff08 包括使用相同用户 xff09 同时登录系统
[Linux]LVM (Linux 逻辑卷管理)

概念 xff1a LVM是 Logical Volume Manager xff08 逻辑卷管理 xff09 的简写 xff0c 它是Linux环境下对磁盘分区进行管理的一种机制 PV xff1a 硬盘和分区都可以标记为PV xff0c P
[CentOS入门]（二）Linux Bash

Bash命令 xff1a Shell是用户与操作系统交互的入口 xff0c Bash是最常用的Linux Shell Bash命令格式 xff1a 命令选项参数中间用空格分隔命令选项参数ls lh var 如果参数中包含空格则需要在
逻辑回归(LogisticRegression)算法及简单案例

逻辑回归 LogisticRegression 算法及简单案例大家好 xff0c 我是W 逻辑回归虽然名字有回归 xff0c 但是实际上是分类模型 xff0c 常用于二分类回归的意思是 xff1a 在二维空间中找到一条最佳拟合直线去拟合
[CentOS入门]（三）文件系统

Linux文件系统结构树 xff1a 目录中颜色的含义 xff1a 青色 xff1a 指向另外一个位置 xff0c 软连接 ls显示文件夹中的文件链接指向位置 xff1a ls folder l蓝色 xff1a 一个文件夹绿色 xff1a
[CentOS入门]（四）编辑器

vim xff1a vi vim是一种Linux自带的文本编辑器 xff0c 也是常用的文本编辑器之一 xff0c vim相对于vi增加了代码颜色等功能部分Linux最小化安装时会预装vi xff0c 但不包含vim xff0c 手动安装
[CentOS入门]（五）系统软件管理

RPM RPM是由红帽开发 xff0c 用于管理软件包的组件 xff0c 但是其原始设计理念是开放式的 xff0c 包括OpenLinux S u S E 以及Turbo Linux等Linux的分发版本都有采用 rpm是软件的最小单位 r
[CentOS入门]（六）用户、组、权限

用户 xff1a 用户ID为0的用户为超级用户 xff0c 0 500之间为系统级用户 xff0c 为服务保留 xff0c 通常情况新建的用户UID gt 500 用户文件保存在 etc passwd文件中组 xff1a 每个用户有一个私
Traccar记录足迹-服务搭建及使用

Traccar介绍 Traccar是一款开源的可以跟踪GPS设备位置的应用 xff0c 服务端支持Windows x64 Linux x64 Linux ARM 客户端支持GPS设备 Android设备 IOS设备搭建Traccar服务器
[网络]OSPF理论

特性 xff1a 分类 xff1a 无类 xff0c 链路状态协议封装 xff1a ip xff08 89 xff09 更新目标地址 xff1a 224 0 0 5 224 0 0 6 支持单播更新方式 xff1a 定时完整定时更新 xf
[网络]IPV6

IPV6优势 xff1a 更大地址空间 xff08 2 128 xff09 端到端的全球可达性层次化编址利于聚合 xff08 每个运营商一个地址块 xff09 组播的使用 xff08 Server传播一份流量 xff0c 通过组播扩散到用户
Proxmox VE(PVE)+ceph+物理网络规划-超融合生产环境安装部署案例

1 Proxmox Virtual Environment介绍 Proxmox VE 是用于企业虚拟化的开源服务器管理平台它在单个平台上紧密集成了KVM虚拟机管理程序和LXC xff0c 软件定义的存储以及网络功能借助基于Web的集成用
[XPlane11/12]同步更新Zibo737插件下载-更新至3.54.17-插件搬运

Boeing B737 800X mod 链接中包括XPlane11和XPlane12版 XPlane11版本已更新至3 54 17 xff1b XPlane12版本已更新至2 1 一下载链接 xff1a 捐助ZIBOmod xff1a
Proxmox VE(PVE)备份组件：PBS(Proxmox Backup Server)部署及使用教程

1 Proxmox Backup Server xff08 pbs xff09 介绍 Proxmox Backup Server xff08 pbs xff09 是与pve配套的备份解决方案 xff0c 用于备份和恢复虚拟机容器和物理主机
maven mirror

lt mirror gt lt id gt UK lt id gt lt name gt UK Central lt name gt lt url gt http uk maven org maven2 lt url gt lt mirro
1002 A+B for Polynomials (25分)

题目大意输入两行 xff0c 每行格式如上 xff0c K为多项式中非零项的个数 xff0c N为指数 xff0c aN为该项的系数最后输出两个多项式的和思路 xff1a 用一个结构体数组 ploy xff0c 数组中的每个元素存储该
linux/unix 使用airport

把airport引入到用户命令里 xff0c 建立一个软连接 span class hljs built in sudo span ln span class hljs operator s span System Library Priv
网页中提取SWF游戏文件及运行修改

1 下载游戏到本地以4399游戏为例首先需要找到游戏页面如下 xff1a
k8s快速部署，附带脚本

内容导航 xff08 一 xff09 资产信息 xff08 二 xff09 脚本内容 xff08 三 xff09 网络插件flannel1 xff0c 使用flannel网络插件2 xff0c 修改网络模式为ipvs xff0c svc无法
pandas处理大文件

目录思路一 xff1a 分而治之思路二 xff1a 精简数据 demo 思路一 xff1a 分而治之分而治之 xff0c 分批次加载大文件 xff0c 每次读取一定行数的数据 xff0c 读一批处理一批此方法简单有效 xff0c 易

热门标签