使用 chunksize 迭代获取推断的数据帧类型

2023-11-27

如何使用 pd.read_csv() 迭代地对文件进行分块并保留数据类型和其他元信息，就像我阅读了整个内容一样一次数据集？

我需要读取太大而无法装入内存的数据集。我想使用 pd.read_csv 导入文件，然后立即将块附加到 HDFStore 中。然而，数据类型推断对后续块一无所知。

如果表中存储的第一个块仅包含 int，而后续块包含 float，则会引发异常。所以我需要首先使用 read_csv 迭代数据框并保留highest推断类型。此外，对于对象类型，我需要保留最大长度，因为它们将作为字符串存储在表中。

是否有一种只保留这些信息而不读取整个数据集的 pandonic 方法？

我没想到会这么直观，否则我不会发布这个问题。但熊猫再次让事情变得轻而易举。但是，保留这个问题，因为此信息可能对其他处理大数据的人有用：

In [1]: chunker = pd.read_csv('DATASET.csv', chunksize=500, header=0)

# Store the dtypes of each chunk into a list and convert it to a dataframe:

In [2]: dtypes = pd.DataFrame([chunk.dtypes for chunk in chunker])

In [3]: dtypes.values[:5]
Out[3]:
array([[int64, int64, int64, object, int64, int64, int64, int64],
       [int64, int64, int64, int64, int64, int64, int64, int64],
       [int64, int64, int64, int64, int64, int64, int64, int64],
       [int64, int64, int64, int64, int64, int64, int64, int64],
       [int64, int64, int64, int64, int64, int64, int64, int64]], dtype=object)

# Very cool that I can take the max of these data types and it will preserve the hierarchy:

In [4]: dtypes.max().values
Out[4]: array([int64, int64, int64, object, int64, int64, int64, int64], dtype=object)

# I can now store the above into a dictionary:

types = dtypes.max().to_dict()

# And pass it into pd.read_csv fo the second run:

chunker = pd.read_csv('tree_prop_dset.csv', dtype=types, chunksize=500)

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

typeconversion

pandas

hdfstore

使用 chunksize 迭代获取推断的数据帧类型的相关文章

Matplotlib 图例，跨列添加项目而不是向下添加项目

对于下面的简单绘图有没有办法让 matplotlib 填充图例以便它从左到右填充行而不是第一列然后第二列 gt gt gt from pylab import gt gt gt x arange 2 pi 2 pi 0 1 gt gt
将 Python Pandas DataFrame 写入 Word 文档

我正在努力创建一个使用 Pandas DataFrames 的 Python 生成的报告目前我正在使用DataFrame to string 方法但是这会作为字符串写入文件有没有办法让我实现这一目标同时将其保留为表格以便我可以使
使用 NumPy 编写一个函数来计算具有特定公差的积分

我想编写一个自定义函数来以特定容差对表达式 python 或 lambda 函数进行数字积分我知道与scipy integrate quad人们可以简单地改变epsabs但我想使用 numpy 自己编写该函数 From 这篇博文 htt
如何在Windows中的Python 3.9下pip安装pickle？

我需要pickle https docs python org 3 9 library pickle html module pickle包安装在我的下面Python 3 9在 Windows 10 下我尝试过的当尝试与pip inst
查找正在导入哪些 python 模块

从应用程序中使用的特定包中查找所有 python 模块的简单方法是什么 sys modules是将模块名称映射到模块的字典您可以检查其键以查看导入的模块 See http docs python org library sys html
带有 mkdocs 的本地 mathjax

我想在无法访问互联网的计算机上使用 MathJax 和 Mkdocs 因此我不能只调用 Mathjax CDN Config mkdocs yml site name My Docs extra javascript javascripts
如何从hdfs读取文件[重复]

这个问题在这里已经有答案了我在 project1目录下的hadoop文件系统中有一个文本文件名mr txt 我需要编写 python 代码来读取文本文件的第一行而不将 mr txt 文件下载到本地但我无法从 hdfs 打开 mr tx
查找与另一列 Pandas 中的唯一值关联的列中的值的交集

如果我有一个像这样的数据框非常小的例子 col1 col2 0 a 1 1 a 2 2 b 1 3 b 2 4 b 4 5 c 1 6 c 2 7 c 3 我想要所有的交集col2当价值观与其独特性相关时col1值因此在这种情况下交集
正在使用 PIL 保存损坏的图像

我遇到一个问题操作图像像素导致保存损坏的图像因此我使用 PIL 打开图像然后将其转换为 NumPy 数组 image Image open myimage png np image np asarray image 然后我转置图像
使用 subprocess.Popen() 或 subprocess.check_call() 时程序卡住

我想从 python 运行一个程序并找到它的内存使用情况为此我正在使用 l a out lt in txt gt out txt p subprocess Popen l shell False stdout subprocess PI
数据框中 .map(str) 和 .astype(str) 有什么区别

我有一个数据框其列名为 col1 和 col2 的整数类型条目我想将 col1 和 col2 的条目以及其间的点连接起来我搜索并发现添加两个列条目 df col df col1 map str df col2 map str 并添
使用 if 语句的网格网格和用户定义函数的真值不明确

假设我有一个函数f x y 足够光滑然而有些值仅在有限的意义上存在以sin x x的价值x 0只存在于极限 x gt 0 中在一般情况下我用一个来处理这个问题if陈述如果我在情节中使用它meshgrid我收到一条错误消息 Val
python Recipe：列出最接近等于值的项[关闭]

Closed 这个问题需要多问focused help closed questions 目前不接受答案考虑像这样的列表 0 3 7 10 12 15 19 21 我想获得最接近任何值的最近的最小数字所以如果我通过4 我会得到3 如果我
无法导入QUERY_TERMS

我正在运行一个网站Python and Django Django filters 2 1 installed Django 2 1 installed 当我运行时我收到以下错误 importError Could not import
如何通过 Python Requests 库使用基本 HTTP 身份验证？

我正在尝试在 Python 中使用基本的 HTTP 身份验证我正在使用Requests https docs python requests org 图书馆 auth requests post http hostname auth HT
如何展平解析树并存储在字符串中以进行进一步的字符串操作 python nltk

我正在尝试从树结构中获取扁平树如下所示我想将整个树放在一个字符串中就像没有检测到坏树错误一样 S NP SBJ NP DT The JJ high JJ seven day PP IN of NP DT the CD 400 NNS
无需访问 Internet 即可部署 Django 的简单方法？

我拥有的是使用 Django 开发的 Intranet 站点的开发版本以及放置在 virtualenv 中的一些外部库它运行良好我可以在任何具有互联网连接的计算机上使用相同的参数使用 pip 轻松设置 virtualenv 但是不幸
Python 读取未格式化的直接访问 Fortran 90 给出不正确的输出

这是数据的写入方式它是一个二维浮点矩阵我不确定大小 open unit 51 file rmsd nn output form unformatted access direct status replace recl Npoints
如何使用 enumerate 来倒数？

letters a b c 假设这是我的清单在哪里for i letter in enumerate letters 将会 0 a 1 b 2 c 我怎样才能让它向后枚举如 2 a 1 b 0 c 这是一个很好的解决方案并且工作完美 i
在Python中停止ThreadPool中的进程

我一直在尝试为控制某些硬件的库编写一个交互式包装器用于 ipython 有些调用对 IO 的影响很大因此并行执行任务是有意义的使用 ThreadPool 几乎效果很好 from multiprocessing pool import

随机推荐

如何将 bash 命令的输出存储在变量中？ [复制]

这个问题在这里已经有答案了我正在尝试编写一个简单的脚本来终止进程我已经读过使用 bash 和正则表达式在一行中查找并终止进程所以请不要将我重定向到此这是我的代码 LINE ps aux grep 1 PROCESS LINE awk
用于在自连接表中的嵌套
Please help me solve my big problem in my on line shopping project i created a dynamic Category List with Infinite Level
搜索满足 Column1 <= X <= Column2 的行的 SQL 查询非常慢

我正在使用 MySQL 数据库并有下表 CREATE TABLE SomeTable PrimaryKeyCol BIGINT 20 NOT NULL A BIGINT 20 NOT NULL FirstX INT 11 NOT NULL
所有事件驱动框架都应该是单线程的吗？

http weblogs java net blog kgh archive 2004 10 multithreaded t html认为多线程 GUI 框架是一个失败的梦想非 GUI 框架怎么样这个经验法则是否适用于所有事件驱动框架
应用程序启动器图标更改为 Oreo 上的默认图标

我创建了一个带有自己的启动器图标的 Android 应用程序它与牛轧糖配合得很好但在 Oreo 中我的图标被默认的 Android 图标取代我已经定义了ic launcher png and ic launcher round pn
AutoMapper 与 ValueInjecter [关闭]

就目前情况而言这个问题不太适合我们的问答形式我们希望答案得到事实参考资料或专业知识的支持但这个问题可能会引发辩论争论民意调查或扩展讨论如果您觉得这个问题可以改进并可能重新开放访问帮助中心以获得指导 Locked 这个问题及其
将音频 MMS:// 流式传输到 iPhone

我想直播mms url我的 iPhone 应用程序但到目前为止很难获得有关该主题的信息我知道有几个应用程序已经可以做到这一点 FStream WunderRadio Tuner 并且我已经阅读了一些关于它们可能使用 libmms 和
模板类C++

我尝试为我的大学项目设计一个模板我写了以下代码 ifndef LinkedList H define LinkedList H include Link h include
C++ 中的扩展方法

我正在寻找 C 中扩展方法的实现并发现了这个 comp std c 讨论其中提到polymorphic map可以用于将方法与类相关联但是提供的链接似乎已失效有谁知道这个答案指的是什么或者是否有另一种方法以与扩展方法类似的方式扩展
乔恩·斯基特 (Jon Skeet) 的 Singleton 澄清

public sealed class Singleton Singleton public static Singleton Instance get return Nested instance class Nested Explici
等效的隐式运算符：为什么它们是合法的？

Update 请参阅下面我对 C 规范的一部分的剖析我想我一定错过了一些东西因为me看起来我在这个问题中描述的行为实际上违反了规范更新2 好吧经过进一步思考并根据一些评论我想我现在明白发生了什么规范中的源类型一词指的是正在
迭代器上的 Scala 映射不会产生副作用

为什么会这样 scala gt List 1 2 3 4 iterator map x Int gt println x 不打印出来 1 2 3 4 while List 1 2 3 4 map x Int gt println x Lis
如何将系统麦克风音频流传输到连接设备麦克风音频流

I am trying to attach USB device used for tele calling which have pnp sound controller for mic and speaker Now i have tw
Spring Boot with Security OAuth2 - 如何通过 Web 登录表单使用资源服务器？

I have 春季启动 1 2 1 RELEASE 服务的应用程序OAuth2 2 0 6 RELEASE 授权和资源服务器位于一个应用程序实例中它使用自定义UserDetailsService实现利用MongoTemplate在 Mon
Pandas：列的指数平滑函数

我有以下包含交易数据的 DataFrame df pd DataFrame Trader Carl Mark Carl Joe Mark Carl Max Max split Quantity 5 2 5 10 1 5 2 1 Date D
Javascript 和反斜杠替换

这是我的字符串 var str This is my string 这是我的代码 var replaced str replace 我无法让我的输出为 This is my string 我已经尝试了我能想到的正则表达式和替换值的所有组合
在meteor.js 中处理发布数据的简单方法？

我需要在我的meteor js 应用程序中处理一些POST 数据有没有一种简单的方法可以做到这一点非常基本如果它是一个 PHP 应用程序我只需要 POST 变量流星路由器 https github com tmeasday met
如何确定 Apache 运行时的用户和组？

在 DreamHost 共享主机上我正在设置 htpasswd 但 Apache 无权读取该文件我如何授予它权限我想更改所有者或组 htpasswd文件而不是授予它不安全的权限我认为我无权访问httpd conf文件所以我不能使用
将 ResourceProcessor 迁移到 HATEOAS 1.0.0 M1

在我当前的 Spring HATEOAS 0 25 1 RELEASE 项目中我大量使用资源处理器接口 Bean public ResourceProcessor
使用 chunksize 迭代获取推断的数据帧类型

如何使用 pd read csv 迭代地对文件进行分块并保留数据类型和其他元信息就像我阅读了整个内容一样一次数据集我需要读取太大而无法装入内存的数据集我想使用 pd read csv 导入文件然后立即将块附加到 HDFStore

使用 chunksize 迭代获取推断的数据帧类型

使用 chunksize 迭代获取推断的数据帧类型 的相关文章

随机推荐

热门标签

使用 chunksize 迭代获取推断的数据帧类型的相关文章