pandas 是否会自动跳过行并进行大小限制？

2024-01-20

我们都知道这个问题，当你运行时出现内存错误：pandas 数据框的最大大小 https://stackoverflow.com/questions/23569771/maximum-size-of-pandas-dataframe/44207661

我也尝试读4大csv-files使用以下命令：

files = glob.glob("C:/.../rawdata/*.csv")
dfs = [pd.read_csv(f, sep="\t", encoding='unicode_escape') for f in files]
df = pd.concat(dfs,ignore_index=True)

我接受的唯一按摩是：

C:..\conda\conda\envs\DataLab\lib\site-packages\IPython\core\interactiveshell.py:3214: DtypeWarning：列 (22,25,56,60,71,74) 具有混合类型。指定导入时的 dtype 选项或设置 low_memory=False。如果（产量来自 self.run_code（代码，结果））：

这应该没问题。

我的总数据框的大小为：(6639037, 84)

在没有内存错误的情况下是否可以有任何数据大小限制？这意味着 python 会自动跳过一些行而不告诉我？我过去和另一个程序有过这个，我不认为Python那么懒，但你永远不知道。

进一步阅读：后来我保存的是sqlite-file，但我也不认为这应该是一个问题：

conn = sqlite3.connect('C:/.../In.db')
df.to_sql(name='rawdata', con=conn, if_exists = 'replace', index=False)
conn.commit()
conn.close()

您可以将生成器表达式传递给 concat

dfs = (pd.read_csv(f, sep="\t", encoding='unicode_escape') for f in files)

这样你就可以避免在内存中创建那个疯狂的列表。这可能会缓解内存限制的问题。

此外，您可以制作一个特殊的生成器，其中包含某些列的向下转换。说吧，像这样：

def downcaster(names): 
    for name in names:
        x = pd.read_csv(name, sep="\t", encoding='unicode_escape')
        x['some_column'] = x['some_column'].astype('category')
        x['other_column'] = pd.to_numeric(x['other_column'], downcast='integer')
        yield x

dc = downcaster(names)
df = pd.concat(dc, ...

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

Windows

pandas

pandas 是否会自动跳过行并进行大小限制？的相关文章

如何进行重定向并保留查询字符串？

我想进行重定向并保留查询字符串就像是self redirect加上发送的查询参数那可能吗 newurl my new route urllib urlencode self request params self redirect ne
在 ubuntu 中卸载 python 模块

我必须删除一个名为 django 的 python 模块一种流行的模块因为我安装了错误的版本 1 3 py 2 6 中的 beta 如何卸载这个模块请解释一下因为我只在 Windows 中使用过 python 而从未在 Ubuntu
如何检查给定的数字是否是2的幂？

下面的代码不适用于某些输入 a i set 1 while i lt 10000 a add i i lt lt 1 N int input if N in a print True else print False 我最初的想法是检查每个
FastAPI UploadFile 与 Flask 相比慢

我创建了一个端点如下所示 app post report upload def create upload files files UploadFile File try with open files filename wb as wf
matplotlib - 将文本包装在图例中

我目前正在尝试绘制一些pandas数据通过matplotlib seaborn 然而我的一个专栏标题特别长拉长了情节考虑以下示例 import random import pandas as pd import matplotlib p
pandas DataFrame 中行的高效成对比较

我目前正在处理一个较小的数据集大约 900 万行不幸的是大多数条目都是字符串即使强制类别框架在内存中也只有几 GB 我想做的是将每一行与其他行进行比较并对内容进行直接比较例如给定 A B C D 0 cat blue old
如何使用 Python 在表单中选择选项？

我想知道如何以格式如下的形式选择选项 td align left td
Plotly：如何设置文本格式（下划线、粗体、斜体）

使用注释时我尝试在绘图中为文本添加下划线我使用添加注释 import plotly graph objects as go g go FigureWidget make subplots rows 1 cols 1 g update l
如何停止 PythonShell

如何终止停止 Node js 中 PythonShell 执行的 Python 脚本的执行我在交互模式下运行输出通过 socket io 发送到给定的房间如果没有更多的客户端连接到这个房间我想停止 python 脚本的执行这是我
私有属性，但却是一个神秘的领域

我想将属性设为私有但带有 pydantic 字段 from pydantic import BaseModel Field PrivateAttr validator class A BaseModel a str I want a py
python os.fork 使用相同的 python 解释器吗？

据我所知 Python 中的线程使用相同的 Python 解释器实例我的问题是与创建的流程相同os fork 或者每个进程创建的os fork有自己的翻译吗每当你 fork 时整个 Python 进程都会在内存中复制包括Python
使用最新值进行采样

考虑以下系列 created at 2014 01 27 21 50 05 040961 80000 00 2014 03 12 18 46 45 517968 79900 00 2014 09 05 20 54 17 991260 636
如何在使用 Flask for Python 3 的同时使用 Bootstrap 4？

我检查过发现默认安装时 Flask Bootstrap 原生使用 Bootstrap 3 3 7 但实际上我想通过使用 Flask Bootstrap 包在我的项目中使用 Bootstrap 4 任何有关如何更新它或类似内容的帮助将不胜感
在基本 Tensorflow 2.0 中运行简单回归

我正在学习 Tensorflow 2 0 我认为在 Tensorflow 中实现最基本的简单线性回归是一个好主意不幸的是我遇到了几个问题我想知道这里是否有人可以提供帮助考虑以下设置 import tensorflow as tf 2
配置 Django 和 Google 云存储？

I am not使用应用引擎我有一个在虚拟机上运行的普通 Django 应用程序我想使用 Google Cloud Storage 来提供静态文件以及上传提供媒体文件我有一个水桶如何将 Django 应用程序链接到我的存储桶我
如何读取多个文件并将它们合并到一个 pandas 数据框中？

我想读取位于同一目录中的多个文件然后将它们合并到一个 pandas 数据框中如果我这样做的话它会起作用 import pandas as pd df1 pd read csv data 12015 csv df2 pd read csv
如何在 Jupyter Notebook 中选择 conda 环境

我安装了 Anaconda 5 3 和 Python 3 7 根环境之后我使用 Python 3 6 创建了一个新环境 py36 我激活了新环境activate py36 conda env list表明环境是活跃的但是当我启动 Jup
model.predict() 返回类而不是概率

Hello 我是第一次使用 Keras 我训练并保存了一个模型作为 json 文件及其权重该模型旨在将图像分为 3 个类别我的编译方法 model compile loss categorical crossentropy optim
无法将 librosa 与 python 3 一起使用

我已经在 Windows 上的 ubuntu 子系统上使用 pip3 正确安装了 librosa 但是当我尝试执行像这样的简单程序时 import librosa data sr librosa load sound mp3 print d
Python 中的可逆 STFT 和 ISTFT

有没有通用的形式短时傅立叶变换 https en wikipedia org wiki Short time Fourier transform与内置于 SciPy 或 NumPy 或其他什么中的相应逆变换这是pyplotspecgram

随机推荐

如何在PHP中获取新推送项目的数字键？

arr new item 是否可以通过编程方式获取新推送的项目请注意这不是必需的count arr 1 arr 1 2 arr new item 在上面的例子中就是2 end 完成工作返回价值如果对你有帮助您可以使用key 之后
RuntimeBinderException - C# .NET 4 动态关键字 - 帮助我理解为什么方法不匹配

我为 HttpModule 构建了一个通用配置系统允许可插入的 HTTP 标头检查器作为参考这里是代码的基本布局这应该足以让我了解我正在做的事情 public interface IHttpHeaderInspectingAuthe
如何为我的 Java 应用程序指定一个唯一的进程名称？

我注意到当我启动 Netbeans 时它在任务管理器中显示为netbeans exe因为我自己的所有 Java 应用程序都显示为java exe or javaw exe 我怎样才能改变它以便我的进程名称显示为myapp exe 进程
在 R 中创建空间数据

我有一个 100 x 200 米区域内物种及其大致位置的数据集数据框的位置部分不是我认为可用的格式在这个 100 x 200 米的矩形中有 200 个 10 x 10 米的正方形分别命名为 A 到 CV 每个 10 x 10 的正方
如何动态添加导航栏到 jQuery Mobile 应用程序

如何动态地将导航栏添加到我的 jquery 移动应用程序中我希望能够从 javascript 将导航栏元素添加到 dom 然后解析它们我发现我可以根据需要将元素添加到 DOM 然后在元素上调用 navbar 它将执行导航栏解析例如我可
Ormlite Android 批量插入

谁能解释一下为什么我的插入在 Ormlite 中花费了这么长时间在桌面上的一个 SQLite 事务中执行 1 700 次插入只需不到一秒然而当使用 Ormlite for Android 时大约需要 70 秒并且我可以在调试消息中
.NET几何库[关闭]

Closed 此问题正在寻求书籍工具软件库等的推荐不满足堆栈溢出指南 help closed questions 目前不接受答案我正在 NET 中启动一个新项目该项目需要一些几何算法例如检查点是否在多边形内部贝塞尔曲线线交
在 C# 类库中使用 MATLAB MWArray.dll

我正在尝试使用 dll 在 MATLAB 中使用 Matlab net Complier 构建 C 类库但是每次初始化 MWArray dll 中的对象时程序都会引发异常例如 MWNumericArray m new MWNumeric
json.dump 在看似有效的对象上抛出“TypeError：{...} 不是 JSON 可序列化”？

背景我正在编写一个 python 程序来管理我的音乐文件它抓取目录并将文件及其元数据通过诱变剂以 JSON 编码作为简单的数据库放入文件中我的目录搜索很好但是当我尝试保存数据库或编码为 JSON 时它会抛出 TypeEr
维护 web.config 文件

我很想知道其他人如何维护已部署应用程序的 web config 文件假设没有自动部署机制这超出了这个问题的范围因此在开发过程中一些开发人员可能会利用 web config 转换构建发布他们的项目调试发布测试实时配置然
如何撤消clearPackagePreferredActivities("com.android.launcher");

我想做的是复制 ToddlerLock 应用程序的功能我已经设法清除默认启动器 PackageManager localPackageManager getPackageManager localPackageManager clearP
使用 Apollo/graphQL/React 访问和刷新令牌

经过长时间的搜索当访问令牌过期时我为我的应用程序制定了这个解决方案与其他服务的区别在于我必须使用外部服务在使用我的谷歌帐户登录时为我提供访问和刷新令牌然后当访问令牌过期时我需要检索刷新令牌将其发送到为我提供新访问和刷新令牌
C - 求结构的尺寸

我被问到这个问题作为面试问题无法回答编写一个 C 程序来查找结构的大小而不使用sizeof操作员 struct XYZ int x float y char z int main struct XYZ arr 2 int sz cha
ServiceStack.Text 是否提供 JSON 的漂亮打印？

TL DR ServiceStack Text 中是否有内置方法来生成打印精美的 JSON 我在用ServiceStack Text https github com ServiceStack ServiceStack Text用于进行 J
如何在 Angular2 的 Pipe 中将数组作为 arg 传递

我创建了一个管道其目的是根据标签列表过滤列表 Pipe name tagfilter export class TagFilterPipe implements PipeTransform transform items Event ar
更改操作栏溢出的样式

我在我当前的 android 应用程序中使用 Theme Holo 上面是我当前主题的溢出 UI 我想将溢出菜单的背景颜色自定义为 RGB 245 243 239 将字体颜色自定义为 RGB 64 64 64 以下是我正在使用的 style
在 ActionBar 上放置一个进度条

我试图在操作栏上放置一个不确定的进度栏例如我使用 actionView 来放置进度条例如 Google 应用程序
如何将模式模板的 let-c="close" 传递给其他组件的 html Angular 5

我是 Angular 4 的新手请帮助我我有一个具有模式模板的组件成分 import Component from angular core import NgbModal ModalDismissReasons from ng bo
Android studio 抛出 IOException：不允许操作

现在我正在为自己创建一个应用程序它将数据附加到几个文件中但是当我尝试创建文件或者实际上打开它们时程序会抛出java io IOException Operation not permitted 如您所见已授予存储权限这个应用
pandas 是否会自动跳过行并进行大小限制？

我们都知道这个问题当你运行时出现内存错误 pandas 数据框的最大大小 https stackoverflow com questions 23569771 maximum size of pandas dataframe 442076

pandas 是否会自动跳过行并进行大小限制？

pandas 是否会自动跳过行并进行大小限制？ 的相关文章

随机推荐

热门标签

pandas 是否会自动跳过行并进行大小限制？的相关文章