将大型 DataFrame 输出到 CSV 文件的最快方法是什么？

2024-02-07

对于 python / pandas，我发现 df.to_csv(fname) 的工作速度约为每分钟 1 百万行。有时我可以将性能提高 7 倍，如下所示：

def df2csv(df,fname,myformats=[],sep=','):
  """
    # function is faster than to_csv
    # 7 times faster for numbers if formats are specified, 
    # 2 times faster for strings.
    # Note - be careful. It doesn't add quotes and doesn't check
    # for quotes or separators inside elements
    # We've seen output time going down from 45 min to 6 min 
    # on a simple numeric 4-col dataframe with 45 million rows.
  """
  if len(df.columns) <= 0:
    return
  Nd = len(df.columns)
  Nd_1 = Nd - 1
  formats = myformats[:] # take a copy to modify it
  Nf = len(formats)
  # make sure we have formats for all columns
  if Nf < Nd:
    for ii in range(Nf,Nd):
      coltype = df[df.columns[ii]].dtype
      ff = '%s'
      if coltype == np.int64:
        ff = '%d'
      elif coltype == np.float64:
        ff = '%f'
      formats.append(ff)
  fh=open(fname,'w')
  fh.write(','.join(df.columns) + '\n')
  for row in df.itertuples(index=False):
    ss = ''
    for ii in xrange(Nd):
      ss += formats[ii] % row[ii]
      if ii < Nd_1:
        ss += sep
    fh.write(ss+'\n')
  fh.close()

aa=DataFrame({'A':range(1000000)})
aa['B'] = aa.A + 1.0
aa['C'] = aa.A + 2.0
aa['D'] = aa.A + 3.0

timeit -r1 -n1 aa.to_csv('junk1')    # 52.9 sec
timeit -r1 -n1 df2csv(aa,'junk3',myformats=['%d','%.1f','%.1f','%.1f']) #  7.5 sec

注意：性能的提升取决于数据类型。但这总是正确的（至少在我的测试中） to_csv() 的执行速度比未优化的 python 慢得多。

如果我有一个 4500 万行的 csv 文件，那么：

aa = read_csv(infile)  #  1.5 min
aa.to_csv(outfile)     # 45 min
df2csv(aa,...)         # ~6 min

问题：

What are the ways to make the output even faster?
What's wrong with to_csv() ? Why is it soooo slow ?

注意：我的测试是在 Linux 服务器的本地驱动器上使用 pandas 0.9.1 完成的。

列弗。熊猫重写了to_csv使本机速度有了很大的提高。该过程现在受 I/O 限制，解决了许多微妙的数据类型问题和引用案例。这是我们与 0.10.1（即将推出的 0.11）版本相比的性能结果。这些都在ms，比率越低越好。

Results:
                                            t_head  t_baseline      ratio
name                                                                     
frame_to_csv2 (100k) rows                 190.5260   2244.4260     0.0849
write_csv_standard  (10k rows)             38.1940    234.2570     0.1630
frame_to_csv_mixed  (10k rows, mixed)     369.0670   1123.0412     0.3286
frame_to_csv (3k rows, wide)              112.2720    226.7549     0.4951

因此，单个数据类型（例如浮点数）的吞吐量不太宽，约为 20M 行/分钟，这是上面的示例。

In [12]: df = pd.DataFrame({'A' : np.array(np.arange(45000000),dtype='float64')}) 
In [13]: df['B'] = df['A'] + 1.0   
In [14]: df['C'] = df['A'] + 2.0
In [15]: df['D'] = df['A'] + 2.0
In [16]: %timeit -n 1 -r 1 df.to_csv('test.csv')
1 loops, best of 1: 119 s per loop

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

performance

pandas

output

将大型 DataFrame 输出到 CSV 文件的最快方法是什么？的相关文章

确定向量中是否存在元素的最有效方法

我有几种算法取决于确定元素是否存在于向量中的效率在我看来这 in 这相当于is element 应该是最有效的因为它只返回一个布尔值在测试了几种方法之后令我惊讶的是这些方法是迄今为止效率最低的以下是我的分析随着向量大小的增加
在 Jupyter Notebook 中设置环境变量的不同方法

在某些情况下我在 Windows 10 计算机上使用 Jupyter 笔记本我想通过设置环境变量 GOOGLE APPLICATION CREDENTIALS 来向 GCP 进行身份验证我想知道这两种设置环境变量的方式有什么区别当
如何在seaborn热图标签中使用科学计数法？

我正在尝试在 python 中使用seaborn 获取热图不幸的是即使数字非常大它也没有使用科学记数法我想知道是否有任何简单的方法可以转换为科学记数法或任何其他合理的格式这是显示问题的一段代码 import seaborn as
sy.sympify(str(表达式)) 不等于表达式

据我了解 str将 SymPy 表达式转换为字符串并sympify将字符串转换为 SymPy 表达式因此我希望以下内容成立对于合理的表达 gt gt gt sy sympify str expr expr True 我尝试过这个确实
检查子字符串是否在字符串列表中？

我之前已经找到了这个问题的一些答案但它们对于当前的Python版本来说似乎已经过时了或者至少它们对我不起作用我想检查字符串列表中是否包含子字符串我只需要布尔结果我找到了这个解决方案 word to check or wordlis
如何将脚本作为 pytest 测试运行

假设我有一个用简单脚本表示的测试assert 陈述请参阅背景了解原因例如 import foo assert foo 3 4 我如何以一种好的方式将该脚本包含在我的 pytest 测试套件中我尝试了两种有效但不太好的方法一种方法是将
如何调试 numpy 掩码

这个问题与this one https stackoverflow com q 73672739 11004423 我有一个正在尝试矢量化的函数这是原来的函数 def aspect good angle float planet1 goo
当我从本地计算机更改为虚拟主机时，从 python 脚本调用 pdftotext 不起作用

我编写了一个小的 python 脚本来解析提取 PDF 中的信息我在本地机器上测试了它我有 python 2 6 2 和 pdftotext 版本 0 12 4 我正在尝试在我的虚拟主机服务器 dreamhost 上运行它它有 py
将多索引转换为行式多维 NumPy 数组。

假设我有一个类似于以下示例的 MultiIndex DataFrame多索引文档 http pandas pydata org pandas docs stable advanced html gt gt gt df 0 1 2 3 fir
烧瓶 - 404 未找到

我是烧瓶开发的新手这是我在烧瓶中的第一个程序但它向我显示了这个错误在服务器上找不到请求的 URL 如果您输入了网址请手动检查拼写并重试这是我的代码 from flask import Flask app Flask name ap
获取 int() 参数必须是字符串或数字，而不是“Column”- Apache Spark

如果我使用以下代码我会收到此异常 int argument must be a string or a number not Column df df withColumn FY F when df ID substr 5 2 isin
Karasuba算法递归过多

我正在尝试用 c 实现 Karasuba 乘法算法但现在我只是想让它在 python 中工作这是我的代码 def mult x y b m if max x y lt b return x y bm pow b m x0 x bm x1
如何仅注释堆积条形图的一个类别

我有一个数据框示例如下所示 data Date 2021 07 18 2021 07 19 2021 07 20 2021 07 21 2021 07 22 2021 07 23 Invalid NaN 1 1 NaN NaN NaN N
在 pygame 中，我如何创建一个数据结构来跟踪调整大小事件和对象的坐标？

我希望在调整屏幕大小后使鼠标事件与对象保持同步有人告诉我需要创建一个数据结构来跟踪调整事件大小新坐标以匹配调整大小如何使用简单的代数方程来完成此操作并将其集成到调整大小事件中以进行准确更新反过来做创建一个虚拟游戏地图在绘制场景
如何全局安装 Python（开发）依赖项，以便我不必在每个 venv 中重新安装它们？

我希望在为每个项目创建的每个 venv 虚拟环境中都可以使用一些 Python 依赖项例如 black flake8 和 pytest 这可能吗如果可以如何实现我想安装这三个once在我的主要 Python 安装下我必须在启动新
有没有办法拉伸整个显示图像以适应给定的分辨率？

我最近一直在使用pygame制作游戏遇到了一个小问题基本上我希望能够将屏幕上的整个图像我已经传输到它的所有内容拉伸到用户将窗口大小调整到的分辨率我在 pygame 和堆栈溢出的文档中搜索了很多但我似乎找不到答案这可能吗我的
通过新数据更新绘图，而不是在 Jupyter 笔记本中制作新绘图

我有一些问题希望你能帮我解决我需要使用下拉小部件创建交互式绘图我可以在其中选择并绘制感兴趣的数据我通过以下方式做到这一点 import plotly graph objects as go import ipywidgets as
Python RE（总之检查第一个字母是否区分大小写，其余部分不区分大小写）

在下面的情况下我想匹配字符串 Singapore 其中 S 应始终为大写其余单词可能为小写或大写但在下面的字符串 s 是小写的它在搜索条件中匹配任何人都可以让我知道如何实施吗 import re st Information in
如何在supervisord中设置组？

因此我正在设置 Supervisord 并尝试控制多个进程并且一切正常现在我想设置一个组以便我可以启动停止不同的进程集而不是全部或全无这是我的配置文件的片段 group tapjoy programs tapjoy game1
OSError: [WinError 193] %1 不是有效的 Win32 应用程序，同时使用 CTypes 在 python 中读取自定义 DLL

我正在尝试编写用 python 封装 C 库的代码我计划使用 CTypes 来完成此操作并使用 Visual Studio 来编译我的 DLL 我从一个简单的函数开始在 Visual Studio 内的标头中添加了以下内容然后将其构

随机推荐

为什么“java.lang.ArrayIndexOutOfBoundsException: 0”带有“main”方法参数[关闭]

Closed 这个问题不符合堆栈溢出指南 help closed questions 目前不接受答案我的代码哪里有错误 package My import java text SimpleDateFormat import java ut
不存在类型变量 T 的实例，因此 Flux 确认为 Mono

我正在实现 Spring webflux 演示应用程序并编写了我的演示应用程序如下所示 package com abcplusd application import com abcplusd domain Event import o

如何在 Wicket 中返回外部 URL 的链接？

我有一个带有表单的网络应用程序当我单击保存时应用程序会创建一些文件并返回一些网址如何在网页上显示此网址 Use ExternalLink 普通静态链接 new ExternalLink link http some url This
Template模板参数，为什么class强制？

如果我写的话标题几乎说明了一切 vvvvv template
如何在 libcurl 中使用成员函数指针

我正在使用 libcurl 我在类中下载文件我想查看其中的进度函数我注意到我可以通过设置一个典型的函数指针 curl easy setopt mCurl CURLOPT PROGRESSFUNCTION progress func3 但
Laravel - 工匠不工作

我知道其他问题在那里 https stackoverflow com questions 18910502 laravel artisan command not working 但它们与我的情况不同我安装了自己的 laravel 的新副
汇总错误：node_modules/react-is/index.js 未导出“isValidElementType”

我正在使用样式组件构建一个带有 rollUp 的捆绑包我的 rollup config js 如下所示 import resolve from rollup plugin node resolve import babel from ro
应用程序的强名称验证失败

我制作了一个使用 C Program Files x86 Reference Assemblies Microsoft WindowsPowerShell 3 0 System Management Automation dll 的 C 应
Angular 5：如何上传图像[重复]

这个问题在这里已经有答案了我正在使用 Angular 5 我有一个需求需要在页面上上传图片并显示该图片有没有 Angular 5 标签或 html 标签可以做到这一点我附上了它的屏幕截图用户单击上传按钮应该会出现一个弹出窗口
就地执行 numpy exp 函数

如标题所示我需要执行numpy exp在一个非常大的 ndarray 上比方说ar 并将结果存储在ar本身这个操作可以就地进行吗您可以使用可选的out的论证exp a np array 3 4 5 res np exp a a pr
管理多个 Twisted 客户端连接

我正在尝试在一种管理多个客户端连接的蜘蛛程序中使用 Twisted 我想维持一组大约 5 个同时工作的客户每个客户端的功能是连接到从列表中获取的指定 IRC 服务器进入特定频道然后将该频道中的用户列表保存到数据库中我遇到的问题更多的
从 Flutter 应用程序访问 ExpoSecureStore 存储的钥匙串值 [iOS]

我有一个 React Native 应用程序仅针对 iOS 发布它使用曝光安全存储 https docs expo io versions latest sdk securestore 从 iOS 钥匙串中写入和读取值我正在过渡到 F
创建自定义 XML 数据类型？

有没有办法为 Android 创建自定义 XML 数据类型我有课Model其中包含我的实体的所有统计数据我希望能够充气Model与 xml 中的类类似嗯就像视图一样这可能吗 Example
Pandas UDF 不比 Spark UDF 快吗？ [复制]

这个问题在这里已经有答案了我从 Pyspark 网站获取了以下 UDF 因为我试图了解是否有性能改进我制作了很大范围的数字但两者花费的时间几乎相同我做错了什么 Thanks import pandas as pd from pysp
Fortran：将任意“结构”传递给模块子例程

我正在尝试编写一个通用子例程以实现最小化由于我想要一个通用的子例程目标函数可以有不同的参数不仅在名称上而且在维度上所以我需要一种方法来传递该参数结构我使用结构一词因为我的想法是使用类似于 Matlab 中的结构类型变量的东
Scala 2 隐式和 Scala 3 给定/使用之间的区别

两者有什么区别implicitScala 2 中的关键字和given using在 Scala 3 中难道只是这样吗implicit已被分成两个关键字或者语义也不同如果是如何在大多数情况下它们是相同的然而 implicit不再
使用 url 中的 javascript 更改框架属性

我想根据 URL 使用 javascript 更改 iframe 的大小我的意思是如果网址是 mywebpage com example html width 800 height 450 iframe 是看到 iframe 中的宽度
ASM字节码工程库中MethodVisitor类的visitLocalVariable()方法是做什么的？

我在应用程序中使用 ASM 第一次来创建 Java 类文件这是我正在编写的编译器的后端我阅读了 ASM 文档的相关部分并对堆栈映射框架有疑问 ASM 表示如果使用适当的标志初始化类编写器它可以自动计算这些帧我的问题是这是否意
如此透明，我无法捕捉到它...使用 Rghost 模拟 Ghostscript 命令，就像在虚拟打印机上一样

作为一个红宝石新手我一直在寻找幽灵你可能会有所帮助我读了很多书并被告知对付这些鬼鬼祟祟的家伙的最好方法是使用脚本 ghostscript 我正在尝试执行在虚拟打印机中运行的 Ghostscript 命令但在 ruby 鞋子文件的
将大型 DataFrame 输出到 CSV 文件的最快方法是什么？

对于 python pandas 我发现 df to csv fname 的工作速度约为每分钟 1 百万行有时我可以将性能提高 7 倍如下所示 def df2csv df fname myformats sep function is

将大型 DataFrame 输出到 CSV 文件的最快方法是什么？

将大型 DataFrame 输出到 CSV 文件的最快方法是什么？ 的相关文章

随机推荐

热门标签

将大型 DataFrame 输出到 CSV 文件的最快方法是什么？的相关文章