Dataframe 写入 Postgresql 性能不佳

2024-01-06

在 postgresql 中工作，我有一个笛卡尔连接，生成约 400 万行。连接需要约 5 秒，写回数据库需要约 1 分 45 秒。

这些数据需要在 python 中使用，特别是在 pandas 数据框中，因此我正在尝试在 python 中复制相同的数据。我应该在这里说，所有这些测试都在一台机器上运行，因此没有任何内容通过网络进行。

使用 psycopg2 和 pandas，读入数据并执行连接以获得 400 万行（来自此处的答案：pandas 中的笛卡尔积 https://stackoverflow.com/questions/13269890/cartesian-product-in-pandas）持续花费不到 3 秒，令人印象深刻。

然而，将数据写回数据库中的表需要 8 分钟（最佳方法）到 36 分钟以上（加上我拒绝的一些方法，因为我必须在 >1 小时后停止它们）。

虽然我没想到会重现“仅 sql”时间，但我希望能够接近 8 分钟（我认为 3-5 分钟不会不合理）。

较慢的方法包括：

36分钟 - sqlalchemy`s table.insert（来自此处的“test_sqlalchemy_core”https://docs.sqlalchemy.org/en/latest/faq/performance.html#i-m-inserting-400-000-rows-with-the-orm-and-it-s-really-slow https://docs.sqlalchemy.org/en/latest/faq/performance.html#i-m-inserting-400-000-rows-with-the-orm-and-it-s-really-slow)

13分钟-psycopg2.extras.execute_batch（https://stackoverflow.com/a/52124686/3979391 https://stackoverflow.com/a/52124686/3979391)

13-15分钟（取决于块大小）-pandas.dataframe.to_sql（再次使用sqlalchemy）（https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.to_sql.html https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.to_sql.html)

最好的方法（〜8分钟）是使用psycopg2的cursor.copy_from方法（在这里找到：https://github.com/blaze/odo/issues/614#issuecomment-428332541 https://github.com/blaze/odo/issues/614#issuecomment-428332541）。这涉及到首先将数据转储到 csv（通过 io.StringIO 在内存中），仅此一项就需要 2 分钟。

所以，我的问题是：

任何人都有可能更快地将数百万行从 pandas 数据帧写入 postgresql 的方法吗？
cursor.copy_from 方法的文档（http://initd.org/psycopg/docs/cursor.html http://initd.org/psycopg/docs/cursor.html）声明源对象需要支持 read() 和 readline() 方法（因此需要 io.StringIO）。据推测，如果数据框支持这些方法，我们就可以省去写入 csv。有什么方法可以添加这些方法吗？

谢谢。贾尔斯

EDIT:

在第二季度 - pandas 现在可以使用 to_sql 的自定义可调用对象以及此处给出的示例：https://pandas.pydata.org/pandas-docs/stable/user_guide/io.html#io-sql-method https://pandas.pydata.org/pandas-docs/stable/user_guide/io.html#io-sql-method几乎按照我上面的建议进行操作（即它使用 StringIO 直接从 STDIN 复制 csv 数据）。我发现使用此方法写入速度提高了约 40%，这使 to_sql 接近上面提到的“最佳”方法。

我自己回答问题1：看来这个问题更多地与 Postgresql（或者更确切地说是数据库）有关。考虑到本文中提出的观点：https://use-the-index-luke.com/sql/dml/insert https://use-the-index-luke.com/sql/dml/insert我发现了以下内容：

1) 从目标表中删除所有索引导致查询在 9 秒内运行。重建索引（在 postgresql 中）又花了 12 秒，所以仍然远远低于其他时间。

2) 在仅存在主键的情况下，插入按主键列排序的行将所需时间减少到大约三分之一。这是有道理的，因为应该很少或不需要对索引行进行改组。我还验证了这就是为什么我在 postgresql 中的笛卡尔连接首先速度更快的原因（IE 行是按索引排序的，纯粹是偶然的），将相同的行放在临时表中（无序）并从中插入实际上花了更长的时间。

3）我在我们的mysql系统上尝试了类似的实验，发现删除索引时插入速度也有同样的提高。然而，对于mysql来说，重建索引似乎耗尽了所获得的任何时间。

我希望这对通过搜索遇到此问题的其他人有所帮助。

我仍然想知道是否可以删除 python 中的写入 csv 步骤（上面的 Q2），因为我相信我可以在 python 中编写比纯 postgresql 更快的东西。

谢谢，贾尔斯

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Dataframe 写入 Postgresql 性能不佳的相关文章

使用 python 通过搜索端点从 Spotify API 获取曲目

因此我尝试使用 API 的搜索端点进行搜索从而从 Spotify API 获取曲目请参阅文档 https developer spotify com documentation web api reference search sea
Keras，如何获取每一层的输出？

我已经用 CNN 训练了一个二元分类模型这是我的代码 model Sequential model add Convolution2D nb filters kernel size 0 kernel size 1 border mode
在一张图中同时绘制两个截面强度

我有一个形状数组 512 512 看起来像行 x 列 y 密度 z 数组的数量 0 012825 0 020408 0 022976 0 015938 0 02165 0 024357 0 036332 0 031904 0 025462
如何编写高效的配对算法？

我需要一种算法的帮助该算法可以有效地将人们分组并确保以前的配对不会重复例如假设我们有 10 位候选人 candidates 0 1 2 3 4 5 6 7 8 9 并假设我们有一个先前匹配的字典这样每个键值对即candidate
Python - 为什么这段代码被视为生成器？

我有一个名为 mb 的列表其格式为 Company Name Rep Mth 1 Calls Mth 1 Inv Totals Mth 1 Inv Vol Mth 2 等等在下面的代码中我只是添加了一个包含 38 个 0 的新列表这
使用 K 均值聚类 OpenCV 进行交通标志分割

I used K Means Clustering to perform segmentation on this traffic sign as shown below 这些是我的代码读取图像并模糊 img cv imread 000
代理阻止网络套接字？如何绕行

我有一个用 Python 编写的正在运行的 websocket 服务器来自https github com opiate SimpleWebSocketServer https github com opiate SimpleWebSoc
出现意外的关键字参数“timeout”（Python 中的 google-cloud-storage）

使用 google cloud storage 的 Python 项目在本地运行良好但是当它从 App Engine 运行时会显示错误 Traceback most recent call last File opt python3 7
Python将csv数据导出到文件中

我有以下运行良好的代码但我无法修剪数据并将其存储在数据文件中 import nltk tweets love this car this view amazing not looking forward the concert def g
散景中的时间序列流

我想在散景中绘制实时时间序列我只想在每次更新时绘制新的数据点我怎样才能做到这一点散景网站上有一个动画情节的示例但它每次都需要重新绘制整个图片另外我正在寻找一个简单的示例我可以在其中逐点绘制时间序列的实时绘图散景效果0 11
将 ASCII 字符转换为“”unicode 表示法的脚本

我正在对 Linux 区域设置文件进行一些更改 usr share i18n locales like pt BR 并且需要格式化字符串例如 d m Y H M 必须以 Unicode 指定其中每个在本例中为 ASCII 字符表示为
如何使用 python-gnupg 加密大型数据集而不占用所有内存？

我的磁盘上有一个非常大的文本文件假设它是 1 GB 或更多还假设该文件中的数据有 n每 120 个字符一个字符我在用python gnupg https pythonhosted org python gnupg 对此文件进行加密由
在 groupby 聚合函数中传递参数

我有我引用的数据框df在代码中我在每组的多个列上应用聚合函数我还应用了用户定义的 lambda 函数f4 f5 f6 f7 有些功能非常相似例如f4 f6 and f7其中只有参数值不同我可以从以下位置传递这些参数吗字典 d 这样我
tweepy 流到 sqlite 数据库 - 语法错误[重复]

这个问题在这里已经有答案了可能的重复 tweepy 流到 sqlite 数据库语法无效 https stackoverflow com questions 9434205 tweepy stream to sqlite database
python 的 fcntl.flock 函数是否提供文件访问的线程级锁定？

Python 的 fcnt 模块提供了一种名为 flock 1 的方法来证明文件锁定其描述如下对文件执行锁定操作op 描述符 fd 文件对象提供 fileno 方法被接受为出色地请参阅 Unix 手册集群 2 了解详情在某些系统上
有条件地将字符串转换为特定数值

我确信对此有一个简单的答案但我已经扫描了堆栈溢出但无法找到解决方案似乎 sapply 和 ifelse 函数的组合可能可以完成这项工作但我不确定所以我有一个包含字符的数据框除了一列是数值 Create dataframe whi
如何在 Python 中解析损坏的 XML？

我无法影响的服务器发送的 XML 非常损坏具体来说 Unicode WHITE STAR 将被编码为 UTF 8 E2 98 86 然后使用 Latin 1 转换为 HTML 实体表我得到的是 acirc 98 86 9 个字节位于声
Elastic Beanstalk 上的 Django + MySQL - 查询 MySQL 时出错

当我在 Elastic beanstalk 上托管的 Django 应用程序上查询 MySQL 时出现错误错误说 admin login 处出现操作错误 1045 用户 adminDB 172 30 23 5 的访问被拒绝使用密码 Y
在 pip 中为 Flask 应用程序构建 docker 映像失败

from alpine latest RUN apk add no cache python3 dev pip3 install upgrade pip WORKDIR backend COPY backend RUN pip no cac
获取长度为 n 的所有（n-选择-k）组合

我怎样才能获得长度的所有组合按顺序 n从数字列表中例如给定列表 1 2 3 4 并设置n 3 我怎样才能得到这些结果 1 2 3 1 2 4 1 3 4 2 3 4 For combinations of all possible l

随机推荐

Mysql 带游标的存储过程

Mysql游标问题我编写了一个存储过程它将从一个表中获取旅行记录并将其插入到 2 3 个不同的表中使用插入语句问题是我正在检查 table1 中是否不存在记录然后我将记录从 temptable 顺序插入到 table1 table
PHP - 检查一个字符串是否是另一个字符串的旋转

需要编写一个代码块来检查一个字符串是否是另一个字符串的旋转看了这里的大量帖子都是用 Java 或 C 写的但我需要用 PHP 来做我尝试了一些不同的方法尝试使用 C 和 Java 示例但我没有任何运气这是我当前的代码
bx滑块启动/停止功能

我正在使用 bxslider 插件并为上一个和下一个功能创建了一些外部控件尽管我似乎不知道如何对启动停止控件执行相同的操作基本上我想用它作为滑块的播放暂停功能有人有这个插件的经验吗这是我到目前为止所拥有的没有启动停止功能工
跨域图片上传 Angular+laravel

我一直在努力在服务器上上传图像我在用ng文件上传 https github com danialfarid ng file upload在前端但我总是得到对预检请求的响应未通过访问控制检查请求的资源上不存在 Access Contr
如何在 Ruby 中解析带有单引号 (') 的 JSON 字符串？

我正在尝试解析这样的 JSON 字符串 JSON parse foo 42 但是这会产生 JSON ParseError JSON ParserError 757 unexpected token at foo 42 from Users
更新插入文档和/或添加子文档

我一直在努力解决 MongoDB Mongoose 和 JavaScript 的异步特性以及如何最好地对集合进行多次更新我有一张包含客户和联系人数据的 Excel 表格有些客户端有多个联系人每行一个并且客户端数据是相同的因此客户端
运行 Leiningen 时出现 java.lang.NoSuchMethodError：clojure.lang.KeywordLookupSite

我刚刚下载了 Leiningen 但无法运行它下载自己的 Jar 存档后脚本失败并出现 java 错误通过跑步bash x lein我可以看到它挂在这一行 exec java Xbootclasspath a home andrea
如何使用 Swift 构建 ScrollView？

我正在构建我的第一个 IOS 应用程序我正在努力寻找一种方法来使用 XCode6 上的 Swift 代码做一个简单的 ScrollView 请问有人可以帮助我找到解决方案吗我的问题是我不知道如何使滚动视图在我的代码中工作我已经将代码放
通过 gdal 将多个频段合并在一起...正确

我正在 python 中使用一些 Sentinel 2 卫星图像现在我使用较新的 2016 年之前的没有任何问题但我需要使用 2016 年的一些欧洲航天局没有以同样的方式对这些进行预处理通常当您下载图块时您通常会获得每个卫星频
计算字符串中前导空格的 pythonic 方法是什么？

我知道我可以用这个来计算字符串中的前导空格 gt gt gt a foo bar baz qua n gt gt gt print Leading spaces len a len a lstrip Leading spaces 3 gt
具有椭圆积分和贝塞尔函数的 Java/Scala 数学库？

我正在寻找一个用于科学计算的数学库以便在 Java Scala 中使用特别是我需要完整的椭圆积分和修正的贝塞尔函数如果它是开源的我会很高兴但我想我将不得不采用那里的任何东西替换 scipy 用于科学计算的 python 库会很
为什么对原始值使用表达式主体属性？ [复制]

这个问题在这里已经有答案了表达式主体属性与直接属性声明相比有何优缺点例如使用有什么好处吗 public string Foo gt Bar 与简单地 public string Foo Bar 我的理解是 gt 当值来自方法例如 l
图片上传重力形式预览

我使用重力表格制作了一个联系表格其中我使用了图像上传器现在我想向正在上传的用户显示图像的预览有办法实现这个目标吗抱歉迟到的答复
XIB中如何根据子视图大小调整超级视图的高度？

在xcode 6中我为自定义视图创建了一个xib 名为 ViewA 有红色背景色 ViewA的xib有一个文件大小600 600 在ViewA中我放置了一个子视图labelB 有绿色背景色其中 labelB的numberOfLines
为加密狗附加系统编写什么代码才能提供更好的安全性？

我开发了一个软件使用 C 和 Python 我想用加密狗对其进行保护以便复制和逆向工程变得足够困难我的加密狗设备附带一个 api 它提供以下功能检查加密狗是否存在检查正确的加密狗写入加密狗的内存位置从加密狗等的内存位置读取我
如何在方法内使用“this”创建类的新实例？

我正在寻找一种方法来调用 newthis从类方法内部 class Example fork return new this const x new Example fork instance of example class Alpha e
如何开发适用于手机和平板电脑的 Xamarin 表单应用程序

1 在Android Java 中手机和平板电脑有不同的文件夹 Layout布局大布局 xlarge 2 在 iOS 中使用通用设置我还没有尝试过以 Xamarin 形式我需要一些帮助如果该应用程序适用于手机和平板电脑我需要做
Pyinstaller：找不到 PyQT5 Web 应用程序的 QtWebEngineProcess.exe

我正在开发一个显示 folium 地图的 Web 应用程序该网络应用程序有 3 个选项卡每个选项卡都有一个QWeb引擎视图小部件添加到其中我正在尝试为我的 Web 应用程序创建一个独立的 exe 文件因此我使用 Pyinstall
SuSE 上的 rpmlib(FileDigests) 依赖性错误

Doing a 百胜安装A 3 6 0在 SuSE 11 2 64 位和 CentOS 5 8 64 位上都会弹出以下安装要求错误 error Failed dependencies rpmlib FileDigests lt 4 6
Dataframe 写入 Postgresql 性能不佳

在 postgresql 中工作我有一个笛卡尔连接生成约 400 万行连接需要约 5 秒写回数据库需要约 1 分 45 秒这些数据需要在 python 中使用特别是在 pandas 数据框中因此我正在尝试在 python 中复

Dataframe 写入 Postgresql 性能不佳

EDIT:

Dataframe 写入 Postgresql 性能不佳 的相关文章

随机推荐

热门标签

Dataframe 写入 Postgresql 性能不佳的相关文章