MySQL 的 read_sql() 非常慢

2024-05-03

我将 MySQL 与 pandas 和 sqlalchemy 一起使用。然而，它的速度非常慢。对于一个包含 1100 万行的表，一个简单的查询需要 11 分钟以上才能完成。哪些行动可以改善这种表现？提到的表没有主键，并且仅由一列索引。

from sqlalchemy import create_engine
import pandas as pd
sql_engine_access = 'mysql+pymysql://root:[password]@localhost')
sql_engine = create_engine(sql_engine_access, echo=False)
script = 'select * from my_database.my_table'
df = pd.read_sql(script, con=self.sql_engine)

您可以尝试我们的工具连接器x https://github.com/sfu-db/connector-x (pip install -U connectorx）。它是用 Rust 实现的，旨在提高pandas.read_sql。 API 基本相同pandas。例如，在您的情况下，代码将如下所示：

import connectorx as cx
conn_url = "mysql://root:[password]@localhost:port/my_database"
query = "select * from my_table"
df = cx.read_sql(conn_url, query)

如果查询结果中有像 ID 一样均匀分布的数字列，您还可以通过利用多个核心来进一步加快该过程，如下所示：

df = cx.read_sql(conn_url, query, partition_on="ID", partition_num=4)

这将通过过滤将整个查询分成四个小查询ID列和connectorx将并行运行它们。您可以查看here https://github.com/sfu-db/connector-x#examples了解更多用法和示例。

Here is the benchmark result loading 60M rows x 16 columns from MySQL to pandas DataFrame using 4 cores:

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

MySQL 的 read_sql() 非常慢的相关文章

Python中列表中两个连续元素的平均值

我有一个偶数个浮点数的列表 2 34 3 45 4 56 1 23 2 34 7 89 我的任务是计算 1 和 2 个元素 3 和 4 5 和 6 等元素的平均值在 Python 中执行此操作的快捷方法是什么 data 2 34 3 45
根据 Pandas 中的列表对多列进行排序

感谢有关如何根据 pandas 中的倍数列表对给定多列进行排序的任何提示如下所示 import pandas as pd sort a a d e sort b s1 s3 s6 sort c t1 t2 t3 df pd DataFra
如何使用 javascript/jquery/AJAX 调用 Django REST API？

我想使用 Javascript jQuery AJAX 在前端调用 Django Rest API 请求方法是 POST 但当我看到 API 调用它的调用 OPTIONS 方法时所以我开始了解access control allow o
如何根据 HTTP 请求使用 Python 和 Flask 执行 shell 命令并流输出？

下列的这个帖子 https stackoverflow com questions 15092961 how to continuously display python output in a webpage 我能够tail f网页的日志
Pandas：如何将数据框插入 Clickhouse

我正在尝试将 Pandas 数据框插入 Clickhouse 这是我的代码 import pandas import sqlalchemy as sa uri clickhouse default localhost default ch
Python、subprocess、call()、check_call 和 returncode 来查找命令是否存在

我已经弄清楚如何使用 call 让我的 python 脚本运行命令 import subprocess mycommandline lumberjack sleep all night work all day subprocess cal
迭代列表的奇怪速度差异

我创建了两个重复两个不同值的长列表在第一个列表中值交替出现在第二个列表中一个值出现在另一个值之前 a1 object object 10 6 a2 a1 2 a1 1 2 然后我迭代它们不对它们执行任何操作 for in a1 p
Pandas 堆积条形图中元素的排序

我正在尝试绘制有关某个地区 5 个地区的家庭在特定行业赚取的收入比例的信息我使用 groupby 按地区对数据框中的信息进行排序 df df orig groupby District Portion of income value co
Python：我不明白 sum() 的完整用法

当然我明白你使用 sum 与几个数字然后它总结所有但我正在查看它的文档我发现了这一点 sum iterable start 第二个参数 start 的作用是什么这太尴尬了但我似乎无法通过谷歌找到任何示例并且对于尝试学习该语言的
`pyqt5'错误`元数据生成失败`

我正在尝试安装pyqt5使用带有 M1 芯片和 Python 3 9 12 的 mac 操作系统我怀疑M1芯片可能是原因我收到一个错误metadata generation failed 最小工作示例 directly in the t
使用 NLP 进行地址分割

我目前正在开发一个项目该项目应识别地址的每个部分例如来自 str Jack London 121 Corvallis ARAD ap 1603 973130 输出应如下所示 street name Jack London no 121
从 python 检测 macOS 中的暗模式

我正在编写一个 PyQt 应用程序我必须添加一个补丁以便在启用暗模式的 Macos 上可以读取字体 app QApplication Fix for the font colours on macos when running dark
Flask 应用程序的测试覆盖率不起作用

您好想在终端的 Flask 应用程序中测试删除路由我可以看到测试已经过去它说 test user delete test app LayoutTestCase ok 但是当我打开封面时它仍然是红色的这意味着没有覆盖它请有人向我
附加两个具有相同列、不同顺序的数据框

我有两个熊猫数据框 noclickDF DataFrame 0 123 321 0 1543 432 columns click id location clickDF DataFrame 1 123 421 1 1543 436 colu
尝试在 React 应用程序中连接到 MySQL 数据库时，无法读取未定义的属性（读取“查询”）错误

我正在尝试连接到 MySQL 数据库并在单击按钮后在 React 应用程序中运行查询一些它如何给出错误我当前的代码如下所示 import mysql from mysql function App async function sync
计算互相关函数？

In R 我在用ccf or acf计算成对互相关函数以便我可以找出哪个移位给我带来最大值从它的外观来看 R给我一个标准化的值序列 Python 的 scipy 中是否有类似的东西或者我应该使用fft模块目前我正在这样做 xcor
python 日志记录会刷新每个日志吗？

当我使用标准模块将日志写入文件时logging 每个日志会分别刷新到磁盘吗例如下面的代码会将日志刷新 10 次吗 logging basicConfig level logging DEBUG filename debug log fo
tkinter：打开一个带有按钮提示的新窗口[关闭]

Closed 这个问题需要调试细节 help minimal reproducible example 目前不接受答案用户如何按下 tkinter GUI 中的按钮来打开新窗口我只需要非常简单的解决方案如果代码也能被解释那就太好了这
python 中的 after() 与 update()

我是 python 新手开始使用 tkinter 作为画布到目前为止我使用 update 来更新我的画布但还有一个 after 方法谁能给我解释一下这个函数请举个例子两者之间有什么区别 root after integer c
“pdo_mysql”已禁用，我无法启用它。我在 iMac 7.1 OSX 10.6.8 上安装了 MAMP v. 3.0.4

pdo mysql 已禁用我无法启用它我在 iMac 7 1 OSX 10 6 8 上安装了 MAMP v 3 0 4 在我的 phpinfo 页面上我可以看到唯一启用的 PDO 是 sqlite 如果我查看 php 5 5 10 扩

随机推荐

在 Objective C 中获取第一响应者

我无法弄清楚哪个UITextField是当前的第一响应者我想做的是如果用户单击特定的内容则设置一个布尔值UITextField 因此要做到这一点我需要能够判断这个特定的文本字段是否已成为第一响应者我知道如何设置第一响应者但只是
如何修复 git 子模块错误 fatal: Needed a single revision Unable to find current origin/master revision in submodule path？

我不断收到这个问题 fatal Needed a single revision Unable to find current origin master revision in submodule path coq serapy 我试过了
为选择器中的项目添加键值

我正在使用 XAMARIN 选择器来选择一个国家地区这些国家地区在选择器中进行了硬编码有没有一种方法可以通过键值识别每个国家地区名称我使用 SAPUI5 以类似的方式完成了此操作
“赠送”应用内购买 Android

有没有办法将 Google Billing 中的应用内购买赠送给特定帐户我把这个问题放在这里是因为如果有一种方法可以以编程方式完成它那很好但不是必须的在官方文档中找不到任何相关内容我想要这个的原因是因为我的一个应用程序目前处于
在 Maven 中解决或编译循环依赖关系 [重复]

这个问题在这里已经有答案了我有一个有趣的问题而不是寻找a解决方案我正在寻找解决方案s Alice 项目有一个 pom xml 在其中 pom 说她被包装成一个罐子虽然她是一个坚强的女人但她依赖鲍勃鲍勃项目是一个互补主义者他说他
如何根据另一个属性向 XML 节点添加一个属性？

我有以下 XML
Excel 2007 Visual Basic 编辑器：占用空格，四处移动光标

我无法解决这个问题我发现了类似的问题here https stackoverflow com questions 1164138 vba editor auto deletes spaces at the ends of lines bu
箱线图与箱线图有何不同？

我想知道当我们在海生图书馆中有箱线图时为什么会有箱线图我知道一件事是箱线图优化了表示数据的方式特别是对于大型数据集但我不知道为什么除此之外我没有任何充分的理由使用箱线图箱线图将中位数显示为中心线第 50 个百分位数然后将第
隐藏控制台并执行 python 脚本

我正在尝试使用 pyinstaller 在 Windows 10 上使用 pyqt5 模块编译在 python 3 中构建的 python 脚本该脚本在运行时隐藏窗口为了编译我的脚本我执行了以下命令 pyinstaller onefi
防止左浮动 div 转到新行

我有 4 个 div 设置为向左浮动但最后的 div 不断在较小的屏幕上换行两个新行这真的很烦我我希望它们随屏幕尺寸缩放以便它们始终保持在同一行上屏幕尺寸并且我尝试不使用桌子这非常诱人因为他们对此非常可靠我想知道如何解决这个
R 对等证书无法使用给定的 CA 证书进行身份验证，Windows

当尝试使用导入谷歌工作表时gs read 函数我收到以下错误消息在curl curl fetch memory url handle handle 中出错对等无法使用给定的 CA 证书对证书进行身份验证我正在关注这个vignett
Julia 1.6.2 未出现在 Jupyter 笔记本中

我已经根据这个网站安装了 julia 1 6 2 jupyter notebook 和 anaconda 3 https datatofish com add julia to jupyter https datatofish com ad
如何检测图像中对象的实例？

我有一张包含几个特定对象的图像我想检测这些物体在该图像中的位置为此我有一些模型图像其中包含我想要检测的对象这些图像在我想要检测的对象实例周围得到了很好的裁剪这是一个例子在这张大图里我想检测此模型图像中表示的对象自从你最初发
使用 Swift 获取 UITableViewCell 中 UITextField 的 indexPath

因此我正在构建一个详细视图控制器应用程序它显示一个包含两部分单元格的表格标签和文本字段我正在尝试检索文本字段值并将其添加到数组中我尝试使用 textField superview superview 技术但没有成功 func t
Android - GC 滞后于列表视图滚动“更大”的图像

在列表视图中我想在列表条目上绘制一个图像这 20 张图像必须缩放以填充垂直模式的宽度手机分辨率为 480 x 800 像素 SGS2 图像分辨率为 400x400 大小约为 100KB 我已将图像放在可绘制文件夹中当我滚动列表时它
如何搜索 Google 电子表格？

我正在进行一些详尽的搜索需要确定电子表格中是否已存在新域 URL 然而所有 Spreadsheet 对象都没有搜索功能即大多数 Document 对象中的 findText 功能我觉得我错过了一些重要的事情我缺少什么查找文本函数
在开始 Web 开发项目之前，您如何估计要花费的时间？ [关闭]

Closed 这个问题是基于意见的 help closed questions 目前不接受答案当你告诉你的客户或经理这可以在10天内完成但你花了20天才得到一个点甚至还没有部署到现场时感觉真的很糟糕任何经验都可以与我分享您是如何估
WPF 绑定默认模式

在我的一个应用程序中我有这样的代码
RestClient发送IFormFile

我从我的控制器收到一个文件 public async Task
MySQL 的 read_sql() 非常慢

我将 MySQL 与 pandas 和 sqlalchemy 一起使用然而它的速度非常慢对于一个包含 1100 万行的表一个简单的查询需要 11 分钟以上才能完成哪些行动可以改善这种表现提到的表没有主键并且仅由一列索引 fro

MySQL 的 read_sql() 非常慢

MySQL 的 read_sql() 非常慢 的相关文章

随机推荐

热门标签

MySQL 的 read_sql() 非常慢的相关文章