将 MySQL 结果集转换为 NumPy 数组的最有效方法是什么？

2023-12-24

我正在使用 MySQLdb 和 Python。我有一些基本的疑问，例如：

c=db.cursor()
c.execute("SELECT id, rating from video")
results = c.fetchall()

我需要将“结果”作为 NumPy 数组，并且我希望节省内存消耗。看起来逐行复制数据的效率非常低（需要双倍的内存）。有没有更好的方法将 MySQLdb 查询结果转换为 NumPy 数组格式？

我希望使用 NumPy 数组格式的原因是因为我希望能够轻松地对数据进行切片和切块，而在这方面，Python 对多维数组似乎不太友好。

e.g. b = a[a[:,2]==1]

Thanks!

该解决方案使用 Kieth'sfromiter技术，但是更直观地处理SQL结果的二维表结构。此外，它还通过避免 python 数据类型中的所有重塑和扁平化来改进 Doug 的方法。用一个结构化数组 http://docs.scipy.org/doc/numpy/user/basics.rec.html我们可以直接从 MySQL 结果读取到 numpy，删除 python 数据类型almost完全。我说“几乎”是因为fetchall迭代器仍然生成 python 元组。

虽然有一个警告，但这不是什么大问题。您必须提前知道列的数据类型和行数。

了解列类型应该是显而易见的，因为您大概知道查询是什么，否则您始终可以使用 curs.description 和 MySQLdb.FIELD_TYPE.* 常量的映射。

知道行数意味着您必须使用客户端游标（这是默认设置）。我对 MySQLdb 和 MySQL 客户端库的内部了解不够，但我的理解是，当使用客户端游标时，整个结果都会被提取到客户端内存中，尽管我怀疑实际上涉及一些缓冲和缓存。这意味着对结果使用双倍内存，一次用于游标复制，一次用于数组复制，因此如果结果集很大，最好尽快关闭游标以释放内存。

严格来说，您不必提前提供行数，但这样做意味着数组内存会提前分配一次，并且不会随着来自迭代器的更多行的出现而连续调整大小，这意味着提供巨大的内存。性能提升。

这样，一些代码

import MySQLdb
import numpy

conn = MySQLdb.connect(host='localhost', user='bob', passwd='mypasswd', db='bigdb')
curs = conn.cursor() #Use a client side cursor so you can access curs.rowcount
numrows = curs.execute("SELECT id, rating FROM video")

#curs.fetchall() is the iterator as per Kieth's answer
#count=numrows means advance allocation
#dtype='i4,i4' means two columns, both 4 byte (32 bit) integers
A = numpy.fromiter(curs.fetchall(), count=numrows, dtype=('i4,i4'))

print A #output entire array
ids = A['f0'] #ids = an array of the first column
              #(strictly speaking it's a field not column)
ratings = A['f1'] #ratings is an array of the second colum

请参阅 dtype 的 numpy 文档和上面有关结构化数组的链接，了解如何指定列数据类型和列名称。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

将 MySQL 结果集转换为 NumPy 数组的最有效方法是什么？的相关文章

分类报告 - 精度和 F 分数定义不明确

我从 sklearn metrics 导入了classification report 当我输入我的np arrays作为参数我收到以下错误 usr local lib python3 6 dist packages sklearn met
扭曲的日志记录到屏幕（标准输出）不起作用

我有这个小程序取自这里 https twistedmatrix com documents 16 3 0 core howto logger html usage for emitting applications from twisted
在 opencv 中一次性将旋转和平移结合起来

我有一段用于旋转和平移图像的代码 Point2f pt 0 in rows double angle atan trans c trans b 180 M PI Mat r getRotationMatrix2D pt angle 1 0
删除或更改 ETL 中的记录

我有一个表我在上面构建了 ETL 服务货物记录到达离开进入表格我已经这样做了我的桌子将被删除当项目标识符第二次到达数据库时两条记录都被删除 label cost time x2 29 14 5 2020 01 00 00
IndexError：布尔索引与维度 0 上的索引数组不匹配

在我将 Numpy 更新到 1 13 1 之前我的代码工作正常现在我收到以下错误 IndexError boolean index did not match indexed array along dimension 0 dimens
xlwt 可以在单元格中创建一个包含标题和链接变量的超链接吗？

例如如何更改以下行使 test 为变量 T 且 http google com http google com 是变量L ws write 0 0 xlwt Formula test HYPERLINK http google com
Python Twisted 与 Cmd 模块集成

我喜欢Python的Twisted http twistedmatrix com and Cmd http docs python org library cmd html 我想一起使用它们我已经完成了一些工作但到目前为止我还没有弄清楚
增加 sigmoid 预测输出值？

我创建了一个用于文本分类的 Conv1D 模型当在最后一个密集处使用 softmax sigmoid 时它产生的结果为 softmax gt 0 98502016 0 0149798 sigmoid gt 0 03902826 0 00
Python 中 Matlab 'fscanf' 的等价物是什么？

Matlab函数fscanf 似乎很强大 python 或numpy 中是否有相同的等效项具体来说我想从文件中读取矩阵但我不想迭代每一行来读取矩阵类似的东西来自 matlab 用于读取 2D 1000x1000 矩阵 matrix
初始化整数变量以进行比较

我正在学习麻省理工学院的开放课件课程计算机科学和 Python 编程简介 https ocw mit edu courses electrical engineering and computer science 6 0001 introd
Spyder 内联绘图

设置 Anaconda 2 0 0 Win 64 Spyder Anaconda 附带的 2 3 0rc 我配置图形工具 gt 首选项 gt iPython 控制台 gt 图形 gt 图形后端 gt 内联但无论我做什么图形总是在单独的
Django Rest框架Json解析

我想解析传入的POSTdjangoviews py 文件中的数据发布数据 number 17386372 data banana apple grapes 这是我尝试读取上述传入数据的方法request views py class Fr
使用 python 将多个 JSON 文件插入 MongoDB

JSON文件如下a json b json z json 26个json文件每个文件的 json 格式如下 a cappella word a cappella wordset id 5feb6f679a meanings id 4920
布尔 pandas 之间的操作对称性破缺。具有不等索引的系列

隐式索引匹配pandas用于不同之间的操作DataFrame Series很棒而且大多数时候它都有效但是我偶然发现了一个无法按预期工作的示例 import pandas as pd 0 21 0 import numpy as np
将连续行与相同的列值合并

我有一个看起来像这样的东西我该如何处理 0 d 0 The DT 1 Skoll ORGANIZATION 2 Foundation ORGANIZATION 3 4 based VBN 5 in IN 6 Silicon LOCATIO
仅将唯一行插入 SQLite (python)

我在用着cursor executemany将 CSV 文件中的批量行插入到 SQLite 表中根据主键字段其中一些行预计会重复当我执行该命令时可以预见的是我会收到完整性错误并且不会插入任何内容如何有选择地仅插入非重复行而无
如何在我的 heroku 应用程序上安装软件包？

我有一个使用 Shortuuid 的应用程序 https pypi python org pypi shortuuid 0 1 https pypi python org pypi shortuuid 0 1 当我使用 runapp py
子进程调用，它们是并行完成的吗？

我一直在谷歌搜索这个问题的答案但似乎没有一个答案谁能告诉我如果subprocess模块是否并行调用 Python 文档建议它可用于生成新进程但没有提及它们是否并行如果它们可以并行完成您能否给我举一个例子或将我链接到一个例子这取决
评估 df 每行中的日期时间函数是否落在另一个 df 中的日期时间范围内

我是 python 新手需要一些帮助来解决有关日期时间函数的问题 I have df a其中有一列标题为time 我正在尝试创建一个新专栏id在这个df a 我想要id根据时间是否包含在某个时间范围内来确定的列df b date 和 da
XGBoostError：[10：10：03] /workspace/src/tree/updater_gpu_hist.cu：1407：gpu_hist 中的异常：NCCL 失败

PROJECT Nvidia 开发者项目 https developer nvidia com blog gradient boosting decision trees xgboost cuda 在 Google Colab 环境中 MY

随机推荐

自更新到 ADT 17 以来，使用 libgdx 的 Android 应用程序崩溃

我的 Android 程序崩溃了这是在将 Eclipse 更新到 3 6 2 并更新 SDK 和 ADT 到 17 之后开始的我遇到了问题在我更新 eclipse 后我的 ddms 也崩溃了但我修复了这个问题我现在已经将我的 S
C# 4.0 中如何实现通用协变和逆变？

我没有参加 PDC 2008 但听说 C 4 0 宣布支持通用协变和逆变那是 List
如何在 Rust 中对一系列数字求和？

我想编写一个函数来对从 0 到 n 的数字求和理想情况下这对所有数字都是通用的但我会满足于i32 mod squares pub fn sum from zero n i32 gt i32 0 n fold 0 a b a b tes
如何将货币符号转换为相应的 HTML 实体

System Net WebUtility HtmlDecode euro returns System Net WebUtility HtmlEncode also returns 如何将或任何其他货币符号转换为相应的 html 实体
Keras 中的自定义损失与 softmax 到 one-hot

我有一个输出 Softmax 的模型我想开发一个自定义损失函数期望的行为是 1 Softmax 为 one hot 通常我会执行 numpy argmax softmax vector 并将空向量中的索引设置为 1 但这在损失函数中是不
'react-router-dom' 中的 {Link} 和 {useNavigate} 之间的区别

谁能解释一下 react router dom 中的 Link 和 useNavigate 之间的区别吗我是 React 新手我看到 Link 和 useNavigate 都用于在路线中导航那么它们有什么不同呢之间的区别Link a
EF6 codefirst 中唯一的多列

我有一个类电子邮件如下所示 public class Email DatabaseGenerated DatabaseGeneratedOption Identity public int Id get set public string
UITableViewCell 自定义CG绘图 iOS 7

我有一个UITableViewCell具有以下内容的子类drawRect 执行它将在单元格底部画一条线缩进 30 点以匹配我们的设计这tableView separatorStyle被设定为UITableViewSeparatorSt
为什么“mov %%rsp, %%rbp”会导致分段错误？

我是内联汇编的新手我有以下内容C具有内联汇编功能我只是想看看是否push rbp and mov rsp rbp实际操作正确我的功能如下 test inlineAssemblyFunction u64 base rsp base1 r
MySQL整数无符号算术问题？

MySQL 5 0 45 是否喜欢使用无符号数学进行奇怪的内部类型转换我存储的是无符号整数但是在选择基本算术时我得到了令人震惊的数字 mysql gt create table tt a integer unsigned b inte
在Flash中绘制六角网格？

通过算法绘制六角网格的最简单方法是什么我应该如何在数据中呈现它们例如在方形网格中我可以只保存 x y 坐标 So hexagon 是一个简洁的库 http code google com p hexagon 对于 AS3 游戏它有
读取文件的最后 30,000 行 [重复]

这个问题在这里已经有答案了如果有一个csv文件其数据会不时增加现在我需要做的是阅读最后 30 000 行 Code string lines File ReadAllLines Filename Where r gt r ToStri
Angular2 教程（英雄之旅）：找不到模块“angular2-in-memory-web-api”

我已遵循Tutorial https angular io docs ts latest tutorial 改变后app maint ts在 Http 章节中通过命令行启动应用程序时出现错误 app main ts 5 51 错误 TS2
如何在 T-SQL 中拆分以逗号分隔的重复字符串

我已经尝试过一些试验但还无法弄清楚任何帮助将不胜感激我有一张如下表 LocationID Project Name 1 A A 1 A 1 A B C 1 A C 1 B C 1 C 2 A 2 C D E 2 E F 2 F 3
如何使用 Typescript 将 ui-router stateProvider 配置添加到我的应用程序？

之前当不使用 Typescript 时我添加了我的 ui router 状态信息如下所示 app config httpProvider locationProvider sceProvider stateProvider appCo
将列表拆分为长度大致相等的 N 个部分

将列表划分为的最佳方式是什么roughly等份例如如果列表有 7 个元素并将其分为 2 部分我们希望在一部分中获取 3 个元素而另一部分应该有 4 个元素我正在寻找类似的东西even split L n 那打破了L into n
Redshift内部“身份”功能的签名

在处理旧版 Redshift 数据库时我发现自动增量列的默认标识值有不熟悉的模式例如 create table sometable row id bigint default identity 24078855 0 1 1 text 令
类似 Github 的托管，具有私人来源，公共票务系统 [关闭]

Closed 这个问题正在寻求书籍工具软件库等的推荐不满足堆栈溢出指南 help closed questions 目前不接受答案我需要一个提供与 Github 相同的服务 Git 托管票务下载等但允许我将源代码设为私有的网站
为什么谷歌地图v2的自定义InfoWindow不加载url图像？

I am developing app using Google map v2 In app there is custom info window which is not loading image from URL loading b
将 MySQL 结果集转换为 NumPy 数组的最有效方法是什么？

我正在使用 MySQLdb 和 Python 我有一些基本的疑问例如 c db cursor c execute SELECT id rating from video results c fetchall 我需要将结果作为 NumP

将 MySQL 结果集转换为 NumPy 数组的最有效方法是什么？

将 MySQL 结果集转换为 NumPy 数组的最有效方法是什么？ 的相关文章

随机推荐

热门标签

将 MySQL 结果集转换为 NumPy 数组的最有效方法是什么？的相关文章