psycopg2 相当于 R dbWriteTable 命令并从 python 代码中获得更多性能

2024-03-09

我刚刚做了一个时间测试，从 csv 加载数据数组，在 Postgres 上创建数据库并在 python 和 R 中将表写入其中。

令我惊讶的是，时间非常相似：

首先是Python代码：（例如）

import timeit
tic = timeit.default_timer()
tic4 = timeit.default_timer()
import xlrd as xl
import psycopg2 as pq
import os
import pandas as pd 
import numpy as np
import csv
from pprint import pprint as pp

perf_dir = '/myhomedir'
toc4=timeit.default_timer()

# Create the database
tic1= timeit.default_timer()
os.system('dropdb ptest')
os.system('createdb ptest')
# connect to the database
cn = pq.connect('dbname=ptest user=me')
cr = cn.cursor()
toc1=timeit.default_timer()

# Create the tables:
### load csvs
tic2=timeit.default_timer()
id_files = ('di1','di2','di.c')
id_files = [i+r'.csv' for i in id_files]
id1 = csv.reader(open(os.path.join(perf_dir,id_files[0])),delimiter='\t')
id1 = [i for i in id1]

id2 = csv.reader(open(os.path.join(perf_dir,id_files[1])))
id2 = [i for i in id2]

id3 = csv.reader(open(os.path.join(perf_dir,id_files[2])),delimiter='\t')
id3 = [i for i in id3]
id3 = [i[1:3] for i in id3]
toc2=timeit.default_timer()

# create tables and fill
### id1 fund classifications
tic3=timeit.default_timer()
cr.execute('CREATE TABLE id1 (%s varchar, %s int PRIMARY KEY, %s int, %s int, %s varchar)' % tuple(id1[0]))
FLDS = 'INSERT INTO id1 (%s,%s,%s,%s,%s) VALUES' % tuple(id1[0]) 
SQL = FLDS + ' (%s,%s,%s,%s,%s)'
for i in range(1,len(id1)):
    data = tuple(id1[i])
    cr.execute(SQL,data)

### id2 portfolio group classifications - reference only
cr.execute('CREATE TABLE id2 (%s varchar, %s int PRIMARY KEY, %s int)' % tuple(id2[0]))
SQL = 'INSERT INTO id2 (%s,%s,%s) VALUES' % tuple(id2[0]) + ' (%s,%s,%s)'
for i in range(1,len(id2)):
    data = tuple(id2[i])
    cr.execute(SQL,data)

### id3 value variable classifications
cr.execute('CREATE TABLE id3 (%s varchar,%s varchar)' % tuple(id3[0]))
SQL = 'INSERT INTO id3 VALUES(%s,%s)'
for i in range(1,len(id3)):
    data = tuple(id3[i])
    cr.execute(SQL,data)

cn.commit()

# Timing block - will be commented out in final code
toc3=timeit.default_timer()
toc = timeit.default_timer()
time = (toc - tic)
time1 = toc1 - tic1
time2 = toc2 - tic2
time3 = toc3 - tic3
time4 = toc4 - tic4
print('Overall time: %s' % time)
print('dB create & connect time: %s' % time1)
print('Load id csvs time: %s' % time2)
print('Create tables and write to db time: %s' % time3)
print('Time to import libraries: %s' % time4)

和 R 代码（更清晰）

tic = proc.time()
library(RPostgreSQL)

tic1 = proc.time()
system('dropdb ptest1')
system('createdb ptest1')
drv = dbDriver("PostgreSQL")
con = dbConnect(drv, dbname='ptest1')
toc1 = proc.time()
time1 = toc1 - tic1

tic2 = proc.time()
id.1 = read.csv('/myhomedir/di1.csv',stringsAsFactors=F,sep='\t')
id.2 = read.csv('/myhomedir/di2.csv',stringsAsFactors=F)
id.3 = read.csv('/myhomedir/di.c.csv',stringsAsFactors=F,sep='\t')
id.3 = id.3[,-1]
toc2 = proc.time()
time2 = toc2 - tic2

tic3 = proc.time()
dbWriteTable(con,'id1',id.1)
dbWriteTable(con,'id2',id.2)
dbWriteTable(con,'id3',id.3)
toc3 = proc.time()
time3 = toc3 - tic3

toc = proc.time()
time = toc - tic
tyme = rbind(time1,time2,time3,time)
tyme = data.frame(Function=c('Create & Connect to DB',"Load CSV's for save","Write Table to DB",'Overall Time'),tyme)

我很惊讶两人的时间如此接近。（我读过很多关于 R 很慢而 Python 非常快的文章）

对于蟒蛇

>>> Overall time: 2.48381304741
dB create & connect time: 1.96832108498
Load id csvs time: 0.000378847122192
Create tables and write to db time: 0.35303401947
Time to import libraries: 0.162075042725

对于 R

                    Function user.self sys.self elapsed user.child sys.child
time1 Create & Connect to DB     0.112    0.016   1.943       0.06     0.004
time2    Load CSV's for save     0.008    0.000   0.006       0.00     0.000
time3      Write Table to DB     0.096    0.004   0.349       0.00     0.000
time            Overall Time     0.376    0.028   2.463       0.06     0.004

我想知道这是否与我的事实有关INSERT一次将一行放入表的 python 版本中。

因此主要问题是 - python 中是否有等效的dbWriteTable阻止 R 代码，它会加快速度吗？

第二个辅助问题是代码中是否存在任何明显错误可能会减慢速度。

如果有帮助的话，很高兴提供 csv 示例。

不想在 R 与 Python 上展开激烈的争论，只是想知道如何使我的代码更快。

Thanks

尝试这个：

    id2 = csv.reader(open(os.path.join(perf_dir,id_files[1])))
    h = tuple(next(id2))

    create = '''CREATE TABLE id2 (%s varchar, %s int PRIMARY KEY, %s int)''' % h
    insert = '''INSERT INTO id2 (%s, %s, %s) VALUES (%%s, %%s, %%s)''' % h

    ...

    cr.executemany(insert, id2)

对所有行仅传递一次 sql 命令。除了发出额外 sql 命令的性能开销之外，请注意 sql 字符串本身的大小（以字节为单位）可能会使测试中的实际数据的大小相形见绌。

使用 id2 作为没有数组的生成器还应该避免将整个数据集加载到内存中。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

r

postgresql

psycopg2

psycopg2 相当于 R dbWriteTable 命令并从 python 代码中获得更多性能的相关文章

使用 Django 将文件异步上传到 Amazon S3

我使用此文件存储引擎在上传文件时将文件存储到 Amazon S3 http code welldev org django storages wiki Home http code welldev org django storages w
无法在 selenium 和 requests 之间传递 cookie，以便使用后者进行抓取

我用 python 结合 selenium 编写了一个脚本来登录网站然后从driver to requests这样我就可以继续使用requests进行进一步的活动 I used item soup select one div class
协程从未被等待

我正在使用一个简单的上下文管理器其中包含一个异步循环 class Runner def init self self loop asyncio get event loop def enter self return self def e
在Python上获取字典的前x个元素

我是Python的新手所以我尝试用Python获取字典的前50个元素我有一本字典它按值降序排列 k 0 l 0 for k in len dict d l 1 if l lt 51 print dict 举个小例子 dict d m
如何使用 Rrank() 函数创建新的ties.method？ [复制]

这个问题在这里已经有答案了我试图按人口和日期排序这个数据框所以我使用order and rank 功能 gt df lt data frame idgeoville c 5 8 4 3 4 5 8 8 date c rep 1950 4
Python Anaconda：如何测试更新的库是否与我现有的代码兼容？

我在 Windows 7 机器上使用 Python 2 7 Anaconda 安装进行数据分析和科学计算当新的库发布时例如新版本的 pandas patsy 等您建议我如何测试新版本与现有代码的兼容性是否可以在同一台机器上安装两个
根据其他单元格值更改多个单元格值

我想更改包含的单元格moving to movingToOpenor movingToClose基于下一个单元格中给出的状态有时循环会被中断并且不会从open to close or close to open 这是我当前的数据框 Dat
sql直接获取表行数的方法

stackoverflow 的朋友们大家好我的例行程序中有一个我认为不必要的步骤假设您想从图库中获取所有图像并限制每页一定数量的图像 db PDO object start pagenum x images per page limi
Paste.httpserver 并通过 HTTP/1.1 Keep-alive 减慢速度；使用 httperf 和 ab 进行测试

我有一个基于paste httpserver 的Web 服务器作为HTTP 和WSGI 之间的适配器当我使用 httperf 进行性能测量时如果每次使用 num conn 启动一个新请求我每秒可以执行超过 1 000 个请求如果我使
Spark 和 Python 使用自定义文件格式/生成器作为 RDD 的输入

我想问一下 Spark 中输入的可能性我可以看到从http spark apache org docs latest programming guide html http spark apache org docs latest pro
查找 Pandas DF 行中的最短日期并创建新列

我有一个包含多个日期的表有些日期将为 NaN 我需要找到最旧的日期所以一行可能有 DATE MODIFIED WITHDRAWN DATE SOLD DATE STATUS DATE 等因此对于每一行一个或多个字段中都会有一个日期
Ubuntu systemd 自定义服务因 python 脚本而失败

希望获得有关 Ubuntu 中的 systemd 守护进程服务的一些帮助我写了一个 python 脚本来禁用 Dell XPS 上的触摸屏这更像是一个问题而不是一个有用的功能该脚本可以工作但我不想一直启动它这就是为什么我想到编写
可以使用哪些技术来衡量 pandas/numpy 解决方案的性能

Question 如何简洁全面地衡量下面各个功能的性能 Example 考虑数据框df df pd DataFrame Group list QLCKPXNLNTIXAWYMWACA Value 29 52 71 51 45 76 68 6
了解日期并使用 R 中的 ggplot2 绘制直方图

主要问题当尝试使用 ggplot2 制作直方图时我无法理解为什么日期标签和中断的处理无法像我在 R 中预期的那样工作我在找我的约会频率的直方图刻度线位于匹配条下方的中心日期标签在 Y b format 适当的限制最小化网格空
ggplot2以限制为中心的多边形世界地图给出了有趣的边缘

使用下面的代码我生成了一张以华盛顿特区为中心的地图解决方案基于科斯克的解决方案在这里 https stackoverflow com questions 10620862 use different center than the pri
minizinc python 安装

我通过 anaconda 提示符在 python 上安装了 minizinc 就像其他软件包一样 pip install minizinc 该软件包表示已成功安装我可以导入该模块但是我正在遵循基本示例https minizinc py
带 Flask 的 RPI dht22：无法将第 4 行设置为输入 - 等待 PulseIn 消息超时

我正在尝试制作一个 Raspberry Pi 3 REST API 使用 DHT22 提供温度和湿度整个代码 from flask import Flask jsonify request from sds011 import SDS01
如何编写一个接受 int 或 float 的 C 函数？

我想用 C 语言创建一个扩展 Python 的函数该函数可以接受 float 或 int 类型的输入所以基本上我想要f 5 and f 5 5 成为可接受的输入我认为我不能使用if PyArg ParseTuple args i v
使用 alpha 通道叠加两个 ggplot2 stat_密度2d 图

我想叠加两个ggplot2使用 alpha 通道进行绘图结果图像显示两个数据集这是我的测试数据 data read table text P1 1 0 4 nP2 0 0 2 nP3 2 1 8 nP4 2 2 6 nP5 0 5 2
如何（安全）将 Python 对象发送到我的 Flask API？

我目前正在尝试构建一个 Flask Web API 它能够在 POST 请求中接收 python 对象我使用 Python 3 7 1 创建请求使用 Python 2 7 运行 API 该 API 设置为在我的本地计算机上运行我试图发

随机推荐

Erlang中socket的“packet”选项怎么能如此加速tcp传输呢？

使用 packet 4 通过本地主机上的两个不同端口传输1G数据只需要8秒而使用 packet raw 则无法在30秒内完成相同的任务我知道如果使用后一种方法数据将以数万个小块的形式到达在archlinux上大小为1460字节我已
检查文件是否包含字符串

所以我在这里找到了这个问题但我对输出以及如何使用 if 语句处理它有疑问这就是我所拥有的但它总是说这是真的即使文件中不存在监视器这个词 if File readlines testfile txt grep monitor do s
为什么Java不支持在finally抛出异常时从try/catch中检索丢失的异常？

在 Java 7 中该功能被添加到通过getSuppressed 获取从 try with resources 语句的隐式 finally 块抛出的异常似乎仍然没有一种方法据我所知可以做相反的事情当有一个显式的finally块并
在 HTTP 请求中指定端口号 (node.js)

使用请求模块发出 HTTP 请求时是否可以指定端口号我在文档中没有看到任何有关此内容的信息 var request require request this works request method GET url http exampl
h 标签的额外字间距

I have h2标签并且有内容 before HTML h2 class glyphicon arrow heading text white margin zero This is h2 tag and it has word spac
创建运行批处理文件的快捷方式

我想创建一个 powershell 脚本在 Windows 7 任务栏中创建一个快捷方式从 cmd exe 运行批处理文件尝试按照这两篇文章中的说明进行操作 https superuser com questions 100249 h
具有动态依赖关系的静态库

我遇到过很多类似的问题但我并没有真正得到答案因此我有一个依赖于 Static lib 的 App exe 而 Static lib 又依赖于动态库 Dynamic dll 在 Static lib 中我链接到 Dynamic lib
爬虫脚本php

我在这里抓取了一段脚本来抓取网站将其放在我的服务器上并且它可以工作唯一的问题是如果我尝试爬行并将深度设置为 4 以上则它不起作用我想知道这是由于服务器缺乏资源还是代码本身造成的
如何进行复杂的查询？ | ChartJS 和 Django

我使用下面的 Chart JS 库创建了一个图表我的 models py 下面 class Organization models Model name models CharField max length 250 unique Tru
XmlSerializer 没有序列化我的类中的所有内容

我有一个非常基本的类它是子类的列表加上一些摘要数据 Serializable public class ProductCollection List
数学/算法/ JS：如何确定 2 个以上矩形是否相交，给定每个矩形的 TopLeft(x0, y0) 和 Bottom-Right(x1, y1)

我遇到了完成我的申请所需的数学问题所以我寻求帮助给定 2 个或更多但基本上是 2 个矩形每个矩形有 2 个已知点左上角 x1 y1 and 右下角 x2 y2 如果需要解决问题我可以通过这些信息找到长度 TL x1 y1 T
逃离 SharePoint [关闭]

Closed 这个问题是无关 help closed questions 目前不接受答案你们中有人尝试过从共享点运行吗我已经使用过 sharepoint 足够多的经验知道这不是我感兴趣的东西我的兴趣更多的是 API 后端分布式开发
查找字典中具有非零值的最大键的有效方法

我是 Python 新手尝试以更 Pythonic 和更高效的方式实现代码给定一个包含数字键和值的字典找到具有非零值的最大键的最佳方法是什么 Thanks 像这样的事情应该相当快 gt gt gt x 0 5 1 7 2 0 gt g
Chrome 和 Safari 中的 Facebook Connect 登录重定向

我在使用 Facebook Connect 时遇到问题似乎无法理解用户单击 fb login 按钮出现弹出窗口并进行身份验证弹出窗口关闭并调用登录函数正如预期的那样这种情况在 IE 和 Firefox 中发生但是在 Chrom
从 HTML 表中提取数据

我正在寻找一种在 Linux shell 环境中从 HTML 获取某些信息的方法这是我感兴趣的一点 table class details border 0 cellpadding 5 cellspacing 2 width 95 tr
R：如何：使用 gplot 和 geom_密度绘制 3d 密度图

I m trying to combine multiple density plots with overlay ggplot and geom density do the job but the densities are stack
如果 HELM 模板中不存在命名空间，如何创建命名空间？

我有一个kind Namespace模板 YAML 如下所示 apiVersion v1 kind Namespace metadata name Values namespace namespace 我该如何制作helm install创
excel vba中的macid文件类型是什么

所有可能的 MacID filetype 是什么我需要专门用于 CSV 的一个但令人惊讶的是我在网上找不到任何列表为这个线程稍微留出一点时间是的很少有地方可以找到 MacID 的详细信息但要小心如果文件是在 PC 上创建的则
列表框列表填充范围

我在工作表上插入了一个表单控件列表框由于某种原因这个错误出现了 Sheet1 Shapes ListBox1 ListFillRange A1 A10 我想用范围填充列表框但收到运行时错误 438 对象不支持此属性或方法我在这里缺少
psycopg2 相当于 R dbWriteTable 命令并从 python 代码中获得更多性能

我刚刚做了一个时间测试从 csv 加载数据数组在 Postgres 上创建数据库并在 python 和 R 中将表写入其中令我惊讶的是时间非常相似首先是Python代码例如 import timeit tic timeit de

psycopg2 相当于 R dbWriteTable 命令并从 python 代码中获得更多性能

psycopg2 相当于 R dbWriteTable 命令并从 python 代码中获得更多性能 的相关文章

随机推荐

热门标签

psycopg2 相当于 R dbWriteTable 命令并从 python 代码中获得更多性能的相关文章