Python-PostgreSQL psycopg2 接口 -->executemany

2024-04-11

我目前正在分析维基百科转储文件；我使用 python 从中提取大量数据并将其保存到 PostgreSQL 数据库中。我总是试图让事情进展得更快，因为这个文件很大（18GB）。为了与 PostgreSQL 交互，我使用 psycopg2，但该模块似乎模仿了许多其他此类 DBAPI。

无论如何，我有一个关于cursor.executemany(command,values);的问题在我看来，每 1000 个值执行一次executemany 比对这 500 万个值中的每一个值调用cursor.execute(command % value) 更好（请确认或更正我！）。

但是，你看，我正在使用executemany 将 1000 行插入到具有唯一完整性约束的表中；这个约束没有事先在 python 中验证，因为这要么要求我一直进行 SELECT（这似乎适得其反），要么要求我获得超过 3 GB 的 RAM。所有这些都表明，当我的脚本尝试通过捕获 psycopg2.DatabaseError 来插入已经存在的行时，我指望 Postgres 发出警告。

当我的脚本检测到这样的非唯一插入时，它会使用connection.rollback()（每次都会生成1000行，这使得executemany毫无价值），然后一一插入所有值。

由于 psycopg2 的文档记录很差（许多很棒的模块也是如此......），我找不到高效且有效的解决方法。我已将每次执行插入的值数量从 1000 减少到 100，以减少每次执行非唯一插入的可能性，但我非常确定它们是告诉 psycopg2 忽略这些异常或告诉 psycopg2 的一种方法。光标继续执行。

基本上，这似乎是一种解决方案如此简单和流行的问题，我所能做的就是询问以了解它。

再次感谢！

只需使用 psql \copy 命令将所有数据复制到临时表中，或使用 psycopgcursor.copy_in() 方法。然后：

insert into mytable
select * from (
    select distinct * 
    from scratch
) uniq
where not exists (
    select 1 
    from mytable 
    where mytable.mykey = uniq.mykey
);

这将比任何插入组合进行重复数据删除并且运行速度更快。

-dg

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Python-PostgreSQL psycopg2 接口 -->executemany 的相关文章

Python 中的舍入浮点问题

我遇到了 np round np around 的问题它没有正确舍入我无法包含代码因为当我手动设置值而不是使用我的数据时返回有效但这是输出 In 177 a Out 177 0 0099999998 In 178 np rou
需要在python中找到print或printf的源代码[关闭]

很难说出这里问的是什么这个问题是含糊的模糊的不完整的过于宽泛的或修辞性的无法以目前的形式得到合理的回答如需帮助澄清此问题以便重新打开访问帮助中心 help reopen questions 我正在做一些我不能完全谈论的事情我
删除flask中的一对一关系

我目前正在使用 Flask 开发一个应用程序并且在删除一对一关系中的项目时遇到了一个大问题我的模型中有以下结构 class User db Model tablename user user id db Column db String
使用 PostGIS 拥有通用 GEOGRAPHY 列

在 PostgreSQL 9 PostGIS 1 5 中有没有办法创建通用 GEOGRAPHY 列我指的是接受 POINT 以及 POLYGON LINESTRING 等的列到目前为止我只在 Internet 上看到过像 GEOG
如何使用 Pandas、Numpy 加速 Python 中的嵌套 for 循环逻辑？

我想检查一下表的字段是否TestProject包含了Client端传入的参数嵌套for循环很丑陋有什么高效简单的方法来实现吗非常感谢您的任何建议 def test parameter a list parameter b list g
“隐藏”内置类对象、函数、代码等的名称和性质[关闭]

Closed 这个问题需要多问focused help closed questions 目前不接受答案我很好奇模块中存在的类builtins无法直接访问的例如 type lambda 0 name function of module
Jupyter Notebook 找不到 Python 模块

不知道发生了什么但每当我使用 ipython 氢原子或 jupyter 笔记本时都找不到任何已安装的模块我知道我安装了 pandas 但笔记本说找不到我应该补充一点当我正常运行脚本时 python script py 它确实导入
从 NumPy ndarray 中选择行

我只想从 a 中选择某些行NumPy http en wikipedia org wiki NumPy基于第二列中的值的数组例如此测试数组的第二列包含从 1 到 10 的整数 gt gt gt test numpy array nump
仅第一个加载的 Django 站点有效

我最近向 stackoverflow 提交了一个问题标题为使用mod wsgi在apache上多次请求后Django无限加载 https stackoverflow com questions 71705909 django infini
使用特定颜色和抖动在箱形图上绘制数据点

我有一个plotly graph objects Box图我显示了箱形图中的所有点我需要根据数据的属性为标记着色如下所示我还想抖动这些点下面未显示 Using Box我可以绘制点并抖动它们但我不认为我可以给它们着色 fig a
如何使用原始 SQL 查询实现搜索功能

我正在创建一个由 CS50 的网络系列指导的应用程序这要求我仅使用原始 SQL 查询而不是 ORM 我正在尝试创建一个搜索功能用户可以在其中查找存储在数据库中的书籍列表我希望他们能够查询书籍表中的 ISBN 标题作者列目前它
如何断言 Unittest 上的可迭代对象不为空？

向服务提交查询后我会收到一本字典或一个列表我想确保它不为空我使用Python 2 7 我很惊讶没有任何assertEmpty方法为unittest TestCase类实例现有的替代方案看起来并不正确 self assertTrue
为什么 Pickle 协议 4 中的 Pickle 文件是协议 3 中的两倍，而速度却没有任何提升？

我正在测试 Python 3 4 我注意到 pickle 模块有一个新协议因此我对 2 个协议进行了基准测试 def test1 pickle3 open pickle3 wb for i in range 1000000 pickle
如何在 pygtk 中创建新信号

我创建了一个 python 对象但我想在它上面发送信号我让它继承自 gobject GObject 但似乎没有任何方法可以在我的对象上创建新信号您还可以在类定义中定义信号 class MyGObjectClass gobject GO
如何解决 PDFBox 没有 unicode 映射错误？

我有一个现有的 PDF 文件我想使用 python 脚本将其转换为 Excel 文件目前正在使用PDFBox 但是存在多个类似以下错误 org apache pdfbox pdmodel font PDType0Font toUnico
dbms_xmlgen.getxml - 如何设置日期格式

我们使用 dbms xmlgen getxml 实用程序通过 SQL 查询生成 xml 该查询从几乎 10 15 个相关表中获取数据默认情况下日期格式生成于dd MMM yy格式有什么方法可以在 dbms xmlgen getxml
将 Python 中的日期与日期时间进行比较

所以我有一个日期列表 datetime date 2013 7 9 datetime date 2013 7 12 datetime date 2013 7 15 datetime date 2013 7 18 datetime date
模拟pytest中的异常终止

我的多线程应用程序遇到了一个错误主线程的任何异常终止例如未捕获的异常或某些信号都会导致其他线程之一死锁并阻止进程干净退出我解决了这个问题但我想添加一个测试来防止回归但是我不知道如何在 pytest 中模拟异常终止如果我只
更改 Tk 标签小部件中单个单词的颜色

我想更改 Tkinter 标签小部件中单个单词的字体颜色我知道可以使用文本小部件来实现与我想要完成的类似的事情例如使单词 YELLOW 显示为黄色 self text tag config tag yel fg clr yellow s
使用随机放置的 NaN 创建示例 numpy 数组

出于测试目的我想创建一个M by Nnumpy 数组与c随机放置的 NaN import numpy as np M 10 N 5 c 15 A np random randn M N A mask np nan 我在创建时遇到问题mas

随机推荐

Google 文档列表 API 和 Google Drive SDK

文档列表 Api 的路线图是什么它比 Google Drive SDK 有更多的功能即 ACL 现在 JAVA 或 PHP 的示例已从文档中消失它会在不久的将来被弃用吗目前 Documents List API 是与 Google
当行内的单元格具有类名称时，为什么 CSS 悬停在表格行上不起作用？

我遇到了这个问题所以任何帮助将不胜感激我有一张有几行的桌子行中的每个单元格都属于某个类别我使用这些类名来给单元格着色这是我的表中的一个示例行 tr td class summarypage odd column Theme td
链轮 SASS 部分 ERB 延伸

我注意到使用最新的 Rails 和 sprockets 版本 3 2 1 和 2 2 0 将 erb 文件扩展名添加到 sass 部分时似乎存在问题例如如果 somestylefilename css sass 重命名为 somesty
是否可以在已经存在的对象中模拟单个方法？

对于集成测试我需要在 java 服务客户端中模拟特定方法而不破坏其中的其余信息它没有自构造函数所以这样的解决方案是不可能的 private DBClient mockClient new DBClient alreadyExisti
MUI 文本字段上的省略号效果

如何在 MUI 文本字段上添加省略号效果他们有一个用于文本换行的多行选项但我想要单行像您可以做的那样换行文本
Xamarin：未找到绑定属性

这个应用程序在 UWP 中运行得很好除了在 Android 上失败的一个更基本的属性之外我已经删除了所有内容它看起来像这样我的页面 xaml
使用 apikey 从 Google Sheets API 获取 403 [关闭]

Closed 这个问题是无法重现或由拼写错误引起 help closed questions 目前不接受答案我一直在使用 Google Sheets 作为我的一些应用程序的简单数据后端基本上这些是 20 行 x 20 列客户希望能够
调整图像大小，同时保持纵横比

大家好我从互联网上下载了一张图像需要将其大小调整为其大小的 1 4 同时保留其纵横比关于如何最简单地做到这一点有什么想法吗 WebRequest requestPic WebRequest Create imageURL WebRes
关于并行任务的 `srun ... >output_file` 的语义

抱歉这个问题需要大量的积累但总而言之它是关于许多并行实例的条件srun gt output file会或不会导致某些进程任务破坏其他进程任务产生的输出案例 0 仅 bash 无 SLURM 假设prog 0 sh是以下玩具脚本
Overflow:hidden 隐藏边框但不隐藏溢出的元素

我正在研究带有过渡的标题但有些东西不起作用我将 ul 设为 120px li 设为 60px 我给 li hover 一个translateY 60px 这样当您将鼠标悬停在 li 上时它就会弹出我想隐藏溢出的内容直到您将鼠标悬停在
自定义日期选择器对话框

目前我正在使用经过修改的本机对话框来隐藏日期微调器并且工作正常但现在我想以这样的格式设置日期当我旋转月份微调器或年份微调器时对话框仅显示月份和年份而不是完整的日历日期我的日期选择器对话框的自定义代码如下 Override pro
如何同时按名称或标准差选择列？

Solution 我采用了 thelatemail 提供的解决方案因为我试图坚持使用 tidyverse 和 dplyr 我对 R 仍然很陌生所以我正在采取一些小步骤并利用辅助库感谢大家花时间贡献解决方案 df new lt df i
IE6 不解析加载的 JavaScript 文件（由 Google 托管的 Recaptcha）

这是一个非常奇怪的问题我尝试在其中一个网站上使用 Recaptcha 它适用于除 IE6 之外的所有测试浏览器我参考了google的js http www google com recaptcha api challenge k the
我如何知道机器上特定 Perl 安装最初提供了哪些模块？

我如何知道机器上特定 Perl 安装最初提供了哪些模块这是not的副本如何判断 Perl 模块是核心还是标准安装的一部分 https stackoverflow com questions 2049735 如何判断 Perl 模块是核心
在发布中部署 PDB 文件

我有 CI 服务器设置来构建和部署我的所有环境包括我的生产环境据我所知我的所有项目文件的设置和 CI 设置在我的暂存环境构建和生产环境构建之间都是相同的但是当我部署到生产环境时并没有像暂存中那样与 DLL 文件并排放置 PDB
CSS“>”与“>”？

In CSS a gt b是相同的 a gt b 但这两个符号中哪一个更正确呢我看到在 Chrome 开发者工具中使用了第二个变体两者都不是更正确两者同样有效唯一的一点就是spec http www w3 org TR selec
在 Ionic 2 中添加自定义图标

我正在使用 Ionic 2 来开发我的应用程序我想在我的应用程序中使用我的自定义图标就像我们使用 ionic 2 图标一样标签例如
将库发布到 Maven 存储库

我有一个稳定的开源库 http github com fernandezpablo85 scribe并想知道如何以及是否我可以将我的库发布到 Maven 官方存储库以便人们可以将其包含在他们的pom xml文件并自动下载依赖项将您的
sql server 查询中的明智移位日期时间检查

我的一个项目中的 sql 查询有一个问题实际上我必须检查某个具有三个班次的表中的一个 DateTime 列即我必须根据相应班次中的 RegisteredDateTime 列获取记录我们的轮班时间如下轮班时间为 24 小时制 Sh
Python-PostgreSQL psycopg2 接口 -->executemany

我目前正在分析维基百科转储文件我使用 python 从中提取大量数据并将其保存到 PostgreSQL 数据库中我总是试图让事情进展得更快因为这个文件很大 18GB 为了与 PostgreSQL 交互我使用 psycopg2 但该模

Python-PostgreSQL psycopg2 接口 -->executemany

Python-PostgreSQL psycopg2 接口 -->executemany 的相关文章

随机推荐

热门标签