删除postgres中的重复项

2023-12-21

我想删除给定重复“external_id”的除一行之外的所有行。对于包含 5,000,000 行的表，运行下面的查询大约需要两分钟，我觉得必须有一种更快的方法来执行此任务。 “id”是主键，“external_id”是 btree 索引列：

delete from posts p1 using (select distinct on (1)
        external_id, id
        from posts
        order by 1 desc, 2 desc) p_recent 
    where p1.external_id = p_recent.external_id
    and p1.id != p_recent.id;

我怎样才能提高这个查询的性能？

编辑：查询计划如下：

Delete on posts p1  (cost=2322413.28..2673548.11 rows=5583248 width=45) (actual time=148064.026..148064.026 rows=0 loops=1)
   ->  Hash Join  (cost=2322413.28..2673548.11 rows=5583248 width=45) (actual time=148064.025..148064.025 rows=0 loops=1)
         Hash Cond: ((p_recent.external_id)::text = (p1.external_id)::text)
         Join Filter: (p1.id <> p_recent.id)
         ->  Subquery Scan on p_recent  (cost=1565918.17..1649666.91 rows=5583249 width=54) (actual time=80975.573..98202.920 rows=5947083 loops=1)
               ->  Unique  (cost=1565918.17..1593834.42 rows=5583249 width=15) (actual time=80975.561..95891.264 rows=5947083 loops=1)
                     ->  Sort  (cost=1565918.17..1579876.30 rows=5583249 width=15) (actual time=80975.560..93768.105 rows=5947083 loops=1)
                           Sort Key: posts.external_id, posts.id
                           Sort Method: external merge  Disk: 153984kB
                           ->  Seq Scan on posts  (cost=0.00..653989.49 rows=5583249 width=15) (actual time=0.014..10314.089 rows=5947083 loops=1)
         ->  Hash  (cost=653989.49..653989.49 rows=5583249 width=21) (actual time=38966.573..38966.573 rows=5947083 loops=1)
               Buckets: 4096  Batches: 256  Memory Usage: 1017kB
               ->  Seq Scan on posts p1  (cost=0.00..653989.49 rows=5583249 width=21) (actual time=0.028..35863.561 rows=5947083 loops=1)
 Total runtime: 148084.796 ms

DELETE from posts del 
WHERE EXISTS (
        SELECT *
        FROM posts ex
        WHERE ex.external_id = del.external_id
        AND ex.id < del.id -- if you want to keep the lowest id
        -- AND ex.id > del.id -- if you want to keep the highest id
        );

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

postgresql

join

postgresql93

sqldelete

删除postgres中的重复项的相关文章

PSQLException：大对象不能在自动提交模式下使用

我正在使用 WildFly 10 Java EE JPA 和 Hibernate 最近我将我的应用程序从 MySQL 迁移到 PostgreSQL 在使用 MySQL 时我会使用以下方法将图像存储在我的实体中 Lob Basic fetc
将此 MySQL 查询转换为 PyGreSQL

我正在开发一个 Ruby 应用程序它使用 mysql 函数 XOR 和 BIT COUNT 不过我现在需要在运行 PyGreSQL 的 Heroku 上运行该应用程序我找不到任何可以帮助我的 PyGreSQL 文档那么任何人都可以翻
将 docker-compose.yml 中的包安装到 docker 容器中

我是 docker 和 docker compose 的初学者我需要你的帮助我正在使用 docker compose 制作 PHP NGINX PostgresQL symfony 开发环境这里是 web image nginx 1
如何从函数返回更新的行

我对 postgres 很陌生我想创建一个函数如存储过程来更新多行并选择受影响的行这是我的声明 CREATE or replace FUNCTION set val val character varying 100 5 RETUR
Psycopg / Postgres：连接随机挂出

我正在使用 psycopg2 作为我当前正在开发的cherrypy 应用程序并使用 cli 和 phpgadmin 来手动处理一些操作这是Python代码 One connection per thread cherrypy threa
Heroku 上的“PG::错误 - 数字字段溢出”

我构建了一个应用程序来查询 Google Analytics 的过去 7 天的数据一切都在本地进行在 Heroku 上该过程运行顺利直到它尝试获取今天日期的数据然后我收到以下错误 2012 10 29T02 32 02 00 00
Postgres 和 Django - DataError：无法识别时区

我们从一些用户那里收到以下错误 DataError time zone Asia Qostanay not recognized 我们发现问题出在以下 SQL 查询上 SELECT FROM app foobar WHERE EXTRACT
Postgres 使用 TypeORM SET 运行时变量，如何在调用之间的连接生命周期中保留变量

我有使用 GraphQL 的 NodeJS Web 服务器使用 2 个连接一个具有管理员访问权限另一个具有 CRUD 访问权限底层 Postgres DB 有行级安全策略即 ALTER TABLE main user ENABLE
QGIS 和 PostGIS（地图点（美国地图上的纬度和经度以及半径）

我安装了QGIS和PostGIS 我想在美国地图上以 100 英里为半径显示 200 个点我已将纬度和经度导入 PostGIS 数据库中所以我有三个字段地址纬度经度 1 我需要将纬度和经度字段转换为点或几何字段吗如果是这样怎么办
在 PostgreSQL 中存储图像

好吧我正在开发一个应用程序该应用程序将使用运行 PostgreSQL 的 Linux 后端向 Windows 机器提供图像前端用 C NET 编写尽管前端应该不重要我的问题是在 Postgres 中存储图像的最佳方法是什么每张
如何通过迁移向现有索引添加“唯一”约束

我怎样才能添加unique true对 Rails 数据库中已有索引的约束我尝试通过以下方式迁移 def change add index editabilities user id list id unique true end 但迁移
从 jsonb 字符串列表中获取第一个元素 postgres

我有一个列表它作为 jsonb 存储在我的表中并且需要本机查询来获取此 jsonb 列中的第一个元素尝试使用 jsonb array elements text 但无法让它工作 select col from tbl returns
在 Docker 中更改 Ubuntu 语言环境

因此我正在 pt BR 中使用 Ubuntu 和 Postgresql 设置 docker 映像我想知道如何通过命令行更改默认区域设置而不重新启动系统这在 Docker 构建中是不可能的我设法在 Debian 中通过更改 LANG
Rails 5.2.2（活动记录）WITH 语句

我正在使用 Rails 5 2 2 并且有一个使用 WITH 语句的复杂查询我需要使用左外连接创建该语句我该如何做WITH活动记录中的语句我的 TOTAL PROFILES 由查询对象驱动并且会发生变化而其余部分将始终保持不变所
我截断了一个表。我如何取回数据？

在我的 postgresql 数据库中不幸的是我截断了表mail group 并且该表已从数据库中删除如何找回该表请帮助我等待回复 Thanks 其他有同样情况的人立即地停止你的数据库pg ctl stop m immediate
使用 Rails 4（和 Hstore）在 PostgreSQL 中存储嵌套哈希

我有一个 Rails 应用程序它聚合了来自 Google API 的大量数据我当前将 JSON 响应存储在 MongoDB 中因此我的 Rails 应用程序同时具有 pg 和 mongo 然而今天我遇到了 PostgreSQL H
PostgreSQL 8.3 中不为空且唯一约束的增量字段

我有一个表项目其中有一列位置位置具有唯一且非空的约束为了在位置 x 插入新行我首先尝试增加后续项目的位置 UPDATE items SET position position 1 WHERE position gt x 这会导致
第一次如何配置postgresql？

我刚刚安装了 postgresql 并在安装过程中指定了密码 x 当我尝试做的时候createdb并指定我收到消息的任何密码 createdb 无法连接到数据库 postgres 致命用户密码身份验证失败同样适用于createuser
Sails.js + Postgres：交易问题

我试图使用 Postgres 作为数据库在 Sails 0 10 5 中实现事务但操作最终没有提交或回滚这是我作为测试写下的一个简单的事务场景使用 async js testTransaction function uri var
代表 PostgreSQL 中的未来时间

我习惯于将过去的日期作为 UTC 存储在数据库中因为那实际上是事件发生的时间对于未来的日期我会将其与特定时区一起存储以避免诸如闰秒或时区规则更改之类的更改 Postgres 有timestamp with timezone 但在幕后

随机推荐

ui:repeat 内的 Primefaces ManyCheckbox 仅在最后一个循环中调用 setter 方法

我有一个
从 Web 应用程序运行计划任务

我正在使用以下代码从我的 Web 应用程序执行 Windows 计划任务 Web 应用程序和计划应用程序都在同一服务器上运行 var proc new Process StartInfo UseShellExecute false File
C#“生成器”方法

我来自 Python 世界正在尝试用 C 创建一个生成器方法我正在以特定缓冲区大小的块解析文件并且只想一次读取并存储下一个块并将其生成foreach环形这是我到目前为止所拥有的简化的概念证明 class Page public
如何为实体框架延迟加载创建虚拟记录字段

我正在尝试定义在 Entity Framework 6 中使用的一些模型我想使用 F 记录如果我把
在 SQL Server 中查找 JSON 架构

我的字段中有 JSON 但在处理它之前我需要检查它的架构我需要知道架构中是否添加或删除了任何内容有没有办法从 JSON 字符串中提取 JSON 架构以便我可以将其与已知架构进行比较网上的一个例子是http jsonschema ne
使用 C# Windows 应用程序在电子邮件正文中添加多个图像（内联）

我搜索了好几次并找到了解决方案但都只支持一张图像最后我使用了这段代码但问题是如果 html 包含多个图像则正文中仅显示一张图像其他图像将作为附件显示 string inputHtmlContent htmlbody string
展平列表并将列表键推送到第二级向量

我想这很简单但我似乎无法弄清楚我需要展平第二级结构并将列表名称键推送到与其他向量处于同一级别的向量目前的结构myList is 13454 List of 30 subjectId num 187 procedureId num 3
ES6 类扩展完全等同于基于 Object.assign 的对象扩展吗？

换句话说这两个不同的代码块完全等效吗基于ES6类扩展 class Child extends Parent Define my subclass var myInstance new Child 基于对象分配 var myInstanc
您可以通过 char* 访问任何对象的对象表示吗？

我偶然发现了一个红迪帖子 https www reddit com r cpp comments c7btvz how can one implement memcpy in standard c 用户在其中发现了 C 标准的一个有趣的细节
如何从谷歌可视化中隐藏列

我使用下面的代码来显示谷歌图表我想在单击第一个图表时显示另一个图表这里需要传递值ResourceId if resourceDetails null dataTable Columns Add ResourceName typeof s
如何修复 Jekyll 导航模板中的“StackLevelError (Stack Overflow)”

我正在尝试编写一个递归 Jekyll 导航模板包含如带递归的嵌套树导航 https jekyllrb com tutorials navigation scenario 9 nested tree navigation with re
boost::bool 的可选，在 boost::spirit::qi 语法中

In my boost spirit语法我有以下片段 implicit method declaration qi token ABSTRACT gt gt 的类型 qi token ABSTRACT is boost optional
如何更改集合中的对象子成员

我正在使用一套来容纳物体我想更改集合中的第一个对象这是我尝试过的 set
IDEA中如何复制当前行号？

有人知道如何在 IntelliJ IDEA 11 中复制当前行号吗你可以使用Ctrl Shift Alt C复制对线条或符号的引用当在类中使用时它将把以下形式的字符串复制到剪贴板
无法在从 C# 调用的 C++/CLI 使用的 C DLL 中设置断点

我有一个由 C CLI 对象调用的本机 C DLL 该对象是 C 中 WPF 程序的 ViewModel 我想在 C DLL 中设置断点当我尝试设置它们时它们呈灰色并且帮助气球显示当前不会命中断点尚未为此文档加载任何符号为了让程序
C# 7：为什么元组解构不通过接口实现？

在 C 7 中我们可以实现Deconstruct将对象分配给具有匹配类型的元组时将调用的方法我想知道为什么微软决定将其作为一种神奇方法来实现有一个专门命名的方法它不是从任何地方继承的如果您正确命名它并输入正确的参数那么您将能够
如何让我的 Web 应用程序与我的桌面应用程序进行通信？

我开发了一个 Web 和 Windows 应用程序都是用 C NET 编写的现在我想做的是当在 Web 应用程序中的特定页面上单击按钮时必须向 Windows 应用程序发送一个信号表示已单击链接我怎样才能轻松地做到这一点我想
对于前台服务使用 Context.startForegroundService(Intent) 而不是 Context.startService(Intent) 有什么好处吗？

我读到the docs https developer android com reference android content Context html startForegroundService android content In
flutter iOS 无法使用麦克风，permission_handler 问题

我尝试在我的 flutter 应用程序中使用麦克风我创建方法尝试询问用户有关麦克风权限的信息它可以在 Android 上运行但不能在 iOS 上运行当然我将这一行添加到 info plist 中
删除postgres中的重复项

我想删除给定重复 external id 的除一行之外的所有行对于包含 5 000 000 行的表运行下面的查询大约需要两分钟我觉得必须有一种更快的方法来执行此任务 id 是主键 external id 是 btree 索引列 del

删除postgres中的重复项

删除postgres中的重复项 的相关文章

随机推荐

热门标签

删除postgres中的重复项的相关文章