SQL Server 表有 100k 条记录，2 个内连接速度极慢

2024-02-13

我正在将数据从 SQL Server 迁移到 Postgres。

我正在更改我的表结构以处理一般的体育比赛，但这给我带来了性能问题。

我有以下表格：

matches（id，开始时间）
比赛队伍(id, match_id, team_id, 分数)
比赛选手(id,阵容_id,玩家_id)，其中阵容_id是match_teams.id上的外键

我使用以下查询选择所有匹配项：

SELECT * FROM matches AS m
INNER JOIN match_teams AS t ON m.id = t.match_id
INNER JOIN match_players AS p ON t.id = p.lineup_id

对于 100k 条记录，此查询大约需要 6 分钟：

-- Executing query:
SELECT * FROM matches AS m
INNER JOIN match_teams AS t ON m.id = t.match_id
INNER JOIN match_players AS p ON t.id = p.lineup_id
Total query runtime: 336360 ms.
1142078 rows retrieved.

在 SQL Server 上，我将所有这些数据保存在一张表中，并且它将在不到 5 秒的时间内返回。在 Postgres 中，我还使用 jsonb 将这些数据放入 1 个表中，并且能够在 40 秒内运行上述查询。

我怎样才能使这个查询更快？我想把它减少到几秒钟。

在线阅读我发现创建索引可以加快这些连接的速度。我做了以下索引：

CREATE INDEX match_teams_match_id_idx ON match_teams USING btree (match_id);
CREATE INDEX match_players_lineup_id_idx ON match_players USING btree (lineup_id);
CREATE INDEX match_players_player_id_idx ON match_players USING btree (player_id);
CREATE INDEX matches_id_idx ON matches USING btree (id);

这些索引根本没有使查询变得更快。我缺一个吗？

以下是上述查询的 EXPLAIN ANALYZE VERBOSE 输出：

"Hash Join  (cost=19314.10..67893.04 rows=1135917 width=24) (actual time=401.225..1624.906 rows=1142078 loops=1)"
"  Output: m.id, m.start_time, t.team_id, t.rank, p.player_id"
"  Hash Cond: (p.lineup_id = t.id)"
"  ->  Seq Scan on public.match_players p  (cost=0.00..19818.78 rows=1142078 width=8) (actual time=0.039..356.168 rows=1142078 loops=1)"
"        Output: p.player_id, p.lineup_id"
"  ->  Hash  (cost=15119.58..15119.58 rows=228442 width=24) (actual time=401.123..401.123 rows=228442 loops=1)"
"        Output: m.id, m.start_time, t.team_id, t.rank, t.id"
"        Buckets: 8192  Batches: 4  Memory Usage: 3358kB"
"        ->  Hash Join  (cost=5097.97..15119.58 rows=228442 width=24) (actual time=74.766..310.864 rows=228442 loops=1)"
"              Output: m.id, m.start_time, t.team_id, t.rank, t.id"
"              Hash Cond: (t.match_id = m.id)"
"              ->  Seq Scan on public.match_teams t  (cost=0.00..3519.42 rows=228442 width=16) (actual time=0.004..64.580 rows=228442 loops=1)"
"                    Output: t.team_id, t.rank, t.match_id, t.id"
"              ->  Hash  (cost=3112.21..3112.21 rows=114221 width=12) (actual time=74.728..74.728 rows=114221 loops=1)"
"                    Output: m.id, m.start_time"
"                    Buckets: 16384  Batches: 2  Memory Usage: 2682kB"
"                    ->  Seq Scan on public.matches m  (cost=0.00..3112.21 rows=114221 width=12) (actual time=0.003..34.789 rows=114221 loops=1)"
"                          Output: m.id, m.start_time"
"Planning time: 0.448 ms"
"Execution time: 1799.412 ms"

Update

在这里添加了DDL：http://pastie.org/10529040 http://pastie.org/10529040

Update 2

Postgres 在 AWS RDS 服务器上运行。我尝试在干净的 EC2 服务器和干净的 PGAdmin 安装上运行上述查询。我得到了相同的结果，似乎在约 2 秒内运行查询，但需要约 6 分钟才能显示数据。

Update 3

我尝试从一个简单的 C# 程序运行此查询，结果在大约 10 秒内返回。这似乎是 PGAdmin 的问题。

Postgres 有一个非常智能的查询引擎。我使用 Postgres，并且经常听别人说“Postgres 很慢”——但是我从未经历过这种情况。它可能没有其他 DBMS 可能具有的默认值，因此您只需要了解优化即可。

耦合稳定点：

所有表都应该有一个主键，并且需要有一个约束作为主键
如果您在其上加入 btree 索引，那么您要进行 JOINing、ORDER BUYing、GROUP BUYing 的任何大型表都将得到优化（如上所述）

因为引擎会自己“思考”，所以一旦您在表上添加索引，您通常需要告诉 Postgres“重新分析表”。另外，有时您需要“清理”它以清除 Postgres 认为存在的任何“死”行。

为此，请执行以下操作：

vacuum [schema].[table_name];
analyze [schema].[table_name];

在将索引放在上面之后执行此操作，它应该会大大加快查询执行速度。

NOTE:您不需要在主键上放置索引，因为主键约束会创建自动唯一索引。

只要您对 match_teams 表有 PRIMARY KEY 约束（id），那么你应该只需要放一个btreematch_teams 表上的索引如下所示：

CREATE INDEX match_teams_match_id_idx ON match_teams USING btree (match_id);

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

SQL Server 表有 100k 条记录，2 个内连接速度极慢的相关文章

当我使用可变参数而不是常量参数时，为什么我的内联表 UDF 慢得多？

我有一个表值内联 UDF 我想过滤该 UDF 的结果以获得一个特定值当我使用常量参数指定过滤器时一切都很好并且性能几乎是瞬时的当我使用可变参数指定过滤器时它会花费明显更大的时间块大约是逻辑读取的 500 倍和持续时间的 20 倍
PostgreSQL 在递归查询中找到所有可能的组合（排列）

输入是一个长度为 n 的数组我需要生成数组元素的所有可能组合包括输入数组中元素较少的所有组合 IN j A B C OUT k A AB AC ABC ACB B BA BC BAC BCA 随着重复所以AB BA 我尝试过这样的事情
Docker 中的 Web api 无法连接到主机上的 SQL Server，并出现登录前握手错误

首先有一些类似的问题但我已经尝试了我能找到的所有建议但似乎没有任何效果如果你能找到我没有提到的请评论我会尝试一下概要是我正在尝试将 Docker 容器中的 NET Core 3 1 Web api 连接到主机上的 SQL Ser
Django 中从 sqlite 迁移到 postgresql

我想迁移自sqlite to PostgreSQL db 我安装了 postgresql 并在其 shell 上创建数据库然后配置我的 django 设置如下 default ENGINE django db backends postg
如何使用 SQL 通过表示多级订单的 varchar 字段正确排序？

我不太喜欢数据库我发现在查询上出现以下问题SQL服务器数据库旧的遗留应用程序的我声明不幸的是我无法更改数据库结构字段类型这非常难看我有以下情况 SELECT Sottocategoria IdSottocategoria IdCa
使用条件 SQL 统计每月汇总记录

我有一张桌子我们就叫他们桌子吧SUMMARYDATA NIP NAME DEPARTMENT STATUSIN STATUSOUT TOTALLOSTTIME A1 ARIA BB 2020 01 21 08 06 23 2020 01
如何在 Spring Data 中选择不同的结果

我在使用简单的 Spring Data 查询或 Query 或 QueryDSL 在 Spring Data 中构建查询时遇到问题如何选择三列研究国家登录不同的行并且查询结果将是用户对象类型的列表 Table User Id S
从 Django 调用 Postgres SQL 存储过程

我正在开发一个带有 Postgresql 数据库的 Django 项目我编写了一个可以在 Postgres 上完美运行的存储过程现在我想从 Django 1 5 调用该存储过程我已经编写了代码但它提示错误 CREATE FUNCTI
TSQL - 生成文字浮点值

我理解比较浮点数时遇到的许多问题并对它们在这种情况下的使用感到遗憾但我不是表格作者只有一个小障碍需要克服有人决定使用浮点数就像您期望使用 GUID 一样我需要检索具有特定浮点值的所有记录 sp help MyTable Colu
Spring Data JPA 选择不同

我有一个情况我需要建立一个select distinct a address from Person a 其中地址是 Person 内的地址实体类型的查询我正在使用规范动态构建我的 where 子句并使用findAll Specifi
MySQL：如何获取每个分组的x个结果数[重复]

这个问题在这里已经有答案了可能的重复 mysql 在 GROUP BY 中使用 LIMIT 来获取每组 N 个结果 https stackoverflow com questions 2129693 mysql using limit w
自动删除主键序列中的间隙

我正在创建一个网页该网页根据用户操作将数据存储到 MySQL 数据库中数据库有很多行行的主键是列 rowID 它只是按顺序对行进行编号例如 1 2 3 4 用户可以选择删除行问题是当用户删除最后一行以外的行时 rowID 中有一个
迭代列表的奇怪速度差异

我创建了两个重复两个不同值的长列表在第一个列表中值交替出现在第二个列表中一个值出现在另一个值之前 a1 object object 10 6 a2 a1 2 a1 1 2 然后我迭代它们不对它们执行任何操作 for in a1 p
红宝石接球和效率

catch在 Ruby 中意味着跳出深度嵌套的代码在 Java 中例如用Java也可以达到同样的效果try catch用于处理异常但它被认为是糟糕的解决方案而且效率非常低在 Ruby 中我们有处理异常的方法begin raise
pg_dump 与 pg_dumpall？使用哪一个来进行数据库备份？

I tried pg dump然后在另一台机器上我尝试导入 sql 并填充数据库我看到 CREATE TABLE ERROR role prod does not exist CREATE TABLE ERROR role prod do
在对象数组内的特定 JSON 值上创建索引

假设我的表中有一个 varchar 列其结构如下 Response DataArray Type Address Value 123 Fake St Type Name Value John Doe 我想在 DataArray 数组元素的
C# using 语句、SQL 和 SqlConnection

使用 using 语句 C SQL 可以吗 private static void CreateCommand string queryString string connectionString using SqlConnection c
哪些属性有助于运行时 .Net 性能？

我正在寻找可用于通过向加载器 JIT 编译器或 ngen 提供提示来确保 Net 应用程序获得最佳运行时性能的属性例如我们有可调试属性 http msdn microsoft com en us library k2wxda47 aspx
根据由另一列分组的不同列的最大值获取值[重复]

这个问题在这里已经有答案了我想根据由另一列分组的不同列的最大值来获取列的值我有这张表 KEY NUM VAL A 1 AB B 1 CD B 2 EF C 2 GH C 3 HI D 1 JK D 3 LM 并想要这样的结果 KEY V
配置“DataSource”以使用 SSL/TLS 加密连接到 Digital Ocean 上的托管 Postgres 服务器

我正在尝试托管数据库服务 https www digitalocean com products managed databases on 数字海洋网 https en wikipedia org wiki DigitalOcean 创建了

随机推荐

访问：重置自动编号的查询

我的数据库是为滑雪比赛制作的这个想法是你可以填写人们滑雪的时间数据库会根据首先设定时间的人你的性别和年龄自动计算你获得的奖牌类型我制作了一个表格可以注册并给出所有结果我现在遇到的唯一问题是在签约时必须按年龄订购我这样做了但
为什么pm2忽略了ecosystem.config.js文件中传递给节点的--experimental-modules？

这是我的main js file import Koa from koa const app new Koa app use async ctx gt ctx body Hello World app listen 3000 这是我的pac
对日期字符串数组进行排序 JavaScript

我尝试过使用 underscorejs min and max方法但它们不能处理字符串无论如何从我读过和学到的东西来看因为我得到了infinite从两者都回来我的数组看起来像 dateData 26 06 2016 04 06 2
为什么代理从 Dialogflow 中消失？ [关闭]

Closed 这个问题不符合堆栈溢出指南 help closed questions 目前不接受答案我将 Dialogflow 代理与 Google Assistant 集成并启动了 alpha 版本进行测试之后我的所有代理都从 Di
.NET (3.5) 使用点而不是冒号作为 IT-IT 文化的时间分隔符来格式化时间？

根据维基百科 http en wikipedia org wiki Date and time notation in Italy 并在达里奥索莱拉的回答 https stackoverflow com questions 7498058
将 LaTeX 方程转换为 Content MathML 或 OpenMath 的工具？

您知道 GNU Linux 世界中是否有任何开源工具或库最好是 Java 但这不是严格要求可以将 LaTeX 语法中的数学方程转换为 Content MathML 或 OpenMath 我需要以批处理模式转换大量方程所以我not寻找交
如何在 iOS >=8.0 中更改 UIPageControl 的位置？

我有一个简单的 UIPageViewController 它在页面底部显示默认的 UIPageControl 我想知道是否可以修改 UIPageControl 的位置例如位于屏幕顶部而不是底部我一直在四处寻找只发现旧的讨论说我需要创建
子类变量与超类变量同名

是否有可能不发生覆盖例如 class A def init self name self name name class B A def init self name A init self name self name name yes
在 Grails 中，如何访问域类静态方法内的休眠会话？

我在网上读过各种文章但在这一点上它们似乎相当分散我到底需要在我的配置和方法中做什么来获取休眠会话我正在尝试对存储过程进行一些直接的 sql 调用我有一个从 Ruby 移植的大型代码库其中包含大量静态方法和存储过程调用如果我需要使
获取“lm()”返回的“mlm”对象回归系数的置信区间

我正在运行具有 2 个结果变量和 5 个预测变量的多元回归我想获得所有回归系数的置信区间通常我使用该功能lm但它似乎不适用于多元回归模型对象mlm 这是一个可重现的示例 library car mod lt lm cbind inco
使用 jQuery 只允许文本框包含字母？

我想使用 jQuery 制作一个仅允许字母 a z 的文本框有什么例子吗
如何在 PictureBox 控件上创建彩色边框？

我有一个 PictureBox 和一个图像PictureBox1 Image财产如何在图像周围放置边框我一直用的是这个要更改边框颜色请从 Picturebox 控件的 Paint 事件处理程序中调用此函数 private void
使用 Java8 的 ClosableHttpClient 导致处理异常：javax.net.ssl.SSLException：不支持的记录版本未知 [重复]

这个问题在这里已经有答案了我跟着this https stackoverflow com questions 23324807 randomly sslexception unsupported record version unknow
通过JS、DataType Json调用Web服务

我试图通过 JS 调用 Web 服务但无论如何它都没有被调用我正在尝试计算 2 个数字的总和页面包含 3 个textbox它的文本设置是硬编码的作为
UITableViewCell Objective C 代码上的 3D Touch Peek 和 Pop。（用力触摸）

我需要启用Peek And Pop上的功能UITableViewCell在 Objective C 中通过使用 Force Touch 并且还需要在预览视图下显示一些操作例如默认邮件应用程序我是 iOS 新手请帮助我实现这一目标使用
Python 中的哈希集和哈希表

有没有HashSetPython 中的实现我知道哈希表可以用字典来表示但是我们如何表示HashSet执行我不是在寻找具有相同方法的数据结构HashSets而是具有恒定查找时间或 O 1 量级的人另外我想知道Python中的查找时间
Java 9 之后加载类和资源

我正在读书InfoQ 上的这篇文章 https www infoq com news 2017 06 oracle defends jpms引用莱因霍尔德的话开发人员仍然可以使用 Java 9 中的 Java 类路径来实现 Java 运行
如何实现基于 Cocoa 的 Adobe Photoshop 插件

Cocoa 曾经在 CS3 上工作过将 Cocoa 包放入主 Carbon 插件包中的技巧 http furbo org 2008 07 08 plug ins the cocoa way 从 Carbon 加载它并发出 NSApplica
Angular 9 Universal ReferenceError：窗口未定义

我正在尝试使用一些第三方库在 Angular 9 项目中设置 SSR 但没有成功下面的错误 ReferenceError window is not defined at node modules intl tel input build
SQL Server 表有 100k 条记录，2 个内连接速度极慢

我正在将数据从 SQL Server 迁移到 Postgres 我正在更改我的表结构以处理一般的体育比赛但这给我带来了性能问题我有以下表格 matches id 开始时间比赛队伍 id match id team id 分数比赛选手

SQL Server 表有 100k 条记录，2 个内连接速度极慢

SQL Server 表有 100k 条记录，2 个内连接速度极慢 的相关文章

随机推荐

热门标签

SQL Server 表有 100k 条记录，2 个内连接速度极慢的相关文章