Postgres 基于窗口的查询的优化/规划不佳（partition by(, group by?)） - 加速 1000 倍

2023-12-01

我们正在运行 Postgres 9.3.5。 (07/2014) 我们有相当复杂的数据仓库/报告设置（ETL、物化视图、索引、聚合、分析函数……）。

我现在发现的可能很难在优化器中实现（？），但它在性能上产生了巨大的差异（只有与我们的查询非常相似的示例代码，以减少不必要的复杂性）：

create view foo as
select
  sum(s.plan) over w_pyl as pyl_plan,      -- money planned to spend in this pot/loc/year
  sum(s.booked) over w_pyl as pyl_booked,  -- money already booked in this pot/loc/year

  -- money already booked in this pot/loc the years before (stored as sum already)
  last_value(s.booked_prev_years) over w_pl as pl_booked_prev_years,    

  -- update 2014-10-08: maybe the following additional selected columns
  -- may be implementation-/test-relevant since they could potentially be determined
  -- by sorting within the partition:
  min(s.id) over w_pyl,
  max(s.id) over w_pyl,

  -- ... anything could follow here ...
  x.*,
  s.*
from
  pot_location_year x  -- may be some materialized view or (cache/regular) table
  left outer join  spendings s 
    on (s.pot = x.pot and s.loc = x.loc and s.year = x.year)
window
  w_pyl  as (partition by  x.pot, x.year, x.loc)
  w_pl   as (partition by  x.pot, x.loc  order by x.year)

我们有这两个相关索引：

pot_location_year_idx__p_y_l  -- on pot, year, loc
pot_location_year_idx__p_l_y  -- on pot, loc, year

现在我们对一些测试查询运行解释

explain select * from foo fetch first 100 rows only

这向我们展示了一些非常表现不佳，因为pyl使用索引，其中结果集必须不必要地排序两次:-( (the outmost WindowAgg/Sort分步排序ply因为这对我们来说是必要的last_value(..) as pl_booked_prev_years):

 Limit  (cost=289687.87..289692.12 rows=100 width=512)
   ->  WindowAgg  (cost=289687.87..292714.85 rows=93138 width=408)
         ->  Sort  (cost=289687.87..289920.71 rows=93138 width=408)
               Sort Key: x.pot, x.loc, x.year
               ->  WindowAgg  (cost=1.25..282000.68 rows=93138 width=408)
                     ->  Nested Loop Left Join  (cost=1.25..278508.01 rows=93138 width=408)
                           Join Filter: ...
                           ->  Nested Loop Left Join  (cost=0.83..214569.60 rows=93138 width=392)
                                 ->  Index Scan using pot_location_year_idx__p_y_l on pot_location_year x  (cost=0.42..11665.49 rows=93138 width=306)
                                 ->  Index Scan using ...  (cost=0.41..2.17 rows=1 width=140)
                                       Index Cond: ...
                           ->  Index Scan using ...  (cost=0.41..0.67 rows=1 width=126)
                                 Index Cond: ...

所以显而易见的问题是规划者应该选择现有的ply相反，不必排序两次.

幸运的是，我发现我可以通过确保计划者（隐式）提示来做到这一点其他视图分区/窗口的列顺序更加同质，尽管在语义上不是必需的。

以下更改现在返回了我最初期望得到的内容（层索引的使用）：

...
window
  -- w_pyl  as (partition by  x.pot, x.year, x.loc)  -- showstopper (from above)
     w_pyl  as (partition by  x.pot, x.loc, x.year)  -- speedy
     w_pl   as (partition by  x.pot, x.loc  order by x.year)

执行速度提高 1000 倍的结果：

 Limit  (cost=1.25..308.02 rows=100 width=512)
   ->  WindowAgg  (cost=1.25..284794.82 rows=93138 width=408)
         ->  WindowAgg  (cost=1.25..282000.68 rows=93138 width=408)
               ->  Nested Loop Left Join  (cost=1.25..278508.01 rows=93138 width=408)
                     Join Filter: ...
                     ->  Nested Loop Left Join  (cost=0.83..214569.60 rows=93138 width=392)
                           ->  Index Scan using pot_location_year_idx__p_l_y on pot_location_year x  (cost=0.42..11665.49 rows=93138 width=306)
                           ->  Index Scan using ...  (cost=0.41..2.17 rows=1 width=140)
                                 Index Cond: ...
                     ->  Index Scan using ...  (cost=0.41..0.67 rows=1 width=126)
                           Index Cond: ...

2014年10月9日更新：

汤姆·莱恩-2 写道这（主要的 postgres 开发人员之一）与我在这里面临的另一个（可能相关的）窗口函数问题相关，以及与 pg 9.2.2 相关的 2013-02：

... 没有那么多的智力在系统中关于窗口函数，到目前为止。所以你必须写直接输出查询并将 WHERE 子句放在较低级别，如果您希望进行此优化。

因此，关于窗口函数、数据仓库功能等主题的更多（有争议的）一般想法可以在这里考虑：

上面是一个很好的陈述，它强化了我的假设，当决定在一般项目和 DWH 环境中进行一些 Oracle->Postgres 迁移时，花费更多时间和金钱这样做的风险会相当高。（尽管所研究的功能可能看起来足够了。）

与 Oracle 相比，我在重要领域更喜欢 Postgres，例如在代码的语法和清晰度以及其他方面（我猜甚至是源代码，因此可维护性（在所有方面）都更好），但 Oracle 在资源优化、支持和工具方面显然是更先进的参与者当您在典型的 CRUD 管理之外处理更复杂的数据库功能时。

I guess the open source Postgres (as well as the EnterpriseDB topups) will catch up in the long run in those areas, but it will take them at least 10 years, and maybe only if it is pushed heavily by big, altruistic¹ global players like Google etc.)

¹ altruistic in the sense, that if the pushed areas stay "free", the benefit for those companies must be surely somewhere else (maybe with some advertisement rows added randomly - I guess we could live with it here and there ;))

2014年10月13日更新：

正如我之前的更新（2014-10-09）中所链接的，当您想要使用约束/过滤器查询上述视图（此处）时，优化问题及其解决方法以非常相似的方式进行（在上述修复之后）在 pot_id 上）：

explain select * foo where pot_id = '12345' fetch first 100 rows only

...

 Limit  (cost=1.25..121151.44 rows=100 width=211)
   ->  Subquery Scan on foo  (cost=1.25..279858.20 rows=231 width=211)
         Filter: ((foo.pot_id)::text = '12345'::text)
         ->  WindowAgg  (cost=1.25..277320.53 rows=203013 width=107)
               ->  WindowAgg  (cost=1.25..271230.14 rows=203013 width=107)
                     ->  Nested Loop Left Join  (cost=1.25..263617.16 rows=203013 width=107)
                           ->  Merge Left Join  (cost=0.83..35629.02 rows=203013 width=91)
                                 Merge Cond: ...
                                 ->  Index Scan using pot_location_year_idx__p_l_y on pot_location_year x  (cost=0.42..15493.80 rows=93138 width=65)
                                 ->  Materialize  (cost=0.41..15459.42 rows=33198 width=46)
                                       ->  Index Scan using ...  (cost=0.41..15376.43 rows=33198 width=46)
                           ->  Index Scan using ...  (cost=0.42..1.11 rows=1 width=46)
                                 Index Cond: ...

正如上面链接中所建议的，如果您想在窗口聚合之前“下推”约束/过滤器，则必须在视图本身中明确执行此操作，这对于此类查询来说是有效的，然后再使用另一个 1000第 100 行的加速倍数：

 create view foo as
 ...
 where pot_id='12345'
 ...

...

 Limit  (cost=1.25..943.47 rows=100 width=211)
   ->  WindowAgg  (cost=1.25..9780.52 rows=1039 width=107)
         ->  WindowAgg  (cost=1.25..9751.95 rows=1039 width=107)
               ->  Nested Loop Left Join  (cost=1.25..9715.58 rows=1039 width=107)
                     ->  Nested Loop Left Join  (cost=0.83..1129.47 rows=1039 width=91)
                           ->  Index Scan using pot_location_year_idx__p_l_y on pot_location_year x (cost=0.42..269.77 rows=106 width=65)
                                 Index Cond: ((pot_id)::text = '12345'::text)
                           ->  Index Scan using ...  (cost=0.41..8.10 rows=1 width=46)
                                 Index Cond: ...
                     ->  Index Scan using ...  (cost=0.42..8.25 rows=1 width=46)
                           Index Cond: ...

After some more view parameterization effort² this approach will help speedup certain queries constraining those columns, but is still quite inflexible regarding a more general foo-view usage and query optimization.

²: You can "parameterize such a view" putting it (its SQL) in a (set-returning) table function (the Oracle equivalent to a pipelined table function). Further details regarding this may be found in the forum link above.

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Postgres 基于窗口的查询的优化/规划不佳（partition by(, group by?)） - 加速 1000 倍的相关文章

PostgreSQL：重复的键值违反了 UPDATE 命令的唯一约束

执行 UPDATE 查询时我们收到以下错误消息 ERROR duplicate key value violates unique constraint tableA pkey DETAIL Key id 47470 already ex
PostgreSQL 中的窗口函数跟踪日期

我正在尝试编写一个查询来将给定计算机今天的平均连接数与 7 到 14 天前的平均连接数进行比较我认为这最好由窗口函数处理但我无法获得正确的日期语法假设我有一个名为 iptable 的 IP 地址和连接记录表其中包含 soucreip
为什么 Wordpress 有单独的“usersmeta”和“users”SQL 表。为什么不把它们结合起来呢？

除了 users 表之外 Wordpress 还有一个 usersmeta 表其中包含以下列 meta id user id 元键例如名字元值例如汤姆每个用户在 usersmeta 表中都有 20 行无论这些行是否有填充的 me
无法访问文件“$libdir/plpgsql”：没有这样的文件或目录

我不知所措在本地 Postgres 服务器 postgres app Mac OS X 10 7 中创建存储过程时遇到问题也是如此 psql psql 9 3 0 Type help for help dchaston CREATE O
MySQL 索引 - 根据此表和查询，最佳实践是什么

我有这张表 500 000 行 CREATE TABLE IF NOT EXISTS listings id int 10 unsigned NOT NULL AUTO INCREMENT type tinyint 1 NOT NULL D
摆脱“使用临时；使用文件排序”

当我对我的查询进行解释时我看到第一行的额外下有使用临时使用文件排序我知道这很糟糕但我不知道它到底意味着什么或如何解决它如果您想查看我的查询这是我针对同一查询提出的更普遍的问题 MySQL 查询优化和菜鸟解释 https s
基于检查约束的分区修剪未按预期工作

为什么下面的查询计划中包含表 events 201504 根据我的查询和该表的检查约束我希望查询规划器能够完全修剪它 database d events 201504 Table public events 201504 Column T
Hive 左外连接长期运行

Hortonworks HDP 2 3 0 Hive 0 14 Table T1 partition on col1 no bucket ORC 应用程序 1 2 亿行和 6GB 数据大小Table T2 partition on col2
PostgreSQL 9.3：将一列拆分为多列

我想拆分一列colb在下面给出的示例中分为两列喜欢column1 and column2 我有一个包含两列的表 Example create table t3 cola varchar colb varchar 插入 insert int
MySQL 的 MIN 和 MAX 索引

谁能从官方 MySQL 中澄清这一点文档 https dev mysql com doc refman 5 7 en mysql indexes html 使用索引查找特定索引列 key col 的 MIN 或 MAX 值这是由预处理器
Spark 与 scala [关闭]

Closed 这个问题需要调试细节 help minimal reproducible example 目前不接受答案考虑 2 个数据框holiday df and everyday df有 3 列如下假期 df 5 条记录 Count
为什么在通过 sp_executeSQL 过程执行时，完全相同的 SQL 查询会产生不同的执行计划？

正如标题所述我不明白为什么 sp executeSQL 会生成与从 Sql Management Studio 运行查询完全不同的执行计划从 SQL Management Studio 运行时我的相关查询将花费 3 秒而通过 sp
窗口函数或公共表表达式：计算范围内的前几行

我想使用窗口函数来确定每一行满足特定条件的先前记录的总数一个具体的例子 clone d test Table pg temp 2 test Column Type Modifiers id bigint date timestamp wi
如何比较两个查询？

当两个查询 X 和 Y 在小案例场景中花费几乎相同的时间时如何比较两个查询 X 和 Y 并说 X 比 Y 更好问题是我有两个查询应该在一个非常大的数据库上运行所以运行和评估不是一个很好的选择因此我们创建了一个小型数据库来执行一些测
如何清除 SQL Server 2005/2008 中的查询执行统计信息

基于使用从这篇文章中获得的这段非常有用的 SQL 来获取查询执行统计信息最常执行的存储过程代码日志 https stackoverflow com questions 1942726 most executed stored proced
对所有列实施搜索过滤器

我在 PostgreSQL 中找到了这个搜索示例http www postgresql org docs current interactive textsearch tables html TEXTSEARCH TABLES SEARCH
哪种 SQL 模式能够更快地避免插入重复行？

我知道有两种不重复插入的方法第一个是使用WHERE NOT EXISTS clause INSERT INTO table name col1 col2 col3 SELECT s s s WHERE NOT EXISTS SELECT
MySQL 获取时间优化

o我有一个包含 200 万个寄存器的表但它很快就会增长得更多基本上该表包含具有相应描述符的图像的兴趣点当我尝试执行选择在空间上靠近查询点的点的查询时总执行时间花费太长更准确地说持续时间获取 0 484 秒 27 441 秒
mysql表中的数据非常大。即使 select 语句也需要很多时间

我正在开发一个数据库它是一个相当大的数据库有 13 亿行和大约 35 列这是我检查表状态后得到的结果 Name Table Name Engine InnoDB Version 10 Row format Compact Rows 1
pymssql 库中的参数绑定是否正确实现？

我使用 pymsqsql 库从 Python 程序调用极其简单的查询 with self conn cursor as cursor cursor execute select extra id from mytable where id

随机推荐

使用 NLTK，当给出某个单词时，如何生成不同形式的单词？

例如假设给出 happy 这个词我想生成其他形式的happy 例如幸福幸福等我已经阅读了有关 Stackoverflow 和 NLTK 参考资料的其他一些先前问题然而只有词性标注变形就像识别句子中某些单词的语法形式而不是生
来自数据库的动态下拉列表值

如何将主下拉列表的值连接到子下拉列表中下拉列表的值来自数据库 main list 和 sub list 表而且身体加载也不起作用主列表 id value id no 1 colors 1 2 fruits 2 3 animals 3
位置提供商真的很耗电吗？

我需要实现基于位置的服务我不需要精确的位置所以不需要 GPS 最简单的方法是在应用程序启动时开始侦听位置更新并将其保留为打开状态 mLocationMgr requestLocationUpdates LocationManager
.gitignore 被 Git 忽略

My gitignore文件似乎被 Git 忽略了可以吗 gitignore文件损坏 Git 需要哪种文件格式区域设置或文化 My gitignore This is a comment debug log nbproject 输出来自
在 Rails 中使用 jquery 和 Ajax 检查用户名可用性

我使用 Rails 和 jquery 和 ajax 来检查用户名的可用性我在用以下插件用于 jquery 验证目的 https github com posabsolute jQuery Validation Engine 在我的控制器
使用 Flex Mobile 4.6 在 iOS 上上传图库或捕获的图像

有谁有使用 iOS Flex 4 6 中的相机 API 的经验吗我遇到了很多设置问题并且缺少文档我正在尝试设置一个图像上传组件用户可以在其中捕获新照片或从其库中选择现有照片对于捕获来说当图像保存为 JPEG 时并且我正在使用 A
聚类中的大距离矩阵

我在 16 GB RAM 的机器上运行 R 3 2 3 我有一个 3 00 000 行 x 12 列的大矩阵我想在 R 中使用层次聚类算法所以在这之前我尝试创建一个距离矩阵由于数据是混合类型我对不同类型使用不同的矩阵我收到有关内
Angular2 处理 http 响应

我只是有一个关于构建和处理服务中 http 请求响应的问题我在用Angular2 alpha46 打字稿刚刚开始测试它我喜欢它 Ps 感谢所有致力于此工作并通过 github 做出贡献的人因此采取以下措施登录表单 componen
Nuget 下载脚本时出现问题

好吧以前也发生过这种情况我不确定这是怎么回事我去安装这个nuget包 Microsoft jQuery Unobtrusive Ajax 使用命令行和 GUI 都可以正确安装该软件包但我的项目中没有添加脚本我在使用 MVC6
如何获取从“UIImagePickerController”接收的图像的压缩文件大小？

我想知道拍摄的图像的大小UIImagePickerController通过卡马拉或图书馆有什么办法可以找到吗要求就像如果图像大小超过 1 MB 我想对其进行压缩提前致谢尝试这个 CGFloat compression 0 8f C
接口方法中的最终参数 - 有什么意义？

在Java中定义是完全合法的final接口方法中的参数并且不遵守实现类中的参数例如 public interface Foo public void foo int bar final int baz public class Foo
在 Pandas DF 中使用删除重复项，但根据首选项列表选择保留列

我有包含许多列的数据框有一个日期时间列并且有重复的日期时间条目以及来自不同源的这些重复项的数据我想根据以下内容删除重复项column dt 但我想根据其中的内容保留结果column pref 我在下面提供了简化的数据但这样做的原因是
C#.NET delegate 关键字作为使用委托对象/构造函数调用的函数的名称

我正在关注一本书其中使用 delegate 关键字根据我的理解作为要封装在委托中的函数的名称使用委托对象名称构造函数调用的函数下面是代码 Declaration of delegate object AppendChildDat
当订单列具有相同数据时，OrderBy 子句会产生不同的结果集

我们有一个存储过程来根据页码和页面大小返回记录集排序是按列进行的CreateDateTime 如果值为CreatedDateTime对于所有记录都是相同的它以不同的顺序给出结果集行为不一致部分代码 SET FirstRec Pag
如何使用 LINQ 返回 FileInfo.Name 的子字符串

我想将下面的 foreach 语句转换为 LINQ 查询该查询将文件名的子字符串返回到列表中 IList
将高代码点 (> U+FFFF) 编码为 HTML 实体

我有一个输入字符串 URL 编码 F0 9F 98 8E 解码后的是表情符号我怎样才能将其转换为 HTML 代码 128526 http unicode online toolz com tools unicode html entiti
MongoDB：如何乘以仅出现在$project中的字段？

我通过以下方式加入 lookup 两个集合 const LEAD PRICE doesn t matter Client aggregate lookup from clientboughtleads localField id forei
德尔福 Android TLocationSensor

使用德尔福10 3 我编写了一个基于地理定位的通知的 Android 应用程序我遇到这个问题当我在后台发送应用程序时我验证了它仍然在运行即使使用后退按钮我指定不关闭它而是在后台发送它 TLocationSensor 停止跟踪位置
纯 javascript 检查某些内容是否悬停（无需设置鼠标悬停/移出）

我见过这个 jQuery 语法 if element is hover do something 由于我没有使用 jQuery 因此我正在寻找用纯 javascript 执行此操作的最佳方法我知道我可以保留一个全局变量并使用设置取消设置
Postgres 基于窗口的查询的优化/规划不佳（partition by(, group by?)） - 加速 1000 倍

我们正在运行 Postgres 9 3 5 07 2014 我们有相当复杂的数据仓库报告设置 ETL 物化视图索引聚合分析函数我现在发现的可能很难在优化器中实现但它在性能上产生了巨大的差异只有与我们的查询非常相似的示例代码以

Postgres 基于窗口的查询的优化/规划不佳（partition by(, group by?)） - 加速 1000 倍

Postgres 基于窗口的查询的优化/规划不佳（partition by(, group by?)） - 加速 1000 倍 的相关文章

随机推荐

热门标签

Postgres 基于窗口的查询的优化/规划不佳（partition by(, group by?)） - 加速 1000 倍的相关文章