优化 postgres 相似性查询（pg_trgm + gin 索引）

2023-11-21

我定义了以下索引：

CREATE INDEX
    users_search_idx
ON
    auth_user
USING
    gin(
        username gin_trgm_ops,
        first_name gin_trgm_ops,
        last_name gin_trgm_ops
    );

我正在执行以下查询：

PREPARE user_search (TEXT, INT) AS
    SELECT
        username,
        email,
        first_name,
        last_name,
        ( -- would probably do per-field weightings here
            s_username + s_first_name + s_last_name
        ) rank
    FROM
        auth_user,
        similarity(username, $1) s_username,
        similarity(first_name, $1) s_first_name,
        similarity(last_name, $1) s_last_name
    WHERE
        username % $1 OR
        first_name % $1 OR
        last_name % $1
    ORDER BY
        rank DESC
    LIMIT $2;

The auth_user表有 620 万行。

查询的速度似乎在很大程度上取决于可能返回的结果数量similarity query.

通过增加相似度阈值set_limit有帮助，但通过消除部分匹配而降低了结果的有用性。

有些搜索会在 200 毫秒内返回，有些则需要 10 秒左右。

我们已经使用 Elasticsearch 实现了此功能，任何查询的返回时间均小于 200 毫秒，同时进行更复杂（更好）的排名。

我想知道是否有任何方法可以改进这一点以获得更一致的性能？

据我了解，GIN 索引（倒排索引）与 Elasticsearch 使用的基本方法相同，因此我认为可以进行一些优化。

An EXPLAIN ANALYZE EXECUTE user_search('mel', 20) shows:

Limit  (cost=54099.81..54099.86 rows=20 width=52) (actual time=10302.092..10302.104 rows=20 loops=1)
  ->  Sort  (cost=54099.81..54146.66 rows=18739 width=52) (actual time=10302.091..10302.095 rows=20 loops=1)
        Sort Key: (((s_username.s_username + s_first_name.s_first_name) + s_last_name.s_last_name)) DESC
        Sort Method: top-N heapsort  Memory: 26kB
        ->  Nested Loop  (cost=382.74..53601.17 rows=18739 width=52) (actual time=118.164..10293.765 rows=8380 loops=1)
              ->  Nested Loop  (cost=382.74..53132.69 rows=18739 width=56) (actual time=118.150..10262.804 rows=8380 loops=1)
                    ->  Nested Loop  (cost=382.74..52757.91 rows=18739 width=52) (actual time=118.142..10233.990 rows=8380 loops=1)
                          ->  Bitmap Heap Scan on auth_user  (cost=382.74..52383.13 rows=18739 width=48) (actual time=118.128..10186.816 rows=8380loops=1)"
                                Recheck Cond: (((username)::text % 'mel'::text) OR ((first_name)::text % 'mel'::text) OR ((last_name)::text %'mel'::text))"
                                Rows Removed by Index Recheck: 2434523
                                Heap Blocks: exact=49337 lossy=53104
                                ->  BitmapOr  (cost=382.74..382.74 rows=18757 width=0) (actual time=107.436..107.436 rows=0 loops=1)
                                      ->  Bitmap Index Scan on users_search_idx  (cost=0.00..122.89 rows=6252 width=0) (actual time=40.200..40.200rows=88908 loops=1)"
                                            Index Cond: ((username)::text % 'mel'::text)
                                      ->  Bitmap Index Scan on users_search_idx  (cost=0.00..122.89 rows=6252 width=0) (actual time=43.847..43.847rows=102028 loops=1)"
                                            Index Cond: ((first_name)::text % 'mel'::text)
                                      ->  Bitmap Index Scan on users_search_idx  (cost=0.00..122.89 rows=6252 width=0) (actual time=23.387..23.387rows=58740 loops=1)"
                                            Index Cond: ((last_name)::text % 'mel'::text)
                          ->  Function Scan on similarity s_username  (cost=0.00..0.01 rows=1 width=4) (actual time=0.004..0.004 rows=1 loops=8380)
                    ->  Function Scan on similarity s_first_name  (cost=0.00..0.01 rows=1 width=4) (actual time=0.002..0.002 rows=1 loops=8380)
              ->  Function Scan on similarity s_last_name  (cost=0.00..0.01 rows=1 width=4) (actual time=0.002..0.002 rows=1 loops=8380)
Execution time: 10302.559 ms

服务器是在 Amazon RDS 上运行的 Postgres 9.6.1

update

发布问题后不久我发现了以下信息：https://www.postgresql.org/message-id/[电子邮件受保护]

所以我尝试了

-> SHOW work_mem;
4MB
-> SET work_mem='12MB';
-> EXECUTE user_search('mel', 20);
(results returned in ~1.5s)

这取得了很大的进步（之前 > 10 秒）！

对于类似的查询，1.5s 仍然比 ES 慢很多，所以我仍然想听到任何优化查询的建议。

回复评论，并在看到这个问题后（Postgresql GIN 索引比 pg_trgm 的 GIST 慢），我尝试了完全相同的设置，用 GIST 索引代替 GIN 索引。

尝试与上面相同的搜索，它在〜3.5秒内返回，使用默认值work_mem='4MB'。增加work_mem没有什么区别。

由此我得出的结论是，GIST 索引的内存效率更高（没有像 GIN 那样遇到病态情况），但当 GIN 正常工作时，它比 GIN 慢。这与推荐 GIN 索引的文档中描述的内容一致。

我还是不明白为什么要花这么多时间：

 ->  Bitmap Heap Scan on auth_user  (cost=382.74..52383.13 rows=18739 width=48) (actual time=118.128..10186.816 rows=8380loops=1)"
     Recheck Cond: (((username)::text % 'mel'::text) OR ((first_name)::text % 'mel'::text) OR ((last_name)::text %'mel'::text))"
     Rows Removed by Index Recheck: 2434523
     Heap Blocks: exact=49337 lossy=53104

我不明白为什么需要这一步或者它在做什么。

有以下三个Bitmap Index Scan在其下面的每个username % $1子句...然后将这些结果与BitmapOr步。这些部分都非常快。

但即使在我们没有耗尽工作内存的情况下，我们仍然花费了近一整秒的时间Bitmap Heap Scan.

我预计much使用这种方法可以更快获得结果：

1.

创建一个 GiST 索引，其中 1 列保存连接值：

CREATE INDEX users_search_idx ON auth_user
USING gist((username || ' ' || first_name || ' ' || last_name) gist_trgm_ops);

假设所有 3 列均已定义NOT NULL（你没有指定）。否则你需要做更多的事情。
为什么不简化为concat_ws()?

合并两列并添加到一个新列中
通过多个文本字段的模式匹配加快查询速度
合并两列并添加到一个新列中

2.

使用适当的最近的邻居查询，匹配上面的索引：

SELECT username, email, first_name, last_name
     , similarity(username  , $1) AS s_username
     , similarity(first_name, $1) AS s_first_name
     , similarity(last_name , $1) AS s_last_name
     , row_number() OVER () AS rank  -- greatest similarity first
FROM   auth_user
WHERE     (username || ' ' || first_name || ' ' || last_name) %   $1  -- !!
ORDER  BY (username || ' ' || first_name || ' ' || last_name) <-> $1  -- !!
LIMIT  $2;

中的表达式WHERE and ORDER BY必须匹配索引表达式！

尤其ORDER BY rank（就像你有的那样）对于小规模来说总是表现不佳LIMIT从更大的合格行池中进行选择，因为它不能直接使用索引：背后的复杂表达式rank必须计算为every合格行，则必须先对所有行进行排序，然后才能返回最佳匹配的小选择。这是贵得多与真正的最近邻查询相比，它可以直接从索引中选择最佳结果，甚至无需查看其余结果。

row_number()空窗口定义仅反映了由ORDER BY一样的SELECT.

postgresql

pgtrgm

优化 postgres 相似性查询（pg_trgm + gin 索引）的相关文章

如何插入UUID的值？

我在 Play Framework 2 3 支持的 postgresql 9 4 中使用 anorm 2 4 给出一个这样的模型 case class EmailQueue id UUID send from String send to
PostgreSQL WHERE 计数条件

我在 PostgreSQL 中有以下查询 SELECT COUNT a log id AS overall count FROM Log as a License as b WHERE a license id 7 AND a licens
使用 unnest() 返回行？

我尝试在完成后返回一组行UPDATE 像这样的东西 UPDATE Notis new noti SET notis noti record type FROM SELECT FROM Notis WHERE user id 2 FOR UP
2 同一个表的同一列上的 PostgreSQL 索引 - 冗余吗？

我有一个带有 2 个索引的 PostgreSQL 表其中一项指数涵盖website id and tweet idcolumns 是唯一的 B 树索引第二个索引仅涵盖website id列并且是非唯一索引如果第一个索引存在第二个索
列太多的表的缺点

我有一些数据需要放入 PostgreSQL 数据库中这些数据与学校有关所以有很多与学校相关的属性大部分是小整数浮点数或小文本所有数据每年都会发生变化所以我正在创建一个名为的实体YearlyData并将属性放在那里但问题是属性
如何在 postgresql 中使用“时间”字段按小时分组？

我有一张带有一列的桌子ctime类型的time without time zone cdate ctime 2016 12 24 12 02 17 2016 12 24 12 02 32 2016 12 24 12 03 00 2016 1
Hadoop 上的 Sqoop：NoSuchMethodError：com.google.common.base.Stopwatch.createStarted() [重复]

这个问题在这里已经有答案了我在 Google Cloud DataProc 上的 hadoop 上运行 sqoop 以通过 Cloud SQL 代理访问 postgresql 但遇到 Java 依赖项错误 INFO First Cloud
将现有的 auth.User 数据迁移到新的 Django 1.5 自定义用户模型？

我不想毁掉我网站上的所有用户但我想利用 Django 1 5 的自定义可插入用户模型这是我的新用户模型 class SiteUser AbstractUser site models ForeignKey Site null True
Postgresql，选择一个“假”行

在 Postgres 8 4 或更高版本中获取默认填充的一行数据的最有效方法是什么没有实际创建行例如作为交易伪代码 create table mytable id serial PRIMARY KEY NOT NULL parent
无法访问没有 public.table 名称的表。有没有办法摆脱大众？

我有一个名为user在 PostgreSQL 中除非我指定完全限定名称否则无法访问public user SHOW search path给我用户公共这是有什么问题吗 USER都是保留字Postgres http www post
Pycharm错误：配置不正确

在我的 DEV 计算机意外关闭后当返回 Pycharm 项目时我注意到我正在编辑的 Django 视图文件有 700 多行发生这种情况时它完全是空的我设法从备份中恢复它那里没有损失尝试调试时出现问题它返回此错误不正确配置
Postgresql 和 jsonb - 将键/值插入多级数组

非常类似于这个帖子 https stackoverflow com questions 58959678 postgresql add key to each objects of an jsonb array 但我很难适应他们的解决方案
错误：列“this_.phitorsionangle”必须出现在 GROUP BY 子句中或在聚合函数中使用

我在执行 sql 查询时遇到了一些问题我正在使用 Hibernate Criteria 来构建查询我通过按一定间隔 binSize 舍入值然后对它们进行分组来从数据库创建一些容器当我直接在 SQL 中使用查询尝试时效果非常好 SEL
如何为 pg_trgm `'term' % ANY (array_column)` 查询索引字符串数组列？

我尝试过普通的Postgresgin索引以及 pg trgmgin trgm ops and gist trgm ops索引使用此解决方法 https stackoverflow com a 33016333 283398 https s
PostgreSQL 锁定机制中的错误或对该机制的误解

我们遇到了 PostgreSQL 9 0 12 锁定机制的问题这是我们重现该问题的最小代码 Scenario Transaction 1 Transaction 2 BEGIN BEGIN select trees for update
如何手动设置auto_increment的下一个值？

我手动向表中添加了一些行并且还手动设置了 ID 自动增量现在当我尝试通过我的应用程序将新行添加到数据库表中时我收到错误创建的 ID 值已存在如何手动设置下一个ID值例如在表中我必须有ID 那么如何告诉PostgreSQL 下
PostgreSQL 错误：无法连接到数据库 template1：无法连接到服务器：没有这样的文件或目录

我需要创建数据库首先我运行 sudo su postgres then createdb test 我不断收到此错误 createdb could not connect to database template1 could not c
Laravel 7.x eloquent addSelect 子查询来计数

与一起工作Laravel 7 x and Postgresql 我有一个User类和GroupPivot数据透视表可以对多个模型进行分组我想创建一个专栏User如果用户拥有针对该组的当前数据透视条目则为 true 或 false 类
Python在postgresql表中查找带有单引号符号的字符串

我需要从 psql 表中查找包含多个单引号的字符串我当前的解决方案是将单引号替换为双单引号如下所示 sql query f SELECT exists SELECT 1 FROM table name WHERE my column m
Postgresql存储过程中基于会话的全局变量？

在 Oracle 的 PL SQL 中我可以使用包定义创建基于会话的全局变量对于 Postgresql 的 PLpg SQL 这似乎是不可能的因为没有包只有独立的过程和函数以下是 PL SQL 将 g spool key 声明为全

随机推荐

使用 MVVM 从 WPF 应用程序启动对话框/子窗口的标准方法

所有我想知道使用 MVVM 模式从 WPF 启动子对话框窗口的公认最佳方法行业标准我遇到过以下文章 A CodeProject 使用 MVVM 模式时显示对话框这种方法对我来说似乎不错但有些过分了这是某种程度的代码复制我
Python 3 中大于 10^2000 的数字的平方根

我想在Python中计算大于10 2000的数字的平方根如果我将这个数字视为普通整数我总是会得到这个结果 Traceback most recent call last File line 3 in
在项目“MyProject”上运行构建器“Faceted Project Validation Builder”时出错

我正在研究 Blackberry webworks Phonegap 框架 Apache Ant 并使用示例 index html 在 Eclipse 3 6 中配置它们我关注了这篇文章PhoneGap BlackBerry WebWor
您可以从 GitHub 上的命令行发出拉取请求吗？

似乎您必须与 github com 交互才能发起拉取请求是这样吗 UPDATE The hub命令现已成为官方github项目也支持创建拉取请求 ORIGINAL 似乎添加到 hub 命令中特别有用 http github com de
ES6 类私有属性只是语法糖吗？

使用语法我们现在可以创建私人财产在 ES6 类中是这样的 class Person name constructor name this name name getName return this name let ron new Per
Lambda 表达式以及如何组合它们？

如何使用 OR 将两个 lambda 表达式合并为一个我已尝试以下操作但合并它们需要我将参数传递到表达式调用调用但是我希望将传递到新 lambda 的值传递到每个子 lambda 上 Expression
Java：以编程方式确定类路径上加载的所有包名称

关于如何找到列表的任何建议包名存在于当前类路径这需要在运行时由类路径上加载和执行的类之一以编程方式完成即反了而不是从外到内更多细节我考虑的一种方法是对类加载器迄今为止加载的每个类使用反射并从中提取包名称但是我的应用程序
iOS 6 ViewController 正在旋转但不应该旋转

我希望我的几个应用程序视图控制器在 iOS 6 0 中不旋转这就是我为使 iOS 6 中的轮换成为可能而所做的 1 在 application didFinishLaunchingWithOptions 中设置 windows rootv
动态生成的 HTML 的格式 - 没人关心吗？

I have veryWeb开发经验很少所以这可能是一个非常基本的问题只是以我有限的经验来看do有一点PHP 一点Ruby on Rails 动态生成HTML的方式似乎是格式化的只是没关系它最终变得丑陋有奇怪的缩进没有人关心
流式传输 xml-conduit 解析结果

我想用xml conduit 具体来说Text XML Stream Parse为了从大型 XML 文件中延迟提取对象列表作为测试用例我使用最近重新发布的 StackOverflow 数据转储为了简单起见我打算从中提取所有用户名st
理解范围和数组中的 ruby splat

我试图理解之间的区别 1 9 and 1 9 如果我将它们分配给变量它们的工作方式是相同的 splat1 1 9 splat1 1 2 3 4 5 6 7 8 9 splat2 1 9 splat2 1 2 3 4 5 6 7 8 9 但
如何启用/禁用 FloatingActionButton 行为

我正在开发一些片段中的应用程序我想隐藏浮动操作按钮当我设置android 可见性消失当我上下滑动时行为动画向我显示浮动操作按钮有什么方法可以禁用启用 FloatingActionButton 行为谢谢你提前这是我的代码 Q
使用 JavaScript 算出 DIV 可以容纳多少个字符

有谁知道使用 JavaScript 计算出 HTML 中的 DIV 块可以容纳多少个字符的最佳方法是什么任何建议都会有很大帮助您可以迭代地将字符添加到隐藏的 div 中并检查其宽度不确定是否有更好的方法编辑类似这样的事情 var
查找与所有给定字符串匹配的最简单的正则表达式

是否有一种算法可以从一组字符串生成正则表达式可能仅限于简化语法以便对与正则表达式匹配的所有可能字符串进行求值从而重现初始字符串集为具有非常复杂语法包括任意重复断言等的正则表达式语法找到这样一种算法可能是不现实的所以让我们
如何解决 Angular“已达到 10 $digest() 迭代”错误

已达到 10 次 digest 迭代流产有很多在最近 5 次迭代中触发的观察者等意义上的支持文本但其中很多文本是来自各种函数的 Javascript 代码是否有诊断此问题的经验法则这是一个总是可以缓解的问题还是存在足够复杂的
在 Firefox 中使用 History.pushState 使我的图标消失

使用类似的东西 history pushState null document title 在我的网站中我的网站图标在 Firefox 中消失但它在 chrome 中有效这是在页面加载时添加 favicon 的 javascript
为什么我的 D2009 exe 会生成带有名为 ATTnnnnn.DAT 的附件的电子邮件

为什么我的 D2009 exe 会生成带有名为 ATTnnnnn DAT 的附件的电子邮件而在 D2007 中编译的相同源代码会生成带有正确命名为原始文件名的附件的电子邮件我正在使用 D2007 和 D2009 附带的相应 Indy 库
Android - 按住按钮重复操作

我会立即承认我是开发新手并且正在尝试 Android 我一直在尝试在网络上搜索以找到有关如何实现一些按住按钮重复操作的建议我已经从按钮创建了一个自定义数字键盘并且想要类似退格的行为到目前为止我拜访了一位以前没有编写过 And
异步 lambda 中的参数[重复]

这个问题在这里已经有答案了我试图同时运行多个任务但遇到了一个我似乎无法理解或解决的问题我曾经有一个这样的功能 private void async DoThings int index bool b await SomeAsynchr
优化 postgres 相似性查询（pg_trgm + gin 索引）

我定义了以下索引 CREATE INDEX users search idx ON auth user USING gin username gin trgm ops first name gin trgm ops last name gi

优化 postgres 相似性查询（pg_trgm + gin 索引）

update

1.

2.

优化 postgres 相似性查询（pg_trgm + gin 索引） 的相关文章

随机推荐

热门标签

优化 postgres 相似性查询（pg_trgm + gin 索引）的相关文章