LATERAL JOIN 不使用三元组索引

2023-11-25

我想使用 Postgres 对地址进行一些基本的地理编码。我有一个地址表，其中包含大约 100 万个原始地址字符串：

=> \d addresses
  Table "public.addresses"
 Column  | Type | Modifiers
---------+------+-----------
 address | text |

我还有一个位置数据表：

=> \d locations
   Table "public.locations"
   Column   | Type | Modifiers
------------+------+-----------
 id         | text |
 country    | text |
 postalcode | text |
 latitude   | text |
 longitude  | text |

大多数地址字符串都包含邮政编码，因此我的第一次尝试是进行类似和横向连接：

EXPLAIN SELECT * FROM addresses a
JOIN LATERAL (
    SELECT * FROM locations
    WHERE address ilike '%' || postalcode || '%'
    ORDER BY LENGTH(postalcode) DESC
    LIMIT 1
) AS l ON true;

这给出了预期的结果，但速度很慢。这是查询计划：

                                      QUERY PLAN
--------------------------------------------------------------------------------------
 Nested Loop  (cost=18383.07..18540688323.77 rows=1008572 width=91)
   ->  Seq Scan on addresses a  (cost=0.00..20997.72 rows=1008572 width=56)
   ->  Limit  (cost=18383.07..18383.07 rows=1 width=35)
         ->  Sort  (cost=18383.07..18391.93 rows=3547 width=35)
               Sort Key: (length(locations.postalcode))
               ->  Seq Scan on locations  (cost=0.00..18365.33 rows=3547 width=35)
                     Filter: (a.address ~~* (('%'::text || postalcode) || '%'::text))

我尝试在地址列中添加一个要点三元组索引，就像上面提到的那样https://stackoverflow.com/a/13452528/36191，但是上述查询的查询计划没有使用它，并且查询计划保持不变。

CREATE INDEX idx_address ON addresses USING gin (address gin_trgm_ops);

我必须删除横向连接查询中的 order by 和 limit 才能使用索引，这不会给我想要的结果。这是没有查询的查询计划ORDER or LIMIT:

                                          QUERY PLAN
-----------------------------------------------------------------------------------------------
 Nested Loop  (cost=39.35..129156073.06 rows=3577682241 width=86)
   ->  Seq Scan on locations  (cost=0.00..12498.55 rows=709455 width=28)
   ->  Bitmap Heap Scan on addresses a  (cost=39.35..131.60 rows=5043 width=58)
         Recheck Cond: (address ~~* (('%'::text || locations.postalcode) || '%'::text))
         ->  Bitmap Index Scan on idx_address  (cost=0.00..38.09 rows=5043 width=0)
               Index Cond: (address ~~* (('%'::text || locations.postalcode) || '%'::text))

我可以做些什么来让查询使用索引，或者有更好的方法来重写这个查询吗？

Why?

该查询不能使用主体上的索引。您需要在表上建立索引locations，但是你的那个在桌子上addresses.

您可以通过设置来验证我的声明：

SET enable_seqscan = off;

（仅在您的会话中，并且仅用于调试。切勿在生产中使用它。）索引并不比顺序扫描更昂贵，Postgres 无法将它用于您的查询at all.

Aside: [INNER] JOIN ... ON true只是一种尴尬的说法CROSS JOIN ...

为什么删除后还使用索引`ORDER` and `LIMIT`?

因为 Postgres 可以将这个简单的形式重写为：

SELECT *
FROM   addresses a
JOIN   locations l ON a.address ILIKE '%' || l.postalcode || '%';

您将看到完全相同的查询计划。（至少我在 Postgres 9.5 上的测试中是这样做的。）

Solution

你需要一个索引locations.postalcode。并且在使用时LIKE or ILIKE您还需要带上索引表达式（postalcode）到left操作员一侧。ILIKE与运营商一起实施~~*并且这个操作符没有COMMUTATOR（逻辑上的必然性），所以不可能翻转操作数。这些相关答案中的详细解释：

PostgreSQL 可以索引数组列吗？
PostgreSQL - 文本数组包含类似于的值
有没有办法有效地索引包含正则表达式模式的文本列？

一个解决方案是使用三元组相似算子%或其倒数，即距离算子<-> in a 最近的邻居改为查询（每个都是其自身的换向器，因此操作数可以自由切换位置）：

SELECT *
FROM   addresses a
JOIN   LATERAL (
   SELECT *
   FROM   locations
   ORDER  BY postalcode <-> a.address
   LIMIT  1
   ) l ON address ILIKE '%' || postalcode || '%';

找到最相似的postalcode对于每个address，然后检查是否postalcode实际上完全匹配。

这样，更长的时间postalcode将自动成为首选，因为它比较短的更相似（距离更小）postalcode这也匹配。

仍然存在一些不确定性。根据可能的邮政编码，由于字符串其他部分中的三元组匹配，可能会出现误报。问题中没有足够的信息可以说更多。

Here, [INNER] JOIN代替CROSS JOIN这是有道理的，因为我们添加了实际的连接条件。

手册：

这可以通过 GiST 索引非常有效地实现，但不能通过 GIN 索引。

So:

CREATE INDEX locations_postalcode_trgm_gist_idx ON locations
USING gist (postalcode gist_trgm_ops);

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)