如何在 postgresql 中创建 n-gram

2024-01-27

我希望在我的应用程序中具有搜索功能。

我使用 trigram 来实现它,并且工作正常。

问题是:

trigram 正在创建单词的 3 个字符组的序列。 我想要在单个对象中包含超过 3 个字符。 例如:

select show_trgm('abcpqrs');

这将返回:{" a"," ab","abc","bcp","cpq","pqr","qrs","rs "}

I want {" a"," ab","abc","bcp","cpq","pqr","qrs","rs ","abcd","bcpq","cpqr"...}

我怎样才能实现这个目标?


试试这个功能。

CREATE OR REPLACE FUNCTION myngram(mystr TEXT, n INT) RETURNS TEXT[]
AS $$
DECLARE
str VARCHAR;
arr TEXT[];
BEGIN

  str := lpad(mystr, n - 1 + char_length(mystr), ' ');
  str := rpad(str, n - 1 + char_length(str), ' ');

  arr := array[]::TEXT[];
  FOR i IN 1 .. char_length(str) - n + 1 LOOP
    arr := arr || substring(str from i for n);
  END LOOP;
  RETURN arr;
END
$$
LANGUAGE plpgsql;

我的测试结果。

testdb=# SELECT myngram('abcpqrs', 4);
                             myngram                             
-----------------------------------------------------------------
 {"   a","  ab"," abc",abcp,bcpq,cpqr,pqrs,"qrs ","rs  ","s   "}
(1 row)

testdb=# SELECT myngram('abcpqrs', 5);
                                       myngram                                       
-------------------------------------------------------------------------------------
 {"    a","   ab","  abc"," abcp",abcpq,bcpqr,cpqrs,"pqrs ","qrs  ","rs   ","s    "}
(1 row)
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

如何在 postgresql 中创建 n-gram 的相关文章

随机推荐

  • 创建自定义文本绘制视图

    我正在为 iPhone 创建一个语法荧光笔 为了显示多种格式的文本 我对 UIView 进行了子类化并修改了drawRect 方法 以便使用正确的语法突出显示显示每一行 突出显示是用 RegEx 提前完成的 文本是用CGContextSho
  • 获取网络浏览器控件的屏幕截图?

    关于这个问题有很多线索 但没有一个是明确的 而且我尝试过的任何一个实际上都没有工作正常 获取整个 Web 浏览器控件的内容 甚至是屏幕外的内容 的代码是什么 看起来他们确实有 webBrowser1 DrawToBitmap but its
  • 跨平台 SSO - 从哪里开始?

    我正在研究两个不同系统之间的单点登录选项 一个 NET 一个 Java EE 它们各自独立管理并具有单独的用户管理 并且存在一些重叠的用户 我希望能够从一个链接到另一个 而无需重新提示输入密码 SSO 产品和协议似乎有很多选择 我相当有信心
  • 如何过滤对象中的数组

    我的对象中有这些数组 我需要filter tags具有特定值的数组 我不知道如何实现这一目标 const obj slug add an aggregate rating feature to your website frontmatte
  • 无法使用 Debian squeeze 在 Sheevaplug (armv5t) 上构建节点

    我现在已经尝试了几种在运行 Debian 版本 6 0 2 squeeze 的 Sheevaplug armv5t 上构建节点 版本 0 5 1 的方法 但最终总是 node Illegal instruction 在所有情况下我都可以编译
  • 处理 ThreadPoolExecutor 的异常

    我有以下代码片段 基本上扫描需要执行的任务列表 然后将每个任务交给执行器执行 The JobExecutor依次创建另一个执行器 用于执行数据库操作 读取数据并将数据写入队列 并完成任务 JobExecutor返回一个Future
  • data.table 在函数中修改后首次调用时不显示[重复]

    这个问题在这里已经有答案了 在我的函数中 我修改作为参数给出的 data table 的列 我注意到 如果我在调用该函数后尝试显示此 data table 我的意思是 仅按其名称 则不会发生任何事情 并且只有后续调用才会显示该表 DT lt
  • 如何使用 CMake 链接 .so 文件 [重复]

    这个问题在这里已经有答案了 我想基于 cpp h 和多个 so 文件重建一个简单的应用程序 据我所见 我的 CMakeLists txt 应该是这样的 cmake minimum required VERSION 3 5 set CMAKE
  • Team Foundation 工作项类型中的产品待办事项列表项和功能之间的区别

    我有关于 Microsoft Team Foundation 的问题 在 Visual Studio 的团队资源管理器中 我可以创建一个新的工作项 此处的工作项类型由您的团队选择的流程模板决定 我不确定我们使用的是哪个流程模板 无论如何 在
  • 使用 numpy 进行高效迭代

    我编写了计算数组 y 的周期 p 中每个元素的平均值的代码 import numpy as np p 4 y np asarray 146 96 59 133 192 127 79 186 272 155 98 219 c len y p
  • JS 错误:元素未附加到文档

    我正在尝试使用将 div 转换为图像html2canvas https html2canvas hertzen com lib 但我不断收到该错误 html2canvas min js 20 Uncaught in promise Erro
  • UNHEX 和 X (MySQL) 之间的区别

    在处理数据库中的十六进制值时 MySQL UNHEX 和 X 之间到底有什么区别 Eg SELECT FROM test WHERE guidCol IN UNHEX hexadecimalstring SELECT FROM test W
  • 为什么不在一个类中编码呢? [关闭]

    Closed 这个问题是基于意见的 help closed questions 目前不接受答案 现在我正在学习设计模式 我正在徘徊以下内容 为什么不在 1 个类中编写所有方法 每个方法执行 1 个任务 这样我的客户端就可以访问 1 个文件中
  • 超时的 Haskell 函数[重复]

    这个问题在这里已经有答案了 import Math NumberTheory Primes factorise import System Timeout timeout import Control Monad liftM type Re
  • Twilio 将发布收集的数字及其他详细信息

    我可以通过 twilio 收集的数字发送附加数据吗 我想要实现的是 如果有人发送一条短信说 帮助 我们会致电支持团队并询问他们我们已收到短信 如果他们想与之交谈 请按 1 如果他们按 1 我们将能够拨打我们收到短信的号码 我正在检查 twi
  • Java 中连续“if”语句的简化[重复]

    这个问题在这里已经有答案了 我有一系列if语句 如下图 if board x 1 y true ar 1 if board x y 1 true ar 1 if board x 1 y true ar 1 if board x y 1 tr
  • OpenCV - 如何在拼接图像的对应点之间进行映射

    我正在使用 OpenCV 3 2 并且设置了一个缝合器来缝合两个图像 缝合效果很好 但是一旦完成 我希望能够确定从图像 A 中的点到图像 B 中对应点的映射 我不关心图像在全景图中的布局方式 我只需要能够从 x A y A 图像 A 中的点
  • 从 power bi 公共嵌入中删除共享栏

    我有一份关于 power bi 的报告 已发布在网络上 我将在我的计算机上创建一个本地页面 以通过嵌入代码查看它 并在 Dropbox 上与其他人共享 我想删除带有社交媒体链接的按钮栏以防止共享 我还可以阻止显示 iframe 源链接吗 也
  • for 循环中的隐式内存别名

    我正在使用 golangci lint 并且在以下代码中收到错误 versions ObjectDescription populate versions for i v range versions res createWorkerFor
  • 如何在 postgresql 中创建 n-gram

    我希望在我的应用程序中具有搜索功能 我使用 trigram 来实现它 并且工作正常 问题是 trigram 正在创建单词的 3 个字符组的序列 我想要在单个对象中包含超过 3 个字符 例如 select show trgm abcpqrs