是否有支持多字节的 Postgresql Levenshtein？

2024-01-03

当我使用模糊匹配编辑带有变音符号的函数会返回错误/多字节无知的结果：

select levenshtein('ą', 'x');
levenshtein 
-------------
       2

（注意：第一个字符是一个“a”，下面有一个变音符号，我复制到这里后它没有正确呈现）

The 模糊匹配文档（https://www.postgresql.org/docs/9.1/fuzzystrmatch.html https://www.postgresql.org/docs/9.1/fuzzystrmatch.html）警告：

目前，soundex、metaphone、dmetaphone 和 dmetaphone_alt 函数不能很好地处理多字节编码（例如 UTF-8）。

但由于它没有命名编辑函数，我想知道是否有多字节感知版本编辑.

我知道我可以使用unaccent作为一种解决方法，但我需要保留变音符号。

注意：这个解决方案是由 @Nick Barnes 在他的文章中建议的answer https://stackoverflow.com/a/56688419/11637535 to a 相关问题 https://stackoverflow.com/q/56683034/11637535.

带有变音符号的“a”是一个字符序列，即a和一个组合字符，变音符号 ̨ ：E'a\u0328'

有一个等效的预组合字符ą: E'\u0105'

一个解决方案是正常化 http://www.unicode.org/reports/tr15/Unicode 字符串，即在比较它们之前将组合字符序列转换为预组合字符。

不幸的是，Postgres 似乎没有内置的 Unicode 规范化函数，但您可以通过PL/Perl https://www.postgresql.org/docs/current/plperl.html or PL/Python https://www.postgresql.org/docs/current/plpython.html语言扩展。

例如：

create extension plpythonu;

create or replace function unicode_normalize(str text) returns text as $$
  import unicodedata
  return unicodedata.normalize('NFC', str.decode('UTF-8'))
$$ language plpythonu;

现在，作为字符序列E'a\u0328'映射到等效的预组合字符E'\u0105'通过使用unicode_normalize，编辑距离是正确的：

select levenshtein(unicode_normalize(E'a\u0328'), 'x');
levenshtein
-------------
           1

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

postgresql

UTF8

levenshteindistance

是否有支持多字节的 Postgresql Levenshtein？的相关文章

Postgres UUID 和休眠

我有一个具有 UUID 列的实体它不是主键我正在使用 Postgres 和 hibernate 我对此专栏的类型是https www postgresql org docs 9 1 static datatype uuid html h
按名称删除 jsonb 数组项

我有下表 CREATE TABLE country id INTEGER NOT NULL PRIMARY KEY name VARCHAR 50 extra info JSONB INSERT INTO country id extra
从 django 返回带有 BOM 的 UTF-8 编码的 csv

我正在尝试输出一个用户可以用 Excel 打开的 CSV 文件我已经用 UTF 8 编码了所有字符串但是当我用 Excel 打开文件时我看到了乱码只有在将文件转换为带 BOM 的 UTF 8 在 Windows 上使用 notepa
Django ConnectionAbortedError：[WinError 10053]已建立的连接被主机中的软件中止

我将 django 与 postgresql 一起使用每当我尝试保存或删除任何内容时都会发生此错误 Traceback most recent call last File c program files x86 python35 32
如何在维护数据的同时升级 docker 容器中的 postgres？ 10.3 到最新的 10.x 或 12.x

我的生产和本地主机中有一个 10 3 postgres docker 容器在之前的一个question https stackoverflow com a 62789347 80353 我必须恢复在 10 5 中存档的转储感谢您的回答
如何在 typeorm 中使用 LEFT JOIN LATERAL？

我想在 TypeOrm 中使用以下查询但找不到将其转换为 TypeOrm 的方法任何帮助表示赞赏 SELECT FROM blocked times bt LEFT JOIN LATERAL SELECT FROM bookings b
将 List 作为参数传递到 postgres 的函数中

我有这样的 Spring 数据存储库接口 public interface MyEntityRepository extends JpaRepository
psql：致命：角色“postgres”不存在（使用 -h localhost 选项）

我在本地计算机上安装了 Postgres 当我执行时 psql U postgres d buzzsumo 它正确地向用户 postgres 询问我的密码然而当我跑步时 psql U postgres d buzzsumo h loca
在 C# .NET 中对非 ASCII 字符进行编码

我想向我的应用程序发送的电子邮件添加自定义标头标头名称只能包含 ASCII 字符但对于值和用户可能会输入 UTF 8 字符我必须对它们进行 Base64 编码此外我还必须将它们解码回 UTF 8 以便在 UI 中向用户显示它们最
org.postgresql.util.PSQLException：协议错误。会话设置失败

我知道这些类型的问题已经存在但提供的解决方案对我不起作用在我的应用程序中没有版本不匹配的黑白驱动程序和 PostgreSQL 服务器我还没有找到任何其他解决方案我正在使用 PostgreSQL 服务器 9 4 和 postgres
PostgreSQL：在所有表字段的长度上创建索引

我有一张桌子叫profile 我想按照填写最多的内容对它们进行排序每列都是 JSONB 列或 TEXT 列我不需要很大程度的确定性所以通常我会按如下方式订购 SELECT FROM profile ORDER BY LENGTH CO
如何使用 libpq 获取双精度值？

The examples http www postgresql org docs 9 3 interactive libpq example htmllibpq 文档中展示了如何通过将整数值转换为主机字节序表示来获取整数值我很好奇必须做
如何在 postgreSQL 中从时间戳中减去/添加分钟

我有以下场景我有员工登记他们的上班下班手续但他们有10分钟的容忍度我通过这种观点得到的最新条目 CREATE OR REPLACE VIEW employees late entries id created datetime en
使用 RMySQL 会干扰 RPostgreSQL

我有一个 R 脚本我想从 MySQL 数据库中提取一些数据然后从 PostgreSQL 数据库中提取一些数据但是从 RMySQL 加载 MySQL 驱动程序会阻止我从以下位置加载 PostgreSQL 驱动程序 PostgreSQL
Twitter Streaming API 使用的官方编码？是UTF-8吗？

Twitter 流 API 的官方编码是什么根据我所看到的我最好的猜测是 UTF 8 但我想避免做出假设我见过的 Twitter 网站上唯一暗示他们使用什么作为官方编码的部分是在这里 Twitter 不想因为我们使用 UTF 8 或相
PSQL [错误] - 值被识别为列

前几天刚开始学习数据库我遇到了这个问题我的值被识别为一列并且它吐出了一个错误这是我的News table id bodyText url createdAt updatedAt 这是我在 psql 中运行的命令 INSERT INT
Slick和bonecp：org.postgresql.util.PSQLException：FATAL：抱歉，太多客户端已经错误

当我在本地开发应用程序时我使用以下命令启动我的 play2 应用程序sbt run 我喜欢如何更改代码然后重新加载浏览器以查看我的更改在大约 10 次代码更改之后我收到 postgresql 太多连接错误见下文我的数据库连接使用
对 postgresql 中使用 array_agg 创建的文本聚合进行排序

我在 postgresql 中有一个表下表动物可以解释我的问题 name tiger cat dog 现在我正在使用以下查询 SELECT array to string array agg name FROM animals 结果是
#1115 - 未知字符集：'utf8mb4'

我的电脑上运行着一个本地网络服务器用于本地开发我现在正处于导出数据库并导入到我的托管 VPS 的阶段导出然后导入时出现以下错误 1115 未知字符集 utf8mb4 有人能指出我正确的方向吗该错误明确表明您没有utf8mb4您的阶段
以 UTF8 而不是 UTF16 输出 DataTable XML

我有一个 DataTable 我正在使用 WriteXML 创建一个 XML 文件尽管我在以 UTF 16 编码导出它时遇到问题并且似乎没有明显的方法来更改它我了解 NET 在字符串内部使用 UTF 16 这是正确的吗然后我通过

随机推荐

提高字典模糊字符串匹配的性能

所以我目前正在使用第二弦 http secondstring sourceforge net 对于模糊字符串匹配我有一个大字典可以比较字典中的每个条目都有一个关联的非唯一标识符我目前正在使用 hashMap 来存储这本字典当我想要进
需要加入列表的元素，但加入后保留元素周围的 ''

我的清单是 example a b c 如果我使用 join example 去除围绕元素我希望我的输出是 example a b c 有什么优雅的方法可以做到吗不确定它是否优雅但它可以工作基于默认表示list对象因此根本不灵活
Google App Engine——Java 还是 Python？ [关闭]

Closed 这个问题是基于意见的 help closed questions 目前不接受答案我注意到这是在以下帖子 https stackoverflow com questions 1085898 choosing java vs p
如何使用 vue-i18n 加载我真正需要的语言文件？

使用 vue i18n 可以很容易地翻译你的 Vue js 应用程序但随着项目的增长您不想加载所有语言的所有消息大多数用户从不切换语言我们为每种语言都有单独的域并且切换语言的情况极为罕见所以 vue i18n 似乎支持延迟加载
Kubernetes 上的多代理 Kafka 如何设置 KAFKA_ADVERTISED_HOST_NAME

我当前包含 3 个 Kafka 代理的 Kafka 部署文件如下所示 apiVersion apps v1beta1 kind StatefulSet metadata name kafka spec selector matchLabel
如何在 Android 中在按钮上显示动态文本并自动调整其大小？

我正在开发一个项目需要我根据用户在按钮上的选择来显示一些动态文本我知道如何进行文本显示部分但我一直困惑于如何在固定大小的按钮上正确显示不同的文本例如苹果和我有一个苹果如何才能达到显示苹果时文字尺寸变大适合按钮而显示我
pylint 1.4 报告所有 C 扩展上的 E1101（无成员）

我们一直是pylint 它的静态分析已经成为我们所有 python 项目的关键部分并且节省了大量的时间来追踪隐藏的错误但从 1 3 gt 1 4 升级后几乎所有编译的 c 扩展都会导致 E1101 no member 错误之前运行完
如何在Python中合并两个嵌套的字典？

我有两个嵌套的字典数据我想将它们合并以在 python 中创建一本字典词典数据 dict1 employee dev1 Roy dict2 employee dev2 Biswas 现在我试图用它们创建一个像下面这样的字典所需输出 d
从文件路径中提取文件扩展名

如何提取给定文件路径的文件扩展名作为字符我知道我可以通过正则表达式来做到这一点regexpr alnum x 但想知道是否有内置函数可以处理这个问题使用 R 基本工具很容易找到这种东西例如路径无论如何加载tools打包并读取 f
允许使用 docker-machine 配置的主机中存在不安全的注册表

有没有什么可以配置的允许不安全 ssl用于使用 docker machine 创建的 docker 守护进程命令 docker machine create driver virtualbox dev eval docker machi
不同状态下不同的词法分析器规则

我一直在为 HTML 中嵌入的某些模板语言 FreeMarker 开发解析器例如 abc h1 Welcome user lt if user Big Joe gt our beloved leader h1 p Our latest p
是否可以创建一个没有 EOF 标记的文件？

我们有一个读取平面文件并解析数据的应用程序该文件不包含用于进行校验和的标头信息或总数据所以我想创建测试用例以确保我们的应用程序正确处理不完整文件有没有办法创建没有 EOF 标记的平面文件也许有一个工具可以用来从现有文本文件中删除
仅允许管理员删除文件？

我正在编写一个 C 应用程序我想设置在应用程序启动时权限以便只有管理员才能删除应用程序使用的文件所有其他用户不应删除它或修改其权限应保护该文件免受标准文件系统使用的影响因此除了管理员之外没有人可以删除它只有管理员应该能
DOMDocument::loadHTMLFile() 修改用户代理

我使用 PHP 在 DOM 树中加载网站有没有办法修改使用发送的用户代理DOMDocument loadHTMLFile function parseThis url html new DOMDocument html gt loadHt
在 Android 应用程序中播放背景声音

我想在我制作的应用程序中播放背景声音帮我看看我该怎么做这是完整的代码 public class Numbers extends Activity public static MediaPlayer mp null Override pr
input['file']accept="image/*" 用 Chrome 打开对话框太慢了

当我使用
Anaconda 3.5（64位Windows）安装cx_Oracle

我已经安装了适用于 Windows 64 位的 Anaconda 3 5 并且需要使用包 cx Oracle 连接到 Oracle 数据库我尝试使用 anaconda 方式 conda install c https conda anac
运行 json_encode 后替换 \r\n （换行符）

因此当我运行 json encode 时它也会从 MySQL 获取 r n 我尝试重写数据库中的字符串但无济于事我尝试将 MySQL 中的编码从默认的 latin1 swedish ci 更改为 ascii bin 和 utf8 b
Unicode 字符使用统计[关闭]

Closed 这个问题不符合堆栈溢出指南 help closed questions 目前不接受答案我正在寻找有关文本文档带有任何标记中 Unicode 字符使用情况的一些统计数据谷歌搜索没有结果背景我目前正在开发一种基于有限状
是否有支持多字节的 Postgresql Levenshtein？

当我使用模糊匹配编辑带有变音符号的函数会返回错误多字节无知的结果 select levenshtein a x levenshtein 2 注意第一个字符是一个 a 下面有一个变音符号我复制到这里后它没有正确呈现 The 模糊匹配文档

是否有支持多字节的 Postgresql Levenshtein？

是否有支持多字节的 Postgresql Levenshtein？ 的相关文章

随机推荐

热门标签

是否有支持多字节的 Postgresql Levenshtein？的相关文章