匹配模糊字符串

2024-01-02

我有两个表需要在 PostgreSQL 中的公共变量“公司名称”上合并在一起。不幸的是，许多公司名称并不完全匹配（即一张表中为 MICROSOFT，另一张表中为 MICROSFT）。我尝试从两列中删除常用词，例如“corporation”或“inc”或“ltd”，以便尝试标准化两个表中的名称，但我无法考虑其他策略。有任何想法吗？

Thanks.

另外，如果有必要，我可以在 R 中执行此操作。

您考虑过 fuzzystrmatch 模块吗？您可以使用soundex, difference, levenshtein, metaphone and dmetaphone，或组合。

模糊匹配文档 http://www.postgresql.org/docs/8.3/static/fuzzystrmatch.html

SELECT something
FROM somewhere
WHERE levenshtein(item1, item2) < Carefully_Selected_Threshold

例如，编辑距离微软 to MICROSFT是一 (1)。

levenshtein(dmetaphone('MICROSOFT'), dmetaphone('MICROSFT')

以上返回零 (0)。结合使用 levenshtein 和 dmetaphone 可以帮助您匹配大量拼写错误。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

匹配模糊字符串的相关文章

每第 n 个字符分割一个字符串

在 JavaScript 中这就是我们如何在每 3 个字符处分割一个字符串 foobarspam match 1 3 g 我正在尝试弄清楚如何在 Java 中做到这一点有什么指点吗你可以这样做 String s 1234567890
从字符串中修剪/删除制表符 ( "\t" )

任何人都可以建议一种从字符串中删除制表符 t 的方法吗 CString 或 std string 例如 1E10 变为 1E10 hackingwords 的回答 https stackoverflow com questions 5562
无法更改 MS Access 2007 上的数据类型

我有一个巨大的数据库 800MB 其中包含一个名为上次修改日期的字段目前该字段作为文本数据类型输入但需要将其更改为日期时间字段以执行一些查询我有另一个完全相同的数据库但其中只有 35MB 的数据当我更改数据类型时它工作正常
PHP 数据库显示在具有不同锚标记的相同字段中

我四处寻找看看这是否可行但却空手而归首先这是我的代码 div style display none div ul li li li li li li ul
如何在 postgreSQL 中从时间戳中减去/添加分钟

我有以下场景我有员工登记他们的上班下班手续但他们有10分钟的容忍度我通过这种观点得到的最新条目 CREATE OR REPLACE VIEW employees late entries id created datetime en
使用起始字符串和结束字符串从长字符串中提取子字符串？

我有这个长字符串它是一个长的连续字符串 Home address H NO 12 SECTOR 12 GAUTAM BUDH NAGAR NOIDA 121212 UTTAR PRADESH INDIA 911112121212 Last
寻找免费的 GUI 工具来使用 PostgreSQL [关闭]

Closed 这个问题正在寻求书籍工具软件库等的推荐不满足堆栈溢出指南 help closed questions 目前不接受答案目前我正在使用独立的 GUI 工具DbSchema http www dbschema com 设计
使用 POJO 仅更新 JOOQ 记录中已更改的字段

我想使用 POJO 作为源来更新 JOOQ 记录中已更改的字段 Record from Object http www jooq org javadoc 3 8 x org jooq Record html from java lang O
'用户“postgres”的密码验证失败'

我已经安装了 PostgreSQL 8 4 Postgres 客户端和 Pgadmin 3 控制台客户端和 Pgadmin 的用户 postgres 身份验证失败我输入了用户 postgres 和密码 postgres 因为它以前有效但
编程错误：（psycopg2.errors.UndefinedColumn）关系“task_fail”的列“execution_date”不存在

我正在尝试在气流中运行 DAG 以将数据集摄取到谷歌云存储这是 DAG 脚本 import os from airflow import DAG from airflow utils dates import days ago from
如何在 PHP MYSQL 中将数据库表和每条记录从一台数据库服务器复制到另一台数据库服务器？>

您好我编写了一段代码可以将数据库表从一个服务器复制到另一个服务器但是每个表的记录没有复制如何编写一个可以将表和每个记录从一个数据库服务器复制到另一个数据库服务器的函数这是我的示例代码
如何覆盖 Ruby Ranges 的 .. 和 ... 运算符以接受 Float::INFINITY？

我想覆盖 and Ruby 中的运算符Range 原因是我正在处理数据库中的无限日期范围如果你拉一个infinty从 Postgres 中取出日期时间你会得到一个Float INFINITY在红宝石中问题是我无法使用Float I
将 Python 输入字符串限制为特定字符和长度

我刚刚开始学习我的第一种真正的编程语言 Python 我想知道如何限制用户输入raw input特定字符和特定长度例如如果用户输入包含除字母之外的任何内容的字符串我想显示一条错误消息a z 我想显示超过 15 个字符的用户输入之一第
如何以编程方式使用包含多列的 where-in 子句执行 PostgreSQL 查询？

我的查询是这样的 select from plat customs complex where code t code s in 01013090 10 01029010 90 它在 psql 控制台中运行良好我的问题是如何在客户端代码中
R：如何根据规范更改数据框中的列名称

我有一个数据框它的开头如下 SM H1455 SM V1456 SM K1457 SM X1461 SM K1462 ENSG00000000419 8 290 270 314 364 240 ENSG00000000457 8 252
PostgreSQL：有效地将 JSON 数组拆分为行

我有一个表表 A 其中包含一个包含 JSON 编码数据的文本列 JSON 数据始终是一个包含一到几千个普通对象的数组我有另一个表表 B 其中有几列包括数据类型为 JSON 的列我想从表 A 中选择所有行将 json 数组拆分为其
C# 中单个 & 符号的第二个含义是什么？

我在 C 中使用了单个与号来表示检查second条件语句即使第一个是false 但以下似乎是不同的意思 of 总而言之谁能解释一下如何i 1在下面的例子中有效吗 List
使用 JDBC 连接到 PostgreSql 的本地实例

我在 Linux 机器上有一个正在运行的 PostgreSql 本地实例当我使用psql来自 shell 的命令我成功登录没有任何问题我需要通过 JDBC 连接到 PostgreSql 但我不知道我到底应该传递什么url参数为Driv
Slick和bonecp：org.postgresql.util.PSQLException：FATAL：抱歉，太多客户端已经错误

当我在本地开发应用程序时我使用以下命令启动我的 play2 应用程序sbt run 我喜欢如何更改代码然后重新加载浏览器以查看我的更改在大约 10 次代码更改之后我收到 postgresql 太多连接错误见下文我的数据库连接使用
如何从 PHP 中的字符串创建可能的字符串组合？

如何从 PHP 中的字符串创建可能的字符串组合 Exp input abc output array 0 gt a 1 gt ab 2 gt abc 3 gt ac 4 gt acb 5 gt b 6 gt ba 7 gt bac 8 gt

随机推荐

将 nil 赋给 TImage.Picture.Graphic 来清除图片后，如何再次使用它？

在下面的代码中我清除了btnSaveClick中的图片稍后在btnLoadClick中我想将图片分配给图像但它给出了AV 因为Graphic对象不存在我怎样才能完成任务 procedure TForm1 btnSaveClick S
GCC 4.4：避免在 gcc 中对 switch/case 语句进行范围检查？

这只是 4 4 之前的 GCC 版本的问题在 GCC 4 5 中已修复 https gcc gnu org bugzilla show bug cgi id 43462 是否可以告诉编译器 switch 中使用的变量适合提供的 case
如何使用 Material Components Web Foundations

使用材质组件我试图弄清楚如何使用组件基础的方法举个例子我有 div class mdc linear progress div class mdc linear progress buffering dots div div clas
Java - 具有显示箭头的按钮

我想要一个 Java 中的按钮它显示箭头就像键盘上一样到目前为止我有这个 JButton arrowUp new JButton JButton arrowDown new JButton v JButton arrowLeft ne
如何使用 pandas 查找列的最大值并根据条件按顺序排列它们？

我有以下数据框 import pandas as pd import numpy as np d ID 1 2 3 4 5 6 Price1 5 9 4 3 9 np nan Price2 9 10 13 14 18 np nan Pric
PHP 和 MySQLi - 无法通过[重复]中的引用传递参数 2

这个问题在这里已经有答案了我正在尝试创建一个函数来检查更新并插入一些数据但我在第一步中遇到了问题其中 stmt gt bind param 表示没有通过引用传递参数或类似的内容我在下面附上了功能代码 public function
如何使用 grails 中现有的 java 类

如何从 Grails 应用程序调用驻留在现有 Java 类中的方法是否有必要建议将其包装在服务中将您的源代码放入 src java 中然后在conf spring resources groovy中你可以这样做例如 Place
修剪 Struts2 文本字段字符串输入

修剪该字符串的最佳方法是什么放置修剪代码的最佳位置在哪里假设我的 jsp 中有以下文本字段
AppEngine SDK 1.8.5 和 Eclipse Juno 不工作

我已经在 3 台不同的机器上安装了 GWT 和 Appengine 的 Eclipse 插件所有机器都使用 Juno 4 2 在每种情况下我都会收到以下错误所选的 App Engine SDK 无效无法在路径初始化 App En
使用伪元素覆盖滚动的div

我想用伪元素覆盖来覆盖动态滚动内容的 div 我遇到的问题是覆盖层随内容一起滚动使折叠下方的任何内容都裸露当下面的内容滚动时如何允许覆盖层保持在原位 wantOverlay width 200px height 100px overf
使用 secondary_y 轴绘制 groupby 数据

我想绘制 12 个图表每月一张图表包括列 A and B 在左侧 y 轴和列上 C 在右侧下面的代码将所有内容绘制在左侧 import pandas as pd index pd date range 2011 1 1 00 00 0
如何为对象数组编写 JSON 模式？

我的 JSON 字符串的格式如下 count 3 data a ax 1 b bx 2 c cx 4 The data数组包含很多a and b and c 并且没有其他种类的物体 If count 0 data应该是一个空数组我在用着h
Symfony VichUploaderBundle：无法生成文件名

我正在使用 VichUploader 在 symfony 项目中上传文件在我使用的配置中从文档复制 service vich uploader namer property options property slug 在我的实体中我使
C# regex 只匹配任意顺序的字符集一次

我需要以任何顺序匹配集合中字符的任何组合但不匹配重复的字符该集合是 m s b r e l f t 例如 msb valid mbs valid m valid mmft not valid duplicate m mxel not v
fgets() 在字符串中包含新行

我从文档中提取单词并将其全部打印在屏幕上但在打印每个单词后都有一个空行如何避免读取此新行或将其添加到字符串中 int main void FILE f f words r char string 100 while fgets stri
如何检查字符串是否是正则表达式

我有一根绳子如何检查字符串是否是正则表达式或包含正则表达式还是普通字符串您可以做的唯一可靠的检查是String是一个语法正确的正则表达式 boolean isRegex try Pattern compile input isRegex
如何在角度应用程序启动之前从 .json 文件加载一些设置

我正在构建使用 CORS 请求的应用程序我使用的每个请求都从常量获取主机地址 angular module siteApp constant baseUrl server htttp localhost 在每个服务中我使用发送这样的请求
升级到 Delphi 2009/2010 还是购买软件保障更有意义？

如果您购买了软件保障能否分享一下您的体验值得吗我依稀记得大概一两年前读过一些关于SA的负面评论如果您通常在每次发布新版本的 Delphi 时进行升级 SA 就很棒它比升级价格稍微便宜您可以立即获得新软件无需等待购买订购并且
为什么VS2019 Pro通过CMake创建CUDA项目时出现xutility、xmemory、atomic编译错误？

我正在尝试通过 CMake 创建一个简单的 CUDA 项目但出现了奇怪的编译错误我正在跟进本教程 https developer nvidia com blog building cuda applications cmake 最初我
匹配模糊字符串

我有两个表需要在 PostgreSQL 中的公共变量公司名称上合并在一起不幸的是许多公司名称并不完全匹配即一张表中为 MICROSOFT 另一张表中为 MICROSFT 我尝试从两列中删除常用词例如 corporation 或

匹配模糊字符串

匹配模糊字符串 的相关文章

随机推荐

热门标签

匹配模糊字符串的相关文章