高效的字符串相似度分组

2023-12-24

Setting: 我有有关人员及其父母姓名的数据，并且我想找到兄弟姐妹（父母姓名相同的人）。

 pdata<-data.frame(parents_name=c("peter pan + marta steward",
                                 "pieter pan + marta steward",
                                 "armin dolgner + jane johanna dough",
                                 "jack jackson + sombody else"))

这里的预期输出将是一列，表明前两个观测值属于 X 族，而第三列和第四列分别属于一个单独的族。例如：

person_id    parents_name                           family_id
1            "peter pan + marta steward",           1
2            "pieter pan + marta steward",          1
3            "armin dolgner + jane johanna dough",  2
4            "jack jackson + sombody else"          3

目前的方法: 我对距离度量很灵活。目前，我使用 Levenshtein 编辑距离来匹配 obs，允许两个字符的差异。但是其他变体，例如“最大公共子字符串”，如果它们运行得更快，那就没问题了。

对于较小的子样本，我使用stringdist::stringdist在循环中或stringdist::stringdistmatrix，但随着样本量的增加，这变得越来越低效。

一旦使用了一定的样本量，矩阵版本就会爆炸。我的循环尝试效率极低：

#create data of the same complexity using random last-names
#(4mio obs and ~1-3 kids per parents) 
pdata<-data.frame(parents_name=paste0(rep(c("peter pan + marta ",
                                "pieter pan + marta ",
                                "armin dolgner + jane johanna ",
                                "jack jackson + sombody "),1e6),stringi::stri_rand_strings(4e6, 5)))

for (i in 1:nrow(pdata)) {
  similar_fatersname0<-stringdist::stringdist(pdata$parents_name[i],pdata$parents_name[i:nrow(pdata)],nthread=4)<2
  #[create grouping indicator]
}

我的问题：应该会显着提高效率，例如因为一旦我发现它们在更容易评估的东西上有足够的不同，我就可以停止比较字符串，例如。字符串长度，或第一个单词。字符串长度变体已经可以工作并将复杂性降低约 3 倍。但这还太少了。任何减少计算时间的建议都值得赞赏。

Remarks:

这些字符串实际上采用 unicode，而不是拉丁字母 (Devnagari)
完成预处理以删除未使用的字符等

有两个挑战：

A. Levenshtein distance的并行执行——而不是顺序循环

B. 比较次数：如果我们的源列表有 400 万个条目，理论上我们应该运行 16 万亿次 Levenstein 距离度量，这是不现实的，即使我们解决了第一个挑战。

为了使我对语言的使用更加清晰，以下是我们的定义

我们想要测量表达式之间的编辑距离。
每个表达式都有两个部分，父级 A 全名和父级 B 全名，用加号分隔
各部分的顺序很重要（即，如果表达式 1 的父级 A = 表达式 2 的父级 A 且父级 B 或表达式 1= 表达式 2 的父级 B，则两个表达式 (1, 2) 是相同的。如果父级表达式 1 的 A = 表达式 2 的父级 B 且表达式 1 的父级 B = 表达式 2 的父级 A)
部分（或全名）是一系列单词，由空格或破折号分隔，对应于一个人的名字和姓氏
我们假设一个部分中的最大单词数为 6（您的示例有 2 或 3 个单词的部分，我假设我们最多可以有 6 个）部分中的单词顺序很重要（该部分始终是名字后面是姓氏，而不是姓氏在前，例如 Jack John 和 John Jack 是两个不同的人）。
有400万个表达方式
假定表达式仅包含英文字符。数字、空格、标点符号、破折号和任何非英文字符都可以忽略
我们假设简单匹配已经完成（如精确表达式匹配），并且我们不必搜索精确匹配

从技术上讲，目标是在 400 万个表达式列表中找到一系列匹配的表达式。如果两个表达式的 Levenstein 距离小于 2，则它们被视为匹配表达式。

实际上，我们创建了两个列表，它们是最初 400 万个表达式列表的精确副本。我们称之为左列表和右列表。在复制列表之前，每个表达式都会被分配一个表达式 id。我们的目标是找到 Right 列表中与 Left 列表的条目的 Levenstein 距离小于 2 的条目，不包括相同的条目（相同的表达式 id）。

我建议采用两步法来分别解决这两个挑战。第一步将减少可能匹配表达式的列表，第二步将简化 Levenstein 距离测量，因为我们只查看非常接近的表达式。使用的技术是任何传统的数据库服务器，因为我们需要对数据集进行索引以提高性能。

挑战A

挑战 A 包括减少距离测量的数量。我们从最大值大约开始。 16万亿（400万的2次方），我们不应该超过几千万或几亿。这里使用的技术包括在完整的表达式中搜索至少一个相似的单词。根据数据的分布方式，这将大大减少可能的匹配对的数量。或者，根据结果所需的准确性，我们还可以搜索具有至少两个相似单词或至少一半相似单词的对。

从技术上讲，我建议将表达式列表放在表格中。添加标识列以为每个表达式创建唯一的 ID，并创建 12 个字符列。然后解析表达式并将每个部分的每个单词放在单独的列中。这看起来像（我没有表示所有 12 列，但想法如下）：

|id | expression | sect_a_w_1 | sect_a_w_2 | sect_b_w_1 |sect_b_w_2 |
|1 | peter pan + marta steward | peter | pan | marta |steward      |

虽然有空列（因为 12 个单词的表达很少），但这并不重要。

然后我们复制该表并在每个部分...列上创建一个索引。我们运行 12 个连接来尝试查找相似的单词，例如

SELECT L.id, R.id 
FROM left table L JOIN right table T 
ON L.sect_a_w_1 = R.sect_a_w_1
AND L.id <> R.id

我们收集 12 个临时表中的输出，并对这 12 个表运行联合查询，以获取所有表达式的简短列表，这些表达式具有至少一个相同单词的潜在匹配表达式。这是我们的挑战 A 的解决方案。我们现在有一个最可能匹配对的简短列表。该列表将包含数百万条记录（左右条目对），但不是数十亿条。

挑战B

挑战 B 的目标是批量处理简化的 Levenstein 距离（而不是循环运行）。首先，我们应该就什么是简化的莱文斯坦距离达成一致。首先我们同意两个表达式的levenstein距离是两个表达式中具有相同索引的所有单词的levenstein距离之和。我的意思是两个表达式的 Levenstein 距离是它们的两个第一个单词的距离，加上它们的两个第二个单词的距离，等等。其次，我们需要发明一个简化的莱文斯坦距离。我建议使用 n-gram 方法，仅包含 2 个字符的克，其索引绝对差小于 2 。

例如peter和pieter之间的距离计算如下

Peter       
1 = pe          
2 = et          
3 = te          
4 = er
5 = r_           

Pieter
1 = pi
2 = ie
3 = et
4 = te
5 = er
6 = r_

Peter 和 Pieter 有 4 个常见的 2-gram，索引绝对差小于 2 'et'、'te'、'er'、'r_'。两个单词中最大的一个有 6 个可能的 2-gram，则距离为 6-4 = 2 - Levenstein 距离也将为 2，因为有 1 个“eter”移动和一个字母插入“i”。

这是一个近似值，并不适用于所有情况，但我认为在我们的情况下它会工作得很好。如果我们对结果的质量不满意，我们可以尝试使用 3 克或 4 克或允许大于 2 克的序列差异。但其想法是每对执行的计算量比传统的 Levenstein 算法要少得多。

然后我们需要将其转化为技术解决方案。我之前所做的如下：首先隔离单词：由于我们只需要测量单词之间的距离，然后将每个表达式的这些距离相加，我们可以通过在单词列表上运行不同的选择来进一步减少计算次数（我们已经准备好了单词列表）上一节中的单词）。

这种方法需要一个映射表来跟踪表达式id、部分id、单词id和单词的单词序列号，以便可以在过程结束时计算原始表达式距离。

然后我们得到一个更短的新列表，并且包含与 2 克距离度量相关的所有单词的交叉连接。然后我们想要批量处理这个 2-gram 距离测量，我建议在 SQL 连接中进行。这需要一个预处理步骤，其中包括创建一个新的临时表，将每个 2-gram 存储在单独的行中，并跟踪单词 Id、单词序列和部分类型

从技术上讲，这是通过使用一系列（或循环）子字符串选择对单词列表进行切片来完成的，如下所示（假设单词列表表 - 有两个副本，一个左副本和一个右副本 - 包含 2 列 word_id 和 word）：

INSERT INTO left_gram_table (word_id, gram_seq, gram)
SELECT word_id, 1 AS gram_seq, SUBSTRING(word,1,2) AS gram
FROM left_word_table

进而

INSERT INTO left_gram_table (word_id, gram_seq, gram)
SELECT word_id, 2 AS gram_seq, SUBSTRING(word,2,2) AS gram
FROM left_word_table

Etc.

使“steward”看起来像这样的东西（假设单词 id 是 152）

|  pk  | word_id | gram_seq | gram | 
|  1   |  152       |  1          | st |
|  2   |  152       |  2          | te |
|  3   |  152       |  3          |  ew |
|  4   |  152       |  4          |  wa |
|  5   |  152       |  5          |  ar |
|  6   |  152       |  6          |  rd |
|  7   |  152       |  7          |  d_ |

不要忘记在 word_id、gram 和 gram_seq 列上创建索引，距离可以通过左右 gram 列表的连接来计算，其中 ON 看起来像

ON L.gram = R.gram 
AND ABS(L.gram_seq + R.gram_seq)< 2 
AND L.word_id <> R.word_id

距离是两个单词中最长的单词的长度减去匹配克的数量。 SQL 进行此类查询的速度非常快，我认为一台具有 8 GB RAM 的简单计算机可以在合理的时间范围内轻松执行数亿行。

然后只需连接映射表即可计算每个表达式中单词到单词的距离之和，从而得到总的表达式到表达式的距离。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

高效的字符串相似度分组的相关文章

Emacs 行编号性能

我试过了linum and nlinum 两者对于超过 100k 行的文件的性能都很糟糕 for x in 1 100000 do echo x done gt 100k txt emacs q 100k txt M x load libr
了解用于处理色边距的scale_fill_continuous_divergingx参数输入

这个问题是我上一个问题的延续here https stackoverflow com questions 58718527 setting midpoint for continuous diverging color scale on a
按列分组的数据帧上 R 中的行之间的差异

我希望通过 app name 获得不同版本的计数差异我的数据集如下所示 app name version id count difference 这是数据集 data structure list app name structure c
如何使用递归字符串连接构建带有小计的 HTML 表？

我有接下来的两张表 CREATE TABLE SalesByStore Brand VARCHAR 10 StoreName VARCHAR 50 Sales DECIMAL 10 2 CREATE TABLE SalesByBrand B
带有nearPoints()的动态ggplot图层闪亮

我熟悉闪亮的基础知识但在这里遇到了一些困难我希望能够在单击某个点以突出显示该点时添加 ggplot 图层我知道 ggvis 可以做到这一点并且画廊中有一个很好的例子但我希望能够使用nearPoints 捕获点击作为 ui 输入我
Plotly 绘图不会在 RMarkdown 文档的 for 循环内渲染

我正在尝试动态构建一个需要运行循环的报告并为每次迭代打印一些消息表格和绘图我可以让一切正常运转except为了情节示例 rmd r echo FALSE results asis fig keep all message FALSE
处理 C++ 中执行时间的大量分析

我目前正在进行一个科学计算项目涉及海量数据和复杂算法因此需要进行大量代码分析我目前依靠的是
grid.arrange 中的错误 -rangeGrob() 函数

我有两个图 p1 和 p2 我试图使用 grid arrage 绘制它们我的代码如下所示 grid arrange p1 p2 ncol 2 top textGrob Distribution across each day of the
将 Python 输入字符串限制为特定字符和长度

我刚刚开始学习我的第一种真正的编程语言 Python 我想知道如何限制用户输入raw input特定字符和特定长度例如如果用户输入包含除字母之外的任何内容的字符串我想显示一条错误消息a z 我想显示超过 15 个字符的用户输入之一第
R 中的 as.numeric 有什么问题？ [复制]

这个问题在这里已经有答案了 gt X864291X8X74 1 8 0000000000 9 0000000000 10 0000000000 6 0000000000 8 0000000000 10 Levels 0 0000000000
如何从Python列表中的字符串中删除双引号？

我正在尝试在字典列表中获取一些数据数据来自 csv 文件因此都是字符串文件中的键都有双引号但由于这些都是字符串我想删除它们这样它们在字典中看起来像这样 key value 而不是这个 key value 我尝试简单地使用 str
时间复杂度和运行时间有什么区别？

时间复杂度和运行时间有什么区别它们是一样的吗运行时间是指程序运行所需的时间时间复杂度是对输入大小趋于无穷大时运行时间渐进行为的描述您可以说运行时间是 O n 2 或其他什么因为这是描述复杂性类和大 O 表示法的惯用方式事实上
确定向量中是否存在元素的最有效方法

我有几种算法取决于确定元素是否存在于向量中的效率在我看来这 in 这相当于is element 应该是最有效的因为它只返回一个布尔值在测试了几种方法之后令我惊讶的是这些方法是迄今为止效率最低的以下是我的分析随着向量大小的增加
R 中的转换会导致文档错误

每当我运行此代码时 tm map 行都会给我警告消息警告信息在 tm map SimpleCorpus docs toSpace 中转换删除文档 texts lt read csv Data fast food Domino s Do
按具有作业的组划分的 R 分位数

我有以下 df group rep seq 1 3 30 variable runif 90 5 0 7 5 df data frame group variable 我需要 i 按组定义分位数 ii 将每个人分配到相对于其组的分位数因此
使用 R 从字符串中提取函数参数

最好使用stringr包我想创建一个函数extract 以字符串向量作为参数 vec lt c div span icon hospital user i18n t Enrolments or i18n t Paper a string
在ggplotly散点图中添加自定义数据标签

我想显示Species对于每个数据点当光标位于该点上方而不是 x 和 y 值时我用iris数据集另外我希望能够单击数据点以使标签持久存在并且当我在图中选择新位置时标签不会消失如果可能的话最基本的是标签持久性问题是一个优点这
无法在 Document-Term-Matrix 中看到 `RTextTools::toLower()` 文本的结果

我尝试创建一个矩阵为此我想降低文本为此我使用此 R 指令 matrix create matrix tweets 1 toLower TRUE language english removeStopwords FALSE remove
从 R 到 C 处理列表并访问它

我想使用从 R 获得的 C 列表我意识到这个问题与此非常相似使用 call 在 R 和 C 之间传递数据帧 https stackoverflow com questions 6658168 passing a data frame f
如何从 PHP 中的字符串创建可能的字符串组合？

如何从 PHP 中的字符串创建可能的字符串组合 Exp input abc output array 0 gt a 1 gt ab 2 gt abc 3 gt ac 4 gt acb 5 gt b 6 gt ba 7 gt bac 8 gt

随机推荐

防止 AJAX 以字符串形式发送文件

I have a file stored in this form imagesFile variable It contains file below 我想使用发送它FormData and AJAX 仅供参考我正在使用 Vue 和 L
DDD：共享具有多个聚合根的实体

学习DDD 在我们的应用程序中存在三个聚合根不同类型的表单所有这些都需要上传一些PDF 这些 pdf 上传附加了一些元数据例如上传者和上传时间等以便将它们存储在自己的表中我的问题是这个 PDF 是否应该建模为值对象实体或聚合根
如何在 Azure AD B2C 中添加 b2c-extensions-app

我使用经典的 Azure 门户创建了一些 B2C 目录有时它会添加 b2c extensions app 但有时则不会当我删除目录时 Azure 似乎有很长的内存这阻止我尝试重新创建它使用相同的名称有没有办法手动添加 b2c ex
如何防止浏览器阻止我创建的弹出窗口？

我创建了一个简单的 JavaScript 函数来在加载后显示我的弹出窗口但它一直被 Firefox 和 Google Chrome 阻止我必须以某种方式在 Firefox 和 Chrome 上启用它才能显示弹出窗口有其他选择吗我在弹
列出给定结构中的所有文件夹和子文件夹以及文件大小

我试图列出光盘的文件夹结构和每个文件夹的大小我已经确定了文件夹结构现在我只需要输出每个文件夹的大小根据https learn microsoft com en us windows server administration wind
为什么我在 ASP.NET 中收到“线程正在中止”？

我不确定为什么会发生这种情况而且我从未明确中止线程所以这有点令人惊讶但我记录了异常我看到 System Threading ThreadAbortException 线程被中止它似乎发生在调用System Threading Wa
无法从程序集加载类型（C# Amazon lambda 函数）

由于Amazon现在支持C 构建AWS Lambda函数我想尝试一下但在执行测试时遇到了困难这是我的简单课程 using System using System IO using System Text using Amazon La
compojure-api/schema/swagger 中的非必需参数？

当我有这样的 API 定义时 POST register body params username String password String name String ok 使名称可选的适当方法是什么是吗 POST register b
无安装组文件 - CentOS 7 - 组安装

我每次都在 docker 容器内使用 CentOS 映像yum install
更新时出现 Conda 错误：`conda.core.link:_execute(637)：安装包“None”时发生错误。断言错误()`

今天更新 conda 时通过conda update all它下载了几个软件包并几乎完成了安装但最后给出了 Preparing transaction done Verifying transaction done Executing t
在 Excel 中使用 VBA 更改 ActiveX 命令按钮的名称

参考 https stackoverflow com questions 10638620 reference to command buttons added during runtime with vba in excel 我正在尝试使
如何将外部图像 url 与 React Flux Store 一起使用？

我正在使用 React Flux utils 从服务器访问数据并将数据存储在 Flux 存储中该数据包含标题内容描述内容和图像外部 url 例如 http www google com sample jpg http www googl
Python 中的一维 Wasserstein 距离

下面的公式是 Wasserstein 距离最优传输的特例当源和目标分布为x and y 也称为边际分布是一维的即向量 where F 1 是边际累积分布的逆概率分布函数u and v 源自称为x and y 均由正态分布生成 imp
Artifactory AQL下载神器

有没有办法使用 AQL 下载工件我发送了一个查询 curl u user pass X POST https artifactoryURL artifactory api search aql H content type text pl
修改基础CSS框架的最佳实践[关闭]

就目前情况而言这个问题不太适合我们的问答形式我们希望答案得到事实参考资料或专业知识的支持但这个问题可能会引发辩论争论民意调查或扩展讨论如果您觉得这个问题可以改进并可能重新开放访问帮助中心 help reopen questi
在 MongoDB 中存储大于 16 MB 的字符串（MongoDB 文档大小限制为 16 MB）

Goal I want to store large encrypted strings into MongoDB As I ve learned from the PHP driver documentation it s only po
合并具有相同列值的二维数组行并对另一列求和[重复]

这个问题在这里已经有答案了我有一个像这样的二维数组像这样 city gt NewYork cash gt 1000 city gt Philadelphia cash gt 2300 city gt NewYork cash gt 20
Base64编码的url安全吗？

我正在使用 node bcrypt js 哈希在 node js 中返回十六进制数字作为密码重置令牌 user reset password token require crypto randomBytes 32 toString hex
我的程序特定的二进制文件应使用哪种 MIME 类型？

我的程序使用它自己的二进制文件类型所以我假设我不能使用 MIME 类型文本纯文本因为它不是 7 位 ASCII 文件我应该将其称为 application myappname 吗我会推荐application octet stre
高效的字符串相似度分组

Setting 我有有关人员及其父母姓名的数据并且我想找到兄弟姐妹父母姓名相同的人 pdata lt data frame parents name c peter pan marta steward pieter pan marta

高效的字符串相似度分组

高效的字符串相似度分组 的相关文章

随机推荐

热门标签

高效的字符串相似度分组的相关文章