stringdist

R模糊字符串匹配根据匹配的字符串返回特定列

我有两个大型数据集一个大约有 50 万条记录另一个大约有 7 万条记录这些数据集有地址我想匹配较小数据集中的任何地址是否存在于大数据集中正如您所想象的那样地址可以用不同的方式和不同的情况拼写等来书写此外如果只写到建筑物级别

r MERGE dataTable stringmatching stringdist

我有一个超过 800k 行的数据集示例 id fieldA fieldB codeA codeB 120 Similar one addrs example1 929292 0006 3490 Similar oh addrs examp

r duplicates stringdist

我正在尝试基于非常相似的语言这不准确对两个数据帧进行 dplyr 左连接 DF1 title records Bob s show part 1 42 Time for dinner 77 Horsecrap 121 DF2 shown

r dplyr stringdist

我想使用 stringdist 函数中的 Jaccard 相似度来确定词袋的相似度据我所知使用 Jaccard 只能匹配字符串中的字母 c lt c cat dog person d lt c cat dog ufo stringdis

r Text stringdist

受到实验的启发fuzzy join函数从statar https github com matthieugomez statar我自己编写了一个函数它结合了精确匹配和模糊匹配按字符串距离我必须做的合并工作相当大导致多个字符串距离矩阵

r parallelprocessing dataTable fuzzycomparison stringdist

我正在尝试比较 2 个 data frames V1 代表我的 CRM V2 代表我想要发送的潜在客户 V1 大约有 8k 个元素 V2 大约有 25k 个元素我需要将 V2 中的每一行与 V1 中的每一行进行比较丢弃 V1 中存在 V

r tidyverse stringdist