Python
Java
PHP
IOS
Android
Nodejs
JavaScript
Html5
Windows
Ubuntu
Linux
R模糊字符串匹配根据匹配的字符串返回特定列
我有两个大型数据集 一个大约有 50 万条记录 另一个大约有 7 万条记录 这些数据集有地址 我想匹配较小数据集中的任何地址是否存在于大数据集中 正如您所想象的那样 地址可以用不同的方式和不同的情况 拼写等来书写 此外 如果只写到建筑物级别
r
MERGE
dataTable
stringmatching
stringdist
在 R 的数据框中查找相似的行(不重复)
我有一个超过 800k 行的数据集 示例 id fieldA fieldB codeA codeB 120 Similar one addrs example1 929292 0006 3490 Similar oh addrs examp
r
duplicates
stringdist
通过 stringmatch 与 dplyr 和 stringdist 合并两个数据帧
我正在尝试基于非常相似的语言 这不准确 对两个数据帧进行 dplyr 左连接 DF1 title records Bob s show part 1 42 Time for dinner 77 Horsecrap 121 DF2 shown
r
dplyr
stringdist
stringdist 包中的 Jaccard 相似度来匹配字符串中的单词
我想使用 stringdist 函数中的 Jaccard 相似度来确定词袋的相似度 据我所知 使用 Jaccard 只能匹配字符串中的字母 c lt c cat dog person d lt c cat dog ufo stringdis
r
Text
stringdist
R 中的模糊合并 - 寻求帮助来改进我的代码
受到实验的启发fuzzy join函数从statar https github com matthieugomez statar我自己编写了一个函数 它结合了精确匹配和模糊匹配 按字符串距离 我必须做的合并工作相当大 导致多个字符串距离矩阵
r
parallelprocessing
dataTable
fuzzycomparison
stringdist
R 函数识别不匹配的行
我正在尝试比较 2 个 data frames V1 代表我的 CRM V2 代表我想要发送的潜在客户 V1 大约有 8k 个元素 V2 大约有 25k 个元素 我需要将 V2 中的每一行与 V1 中的每一行进行比较 丢弃 V1 中存在 V
r
tidyverse
stringdist