similarity

查找重复邮寄地址的策略

我正在尝试想出一种根据相似度分数查找重复地址的方法考虑这些重复的地址 addr 1 3 FAIRMONT LINK SOUTH addr 2 3 FAIRMONT LINK S addr 3 5703 48TH AVE adrr 4 57

python duplicates streetaddress similarity mailing

显式语义分析

我遇到了这个术语显式语义分析它使用维基百科作为参考找到文档中的相似性并将它们分类如果我错了请纠正我我遇到的链接是here http www cs technion ac il gabr resources code esa es

Text similarity textmining

如何找到两条曲线之间的相似度以及相似度得分？

我有两个数据集 t y1 和 t y2 这些数据集在视觉上看起来相同但它们存在一些时间延迟或幅度变化我想找到两条曲线之间的相似度对于近似相似的曲线给出相似度得分 1 对于不相似的曲线给出相似度得分 0 由于数据的波动一些曲线似乎有所

MATLAB TimeSeries similarity curves

检测不同分辨率下的图像相等性

我正在尝试构建一个脚本来浏览我的原始高分辨率照片并替换我在拥有专业帐户之前上传到 Flickr 的旧的低分辨率照片对于其中许多我可以只使用 Exif 信息例如拍摄日期来确定匹配但有些确实很旧要么原始文件没有 Exif 信息要

ruby image imageprocessing ComputerVision similarity

如何计算两个单词之间的相似度以检测它们是否重复？

我有两个单词我想计算它们之间的相似度以便对它们是否重复进行排名如何使用深度学习 NLP 方法实现这一目标这里有一些解决文本相似性的方法基于字符串的方法给定 2 个句子字符串计算余弦相似度 https stackoverflow

python deeplearning NLP similarity

基于WordNet测量语义相似度，Brown Corpus有什么用

我遇到了几种使用 WordNet 的结构和层次结构来测量语义相似性的方法例如Jiang and Conrath测度 JNC Resnik测度 RES 林测度 LIN 等使用 NLTK 测量它们的方式是 sim2 wn jcn simil

NLP similarity WordNet corpus semanticanalysis

Python 相当于 R 的 cluster 包中的 daisy()

我有一个数据集其中包含分类名义和序数和数字属性我想使用这些混合属性来计算我的观察结果的不相似度矩阵使用daisy http stat ethz ch R manual R patched library cluster htm

python r similarity categoricaldata rdaisy

两个数据集或数组之间的相似性

假设我有一个如下所示的数据集 A 1 B 3 C 6 D 6 我还有其他集合的列表来比较我的特定集合 A 1 B 3 C 6 D 6 A 2 B 3 C 6 D 6 A 99 B 3 C 6 D 6 A 5 B 1 C 6 D 9 A 4

Algorithm correlation similarity

Python + Sqlite 的字符串相似度（Levenshtein 距离/编辑距离）

Python Sqlite 中是否有可用的字符串相似性度量例如使用sqlite3模块用例示例 import sqlite3 conn sqlite3 connect memory c conn cursor c execute CREA

python SQLite stringcomparison similarity

java 中的 PHP 相似文本()

你知道 PHP 的任何严格等效的实现吗相似文本 https www php net manual en function similar text phpJava 中的函数这是我在java中的实现 package comwebndesig

Java php similarity

Pyspark：如何处理 python 用户定义函数中的空值

我想使用一些非 pyspark 原生的字符串相似性函数例如数据帧上的 jaro 和 jaro winkler 度量这些在 python 模块中很容易获得例如jellyfish 对于没有的情况我可以写 pyspark udf 很好nu

python apachespark PySpark apachesparksql similarity

相似图像 - 如何比较它们

我有超过 130 万张图像需要相互比较并且每天都会添加数百张图像我的公司拍摄图像并创建一个可供我们的供应商使用的版本这些文件通常彼此非常相似例如两个不同的公司可以向我们发送两个不同的图像一个 JPG 和一个 GIF 两者都带有麦

php image imageprocessing similarity Fingerprint

在 Django 模型中使用 Trigram (gin_trgm_ops) 创建 Gin 索引

django contrib postgres 的新 TrigramSimilarity 功能非常适合解决我遇到的问题我用它作为搜索栏来查找难以拼写的拉丁名字问题是名字超过 200 万个搜索时间比我想要的要长我想在三元组上创建一个索

python django postgresql Indexing similarity

根据另一个参考数组从一个数组中选择密切匹配

我有一个数组A和一个参考数组B 尺寸为A至少和B e g A 2 100 300 793 1300 1500 1810 2400 B 4 305 789 1234 1890 B实际上是指定时间信号中峰值的位置并且A包含稍后时间的峰值位置

python Arrays MATLAB NumPy similarity

查找具有相似文本的文章的算法

我在数据库中有很多文章带有标题文本我正在寻找一种算法来找到 X 个最相似的文章例如当你提出问题时 Stack Overflow 的相关问题我尝试用谷歌搜索这个问题但只找到了有关其他相似文本问题的页面例如将每篇文章与所有其

string Algorithm Text languageagnostic similarity

计算一组集合之间的相似度

假设有4组 s1 1 2 3 4 s2 2 3 4 s3 2 3 4 5 s4 1 3 4 5 有没有一个标准的度量来表示这组4组的相似程度感谢您对Jaccard方法的建议然而这似乎是成对的如何计算整组集合的相似度成对地你可以计

Metrics similarity

如何标准化 Wordnet 中的相似性度量

我正在尝试计算两个单词之间的语义相似度我正在使用基于 Wordnet 的相似性度量即 Resnik 度量 RES Lin 度量 LIN Jiang 和 Conrath 度量 JNC 以及 Banerjee 和 Pederson 度量 B

python NLP NLTK similarity WordNet

快速相似性检测

我有大量的对象我需要找出它们之间的相似之处确切地说给定两个对象我可以将它们的差异计算为数字 ametric http en wikipedia org wiki Metric 28mathematics 29 值越高意味着相似度越低

Algorithm timecomplexity similarity Metric

两个十六进制数的相似度

我试图使用汉明和编辑距离找到类似的哈希值十六进制哈希值假设两个哈希值相似如果它们的汉明距离小于 10 不同位数 Hash 1 ffffff base 16 Hash 2 fffff0 base 16 两个哈希之间的汉明距离是4 它们是

Java Search datastructures similarity hammingdistance

当您输入新问题时，Stack Overflow 如何显示类似问题？

这是 Stack Overflow 和在这个平台上运行的其他网站做得很好的事情之一一旦您尝试创建新问题就会显示一个小窗口其中显示其他类似的问题这是怎么做到的可以使用什么技术来实现这一点卢森狮身人面像 StackOverflow

Search fulltextsearch similarity