如何计算两个单词之间的相似度以检测它们是否重复？

2024-03-26

我有两个单词，我想计算它们之间的相似度，以便对它们是否重复进行排名。

如何使用深度学习/NLP 方法实现这一目标？

这里有一些解决文本相似性的方法

基于字符串的方法

给定 2 个句子字符串计算余弦相似度 https://stackoverflow.com/questions/15173225/calculate-cosine-similarity-given-2-sentence-strings
https://github.com/seatgeek/thefuzz https://github.com/seatgeek/thefuzz

基于神经的方法

https://huggingface.co/sentence-transformers https://huggingface.co/sentence-transformers

基于机器翻译的方法

https://github.com/mjpost/sacrebleu/tree/master/sacrebleu https://github.com/mjpost/sacrebleu/tree/master/sacrebleu
https://github.com/Unbabel/MT-Telescope https://github.com/Unbabel/MT-Telescope
https://github.com/alvations/lightyear https://github.com/alvations/lightyear

但在考虑使用哪个库来衡量相似性之前，您应该尝试定义在相似性方面您想要衡量什么，

您是否试图找到语义相似性和句法差异？

The dog ate the biscuit vs
The biscuit was eaten by the dog

您是否想找到词汇语义相似性？

This problem is driving me mad! vs
This problem is making me angry!

您是否试图寻找蕴涵而不是相似性？

I ate Chinese food for dinner vs
I ate kungpao chicken for dinner

当在没有上下文的情况下比较单个单词时，“相似性”的歧义变得更加复杂，例如

plant vs factory
- 它们可以相似，如果plant指工业厂房
- 但如果plant指生物植物
bank vs financial institute
- 它们可以相似，如果bank指我们存入或提取现金的地方
- 但如果bank泛指河岸。

人们可以根据您想要使用相似性分数执行的最终任务来定义相似性的许多其他方面。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

deeplearning

NLP

similarity

如何计算两个单词之间的相似度以检测它们是否重复？的相关文章

在 python 2 和 3 的spyder之间切换

根据我在文档中了解到的内容它指出您只需使用命令提示符创建一个新变量即可轻松在 2 个 python 环境之间切换如果我已经安装了 python 2 7 则 conda create n python34 python 3 4 anaco
根据 pandas 中的条件交换列值

我想按条件重新定位列如果国家地区是日本我需要将姓氏和名字反向重新定位 df pd DataFrame France Kylian Mbappe Japan Hiroyuki Tajima Japan Shiji Kagawa Eng
如何在算术表达式的结果上添加 SQLAlchemy 标签？

我如何将这样的东西翻译成 SQLAlchemy select x y as difference 我知道该怎么做 x label foo 但我不确定在哪里放置下面的 label 方法调用 select table c x table c y
DataFrame 中的字符串，但 dtype 是对象

为什么 Pandas 告诉我我有对象尽管所选列中的每个项目都是一个字符串即使在显式转换之后也是如此这是我的数据框
将 Django 表单中的所有 CharField 表单字段输入转换为小写

我使用 Django 表单进行用户注册用户可以在其中输入优惠券代码我希望在优惠券代码字段中输入的所有字符都转换为小写我尝试过在保存方法自定义清理方法和自定义验证器中使用 lower 但这些方法没有运气下面是我的代码 class S
无法安装时间模块

我试过了pip install time and sudo H pip install time 但我不断收到错误找不到满足要求时间的版本从版本未找到时间匹配的发行版我正在 PyCharm 中工作但真正没有意义的是我可以在 Py
如何用xlrd读取公式

我正在尝试做一个解析器它读取几个 Excel 文件我通常需要位于行底部的值您可以在其中找到所有上部元素的总和因此单元格值实际上是 sum 或 A5 0 5 可以说对于使用 Excel 打开此文件的用户来说它看起来像一个数字这
pandas 两个数据框交叉连接[重复]

这个问题在这里已经有答案了我找不到有关交叉联接的任何内容包括合并联接或其他一些内容我需要使用 my function 作为 myfunc 处理两个数据帧相当于 for itemA in df1 iterrows for itemB
我有一个 Employee 类，我想返回“姓名”列表

我有一个 Employee 类我想返回姓名列表雇员 py class Employee object def init self id name members None self id id self name name self
Python 相当于 Bit Twiddling Hacks 中的 C 代码？

我有一个位计数方法我正在尝试尽可能快地实现我想尝试下面的算法位摆弄黑客 http graphics stanford edu seander bithacks html CountBitsSetParallel 但我不知道 C 什么是
熊猫记忆

我有冗长的计算我重复了很多次因此我想使用记忆诸如jug http packages python org Jug and joblib http packages python org joblib memory html 与Pan
Docker 日志中的 Python 异常标记为流：stdout

我想解析和处理来自 docker 容器的所有错误但当我期望 stderr 时 Python 异常标记为 stdout 举个简单的例子app py raise Exception 然后我在 docker 容器中运行这个文件但在 var l
在 Python 中，如何获取特定文件中定义的类列表？

如果一个文件myfile py包含 class A object Some implementation class B object Some implementation 我如何定义一个方法以便在给定的情况下myfile py 它返回
使用 pandas 绘制带有误差线的条形图

我正在尝试从 DataFrame 生成条形图如下所示 Pre Post Measure1 0 4 1 9 这些值是我从其他地方计算出来的中值我还有它们的方差和标准差以及标准误差我想将结果绘制为具有适当误差线的条形图但指定多个误差值
dask allocate() 或 apply() 中的变量列名

我有适用于pandas 但我在将其转换为使用时遇到问题dask 有一个部分解决方案here https stackoverflow com questions 32363114 how do i change rows and column
python csv按列转换为字典

是否可以将 csv 文件中的数据读取到字典中使得列的第一行是键同一列的其余行构成列表的值例如我有一个 csv 文件 strings numbers colors string1 1 blue string2 2 red string
Python列表对象属性“append”是只读的

正如标题所说在Python中我试图做到这一点以便当有人输入一个选择在本例中为Choice13 时它会从密码列表中删除旧密码并添加新密码 passwords mrjoebblock mrjoefblock mrjoegblock m
Python“self”关键字[重复]

这个问题在这里已经有答案了我是 Python 新手通常使用 C 最近几天开始使用它在类中是否需要在对该类的数据成员和方法的任何调用前添加前缀因此如果我在该类中调用方法或从该类获取值我需要使用self method or sel
Melt() 函数复制数据集

我有一个这样的表 id name doggo floofer puppo pupper 1 rowa NaN NaN NaN NaN 2 ray NaN NaN NaN NaN 3 emma NaN NaN NaN pupper 4 sop
如何将 Pandas Dataframe 中的字符串转换为字符列表或数组？

我有一个名为的数据框data 其中一列包含字符串我想从字符串中提取字符因为我的目标是对它们进行一次性编码并使之可用于分类包含字符串的列存储在预测因子如下 predictors pd DataFrame data columns Seq

随机推荐

HttpInterceptor 根据其他可观察值的值更改响应主体

有些我似乎无法根据另一个可观察值的值来更改响应主体而我只能在检索响应后才能获得该值更改请求非常简单我不知道如何处理响应 Injectable export class MyHttpInterceptor implements Http
Spark MLlib：为每个数据组构建分类器

我已经标记了向量 LabeledPoint staged 由一些组号组成对于每个组我需要创建独立逻辑回归分类器 import org apache log4j Level Logger import org apache spark m
我将如何评估某个公式？

我有一个多维数组列表我向用户询问一个公式然后我对其进行评估问题是我得到这样的用户输入 a1 a2 12 a3 问题是 a1 a2 和 a3 指的是列我必须将其评估为一定的值我完全不知道如何解决这个问题任何建议或指导都会很棒此外
Python Spyder 选择显示绘图的位置和时间

我在 Windows 10 中使用 Spyder3 1 2 IDE 和 Python 3 5 想知道如何选择是在 iPython 控制台还是在单独的窗口中显示我的绘图我找到了这个其他问题 https stackoverflow com q
iOS 11 - 使用大标题模式时的 UINavigationItem titleView

我试图理解这是一个错误还是预期的行为 On iOS 10之前我们可以设置一个自定义标题使用navigationItem titleView On iOS 11 当设置我们的navigationItem largeTitleDisplayM
如何测试无损双精度/整数转换？

我有一个 double 和一个 int64 t 我想知道它们是否具有完全相同的值以及将一种类型转换为另一种类型是否不会丢失任何信息我当前的实现如下 int int64EqualsDouble int64 t i double d ret
为什么我不能对 void 指针的强制转换进行算术运算？

void foo void ptr int numBytes char ptr numBytes 这不能在 C 中编译我知道替代方案但为什么这不起作用呢问题是什么问题问题是 char ptr不会产生lvalue 这意味着该值无法修
如何将百分比变量格式化为小数点后两位？

该程序基本上处理文本文件读取数据并执行功能 while s hasNext name s next mark s nextDouble double percent mark tm 100 System out println Stude
android中如何区分480X800和480X854屏幕？

如何区分 480X800 和 480X854 屏幕我们可以选择将一张图像放在 hdpi 文件夹中在我的情况下 480X800 图像不支持 480X854 图像它在底部显示一个空白区域有什么想法吗编辑我将图像设置为背景在我的布局
wordpress 插件 -> 调用未定义函数 wp_get_current_user()

我正在尝试使用函数 wp get current user 获取插件中的当前用户信息但我越来越Call to undefined function wp get current user 显然发生这种情况是因为文件 wp includes
如何路由用户配置文件 URL 以跳过控制器？

现在我的用户个人资料 URL 如下所示 http example com users joeschmoe http example com users joeschmoe 这表明show用户控制器中的方法我理想的做法是提供这样的用户个人资
Winforms DataGridView 中的超链接单元格

我有一个包含以下数据的 datagridview ContactType Contact Phone 894356458 Email email protected cdn cgi l email protection 在这里我需要显示数
是否可以为每个商店定义 Magento 布局更新

我有一个 Magento 安装运行两个不同的网站一个销售电子书另一个不销售因此业务团队希望看到我的下载链接从应用程序我的帐户区域的客户导航块中删除我可以看到 design frontend base layout downl
AttributeError：模块“keras.engine”没有属性“input_layer”

我正在尝试使用谷歌colab 但我一直遇到 keras 的问题它说 AttributeError 模块 keras engine 没有属性 input layer 然而检查他们的github库 keras engine中有一个input
go build 与 strip 的 golang strip 符号

为什么剥离符号不同strip and go build ldflags s w see here https stackoverflow com questions 29599209 how to build a release versi
Android：startActivityForResult 的 resultCode 总是为 0？ [关闭]

这个问题不太可能对任何未来的访客有帮助它只与一个较小的地理区域一个特定的时间点或一个非常狭窄的情况相关通常不适用于全世界的互联网受众为了帮助使这个问题更广泛地适用访问帮助中心 help reopen questions 由于某种原
在rails控制台中查看回滚错误的原因

我正在尝试通过 Rails 控制台更新记录但收到回滚错误 Project find 118 update attributes featured gt true Project Load 2 6ms SELECT projects FRO
从下到上显示活动

我想展示一个activity到另一个从下到上的动画使用Intent 给我一些例子如下所示 Intent i2 new Intent main this test class startActivity i2 从下到上有动画在 res a
Linq - 在列表中按周分组

我想按周对我的数据进行分组如下所示 var result stats GroupBy i gt SqlFunctions DatePart week i date Select g gt new ReportModel clicks g
如何计算两个单词之间的相似度以检测它们是否重复？

我有两个单词我想计算它们之间的相似度以便对它们是否重复进行排名如何使用深度学习 NLP 方法实现这一目标这里有一些解决文本相似性的方法基于字符串的方法给定 2 个句子字符串计算余弦相似度 https stackoverflow