给定单词相似度推断句子相似度

2024-02-29

假设我对两个句子中的每对单词都有一个单词相似度得分，那么根据这些分数确定整体句子相似度的好方法是什么？

单词分数是使用表示每个单词的向量的余弦相似度来计算的。

现在我有了单独的单词分数，将单独的单词分数相加并除以两个句子的总字数来获得两个句子的分数是不是太天真了？

我读过有关进一步构建向量来表示句子、使用单词分数，然后再次使用余弦相似度来比较句子的内容。但我不熟悉如何从现有的单词分数构建句子向量。我也不知道与上述简单方法相比有何权衡，至少我可以轻松理解。 :)。

任何见解都将不胜感激。

谢谢。

我最终做的是取每组向量的平均值，然后对这两个平均值应用余弦相似度，从而得出句子的分数。

我不确定这种方法在数学上有多合理，但我在其他地方看到过它（比如 python 的 gensim）。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

WordNet

cosinesimilarity

Word2Vec

sentencesimilarity

给定单词相似度推断句子相似度的相关文章

加权词嵌入是什么意思？

In the paper http www aclweb org anthology S17 2100我正在努力实施它说在这项工作中使用三种类型的文本对推文进行建模表示第一个是词袋模型权重为 tf idf 词频逆文档频率部分
为什么我们使用输入隐藏权重矩阵而不是隐藏输出权重矩阵作为词向量？

在word2vec中经过训练我们得到两个权重矩阵 1 输入隐藏权重矩阵 2 隐藏输出权重矩阵人们会使用输入隐藏权重矩阵作为词向量每一行对应一个词即词向量这是我的困惑为什么人们使用输入隐藏权重矩阵而不是隐藏输出权重矩阵作为词向量
在 word2vec Gensim 中获取二元组和三元组

我目前在我的 word2vec 模型中使用 uni gram 如下所示 def review to sentences review tokenizer remove stopwords False Returns a list of se
在 Mac 10.9.2 上安装 WordNet

我正在尝试在 Mac 操作系统 10 9 2 上安装 WordNet 我尝试过以下方法配置 make 但期间make我遇到了一些错误然后我安装了XQuartz 2 7 5 我仍然遇到一些错误make 接下来我安装了 Xcode 但这仍
word2vec - KeyError：“单词 X 不在词汇表中”

使用Word2Vec模块的实现gensim为了为我在纯文本文件中拥有的句子构建单词嵌入尽管这个词happy在词汇表中定义得到错误KeyError word happy not in vocabulary 尝试将给出的答案应用到类似的问题
重写句子，同时保留语义

是否可以使用WordNet http wordnet princeton edu 重写一个句子使句子的语义仍然相同或大部分相同假设我有这样一句话 Obama met with Putin last week 是否可以使用 WordNe
如何从回调函数中中断Word2vec训练？

我正在使用 gensim word2vec 训练 Skipgram 模型我想在达到基于不同数据集的特定准确性测试的参数中传递的时期数之前退出训练以避免模型过度拟合 gensim 有没有办法从回调函数中断 word2vec 的训练如果事
测量两个短语之间的语义相似度[关闭]

Closed 此问题正在寻求书籍工具软件库等的推荐不满足堆栈溢出指南 help closed questions 目前不接受答案我想测量两个短语句子之间的语义相似度有没有可以直接可靠使用的框架我已经结帐了这个问题 https
为什么word2Vec使用余弦相似度？

我一直在阅读有关 Word2Vec 的论文例如this one https papers nips cc paper 5021 distributed representations of words and phrases and th
使用 word2vec 嵌入句子

我想比较不同句子中提到的相同单词的差异例如旅行我想做的是将提及旅行一词的句子视为纯文本在每个句子中将旅行替换为travel sent x 在这些句子上训练 word2vec 模型计算 Travel sent1 trav
Word2vec - 获取相似度排名

鉴于我有一个 word2vec 模型由 gensim 提供我想获得单词之间的排名相似度例如假设我有 desk 这个词与 desk 最相似的词是表0 64 椅子0 61 预订 0 59 铅笔0 52 我想创建一个函数 f 桌子书
在 Word2Vec 中合并预训练模型？

我已经下载了 1000 亿字的 Google 新闻预训练矢量文件除此之外我还在训练自己的 3GB 数据生成另一个预训练的矢量文件两者都有 300 个特征维度和超过 1GB 的大小我如何合并这两个巨大的预训练向量或者我如何训练一个
如何标准化 Wordnet 中的相似性度量

我正在尝试计算两个单词之间的语义相似度我正在使用基于 Wordnet 的相似性度量即 Resnik 度量 RES Lin 度量 LIN Jiang 和 Conrath 度量 JNC 以及 Banerjee 和 Pederson 度量 B
如何在Wordnet中找到“词法文件”？

如果你看一下并选择显示选项显示词汇文件信息您将看到一个非常有用的单词分类称为词汇文件例如对于填充我们有
使用 Sentiwordnet 3.0

我计划使用 Sentiwordnet 3 0 进行情感分类有人可以澄清一下 Sentiwordnet 中与单词相关的数字代表什么吗例如排名 5 中的 5 是什么意思另外对于 POS 来说用来表示副词的字母是什么我假设 a 是形容词
CBOW 与Skip-gram：为什么要颠倒上下文和目标词？

In this https www tensorflow org versions r0 9 tutorials word2vec index html vector representations of words页面上据说 skip
TensorFlow“模块”对象没有属性“global_variables_initializer”

我是张量流新手我正在 iPython 笔记本上运行 Udacity 的深度学习作业 link https github com tensorflow tensorflow blob master tensorflow examples u
如何计算2个node2vec模型之间的距离

我有 2 个不同时间戳的 node2vec 模型我想计算两个模型之间的距离两个模型具有相同的词汇我们更新模型我的模型是这样的 model1 1 0 1 0 5 2 0 3 0 4 3 0 2 0 5 model2 1 0 15 0
Python 3 和 NLTK 与 WordNet 2.1 - 这可能吗？

我将 Python 3 和 NLTK 3 0 0 与 WordNet 3 0 结合使用我想用该数据 semval2007 https github com alvations pywsd tree master pywsd data se
如何有效计算文档流中文档之间的相似度

我收集文本文档在 Node js 中其中一个文档i表示为单词列表考虑到新文档以文档流的形式出现计算这些文档之间相似性的有效方法是什么我目前对每个文档中单词的归一化频率使用余弦相似度我不使用 TF IDF 词频逆文档频率因为我

随机推荐

为什么我已经安装了 RabbitMQ 却找不到“rabbitmq.config”文件？

我正在运行 Red Hat Enterprise Linux 7 2 我已经安装了 RabbitMQ 并systemctl status rabbitmq server shows rabbitmq server service LSB 启
使用多个实例和背景大小时，Firefox 背景图像闪烁

因此我在页面上有几个共享背景图像的元素我的页面正在使用 bootstrap 并且两个元素都是 3 列宽度的容器每个都有一个背景并通过背景大小包含在第二个元素上我将背景宽度设置为 90 因此它比其他背景稍小在 Firefox 中
如何在 Objective-c 中的应用程序的资源文件夹中保存文件

我正在为 iPhone 开发一个 Objective C 应用程序我的问题是我的应用程序必须保存从网址获取的图像我认为该文件夹是只读的这是我保存图像的代码 void banner NSString path NSData imageD
UITableView：自定义标题标题视图不显示

我想显示一个带有自定义标题标题的表格这table view被附加到一个controller class实现了tableview delegate和数据源协议但不是其子类UIViewController因为该表是要显示在另一个表视图之上的
使用 fread() 选择行和列，就像 read.csv.sql() 那样

I know fread相对较新但它确实提供了很大的性能改进我想知道的是您可以从您正在阅读的文件中选择行和列吗有点像什么read csv sql做我知道使用select的选项fread我们可以选择要读取的列但是如何只读取满足特定
强类型定义[重复]

这个问题在这里已经有答案了有什么方法可以制作类型的完整副本以便可以在模板推导上下文中区分它们举个例子 include
如何在连接表中按条件接收对象

我有桌子Games and Badges他们通过桌子连接BadgesGames t integer badge id t integer game id t boolean shown default false I have Game对象
Xcode - 共享应用程序 - PackageApplication 失败，退出代码 1

我使用 Xcode 4 1 为我的 iPhone 应用程序创建了一个临时发行版目标成功构建并生成了一个存档文件我可以在管理器中看到该文件然后我单击共享这允许我选择 ipa 和我的分发配置文件但是在我点击下一步后管理器崩溃
Spark：按元组/列中的多个值对 RDD 进行排序

所以我有一个RDD如下 RDD String Int String 举个例子 b 1 a a 1 b a 0 b a 0 a 最终结果应该类似于 a 0 a a 0 b a 1 b b 1 a 我该怎么做这样的事情尝试这个 rdd sor
Heroku/GoDaddy：将裸域名发送到 www [关闭]

Closed 这个问题是无关 help closed questions 目前不接受答案我正在尝试找出如何让我的网站的裸域重定向到 www 域我正在使用 Heroku 并拥有 GoDaddy 的域名由于 Heroku 我的 A 记录已
没有http服务器的Socket.IO？

我目前正在使用 Nodejs 的 Socket IO 在服务器和一些客户端之间共享一些实时信息客户端应该只与服务器通信而不是彼此通信在 Windows 上一切都很好我可以共享信息但当它把东西放到 Linux vps 上时我遇到了
“在负可变长度后行中使用 \G 来限制后行回溯多远”的示例

在很棒的正则表达式模块的 pypi 页面中 https pypi python org pypi regex https pypi python org pypi regex 据说 G 可以在负可变长度后向中使用以限制后向回溯的距离非
如何在有或没有 Pig 的情况下使用 Cassandra 的 Map Reduce？

有人可以解释 MapReduce 如何与 Cassandra 6 配合使用吗我已经阅读了字数统计示例但我不太明白 Cassandra 端与客户端端发生的情况 https svn apache org repos asf cassan
创建已包含 Nuget 包参考的 Visual Studio 项目模板？

我想创建一个 Visual Studio 2010 项目模板它本质上是一个 ASP net 3 5 Webforms 应用程序但是我想自动添加 NuGet 包引用如果需要我可以将实际的 nupkg 与模板捆绑在一起但我想知道是否
WordPress：“post_name”的 WP_Query 搜索条件

我正在使用 WP Query 非常标准一切都很好但是我需要进行一项特定的修改如果用户在 URL 中输入特定的帖子名称则搜索将仅返回与该 post name 值匹配的帖子请参阅下面的代码其中包含有关特定行不起作用的注释
MySQL：启用加载数据本地INFILE

我在 Ubuntu 12 LTS 上运行 Mysql 5 5 我应该如何在 my cnf 中启用 LOAD DATA LOCAL INFILE 我已经尝试在配置中的各个位置添加 local infile 但我仍然收到此 MySQL 版本不
Windows 窗体：进度栏无响应

我有一个小应用程序来转换多种文件格式其中一个主窗口窗体包含几个文本框按钮等我有另一个文档类它处理所有实际的转换工作我的窗体基本上迭代所有文件并调用适当的 Document 方法来转换文件然而当这种情况发生时表单会停止响
从类访问私有模块变量

我正在尝试理解 python 作用域规则为此我尝试从同一模块中的类访问非常私有变量 bar bar bar underscore bar double underscore def foo print bar print bar p
Google 地图 - 自动完成和方向 API - 触发下拉列表的 onchange() ？

我有谷歌地图和两个输入它们都使用自动完成功能如下所示 first input autocomplete var input1 document getElementById start var autocomplete1 new goo
给定单词相似度推断句子相似度

假设我对两个句子中的每对单词都有一个单词相似度得分那么根据这些分数确定整体句子相似度的好方法是什么单词分数是使用表示每个单词的向量的余弦相似度来计算的现在我有了单独的单词分数将单独的单词分数相加并除以两个句子的总字数来获得两个句子的

给定单词相似度推断句子相似度

给定单词相似度推断句子相似度 的相关文章

随机推荐

热门标签

给定单词相似度推断句子相似度的相关文章