给定单词相似度推断句子相似度

2024-02-29

假设我对两个句子中的每对单词都有一个单词相似度得分,那么根据这些分数确定整体句子相似度的好方法是什么?

单词分数是使用表示每个单词的向量的余弦相似度来计算的。

现在我有了单独的单词分数,将单独的单词分数相加并除以两个句子的总字数来获得两个句子的分数是不是太天真了?

我读过有关进一步构建向量来表示句子、使用单词分数,然后再次使用余弦相似度来比较句子的内容。但我不熟悉如何从现有的单词分数构建句子向量。我也不知道与上述简单方法相比有何权衡,至少我可以轻松理解。 :)。

任何见解都将不胜感激。

谢谢。


我最终做的是取每组向量的平均值,然后对这两个平均值应用余弦相似度,从而得出句子的分数。

我不确定这种方法在数学上有多合理,但我在其他地方看到过它(比如 python 的 gensim)。

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

给定单词相似度推断句子相似度 的相关文章

  • 加权词嵌入是什么意思?

    In the paper http www aclweb org anthology S17 2100我正在努力实施 它说 在这项工作中 使用三种类型的文本对推文进行建模 表示 第一个是词袋模型 权重为 tf idf 词频 逆文档频率 部分
  • 为什么我们使用输入隐藏权重矩阵而不是隐藏输出权重矩阵作为词向量?

    在word2vec中 经过训练 我们得到两个权重矩阵 1 输入隐藏权重矩阵 2 隐藏输出权重矩阵 人们会使用输入隐藏权重矩阵作为词向量 每一行对应一个词 即词向量 这是我的困惑 为什么人们使用输入隐藏权重矩阵而不是隐藏输出权重矩阵作为词向量
  • 在 word2vec Gensim 中获取二元组和三元组

    我目前在我的 word2vec 模型中使用 uni gram 如下所示 def review to sentences review tokenizer remove stopwords False Returns a list of se
  • 在 Mac 10.9.2 上安装 WordNet

    我正在尝试在 Mac 操作系统 10 9 2 上安装 WordNet 我尝试过以下方法 配置 make 但期间make我遇到了一些错误 然后我安装了XQuartz 2 7 5 我仍然遇到一些错误make 接下来 我安装了 Xcode 但这仍
  • word2vec - KeyError:“单词 X 不在词汇表中”

    使用Word2Vec模块的实现gensim为了为我在纯文本文件中拥有的句子构建单词嵌入 尽管这个词happy在词汇表中定义 得到错误KeyError word happy not in vocabulary 尝试将给出的答案应用到类似的问题
  • 重写句子,同时保留语义

    是否可以使用WordNet http wordnet princeton edu 重写一个句子 使句子的语义仍然相同 或大部分相同 假设我有这样一句话 Obama met with Putin last week 是否可以使用 WordNe
  • 如何从回调函数中中断Word2vec训练?

    我正在使用 gensim word2vec 训练 Skipgram 模型 我想在达到基于不同数据集的特定准确性测试的参数中传递的时期数之前退出训练 以避免模型过度拟合 gensim 有没有办法从回调函数中断 word2vec 的训练 如果事
  • 测量两个短语之间的语义相似度[关闭]

    Closed 此问题正在寻求书籍 工具 软件库等的推荐 不满足堆栈溢出指南 help closed questions 目前不接受答案 我想测量两个短语 句子之间的语义相似度 有没有可以直接可靠使用的框架 我已经结帐了这个问题 https
  • 为什么word2Vec使用余弦相似度?

    我一直在阅读有关 Word2Vec 的论文 例如this one https papers nips cc paper 5021 distributed representations of words and phrases and th
  • 使用 word2vec 嵌入句子

    我想比较不同句子中提到的相同单词的差异 例如 旅行 我想做的是 将提及 旅行 一词的句子视为纯文本 在每个句子中 将 旅行 替换为travel sent x 在这些句子上训练 word2vec 模型 计算 Travel sent1 trav
  • Word2vec - 获取相似度排名

    鉴于我有一个 word2vec 模型 由 gensim 提供 我想获得单词之间的排名相似度 例如 假设我有 desk 这个词 与 desk 最相似的词是 表0 64 椅子0 61 预订 0 59 铅笔0 52 我想创建一个函数 f 桌子 书
  • 在 Word2Vec 中合并预训练模型?

    我已经下载了 1000 亿字的 Google 新闻预训练矢量文件 除此之外 我还在训练自己的 3GB 数据 生成另一个预训练的矢量文件 两者都有 300 个特征维度和超过 1GB 的大小 我如何合并这两个巨大的预训练向量 或者我如何训练一个
  • 如何标准化 Wordnet 中的相似性度量

    我正在尝试计算两个单词之间的语义相似度 我正在使用基于 Wordnet 的相似性度量 即 Resnik 度量 RES Lin 度量 LIN Jiang 和 Conrath 度量 JNC 以及 Banerjee 和 Pederson 度量 B
  • 如何在Wordnet中找到“词法文件”?

    如果你看一下并选择 显示选项 显示词汇文件信息 您将看到一个非常有用的单词分类 称为词汇文件 例如 对于 填充 我们有
  • 使用 Sentiwordnet 3.0

    我计划使用 Sentiwordnet 3 0 进行情感分类 有人可以澄清一下 Sentiwordnet 中与单词相关的数字代表什么吗 例如排名 5 中的 5 是什么意思 另外对于 POS 来说 用来表示副词的字母是什么 我假设 a 是形容词
  • CBOW 与Skip-gram:为什么要颠倒上下文和目标词?

    In this https www tensorflow org versions r0 9 tutorials word2vec index html vector representations of words页面上 据说 skip
  • TensorFlow“模块”对象没有属性“global_variables_initializer”

    我是张量流新手 我正在 iPython 笔记本上运行 Udacity 的深度学习作业 link https github com tensorflow tensorflow blob master tensorflow examples u
  • 如何计算2个node2vec模型之间的距离

    我有 2 个不同时间戳的 node2vec 模型 我想计算两个模型之间的距离 两个模型具有相同的词汇 我们更新模型 我的模型是这样的 model1 1 0 1 0 5 2 0 3 0 4 3 0 2 0 5 model2 1 0 15 0
  • Python 3 和 NLTK 与 WordNet 2.1 - 这可能吗?

    我将 Python 3 和 NLTK 3 0 0 与 WordNet 3 0 结合使用 我想用该数据 semval2007 https github com alvations pywsd tree master pywsd data se
  • 如何有效计算文档流中文档之间的相似度

    我收集文本文档 在 Node js 中 其中一个文档i表示为单词列表 考虑到新文档以文档流的形式出现 计算这些文档之间相似性的有效方法是什么 我目前对每个文档中单词的归一化频率使用余弦相似度 我不使用 TF IDF 词频 逆文档频率 因为我

随机推荐

  • 为什么我已经安装了 RabbitMQ 却找不到“rabbitmq.config”文件?

    我正在运行 Red Hat Enterprise Linux 7 2 我已经安装了 RabbitMQ 并systemctl status rabbitmq server shows rabbitmq server service LSB 启
  • 使用多个实例和背景大小时,Firefox 背景图像闪烁

    因此 我在页面上有几个共享背景图像的元素 我的页面正在使用 bootstrap 并且两个元素都是 3 列宽度的容器 每个都有一个背景并通过背景大小包含 在第二个元素上 我将背景宽度设置为 90 因此它比其他背景稍小 在 Firefox 中
  • 如何在 Objective-c 中的应用程序的资源文件夹中保存文件

    我正在为 iPhone 开发一个 Objective C 应用程序 我的问题是我的应用程序必须保存从网址获取的图像 我认为该文件夹是只读的 这是我保存图像的代码 void banner NSString path NSData imageD
  • UITableView:自定义标题标题视图不显示

    我想显示一个带有自定义标题标题的表格 这table view被附加到一个controller class实现了tableview delegate和数据源协议 但不是其子类UIViewController因为该表是要显示在另一个表视图之上的
  • 使用 fread() 选择行和列,就像 read.csv.sql() 那样

    I know fread相对较新 但它确实提供了很大的性能改进 我想知道的是 您可以从您正在阅读的文件中选择行和列吗 有点像什么read csv sql做 我知道使用select的选项fread我们可以选择要读取的列 但是如何只读取满足特定
  • 强类型定义[重复]

    这个问题在这里已经有答案了 有什么方法可以制作类型的完整副本 以便可以在模板推导上下文中区分它们 举个例子 include
  • 如何在连接表中按条件接收对象

    我有桌子Games and Badges他们通过桌子连接BadgesGames t integer badge id t integer game id t boolean shown default false I have Game对象
  • Xcode - 共享应用程序 - PackageApplication 失败,退出代码 1

    我使用 Xcode 4 1 为我的 iPhone 应用程序创建了一个临时发行版 目标成功构建并生成了一个存档文件 我可以在管理器中看到该文件 然后我单击 共享 这允许我选择 ipa 和我的分发配置文件 但是 在我点击 下一步 后 管理器崩溃
  • Spark:按元组/列中的多个值对 RDD 进行排序

    所以我有一个RDD如下 RDD String Int String 举个例子 b 1 a a 1 b a 0 b a 0 a 最终结果应该类似于 a 0 a a 0 b a 1 b b 1 a 我该怎么做这样的事情 尝试这个 rdd sor
  • Heroku/GoDaddy:将裸域名发送到 www [关闭]

    Closed 这个问题是无关 help closed questions 目前不接受答案 我正在尝试找出如何让我的网站的裸域重定向到 www 域 我正在使用 Heroku 并拥有 GoDaddy 的域名 由于 Heroku 我的 A 记录已
  • 没有http服务器的Socket.IO?

    我目前正在使用 Nodejs 的 Socket IO 在服务器和一些客户端之间共享一些实时信息 客户端应该只与服务器通信 而不是彼此通信 在 Windows 上一切都很好 我可以共享信息 但当它把东西放到 Linux vps 上时 我遇到了
  • “在负可变长度后行中使用 \G 来限制后行回溯多远”的示例

    在很棒的正则表达式模块的 pypi 页面中 https pypi python org pypi regex https pypi python org pypi regex 据说 G 可以 在负可变长度后向中使用 以限制后向回溯的距离 非
  • 如何在有或没有 Pig 的情况下使用 Cassandra 的 Map Reduce?

    有人可以解释 MapReduce 如何与 Cassandra 6 配合使用吗 我已经阅读了字数统计示例 但我不太明白 Cassandra 端与 客户端 端发生的情况 https svn apache org repos asf cassan
  • 创建已包含 Nuget 包参考的 Visual Studio 项目模板?

    我想创建一个 Visual Studio 2010 项目模板 它本质上是一个 ASP net 3 5 Webforms 应用程序 但是 我想自动添加 NuGet 包引用 如果需要 我可以将实际的 nupkg 与模板捆绑在一起 但我想知道是否
  • WordPress:“post_name”的 WP_Query 搜索条件

    我正在使用 WP Query 非常标准 一切都很好 但是 我需要进行一项特定的修改 如果用户在 URL 中输入特定的帖子名称 则搜索将仅返回与该 post name 值匹配的帖子 请参阅下面的代码 其中包含有关特定行不起作用的注释
  • MySQL:启用加载数据本地INFILE

    我在 Ubuntu 12 LTS 上运行 Mysql 5 5 我应该如何在 my cnf 中启用 LOAD DATA LOCAL INFILE 我已经尝试在配置中的各个位置添加 local infile 但我仍然收到 此 MySQL 版本不
  • Windows 窗体:进度栏无响应

    我有一个小应用程序来转换多种文件格式 其中一个主窗口窗体包含几个文本框 按钮等 我有另一个 文档 类 它处理所有实际的转换工作 我的窗体基本上迭代所有文件 并调用适当的 Document 方法来转换文件 然而 当这种情况发生时 表单会停止响
  • 从类访问私有模块变量

    我正在尝试理解 python 作用域规则 为此 我尝试从同一模块中的类访问 非常私有 变量 bar bar bar underscore bar double underscore def foo print bar print bar p
  • Google 地图 - 自动完成和方向 API - 触发下拉列表的 onchange() ?

    我有谷歌地图和两个输入 它们都使用自动完成功能 如下所示 first input autocomplete var input1 document getElementById start var autocomplete1 new goo
  • 给定单词相似度推断句子相似度

    假设我对两个句子中的每对单词都有一个单词相似度得分 那么根据这些分数确定整体句子相似度的好方法是什么 单词分数是使用表示每个单词的向量的余弦相似度来计算的 现在我有了单独的单词分数 将单独的单词分数相加并除以两个句子的总字数来获得两个句子的