基于WMD(词移距离)的句子相似度分析简介

2023-05-16

word2vec

word2vec是只有一个隐层的全连接神经网络,对语料中的所有词汇进行训练并生成相应的词向量(Word Embedding)WI 的大小是VxN, V是单词字典的大小, 每次输入是一个单词, N是设定的隐层大小。word2vec的模型通过一种神经网络语言模型(Neural Network Language Model)
在这里插入图片描述

word2vec详解:http://www.omegaxyz.com/2018/11/13/word2vec/

词袋模型(Bag of Words)

词袋模型(Bag-of-words model)是个在自然语言处理和信息检索(IR)下被简化的表达模型。此模型下,像是句子或是文件这样的文字可以用一个袋子装着这些词的方式表现,这种表现方式不考虑文法以及词的顺序。最近词袋模型也被应用在计算机视觉领域。词袋模型被广泛应用在文件分类,词出现的频率可以用来当作训练分类器的特征。关于”词袋”这个用字的由来可追溯到泽里格·哈里斯于1954年在Distributional Structure的文章。
在这里插入图片描述

连续词袋模型(CBOW)

移除前向反馈神经网络中非线性的hidden layer,直接将中间层的embedding layer与输出层的softmax layer连接;
忽略上下文环境的序列信息:输入的所有词向量均汇总到同一个embedding layer;
将future words纳入上下文环境
例子:苏宁易购/是/国内/著名/的/B2C/电商/之一词移距离(Word Mover’s Distance)

WMD

文档1: Obama speaks to the media in Illinois
文档2: The President greets the press in Chicago
在这里插入图片描述
先去除Stop-words,保留加粗的动词、名词

此时需要有一种约束,将文档1中的每个词,以不同的权重强制地分配到文档2的所有词上去。这就是WMD。
在这里插入图片描述

WMD的优化

现在计算两个文档之间的 WMD 距离,如果用 k-NN来计算距离就非常耗时。如果当前待检查文档跟中心query文档的 WMD 下界已经大到可以确定它不在query 文档的 k-NN 列表里,那就直接扔掉而不用再花时间求当前文档的 WMD 距离了。

Word Centroid Distance(WCD,定义在最后一个等号处,公式中的X是词向量, X是词向量组成的矩阵):
在这里插入图片描述

注意上述公式只需要用绝对值不等式与WMD约束定义计算即可。推导出的公式只需要进行矩阵运算,极大地减少了计算消耗。

RWMD(Relaxed word moving distance )

先去掉一个约束,计算相应的WMD,最终取最大值。

这两个 relax 过的优化问题的解,恰好对应于词向量矩阵的行空间和列空间上的最近邻问题,也是很好算的。最后定义 RWMD 为这两个 relaxed 优化问题的两个目标值中的最大值。

参考资料

Kusner M, Sun Y, Kolkin N, et al. From word embeddings to document distances[C]//International Conference on Machine Learning. 2015: 957-966.

更多内容访问omegaxyz.com
网站所有代码采用Apache 2.0授权
网站文章采用知识共享许可协议BY-NC-SA4.0授权
© 2019 • OmegaXYZ-版权所有 转载请注明出处

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

基于WMD(词移距离)的句子相似度分析简介 的相关文章

  • 混淆矩阵简介与Python实现

    什么是混淆矩阵 混淆矩阵是机器学习中总结分类模型预测结果的情形分析表 xff0c 以矩阵形式将数据集中的记录按照真实的类别与分类模型作出的分类判断两个标准进行汇总 这个名字来源于它可以非常容易的表明多个类别是否有混淆 xff08 也就是一个
  • JAVA CPU占用过高问题排查

    1 查找进程 top查看进程占用资源情况 明显看出java的两个进程22714 xff0c 12406占用过高cpu 2 查找线程 使用top H p lt pid gt 查看线程占用情况 3 查找java的堆栈信息 将线程id转换成十六进
  • 【译】Python3.8官方Logging文档(完整版)

    注 xff1a 文章很长 xff0c 约一万字左右 xff0c 可以先收藏慢慢看哟 01 基础部分 日志是用来的记录程序运行事件的工具 当程序员可以通过添加日志打印的代码来记录程序运行过程中发生的某些事件时 这些事件包含了诸如变量数据在内的
  • C语言银行家算法

    算法简介 银行家算法 xff08 Banker s Algorithm xff09 是一个避免死锁 xff08 Deadlock xff09 的著名算法 xff0c 是由艾兹格 迪杰斯特拉在1965年为T H E系统设计的一种避免死锁产生的
  • 操作系统动态优先级调度算法C语言实现

    动态优先级算法 动态优先数是指在进程创建时先确定一个初始优先数 xff0c 以后在进程运行中随着进程特性的改变不断修改优先数 xff0c 这样 xff0c 由于开始优先数很低而得不到CPU的进程 xff0c 就能因为等待时间的增长而优先数变
  • 软件工程-软件小组的组织形式

    为什么要形成软件小组 大多数软件产品由一个软件专业人员不可能在有限时间内单独完成 因而 xff0c 产品必须分配给一组专业人员 xff0c 形成一个小组 在具体说软件小组的组织形式之前先介绍一下布鲁克斯法则 布鲁克斯法则 布鲁克斯是上世纪6
  • 差分分组的合作协同进化的大规模优化算法详解

    合作协同进化已经引入协同进化算法 xff0c 目的是通过分而治之的范式解决日益复杂的优化问题 理论上 xff0c 协同改 变子成分的想法是十分适合解决大规模优化问题的 然而在实践中 xff0c 没有关于问题的先验知识 xff0c 问题应如何
  • 软件工程内聚详解

    简介 内聚标志一个模块内各个元素彼此结合的紧密程度 xff0c 它是信息隐蔽和局部化概念的自然扩展 内聚是从功能角度来度量模块内的联系 xff0c 一个好的内聚模块应当恰好做一件事 它描述的是模块内的功能联系 内聚和耦合是密切相关的 xff
  • Python使用matplotlib画动态图

    机器学习需要使用python实现相应的算法 xff0c 因此学习了Matplotlib中的画图 更多内容访问omegaxyz com 当然为了能显示机器学习中每次迭代的效果与收敛速度 xff0c 需要画出动态图形 下面给出两个例子 xff0
  • JavaScript模拟终端输出

    利用JavaScript 43 CSS能够模拟出终端输入画面 xff08 类似于Linux终端画面 xff09 当然更好的代码也可以模拟出黑客帝国那样的输出画面 CSS设置 xff1a height auto表示随着输出字数的增加 xff0
  • 机器学习分类与回归

    分类 xff0c 即classification xff1a a process in which you put something into the group or class it belongs to xff0c 这是指将某物放入
  • 边缘计算与嵌入式系统

    文章目录 边缘计算简介 边缘计算的起源 嵌入式系统与边缘计算 3 1 嵌入式系统概述 3 2 嵌入式系统的发展历史 3 3 嵌入式系统应用到边缘计算 3 4 嵌入式硬件的要求 3 5 边缘计算环境下嵌入式系统与人工智能 观点与看法 4 1
  • QQ聊天记录多角度分析Python实现

    简介 有时候我们想看看自己跟另一个人的时长 频率 时间等或者是聊天过程中谁更在乎谁多一点 xff0c 谁是话痨 xff0c 聊天性格怎么样 xff0c 这时就需要一个聊天记录分析的程序 下面的Python代码能够统计聊天记录中的时间 消息次
  • VUE axios 加载中提示封装

    import axios from 39 axios 39 引入axios以及element ui中的loading和message组件 import MessageBox Indicator from 39 mint ui 39 超时时间
  • 百度文库下载器Python实现

    简介 以前可以用学校的企业账户下载文档 xff0c 后来百度文库改版 xff0c 需要买下载券或者会员 因此需要一个百度文库下载器 之前有冰点文库下载器但是后来不好使了 下面给出利用Python写的百度文库下载器 此下载器可以下载doc类型
  • 特征离散化概述

    定义 连续特征离散化是采取各种方法将连续的区间划分为小的区间 xff0c 并将这连续的小区间与离散值关联起来 连续特征离散化的本质是 xff1a 决定选择多少个分割点和确定分割点的位置 背景 连续数据经常采用离散化处理之后再放入模型 离散化
  • 汇编语言辗转相除法求最大公约数

    辗转相除法 xff0c 又名欧几里德算法 xff08 Euclidean algorithm xff09 xff0c 是求最大公约数的一种方法 它的具体做法是 xff1a 用较小数除较大数 xff0c 再用出现的余数 xff08 第一余数
  • JavaScript入门

    什么是JavaScript JavaScript xff0c 也称ECMAScript xff0c 是一种基于对象和事件驱动并具有相对安全性并广泛用于客户端网页开发的脚本语言 xff0c 同时也是一种广泛用于客户端Web开发的脚本语言 Ja
  • 基于互信息的特征选择算法MATLAB实现

    在概率论和信息论中 xff0c 两个随机变量的互信息 xff08 Mutual Information xff0c 简称MI xff09 或转移信息 xff08 transinformation xff09 是变量间相互依赖性的量度 不同于
  • 海明码汇编语言实现

    海明码简介 海明码其性能是检测一位错 xff0c 是在奇偶校验码的思想上发展起来的 xff0c 它在K位数据位中加入r个校验位 xff0c 形成一个K 43 r位的新码字 xff0c 并且将数据的每个二进制位分配到几个不同的奇偶校验组中 这

随机推荐

  • Linux通过Shell进行数学运算

    在Bash shell环境中 xff0c 可以利用let 和 来执行基本的算术操作 而高级的算术操作可以使用expr和bc这两个工具 let let操作 xff1a let命令可以直接执行基本的算术操作 xff0c 当使用let时 xff0
  • HTML常用标签

    简介 文本标记语言 xff0c 即HTML xff08 Hypertext Markup Language xff09 xff0c 是用于描述网页文档的一种标记语言 HTML之所以称为超文本标记语言 xff0c 是因为文本中包含了所谓 超级
  • HTML5与HTML4区别

    什么是html5呢 xff1f html5最先由WHATWG Web 超文本应用技术工作组 命名的一种超文本标记语言 xff0c 随后和W3C的xhtml2 0 标准 相结合 xff0c 产生现在最新一代的超文本标记语言 可以简单点理解成
  • 列向量互信息计算通用MATLAB代码

    互信息的定义 正式地 xff0c 两个离散随机变量 X 和 Y 的互信息可以定义为 xff1a 其中 p x y 是 X 和 Y 的联合概率分布函数 xff0c 而p x 和p y 分别是 X 和 Y 的边缘概率分布函数 其中 p x y
  • 面向初学者的 Python IDE:Thonny,你值得一试

    Thonny xff0c 这个号称为初学者打造的 IDE 体验怎么样 xff1f 简介 Python 的初学者面对的第一个勉强称得上是 IDE 的肯定是自带的 IDLE 了 我还专门写了一篇文章分析过 xff0c 但是这个工具实在有点古老
  • Python3 OpenCV

    OpenCV是一个基于BSD许可 xff08 开源 xff09 发行的跨平台计算机视觉库 xff0c 可以运行在Linux Windows Android和Mac OS操作系统上 它轻量级而且高效 由一系列 C 函数和少量 C 43 43
  • 基于非支配排序的多目标PSO算法

    这一篇是Xue Bing在一区cybernetics发的论文 xff0c 里面提出了两个多目标PSO特征选择算法 xff0c 一个是NSPSO另一个是CMDPSO 其中NSPSO是参考了NSGA2的框架和思想 下面具体说说NSPSO 非支配
  • kmeans聚类选择最优K值python实现

    Kmeans算法中K值的确定是很重要的 下面利用python中sklearn模块进行数据聚类的K值选择 数据集自制数据集 xff0c 格式如下 xff1a 手肘法 手肘法的核心指标是SSE sum of the squared errors
  • 高维(多变量)优化问题的技术与瓶颈

    现实世界中的优化问题往往具有较高的复杂度和维数 xff0c 称为LSGO问题 xff0c 即Large Scale Global Optimization 此问题在各个领域的研究工作中都引起了极大的兴趣 许多科学和工程应用程序被表述为LSG
  • 基于变长PSO的高维特征选择算法(VLPSO)概述

    原文 xff1a http www omegaxyz com 2018 09 16 vlpso 简介 原文 xff1a Variable Length particle swarm optimisation for feature sele
  • JavaWeb-MVC模式概述

    MVC设计模式 MVC模式 xff08 Model View Controller xff09 是软件工程中的一种软件架构模式 xff0c 把软件系统分为三个基本部分 xff1a 模型 xff08 Model xff09 视图 xff08
  • IntelliJ IDEA创建Java-Web项目

    eclipse和idea都能够创建Java web项目 下面介绍使用idea创建Java web项目的步骤 需要准备的东西 intellij idea xff08 包括jdk xff09 Tomcat7 0 43 可选 xff08 如果需要
  • 基于拥挤距离与变异支配的多目标PSO算法

    这一篇是Xue Bing在一区cybernetics发的论文 xff0c 里面提出了两个多目标PSO特征选择算法 xff0c 一个是NSPSO另一个是CMDPSO 其中NSPSO是参考了NSGA2的框架和思想 下面具体说说CMDPSO CM
  • Cohen-Sutherland算法概述

    思想 通过对于任一端点 x y xff0c 根据其坐标所在的区域 xff0c 赋予一个4位的二进制码 xff0c 判断图形元素是否落在裁剪窗口之内并通过求交运算找出其位于内部的部分 编码方式 注意 xff1a l为left xff0c r为
  • 人机交互的形式

    命令行交互 优点 xff1a 专家用户使用命令行能够更加快速地完成任务 较图形界面更加节约系统资源 对用户而言是开放的 xff0c 不存在图形界面中不能动态配置用户可操作选项的问题 键盘操作方式较鼠标操作更加精确 xff0c 对应用的掌控力
  • canvas 报错记录 (一)

    在执行下面代码的时候报错 var can 61 document getElementById 34 can 34 var ctx 61 can getContext ctx content cfillRect 500 500 200 20
  • 进化计算中基于分类的预处理代理模型

    问题提出 代理模型的构造较复杂 xff0c 作者希望构造一个更为简单的廉价 xff08 cheap xff09 的代理模型来评估子集的质量 因此作者提出了一个叫做CPS xff08 classification based preselec
  • Python利用Graphviz画图

    Graphviz的是AT amp T Labs Research开发的图形绘制工具软件 Graphviz的是AT amp T Labs Research开发的图形绘制工具 他可以很方便的用来绘制结构化的图形网络 支持多种格式输出 生成图片的
  • Java-Web项目总结

    使用jetbrain的idea创建Java Web项目 链接地址 xff1a http www omegaxyz com 2018 10 04 intellij idea java web Java MVC模式概述 链接地址 xff1a h
  • 基于WMD(词移距离)的句子相似度分析简介

    word2vec word2vec是只有一个隐层的全连接神经网络 对语料中的所有词汇进行训练并生成相应的词向量 xff08 Word Embedding xff09 WI 的大小是VxN V是单词字典的大小 每次输入是一个单词 N是设定的隐