【精读系列】GloVe: Global Vectors for Word Representation

2023-11-15

本论文介绍了一种基于计数统计的词向量学习方法 GloVe,作者实验说明效果优于 Word2Vec 模型。
阅读完成时间:20221109

一些预备知识或者是常用知识

GloVe 模型属于 count-based method,所谓 count-based method 一般指利用两个词一起出现的次数统计信息;

Word2Vec 模型属于 prediction-based method,一般指神经网络方法,根据一些词预测新词。



word analogy 为词的类比任务,word similarity 为词的相似性任务,Named Entries Recognition 为命名实体识别,这三个任务用于验证词向量的优劣

word analogy:该任务考察用词向量来推断不同单词间的语义关系,举个直观的例子, ′ k i n g ′ − ′ q u e e n ′ + ′ w o m a n ′ = m a n 'king'-'queen'+'woman'=man kingqueen+woman=man。(The word analogy task consists of questions like, “a is to b as c is to ?”)。任务流程为,对于 a − b + d a-b+d ab+d 计算出词向量,找到与该词向量最相似的单词(的词向量)作为唯一匹配,只有与给定匹配结果一致才算选择正确。

word similarity:该任务评估两个词向量之间的语义紧密关系和相关性。任务流程为,计算词向量间的余弦值作为相似性分数,计算人工标注好的两两单词的相似度分数与余弦分数之间的斯皮尔曼相关系数(Spearman’s rank correlation coefficient),以评估词向量的优劣。



long tail:长尾分布,少部分的类别占据了大部分样本数量,大部分类别只占据很少的样本。

power-law:幂律分布,图像体现为长尾,与齐夫(Zipf)定律图像类似。

generalized harmonic number:广义调和级数, ∑ n = 1 k 1 n p \sum\limits_{n=1}^k \frac{1}{n^p} n=1knp1,有的认为 ∑ n = 1 ∞ 1 n p \sum\limits_{n=1}^∞ \frac{1}{n^p} n=1np1 也为广义调和级数。

Riemann zeta function:黎曼 ζ \zeta ζ 函数, ζ ( s ) = ∑ n = 1 ∞ 1 n s \zeta(s)=\sum\limits_{n=1}^∞ \frac{1}{n^s} ζ(s)=n=1ns1



Symmetric context:能扩展到目标词左右词的窗口为对称窗口。

Asymmetric context:只扩展到左边的上下文窗口称为非对称窗口。



log-bilinear model:对数双线性模型,简称LBL。

Given the context w 1 : n − 1 w_{1:n−1} w1:n1, the LBL model first predicts the representation for the next word wn by linearly combining the representations of the context words:
r ^ = ∑ i = 1 n − 1 C i r W i \hat r=\sum_{i=1}^{n-1}C_i r_{W_i} r^=i=1n1CirWi
r w r_w rw is the real-valued vector representing word w w w.

Then the distribution for the next word is computed based on the similarity between the predicted representation and the representations of all words in the vocabulary
P ( w n = w ∣ w 1 : n − 1 ) = exp ⁡ ( r ^ T r w ) ∑ j exp ⁡ ( r ^ T r j ) P(w_n=w\mid w_{1:n-1}) =\frac{\exp(\hat r^Tr_w)}{\sum_j\exp(\hat r^Tr_j)} P(wn=ww1:n1)=jexp(r^Trj)exp(r^Trw)

网上对于对数线性函数的定义形式和名称由来都没有很好的解释。

个人收获

state-of-the-art:最先进的。多篇论文都用到了这个词。

outperform:超过。



未知模型:(可以作为学习列表)

① Hyperspace Analogue to Language (HAL)

② COALS Rohde

③ PPMZ 2007

④ HPCA

⑤ vLBL 和 ivLBL


Abstract

提出了一种新的全局log双线性回归模型,这种模型结合了“全局矩阵分解(global matrix factorization)”和“局部上下文窗口(local context window methods)”两类模型的优点。

常见的“全局矩阵分解”模型有,LSA;

常见的“局部上下文窗口”模型有,skip-gram。

Introduction

“全局矩阵分解”优势在于充分利用全局信息,但在处理 analogy task 上效果不佳;而“局部上下文窗口”虽然能很好地处理 analogy task,但是会错过语料库中一些信息的重复性(即重复性也会提供一定的信息)。

Introduction部分内容摘自Related Work。

※ 我认为这优缺点总结的非常笼统。

Related Work

介绍了前人的工作,指出他们存在的一些问题,进而希望引出作者的模型。

  1. Matrix Factorization Methods
  2. Shallow Window-Based Methods

The GloVe Model

虽然现在有许多模型利用单词共现统计信息,但是对于“如何根据统计信息产生意义”,以及“词向量又是如何表示这些意义的”仍然存在问题,或者说仍然存在优化空间。

※ 我认为这或许是一个探索方向,当然不考虑正确性的前提下,这论文也比较早了,说不定这个方向已经有人做了。

GloVe 全称为 Global Vectors,表示模型直接使用全局语料库的统计信息。

GloVe 中的共现矩阵是 word-word 共现矩阵,记为 X X X X i j X_{ij} Xij 表示单词 i i i 的上下文窗口内单词 j j j 的出现总数(注意窗口会滑动,所以可能存在多个窗口影响 X i j X_{ij} Xij 的值); X i = ∑ k X i k X_i=\sum_kX_{ik} Xi=kXik 表示出现在单词 i i i 上下文窗口的单词总数; P i j = P ( j ∣ i ) = X i j / X i P_{ij}=P(j\mid i)=X_{ij}/X_i Pij=P(ji)=Xij/Xi 表示单词 j j j 出现在单词 i i i 上下文窗口中的可能性。

作者采用概率之比,即比率,来度量单词之间的相关性。对于任意一个单词 k k k,如果 P ( k ∣ i ) P ( k ∣ j ) ≫ 1 \frac{P(k\mid i)}{P(k\mid j)} \gg 1 P(kj)P(ki)1,则说明单词 k k k 与单词 i i i (语法或语义)相似;如果 P ( k ∣ i ) P ( k ∣ j ) ≪ 1 \frac{P(k\mid i)}{P(k\mid j)} \ll 1 P(kj)P(ki)1,则说明单词 k k k 与单词 j j j (语法或语义)相似;如果接近 q q q,则说明单词 k k k 与单词 i i i j j j 均不相似。相比于直接使用概率作为从共现矩阵中获取的信息,采用比率学习词向量的可解释性更强。

作者的简单对比。

i i i 代表 i c e ice ice j j j 代表 s t e a m steam steam。这两个词的关系可以通过他们与某个词 k k k 的共现概率之比得到。例如, k k k 是某个和 i c e ice ice 相关但是和 s t e a m steam steam 无关的词,比如 k = s o l i d k=solid k=solid,那么 P i k P j k P_{ik}\over P_{jk} PjkPik 将会很大;而当 k k k s t e a m steam steam 相关但是和 i c e ice ice 无关时,比如 k = g a s k=gas k=gas 这个比值将会很小。还有 k k k 和两个词相关( k = w a t e r k=water k=water) 或者和两个词不相关( k = f a s h i o n k=fashion k=fashion),这个比值将接近于 1 1 1

比率 P i k P j k P_{ik}\over P_{jk} PjkPik 依赖于单词 i i i j j j k k k,关系可表示为
F ( w i , w j , w ~ k ) = P i k P j k (1) F(w_i,w_j,\tilde w_k) = \frac{P_{ik}}{P_{jk}}\tag{1}

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

【精读系列】GloVe: Global Vectors for Word Representation 的相关文章

随机推荐

  • 前端第三方组件库官网

    前端第三方组件库官网 Vant Weapp 官网 https vant contrib gitee io vant weapp home Vant ui 官网 https vant contrib gitee io vant zh CN r
  • 面试官问你为什么离开上一家公司该怎么回答?

    相关文章 程序员面试必问 你为什么要离开上一家公司 你会怎么回答 面试官问你为什么离开上一家公司该怎么回答 是否被HR问过 你为什么离开上一家公司 总结 没有晋升空间 想找一个更大的舞台 上家公司的工作量不饱和 团队气氛不足 我是一个习惯加
  • 在VS2010进行MFC编程设置字符集的问题(使用多字节字符集引起错误)

    1 error C2664 WideCharToMultiByte 不能将参数 3 从 CString 转换为 LPC WSTR 参数3是m edit 2 error C2039 GetWindowTextW 不是 CComboBox 的成
  • moviepy音视频开发:音频剪辑基类AudioClip

    前往老猿Python博文目录 一 背景知识介绍 1 1 声音三要素 音调 人耳对声音高低的感觉称为音调 也叫音频 音调主要与声波的频率有关 声波的频率高 则音调也高 音量 也就是响度 人耳对声音强弱的主观感觉称为响度 响度和声波振动的幅度有
  • 时间序列分析和预测(含实例及代码)

    导论 研究时间序列主要目的 进行预测 根据已有的时间序列数据预测未来的变化 时间序列预测关键 确定已有的时间序列的变化模式 并假定这种模式会延续到未来 时间序列预测法的基本特点 假设事物发展趋势会延伸到未来 预测所依据的数据具有不规则性 不
  • C#窗体调用地图(高德地图)-实现公交线路查询

    C 窗体调用地图 高德地图 实现公交线路查询 新建C 工程 创建Windows窗体应用程序 添加WebBrowser控件 用来显示网地图页 可以把滚动条 ScrollBarsEnabled 设置成false给取消掉 更加的美观方便 使用高德
  • 刷脸支付成为下一个主流我们拭目以待

    智能刷脸支付已成为2019支付生态的风口 对于超市 便利店 企事业单位 停车场 餐厅等所有支付场景 越早加入刷脸支付 将享受越多的风口红利 刷脸支付 智慧医疗 智慧校园 智慧银行 餐饮超市酒店 无感停车场 各场景解决方案 软件定制开发 支付
  • 谷歌面试题解析: 扔鸡蛋的正确方式是什么?

    面试中 为了考察应聘者的思维方式 面试官偶尔会出一些谜题 Puzzles 比如 在谷歌 就有这样一道让人 闻风丧胆 的面试题 You work in a 100 floor building and you get 2 identical
  • 个人网站搭建记录

    个人网站地址 实际需要 云服务器 域名 网站备案 知识储备 node写一些后台接口 express mysql数据库 navicat连接数据库 mysql 常用终端命令行 https www jb51 net article 194140
  • hexo问题及解决

    1 推荐主题 butterfly 的默认 layout 很好 尤其对于内容比较多的 blog 安装方法如下 npm install hexo renderer pug hexo renderer stylus save npm instal
  • QMessageBox、QColorDialog、按钮汉化显示

    QMessageBox QColorDialog 按钮汉化显示 版本 Qt5 9 9 环境 QtCretator MinGW 在Qt源码目录下找到qt zh CN ts复制一份到工程目录 该文件在 G install Qt Qt5 9 9
  • 图像仿射变换shear怎么翻译?剪切、错切、推移哪个译词好?

    老猿Python博文目录 https blog csdn net LaoYuanPython 仿射变换博文传送门 带星号的为付费专栏文章 图像仿射变换原理1 齐次坐标来龙去脉详解 图像仿射变换原理2 矩阵变换 线性变换和图像线性变换矩阵 图
  • 关于CASE WHEN造成的查询缓慢的生产问题思考

    因为做的是类似SAAS的系统 关于同一个业务没会有不同的视角 有管理员 有类别分类的 有特别逻辑处理的 总而言之涉及到很多方面 再加上历史遗留问题导致导致的数据问题 这SQL写起来真的酸爽 除了简单的关联 还要考虑到一个效率问题 最近就因为
  • 搜索引擎的发展历史

    第一代搜索引擎 分类目录时代 分类目录时代的的搜索引擎会收集互联网上各个网站的站名 网址 内容提要等信息 并将它们分门别类的编排到一个网站中 用户可以在分类目录中逐级浏览并寻找相关的网站 搜狐目录 hao123等就是典型的分类目录时代的代表
  • 如何在数据库事务提交成功后进行异步操作

    原文链接 问题 业务场景 业务需求上经常会有一些边缘操作 比如主流程操作A 用户报名课程操作入库 边缘操作B 发送邮件或短信通知 业务要求 操作A操作数据库失败后 事务回滚 那么操作B不能执行 失败后也可以重新进行自调度 操作A执行成功后
  • css3学习以及移动端开发基本概念的思考

    html height 1000px background color red media screen and width 2560px html background color blue 注意 首先必须弄清楚 我们的width hei
  • => js 中箭头函数使用总结

    箭头函数感性认识 箭头函数 是在es6 中添加的一种规范 x gt x x 相当于 function x return x x 箭头函数相当于 匿名函数 简化了函数的定义 语言的发展都是倾向于简洁 对人类友好的 减轻工作量的 就相当于我最钟
  • Zookeeper启动报错~找不到或无法加载主类

    按照之前自己写的博客安装zk 在启动的时候却发现 就是启动不了 百思不得其解 额 唯一的区别就是zk的版本不一样了 最后通过查看启动日志 一般都是在zk的log路径下 查出竟然报了如下的错误 root centos 1 logs tail
  • 博图程序需要手动同步_TIA(博图)S7-1200实战篇:模拟量标定3--SCL语言生成成FC/FB块续...

    往期相关回顾 定义各变量名称传感器量程上限 HI 下限 Lo PLC接收数字量 上限 K1 下限 K2 模拟量输入 AI 然后公式是 AI K2 K1 K2 HI Lo Lo 我们已经知道传感器标定的公式 那又如何在博图SCL语言环境编写程
  • 【精读系列】GloVe: Global Vectors for Word Representation

    本论文介绍了一种基于计数统计的词向量学习方法 GloVe 作者实验说明效果优于 Word2Vec 模型 阅读完成时间 20221109 一些预备知识或者是常用知识 GloVe 模型属于 count based method 所谓 count