【精读系列】GloVe: Global Vectors for Word Representation

2023-11-15

本论文介绍了一种基于计数统计的词向量学习方法 GloVe，作者实验说明效果优于 Word2Vec 模型。
阅读完成时间：20221109

一些预备知识或者是常用知识

GloVe 模型属于 count-based method，所谓 count-based method 一般指利用两个词一起出现的次数统计信息；

Word2Vec 模型属于 prediction-based method，一般指神经网络方法，根据一些词预测新词。

word analogy 为词的类比任务，word similarity 为词的相似性任务，Named Entries Recognition 为命名实体识别，这三个任务用于验证词向量的优劣。

word analogy：该任务考察用词向量来推断不同单词间的语义关系，举个直观的例子， ′ k i n g ′ − ′ q u e e n ′ + ′ w o m a n ′ = m a n 'king'-'queen'+'woman'=man ′king′−′queen′+′woman′=man。（The word analogy task consists of questions like, “a is to b as c is to ?”）。任务流程为，对于 a − b + d a-b+d a−b+d 计算出词向量，找到与该词向量最相似的单词（的词向量）作为唯一匹配，只有与给定匹配结果一致才算选择正确。

word similarity：该任务评估两个词向量之间的语义紧密关系和相关性。任务流程为，计算词向量间的余弦值作为相似性分数，计算人工标注好的两两单词的相似度分数与余弦分数之间的斯皮尔曼相关系数（Spearman’s rank correlation coefficient），以评估词向量的优劣。

long tail：长尾分布，少部分的类别占据了大部分样本数量，大部分类别只占据很少的样本。

power-law：幂律分布，图像体现为长尾，与齐夫（Zipf）定律图像类似。

generalized harmonic number：广义调和级数， ∑ n = 1 k 1 n p \sum\limits_{n=1}^k \frac{1}{n^p} n=1∑knp1，有的认为 ∑ n = 1 ∞ 1 n p \sum\limits_{n=1}^∞ \frac{1}{n^p} n=1∑∞np1 也为广义调和级数。

Riemann zeta function：黎曼 ζ \zeta ζ 函数， ζ ( s ) = ∑ n = 1 ∞ 1 n s \zeta(s)=\sum\limits_{n=1}^∞ \frac{1}{n^s} ζ(s)=n=1∑∞ns1 。

Symmetric context：能扩展到目标词左右词的窗口为对称窗口。

Asymmetric context：只扩展到左边的上下文窗口称为非对称窗口。

log-bilinear model：对数双线性模型，简称LBL。

Given the context w 1 : n − 1 w_{1:n−1} w1:n−1, the LBL model first predicts the representation for the next word wn by linearly combining the representations of the context words:
r ^ = ∑ i = 1 n − 1 C i r W i \hat r=\sum_{i=1}^{n-1}C_i r_{W_i} r^=i=1∑n−1CirWi
r w r_w rw is the real-valued vector representing word w w w.

Then the distribution for the next word is computed based on the similarity between the predicted representation and the representations of all words in the vocabulary
P ( w n = w ∣ w 1 : n − 1 ) = exp ⁡ ( r ^ T r w ) ∑ j exp ⁡ ( r ^ T r j ) P(w_n=w\mid w_{1:n-1}) =\frac{\exp(\hat r^Tr_w)}{\sum_j\exp(\hat r^Tr_j)} P(wn=w∣w1:n−1)=∑jexp(r^Trj)exp(r^Trw)

网上对于对数线性函数的定义形式和名称由来都没有很好的解释。

个人收获

state-of-the-art：最先进的。多篇论文都用到了这个词。

outperform：超过。

未知模型：（可以作为学习列表）

① Hyperspace Analogue to Language （HAL）

② COALS Rohde

③ PPMZ 2007

④ HPCA

⑤ vLBL 和 ivLBL

Abstract

提出了一种新的全局log双线性回归模型，这种模型结合了“全局矩阵分解（global matrix factorization）”和“局部上下文窗口（local context window methods）”两类模型的优点。

常见的“全局矩阵分解”模型有，LSA；

常见的“局部上下文窗口”模型有，skip-gram。

Introduction

“全局矩阵分解”优势在于充分利用全局信息，但在处理 analogy task 上效果不佳；而“局部上下文窗口”虽然能很好地处理 analogy task，但是会错过语料库中一些信息的重复性（即重复性也会提供一定的信息）。

Introduction部分内容摘自Related Work。

※ 我认为这优缺点总结的非常笼统。

Related Work

介绍了前人的工作，指出他们存在的一些问题，进而希望引出作者的模型。

Matrix Factorization Methods
Shallow Window-Based Methods

The GloVe Model

虽然现在有许多模型利用单词共现统计信息，但是对于“如何根据统计信息产生意义”，以及“词向量又是如何表示这些意义的”仍然存在问题，或者说仍然存在优化空间。

※ 我认为这或许是一个探索方向，当然不考虑正确性的前提下，这论文也比较早了，说不定这个方向已经有人做了。

GloVe 全称为 Global Vectors，表示模型直接使用全局语料库的统计信息。

GloVe 中的共现矩阵是 word-word 共现矩阵，记为 X X X； X i j X_{ij} Xij 表示单词 i i i 的上下文窗口内单词 j j j 的出现总数（注意窗口会滑动，所以可能存在多个窗口影响 X i j X_{ij} Xij 的值）； X i = ∑ k X i k X_i=\sum_kX_{ik} Xi=∑kXik 表示出现在单词 i i i 上下文窗口的单词总数； P i j = P ( j ∣ i ) = X i j / X i P_{ij}=P(j\mid i)=X_{ij}/X_i Pij=P(j∣i)=Xij/Xi 表示单词 j j j 出现在单词 i i i 上下文窗口中的可能性。

作者采用概率之比，即比率，来度量单词之间的相关性。对于任意一个单词 k k k，如果 P ( k ∣ i ) P ( k ∣ j ) ≫ 1 \frac{P(k\mid i)}{P(k\mid j)} \gg 1 P(k∣j)P(k∣i)≫1，则说明单词 k k k 与单词 i i i （语法或语义）相似；如果 P ( k ∣ i ) P ( k ∣ j ) ≪ 1 \frac{P(k\mid i)}{P(k\mid j)} \ll 1 P(k∣j)P(k∣i)≪1，则说明单词 k k k 与单词 j j j （语法或语义）相似；如果接近 q q q，则说明单词 k k k 与单词 i i i、 j j j 均不相似。相比于直接使用概率作为从共现矩阵中获取的信息，采用比率学习词向量的可解释性更强。

作者的简单对比。

i i i 代表 i c e ice ice， j j j 代表 s t e a m steam steam。这两个词的关系可以通过他们与某个词 k k k 的共现概率之比得到。例如， k k k 是某个和 i c e ice ice 相关但是和 s t e a m steam steam 无关的词，比如 k = s o l i d k=solid k=solid，那么 P i k P j k P_{ik}\over P_{jk} PjkPik 将会很大；而当 k k k 和 s t e a m steam steam 相关但是和 i c e ice ice 无关时，比如 k = g a s k=gas k=gas 这个比值将会很小。还有 k k k 和两个词相关（ k = w a t e r k=water k=water）或者和两个词不相关（ k = f a s h i o n k=fashion k=fashion），这个比值将接近于 1 1 1。

比率 P i k P j k P_{ik}\over P_{jk} PjkPik 依赖于单词 i i i、 j j j 和 k k k，关系可表示为
F ( w i , w j , w ~ k ) = P i k P j k (1) F(w_i,w_j,\tilde w_k) = \frac{P_{ik}}{P_{jk}}\tag{1}

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)