未优化前损失函数
以CBOW为例,利用softmax层计算出字典V中每个词的概率,再构建交叉熵损失函数
负采样损失函数
直接对词典里的V个词计算相似度并归一化显然是极其耗时的,为此作者提出了层次Softmax和负采样两种损失层
负采样损失函数: 这个目标函数表面的含义也可以理解为要尽量增大正例的(vc⋅vw)数据对,而尽量降低负例的(vc⋅vw)数据对 词与词之间,若其上下文很相近,则他们本身也很相似
参考文章 参考文章1 参考文章2