word2vector学习笔记（一）

2023-11-09

word2vector学习笔记（一）

最近研究了一下google的开源项目word2vector，http://code.google.com/p/word2vec/。

其实这玩意算是神经网络在文本挖掘的一项成功应用。

本文是看了论文《Distributed Representations of Words and Phrases and their Compositionality》的学习笔记。

论文中，展示了几种原始skip-gram模型的扩展。

频繁词下采样可以加速训练和提高了词频较少的词语的特征表示的精确度。

此外，对NCE做了简单的变化来训练skip-gram模型，对比于此前采用的hierarchical softmax，加速了训练，优化了词频较高的词语的特征表示。

一 Skip-gram模型（传统原始模型）

给定一串待训练的词语：

w1,w2,w3, . . . ,wT

我们的目标是最大化log概率的平均值，如下：

其中，

1 c是训练上下文的大小。比如c是5，我们一次就拿5个连续的词语来训练。C越大，效果越好，但花的时间越多。

2 p(wt+j |wt)是表示w_t条件下出现w_t+j的概率。

基本的skip-gram模型的p(wt+j |wt)公式是用softmax函数：

这个公式是不切实际的，因为W太大了，通常是10⁵–10⁷。

二 Hierarchical Softmax

这种是原始skip-gram模型的变形。

我们假设有这么一棵二叉树，每个叶子节点对应词汇表的词语，一一对应。所以我们可以通过这棵树来找到一条路径来找到某个词语。比如我们可以对词汇表，根据词频，建立一棵huffman树。每个词语都会对应一个huffman编码，huffman编码就反映了这个词语在huffman树的路径。对于每个节点，都会定义孩子节点概率，左节点跟右节点的概率不同的，具体跟输入有关。

我之前知道huffman树就是用来压缩的。没想到用在这里这么神奇。

因此，给定一个词，我们就知道该词的编码，就知道该词在这个树的路径。我们的目的就是使得，给定一个输入（这个输入肯定不是目标词语本身，而是它的上下文），使得该条路径的概率最大。

拿一个具体的例子来分析。

比如，待训练的词组“我爱蓝蓝”。

我们要用“爱”的向量去预测“我”的向量。

输入：爱

预测：我

假设，“我”的huffman编码是：1 1 0 1。

于是，我们就在huffman树上从跟节点沿着往下走，

每次走的时候，我们会根据当前节点和“爱”的向量算出（具体怎么算先不管），走到下一个节点的概率是多少。于是，我们得到一连串的概率，我们的目标就是使得这些概率的连乘值（联合概率）最大。

图示左右节点的概率：

显然，我们计算这个联合概率的复杂度取决了词语在huffman树的路径长度，显然她比W小得多了。另外，由于按词频建立的huffman树，词频高的，huffman编码短，计算起来就比较快。词频高的需要计算概率的次数肯定多，而huffman让高频词计算概率的速度比低频词的快。这也是很犀利的一个设计。

三 Negative Sampling

另一种可以取代hierarchical softmax的是Noise ContrastiveEstimation

Neg是nce的一种简化

相当于换了目标函数。

函数前半部分表示一个正样本，后半部分是若干个负样本。

四 subsampling of Frequent Words

高频词二次抽样

the vector representations of frequent words do not change significantly

after training on several million examples.

经过很多次迭代训练之后，再次更新的时候高频词的向量不应该改变太大。

To counter the imbalance between the rare and frequent words, we used asimple subsampling approach:

each word wi in the training set is discarded with probabilitycomputed by the formula

为了平衡低频词和高频词，使用了一种二次抽样的方法。对于每个词语，如果由以下公式算出的概率少某个值，则丢弃。

其中，t是一个设定的阈值，f是词频。

Learning Phrases

对于某些词语，经常出现在一起的，我们就判定他们是短语。那么如何衡量呢？用以下公式。

输入两个词向量，如果算出的score大于某个阈值时，我们就认定他们是“在一起的”。

为了考虑到更长的短语，我们拿2-4个词语作为训练数据，依次降低阈值。

本文作者：linger

本文链接：http://blog.csdn.net/lingerlanlan/article/details/38048335

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

word2vector学习笔记（一）的相关文章

js利用google翻译接口把网页翻译成各国语言

网页翻译为德语 Translate Page To German a href 网页翻译为德语 Translate Page To German a 网页翻译为西班牙语 Translate Page To Spanish a href a
以一个最简单的例子把OO的JavaScript说明白

OO的JavaScript并不高深麻烦就麻烦在google出来的国人介绍文章经常罗罗嗦嗦而且之间的说法还各有不同摆在一起就让人看了头大这里重拾简单主义以一个最简单的例子把OO Javascript说明白 1 一个颇为精简的例子只
- UnitBox An Advanced Object Detection Network，arxiv 16.08

UnitBox An Advanced Object Detection Network arxiv 16 08 download 该论文提出了一种新的loss function IoU loss 这点比较有意思也容易复现论文分析了fa
吴恩达老师深度学习视频课笔记：逻辑回归公式推导及C++实现

逻辑回归 Logistic Regression 是一个二分分类算法逻辑回归的目标是最小化其预测与训练数据之间的误差为了训练逻辑回归模型中的参数w和b 需要定义一个成本函数 cost function 成本函数 cost functio
yolov5量化部署（基于openvino和tensorrt）

yolov5 openvino量化部署首先下载YOLOv5源码安装YOLOv5和OpenVINO的python依赖 git clone https github com ultralytics yolov5 git pip insta
文本挖掘（四万字总结篇：爬虫 - 文本预处理 - 高频词统计 - 聚类 - 情感分析）

1 爬虫 1 1 爬虫原理这部分内容可以跳过掌握与否对后面内容的阅读影响并不大但有兴趣的话可以看看呐实现一个爬虫一般需要经过两个步骤处理请求和解析源码数据处理请求方面我们可以使用Python程序自动发送请求然后根据返回的
如何修复“C 扩展未加载，训练速度会很慢”的问题。安装 C 编译器并重新安装 gensim 以进行快速训练。

我正在使用库 node2vec 它基于 gensim word2vec 模型来对嵌入空间中的节点进行编码但是当我想要适应 word2vec 对象时我收到此警告 C Users lenovo Anaconda3 lib site pack
如何加快 Gensim Word2vec 模型加载时间？

我正在构建一个聊天机器人因此需要使用 Word2Vec 对用户的输入进行矢量化我正在使用 Google 提供的包含 300 万个单词的预训练模型 GoogleNews vectors male300 所以我使用 Gensim 加载模型
Wor2vec 微调

我需要微调我的 word2vec 模型我有两个数据集 data1 and data2 到目前为止我所做的是 model gensim models Word2Vec data1 size size v window size w min
pthread_create返回值错误码11 (EAGAIN)或libgomp: Thread creation failed: Resource temporarily unavailable错误

在主机上开发torch xla时使用非root用户在conda环境遇到tensorflow中报pthread create 11错误大意为系统资源不足解决方案分析此主机多用户使用资源占用非常大且大多数情况下在docker容器
加权词嵌入是什么意思？

In the paper http www aclweb org anthology S17 2100我正在努力实施它说在这项工作中使用三种类型的文本对推文进行建模表示第一个是词袋模型权重为 tf idf 词频逆文档频率部分
TensorFlow 嵌入查找

我正在尝试学习如何使用 TensorFlow 构建用于语音识别的 RNN 首先我想尝试 TensorFlow 页面上提供的一些示例模型TF RNN https www tensorflow org versions master tuto
word2vec - KeyError：“单词 X 不在词汇表中”

使用Word2Vec模块的实现gensim为了为我在纯文本文件中拥有的句子构建单词嵌入尽管这个词happy在词汇表中定义得到错误KeyError word happy not in vocabulary 尝试将给出的答案应用到类似的问题
如何从句子中标记的 word2vec 中获取句子的向量

我已经使用 word2vec 从大型文档中生成了标记列表的向量给定一个句子是否可以从句子中标记的向量得到该句子的向量有不同的方法来获取句子向量 Doc2Vec 您可以使用 Doc2Vec 训练数据集然后使用句子向量 Word2Vec
错误：“utf8”编解码器无法解码位置 0 中的字节 0x80：起始字节无效

我正在尝试执行以下操作Kaggle作业 https www kaggle com c word2vec nlp tutorial 我正在使用 gensim 包来使用 word2vec 我能够创建模型并将其存储到磁盘但是当我尝试加载文件时
使用 word2vec 的二元组向量表示

我想使用 word2vec 工具构建文档的词嵌入我知道如何找到与单个单词一元组相对应的向量嵌入现在我想找到二元组的向量是否可以使用 word2vec 构建二元词嵌入如果是怎么办以下代码片段将为您提供二元组的向量表示请注意
运行需要 gensim 旧版本的模型

我需要运行一个模型但它需要具有 DocvecsArray 属性的旧版本 gensim 我该如何运行它 AttributeError 无法在 The DocvecsArray该类已被 2018 年 2 月发布的 Gensim 3 3 0 删
什么是 doc2vec 训练迭代？

我是 doc2vec 的新手我最初试图理解 doc2vec 下面提到的是我使用 Gensim 的代码正如我想要的那样我得到了两个文档的训练模型和文档向量但是我想知道在几个时期重新训练模型的好处以及如何在 Gensim 中做到这一点
在 Spark 中加载 Word2Vec 模型

是否可以加载预训练二进制模型来 Spark 使用 scala 我尝试加载由谷歌生成的二进制模型之一如下所示 import org apache spark mllib feature Word2Vec Word2VecModel va
word2vec gensim 多种语言

这个问题完全超出了我的想象我正在使用 gensim 训练 Word2Vec 模型我提供了多种语言的数据即英语和印地语当我试图找到最接近人的词时我得到的是 model wv most similar positive man O

随机推荐

数据库索引

多数数据库使用 B 树 Balance Tree 的结构来保存索引 B 树最上层节点根节点最下层节点叶子节点两者之间的节点中间节点 B 树显著特征从根节点到各个叶子节点的距离都是相等的如此检索任何值时都经过相同数目
详解map、set、multimap、multiset的使用

作者阿润菜菜专栏 C 目录前言 set multiset的使用 1 set 2 multiset 3 什么时候应该使用multiset而不是set map multimap的使用 1 map 2 multimap 3 什么时候应该使用
手把手教你创建的私人git仓库(Linux CentOS7 )

手把手教你创建的私人git仓库 Linux CentOS7 安装git yes yum install git core 配置用户名和邮箱此处以 lrq lrq email com 为例 git config global user na
js 实现rgb和十六进制的代码转化

十六进制转化为RGB function set16ToRgb str 十六进制颜色代码的正则表达式 var reg 0 9A Fa f 3 0 9A Fa f 6 test 检测str是否匹配十六进制颜色的模式 if reg test st
python爬取英雄联盟所有皮肤

import jsonpath import requests import json import os import time 程序开始时间 start time time from tqdm import tqdm from time
chrome应用商店打不开，怎么下载vue-devtools并安装呢？

相信很多朋友曾经像我一样安装vue devtools时总会从各种渠道最后综合转到chrome应用商店的网址而国内chrome网页是打不开的肿么办一下载 1 本地建立文件夹自由命名比如我的为了区分自己的和网上下载的起名为vue
TypeScript 基础类型 —— void

声明为 void 类型表示没有任何类型当一个函数没有返回值时通常其返回值会声明为 void 类型 function gretter void console log 123 编译成js function gretter console
使用Python实现K均值聚类算法

使用Python实现K均值聚类算法 K均值聚类算法是一种经典的无监督学习算法它将数据集分为K个簇每个簇中的数据点与同一簇中心点的距离最小不同簇的数据点之间的距离较大该算法常用于数据挖掘图像处理等领域以下是其优缺点和Python实
Electron+Vue入门（二）vue-cli3.0+electron项目初始化

第一步用vue cli3 0创建一个项目打开命令行工具 vue create demo 选择默认安装完成第二步安装vue cli plugin electron builder 进入项目 cd demo 进入vue项目管理器 vu
怎么样理解同步清零和异步清零？

DA专业论坛通用设计求助大家是怎么样理解同步清零和异步清零的查看完整版本求助大家是怎么样理解同步清零和异步清零的 mxflying 2005 4 20 03 45 求助大家是怎么样理解同步清零和异步清零的本人对同步
ROS-kinetic中Gazebo中的机械臂仿真报错解决

1 警告其实是错误但也要解决 WARN 1682069601 434351 0 000000 Controller Spawner couldn t find the expected controller manager ROS in
有哪些因素影响服务器的访问速度

在网络环境下根据服务器提供的服务类型不同分为文件服务器数据库服务器应用程序服务器 WEB服务器等一些对服务器的了解不够深入的朋友会认为服务器的配置越高服务器的访问速度就会越快这句话有一定的道理但是服务器的配置高低只是影响服
计算机视觉项目实战-图像特征检测harris、sift、特征匹配

欢迎来到本博客本次博客内容将继续讲解关于OpenCV的相关知识作者简介目前计算机研究生在读主要研究方向是人工智能和群智能算法方向目前熟悉python网页爬虫机器学习计算机视觉 OpenCV 群智能算法然后正在学习深度学习的相
android中下拉菜单的制作（详解）

在我们的android中下拉菜单的制作有两种的方法 1 一种的方式就是通过我们的布局文件的方法制作 2 第二种方式就是通过我们的java代码的方式制作第一种方式
deepin 20.2版本亮度调节问题暂时解决方案

可在设置 gt 键盘和语言 gt 快捷键中设置自己需要的快捷键建议alt 1和alt 2这两个与现有快捷键没有冲突使用原来的快捷键会提示冲突如果覆盖了设置可能会使原来的快捷键失效分别添加下面的命令降低亮度 echo your
Anaconda 换源与更新

参考 Windows下Anaconda安装换源与更新里面很详细介绍了 conda 的更新与 Anaconda 的更新
Node.js入门笔记（一）——环境问题和版本号问题

Node js入门笔记一 1 node js的版本管理工具 nvm 2 npm全局安装和局部安装 3 开发环境安装与生产环境安装 4 其他常用的npm语法 5 版本号里面的讲究 6 npm上传包其实就是寒假比较无聊搭了这个自己的博客网站
Visual Studio+VAssistX自动添加注释

1 增加函数头注释右击函数名然后依次点击 Refacto gt Document Method 这个时候函数头注释就会蹦出来不过这个注释的格式是默认的想修改注释格式可以通过以下方法点击 VAssistX gt Visual VA
IE下载文件时，中文文件名乱码问题

经排查 Content Disposition中的filename进行了两次URL转码以汉字漫为例第一次转码漫变为 E6 BC AB 第二次转码 E6 BC AB变为 25E6 25BC 25AB 第二次转码时因为是特殊字符所以
word2vector学习笔记（一）

word2vector学习笔记一最近研究了一下google的开源项目word2vector http code google com p word2vec 其实这玩意算是神经网络在文本挖掘的一项成功应用本文是看了论文 Distribu

word2vector学习笔记（一）

word2vector学习笔记（一） 的相关文章

随机推荐

热门标签

word2vector学习笔记（一）的相关文章