CBOW 与Skip-gram：为什么要颠倒上下文和目标词？

2024-03-09

In this https://www.tensorflow.org/versions/r0.9/tutorials/word2vec/index.html#vector-representations-of-words页面上，据说：

[...]skip-gram 反转上下文和目标，并尝试根据目标单词预测每个上下文单词 [...]

然而，查看它生成的训练数据集，X 和 Y 对的内容似乎是可以互换的，因为这两对 (X, Y)：

(quick, brown), (brown, quick)

那么，如果上下文和目标最终是同一件事，为什么要区分那么多呢？

另外，做Udacity 的 word2vec 深度学习课程练习 https://github.com/tensorflow/tensorflow/blob/master/tensorflow/examples/udacity/5_word2vec.ipynb，我想知道为什么他们似乎在这个问题上对这两种方法做出了如此大的区别：

Skip-gram 的替代方案是另一种 Word2Vec 模型，称为 CBOW（连续词袋）。在 CBOW 模型中，您不是根据单词向量预测上下文单词，而是根据上下文中所有单词向量的总和来预测单词。实现并评估在 text8 数据集上训练的 CBOW 模型。

这不会产生相同的结果吗？

这是我对差异的过于简单化和幼稚的理解：

据我们所知，CBOW正在学习根据上下文预测单词。或者通过查看上下文来最大化目标词的概率。而这恰好是生僻字的问题。例如，给定上下文yesterday was a really [...] dayCBOW 模型会告诉您最有可能的词是beautiful or nice。这样的词delightful模型会受到更少的关注，因为它旨在预测最可能的单词。该单词将在许多具有更频繁单词的示例中进行平滑处理。

另一方面，跳语法模型旨在预测上下文。鉴于这个词delightful它必须理解它并告诉我们上下文很有可能是yesterday was really [...] day，或其他一些相关的上下文。和跳语法这个单词delightful不会试图与这个词竞争beautiful但反而，delightful+context对将被视为新的观察结果。

UPDATE

感谢@0xF的分享本文 https://www.quora.com/What-are-the-continuous-bag-of-words-and-skip-gram-architectures

根据米科洛夫的说法

跳克：适用于少量训练数据，甚至可以很好地表示罕见的单词或短语。

CBOW:训练速度比skip-gram快几倍，频繁词的准确率略高

发现该主题的另一项补充here https://groups.google.com/d/msg/word2vec-toolkit/LNPeC5gyhmQ/p8683JkD6LoJ:

在“skip-gram”模式中替代“CBOW”，而不是平均上下文单词，每个都用作成对训练示例。那是，代替一个 CBOW 示例，例如 [predict 'ate' from Average('The', 'cat', 'the', 'mouse')]，网络呈现为四个skip-gram示例[从“The”预测“ate”]，[预测“ate” 从“猫”]，[从“the”预测“ate”]，[从“mouse”预测“ate”]。（同样的随机窗口缩小发生，所以一半的时间会只是两个最接近的单词的例子。）

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

CBOW 与Skip-gram：为什么要颠倒上下文和目标词？的相关文章

将预训练的手套词嵌入与 scikit-learn 结合使用

我已经使用 keras 来使用预先训练的词嵌入但我不太确定如何在 scikit learn 模型上执行此操作我也需要在 sklearn 中执行此操作因为我正在使用vecstack集成 keras 序列模型和 sklearn 模型这就
TensorFlow：在输入处获取梯度时性能缓慢

我正在使用 TensorFlow 构建一个简单的多层感知器并且我还需要获取神经网络输入损失的梯度或误差信号这是我的代码它有效 cost tf reduce mean tf nn softmax cross entropy with
如何组织循环神经网络？

我想模拟以下内容 y t F x t 1 x t 2 x t k 或者说一个函数其当前输出取决于最后 k 个输入 1 我知道一种方法是使用一个经典的神经网络其中 k 个输入为 x t 1 x t 2 x t k 对于每个y t 并训练它
Keras 通过设置种子获得不同的结果[重复]

这个问题在这里已经有答案了在keras中每次运行都有很高的方差和不稳定的性能为了解决这个问题根据https keras io getting started faq how can i obtain reproducible res
用于分布式计算的 Tensorflow 设置

任何人都可以提供有关如何设置张量流以在网络上的许多CPU上工作的指导吗到目前为止我发现的所有示例最多只使用一个本地盒子和多个 GPU 我发现我可以在 session opts 中传递目标列表但我不确定如何在每个盒子上设置张量流来侦听网
Native TF 与 Keras TF 性能比较

我使用本机和后端张量流创建了完全相同的网络但在使用多个不同参数进行了多个小时的测试后仍然无法弄清楚为什么 keras 优于本机张量流并产生更好稍微但更好的结果 Keras 是否实现了不同的权重初始化方法或者执行除 tf train
错误：tensorflow：无法匹配检查点的文件

我正在训练一个张量流模型在每个时期之后我都会保存模型状态并腌制一些数组到目前为止我的模型执行了 2 个纪元并且保存状态的文件夹包含以下文件 checkpoint model e knihy preprocessed txt e0 c
如何提取句子中的主语及其各自的从属短语？

我正在尝试在句子中进行主题提取以便我能够根据主题获得情感我在用nltk在 python2 7 中用于此目的以下面的句子为例 Donald Trump is the worst president of USA but Hillary
如何在R中使用OpenNLP获取POS标签？

这是 R 代码 library NLP library openNLP tagPOS lt function x s lt as String x word token annotator lt Maxent Word Token Anno
Keras ImageDataGenerator 相当于 csv 文件

我在文件夹中排序了一堆数据如下图所示我需要构建一个 DataIterator 以便将数据放入神经网络模型中当数据是图像时我找到了很多例子来解决这个问题使用 Keras 类图像数据生成器及其方法流自目录但当数据是 csv 结构时则
在 keras 中集成采样的 softmax 失败

基于如何在 Keras 模型中使用 TensorFlow 的采样 softmax 损失函数 https stackoverflow com questions 47892380 how can i use tensorflows sampl
张量流和线程

下面是来自 Tensorflow 网站的简单 mnist 教程即单层 softmax 我尝试通过多线程训练步骤对其进行扩展 from tensorflow examples tutorials mnist import input dat
caffe reshape / 上采样全连接层

假设我们有一个像这样的层 layer name fully connected type InnerProduct bottom bottom top top inner product param num output 1 输出是batc
对于只有 10000 个单词的字典来说，真正需要什么嵌入层 output_dim？

我正在训练一个 RNN 其单词特征集非常少大约 10 000 个我计划在添加 RNN 之前从嵌入层开始但我不清楚真正需要什么维度我知道我可以尝试不同的值 32 64 等但我宁愿先有一些直觉例如如果我使用 32 维嵌入向量则每
ValueError：请使用“Layer”实例初始化“TimeDistributed”层

我正在尝试构建一个可以在音频和视频样本上进行训练的模型但出现此错误ValueError Please initialize TimeDistributed layer with a Layer instance You passed Te
无法加载动态库“libcudart.so.11.0”；

我尝试将 Tensorflow 2 7 0 与 GPU 结合使用但我不断遇到同样的问题 2022 02 03 08 32 31 822484 W tensorflow stream executor platform default ds
阻止 TensorFlow 访问 GPU？ [复制]

这个问题在这里已经有答案了有没有一种方法可以纯粹在CPU上运行TensorFlow 我机器上的所有内存都被运行 TensorFlow 的单独进程占用我尝试将 per process memory fraction 设置为 0 但未成功
TensorFlow：在训练时更改变量

如果我将输入管道从 feed dict 更改为 tf data dataset 如何在每次迭代后的训练期间更改网络内参数的值澄清一下旧代码看起来像这样 Define Training Step model is some class t
张量流服务错误：参数无效：JSON 对象：没有命名输入

我正在尝试使用 Amazon Sagemaker 训练模型并且希望使用 Tensorflow 服务来为其提供服务为了实现这一目标我将模型下载到 Tensorflow 服务 docker 并尝试从那里提供服务 Sagemaker 的训练
使用大数据集在 Google Colab TPU 上训练 seq2seq 模型 - Keras

我正在尝试使用 Google Colab TPU 上的 Keras 训练用于机器翻译的序列到序列模型我有一个可以加载到内存中的数据集但我必须对其进行预处理才能将其提供给模型特别是我需要将目标单词转换为一个热向量并且在许多示例中我

随机推荐

为什么自定义类型接受 Python 中的临时属性（而内置类型不接受）？

我想知道为什么人们能够为自定义类型的实例创建一个新属性新意味着先前未在类主体中定义但无法为内置类型执行相同的操作在类型上比如object本身代码示例 gt gt gt class SomeClass object pass gt
Python导入模块错误

我在项目中导入模块时遇到问题我正在创建测试但无法从测试文件导入我的 main 来测试应用程序的一个端点teste ex py 这是我的项目结构 backend api api init py main py testes init py
如何在django模板中使用生成器方法？

我想在 django 模板中使用 python 生成器可以吗例如我有模型它包含生成器对象如下所示 class TestMe models Model property def gen self yield 1 yield 2 上下
Pycharm不显示数据库表

更新PyCharm 版本2017 1 后 PyCharm不显示sqlite3数据库表不再存在我已经测试了连接并且可以正常工作 In sqlite客户端我可以列出所有表并进行查询其他人也遇到这个问题吗在这种情况下无论如何都能解决吗我使
为 Clojure 协议提供多种实现

我有一个公开常见数据相关函数的命名空间 get images insert user 然后我有两个具有相同功能并以不同方式实现它们的数据库后端他们按原样实现接口每个后端都包含在一个命名空间中我似乎无法找到如何完成此任务的良好解决方案
Java 项目中服务器和客户端包的共享资源

我有一个 Java 项目其中包含服务器包和客户端包另外我还有一个图书馆包我使用 eclipse 并将所有内容放入一个 Java 项目中每个部分服务器客户端和库都位于单独的包中问题是当我导出时所有内容都会添加到 Jar 文件中
如何在 Azure Key Vault 中序列化和反序列化 PFX 证书？

我有一堆字符串和 pfx 证书我想将它们存储在 Azure Key Vault 中只有允许的用户应用程序才能获取它们将字符串存储为 Secret 并不难但是如何以可以检索它并反序列化为证书的方式序列化证书 X509证书2 http
Pandas：连接数据帧并保留重复索引

我有两个数据框我想将它们按列 axis 1 与内部联接连接起来其中一个数据帧有一些重复的索引但行不重复我不想丢失其中的数据 df1 pd DataFrame a 1 b 2 a 1 b 3 a 2 b 4 columns a b s
Laravel - 计算目录的总大小？

我试图获取 Laravel 中 directory 的总大小到目前为止我只能使用 size 函数获取单个文件的大小好像没有这方面的例子或者文档任何对此的意见将不胜感激谢谢我认为你不能 Laravel 5 用途飞行系统 http f
如何将负数转换为正数？

如何在Python中将负数转换为正数并保持积极的态度 gt gt gt n 42 gt gt gt n if you know n is negative 42 gt gt gt abs n for any n 42 不要忘记检查docs
如何将枚举类型变量转换为字符串？

如何使 printf 显示枚举类型变量的值例如 typedef enum Linux Apple Windows OS type OS type myOS Linux 我需要的是类似的东西 printenum OS type My OS
CSS 弹跳线加载动画

我正在尝试创建一个简单的加载动画来回绘制一条线但目前仅朝一个方向移动一旦到达动画的中间它就不会以相反的方向动画这是我的CSS keyframes loader animation 0 width 0 49 width 100 50
在TabLayout设计支持库中无法看到Tab Indicator

我正在使用材料设计库并使用创建布局CoordinatorLayout 应用栏布局 RecyclerView and TabLayout 我的问题是我无法看到选项卡指示器Tablayout 下面是我正在使用的 xml 文件AppCompact
错误的snakemake glob_wilcards 和 wildcard_constraints

在我的 Snakemake 管道中我试图检索正确的通配符我研究过 wildcard constraints 和这个帖子 https stackoverflow com questions 66882849 snakemake how t
使用 jersey 和 grizzly 启用 JSON

我正在玩 Grizzly 托管的 Jersey 并且希望能够使用和生成 JSON 但是我在 get 请求中从服务器收到 500 并且 POST 中不支持媒体类型我的服务器代码是 org glassfish jersey server Re
Safari 9.0无法播放存储服务器上的mp4视频

以下视频链接无法用safari 9 0 最新版本播放但老版本的 safari chrome 和 firefox 都可以玩 http assets00 grou ps 0F2E3C wysiwyg files Videos saksuka
执行迁移时 Npgsql 找不到 NpgsqlException

当我做一个update database我得到的数据库发生错误 System Runtime Serialization SerializationException 类型不是已解决成员 Npgsql NpgsqlException Np
Holo 主题可以与自定义标题栏一起使用吗？

我有一个应用程序它使用以下样式为应用程序主题绘制自定义标题栏这并没有给我全息主题所以我将其设置为parent android style Theme Holo 这会使应用程序崩溃并出现以下错误 E AndroidRuntime 204
使用 CAMediaTimingFunction 计算时间 (t) 处的值

在Cocoa Touch中 CAMediaTimingFunction代表四个控制点它们指定定时函数的三次贝塞尔曲线对于我正在编写的应用程序我希望能够在任意时间 t 0 gt 1 提取所述贝塞尔曲线的结果让我困惑的是当我查找如何d
CBOW 与Skip-gram：为什么要颠倒上下文和目标词？

In this https www tensorflow org versions r0 9 tutorials word2vec index html vector representations of words页面上据说 skip

CBOW 与Skip-gram：为什么要颠倒上下文和目标词？

CBOW 与Skip-gram：为什么要颠倒上下文和目标词？ 的相关文章

随机推荐

热门标签

CBOW 与Skip-gram：为什么要颠倒上下文和目标词？的相关文章