word2vec中单词的向量代表什么?

2024-04-20

word2vec https://code.google.com/p/word2vec/是 Google 的开源工具:

  • 它为每个单词提供一个浮点值向量,它们到底代表什么?

  • 还有一篇论文关于段落向量 http://cs.stanford.edu/~quocle/paragraph_vector.pdf谁能解释一下他们如何使用 word2vec 来获得段落的固定长度向量。


TLDR:Word2Vec 正在构建单词投影(嵌入) in a 潜在空间N 维(N 是获得的词向量的大小)。浮点值表示该 N 维空间中单词的坐标。

潜在空间投影背后的主要思想是将对象放入不同的连续维度空间中,即您的对象将具有比基本对象更有趣的微积分特征的表示(向量)。

对于文字来说,有用的是你有一个dense编码的向量空间相似(即树的向量更类似于木头而不是跳舞)。这与古典主义相反sparseone-hot 或“bag-of-word”编码将每个单词视为一个维度,从而使它们正交通过设计(即树、木头和舞蹈之间的距离都相同)

Word2Vec 算法执行以下操作:

想象一下你有一句话:

狗必须去公园散步。

你显然想用“outside”这个词来填补空白,但你也可以用“out”。 w2v 算法就是受到这个想法的启发。你想要所有填满附近空白的单词,因为它们属于在一起 - 这就是所谓的分布假说- 因此,“out”和“outside”这两个词会更近,而“carrot”这样的词会更远。

这就是 word2vec 背后的“直觉”。对于正在发生的事情的更理论解释,我建议阅读:

  • GloVe:用于单词表示的全局向量 http://nlp.stanford.edu/pubs/glove.pdf
  • 稀疏和显式单词表示中的语言规律 http://www.cs.bgu.ac.il/~yoavg/publications/conll2014analogies.pdf
  • 神经词嵌入作为隐式矩阵分解 http://www.cs.bgu.ac.il/~yoavg/publications/nips2014pmi.pdf

对于段落向量,其思想与 w2v 中的相同。每个段落都可以用它的单词来表示。论文提出了两种模型。

  1. 以“词袋”方式(pv-dbow 模型),其中一个固定长度段落向量用于预测其单词。
  2. 通过添加一个固定长度单词上下文中的段落标记(pv-dm 模型)。通过逆向传播梯度,他们可以“感觉到”缺失了什么,将具有相同单词/主题的段落“缺失”紧密地结合在一起。

文章中的片段 http://cs.stanford.edu/~quocle/paragraph_vector.pdf:

这 段落向量和词向量被平均或连接 预测上下文中的下一个单词。 [...] 段落标记可以被认为是另一个词。它 充当记忆,记住其中缺失的内容 当前上下文 – 或段落主题

为了充分理解这些向量的构建方式,您需要了解神经网络的构建方式以及反向传播算法的工作原理。 (我建议从这个视频 http://youtu.be/q0pm3BrIUFo和 Andrew NG 的 Coursera 课程)

NB:Softmax 只是分类的一种奇特方式,w2v 算法中的每个单词都被视为一个类。分层 softmax/负采样是加速 softmax 和处理大量类的技巧。

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

word2vec中单词的向量代表什么? 的相关文章

  • 如何将 Pandas DataFrame 中加载的嵌入转换为 Gensim 模型?

    我有一个 DataFrame 其中索引是单词 并且有 100 个带有浮点数的列 这样对于每个单词 我将其嵌入为 100d 向量 我想将我的 DataFrame 对象转换为gensim 模型对象 https radimrehurek com
  • 如何训练斯坦福 NLP 情感分析工具

    地狱大家 我正在使用斯坦福核心 NLP 包 我的目标是对推文直播进行情感分析 按原样使用情感分析工具对文本 态度 的分析非常差 许多积极因素被标记为中性 许多消极因素被评为积极 我已经在文本文件中获取了超过一百万条推文 但我不知道如何实际获
  • 用于估计(一元)困惑度的 NLTK 包

    我正在尝试计算我所拥有的数据的困惑度 我正在使用的代码是 import sys sys path append usr local anaconda lib python2 7 site packages nltk from nltk co
  • 神经网络的局部逆

    我有一个带有 N 个输入节点和 N 个输出节点的神经网络 可能还有多个隐藏层和循环 但让我们先忘记这些 神经网络的目标是学习一个N维变量Y 给定N维值X 假设神经网络的输出是Y 学习后应该接近Y 我的问题是 是否有可能得到输出 Y 的神经网
  • ANEW 字典可以用于 Quanteda 中的情感分析吗?

    我正在尝试找到一种方法来实施英语单词情感规范 荷兰语 以便使用 Quanteda 进行纵向情感分析 我最终想要的是每年的 平均情绪 以显示任何纵向趋势 在数据集中 所有单词均由 64 名编码员按照 7 分李克特量表在四个类别上进行评分 这提
  • 将复数名词转换为单数名词

    如何使用 R 将复数名词转换为单数名词 我使用 tagPOS 函数来标记每个文本 然后提取所有标记为 NNS 的复数名词 但是如果我想将这些复数名词转换为单数该怎么办 library openNLP library tm acq o lt
  • 如何在 k 均值中使用欧氏距离以外的不同距离公式

    我正在处理纬度经度数据 我必须根据两点之间的距离进行聚类 现在两个不同点之间的距离是 ACOS SIN lat1 SIN lat2 COS lat1 COS lat2 COS lon2 lon1 6371 我想在 R 中使用 k 均值 有什
  • 快速NLTK解析成语法树

    我正在尝试将数百个句子解析为语法树 我需要快速完成 问题是如果我使用 NLTK 那么我需要定义一个语法 而我不知道我只知道它会是英语 我尝试使用this https github com emilmont pyStatParser统计解析器
  • Caffe,在层中设置自定义权重

    I have a network In one place I want to use concat As on this picture 不幸的是 该网络无法训练 为了理解为什么我想连续改变权重 这意味着 FC4096 中的所有值一开始都
  • 如何计算两个字符串向量之间的余弦相似度

    我有 2 个维度为 6 的向量 我想要一个介于 0 和 1 之间的数字 a c HDa 2Pb 2 BxU BuQ Bve b c HCK 2Pb 2 09 F G 谁能解释我应该做什么 使用lsa包和该包的手册 create some f
  • 如何修复:AttributeError:模块“neat”没有属性“config”

    我正在浏览使用发现的 NEAT 神经网络 API 玩 flappybird 的 AI 的指南 当我运行从 Github 下载的代码时 出现错误 Traceback most recent call last File test py lin
  • openNLP 与 Solr 集成时出现异常

    我正在尝试将 openNLP 与 Solr 6 1 0 集成 我配置了架构和 solrconfig 文件 详细信息请参见 wiki 链接 https wiki apache org solr OpenNLP https wiki apach
  • 如何使用sklearn Pipeline和FeatureUnion选择多个(数字和文本)列进行文本分类?

    我开发了一个用于多标签分类的文本模型 这OneVsRest分类器 http scikit learn org stable modules generated sklearn multiclass OneVsRestClassifier h
  • 如何防止 Keras 在训练期间计算指标

    我正在使用 Tensorflow Keras 2 4 1 并且有一个 无监督的 自定义指标 它将我的几个模型输入作为参数 例如 model build model returns a tf keras Model object my met
  • R 中多类分类的 ROC 曲线

    我有一个包含 6 个类别的数据集 我想绘制多类别分类的 ROC 曲线 Achim Zeileis 给出的第一个答案非常好 R中使用rpart包的ROC曲线 https stackoverflow com questions 30818188
  • 我的 R 平方分数为负,但使用 k 倍交叉验证的准确度分数约为 92%

    对于下面的代码 我的 r 平方分数为负 但使用 k 折交叉验证的准确度分数为 92 这怎么可能 我使用随机森林回归算法来预测一些数据 数据集的链接在下面的链接中给出 https www kaggle com ludobenistant hr
  • 使用sklearn进行多标签特征选择

    我希望使用 sklearn 对多标签数据集执行特征选择 我想要获得最终的功能集across标签 然后我将在另一个机器学习包中使用它 我打算使用我看到的方法here https stackoverflow com questions 1640
  • 如何在 Caffe 的网络中出现多次损失?

    如果我在网络中定义多个损失层 从这些末端到网络的开头是否会发生多个反向传播 我的意思是 他们真的是这样工作的吗 假设我有这样的事情 Layer1 Layer2 Layer n Layer cls1 bottom layer n top cl
  • 为什么 cross_val_predict 比 KNeighborsClassifier 的拟合慢得多?

    在 Jupyter 笔记本上本地运行并使用 MNIST 数据集 28k 条目 每个图像 28x28 像素 以下内容为27秒 from sklearn neighbors import KNeighborsClassifier knn clf
  • 如何反转 dropout 来补偿 dropout 的影响并保持期望值不变?

    我正在学习神经网络中的正则化deeplearning ai课程 在dropout正则化中 教授说 如果应用dropout 计算出的激活值将比不应用dropout时 测试时 更小 因此 我们需要扩展激活以使测试阶段更简单 我理解这个事实 但我

随机推荐

  • 当应用程序进入后台时(之前)iOS 拍摄的屏幕截图?

    希望大家都了解一下iOS在应用程序进入后台之前截取屏幕截图 我从那里得到的官方文件 http developer apple com library ios DOCUMENTATION iPhone Conceptual iPhoneOSP
  • 为什么我不能在 try 块内定义之前使用 Javascript 函数?

    正如所讨论的here https stackoverflow com questions 261599 why can i use a function before its defined in javascript 函数定义可以在定义之
  • 用于复制和重命名文件的 GitHub Action

    有没有一个聪明的方法copy and rename通过 GitHub Actions 文件 我想将一些自述文件复制到 docs文件夹 相同的存储库 而不是远程存储库 它们将根据其 frontmatter 在其中重命名title 目标是拥有某
  • Python-插入ms访问表

    我可以通过某些查询从 ms 访问中获取一些数据 但我无法将数据存储到任何表中 例如 import sys os pyodbc conn str r DRIVER Microsoft Access Driver mdb accdb r DBQ
  • 以编程方式禁用 UIButton 单击时的突出显示

    一定有办法做到这一点 但我找不到 我有一个以编程方式创建的按钮 UIButton button UIButton buttonWithType UIButtonTypeRoundedRect button frame CGRectMake
  • 使用 stargazer 添加一行注释

    我想运行一些回归并使用 stargazer 创建一个表 例如 linear 1 lt lm rating complaints privileges learning raises critical data attitude linear
  • C语言中有“设计模式”吗? [关闭]

    就目前情况而言 这个问题不太适合我们的问答形式 我们希望答案得到事实 参考资料或专业知识的支持 但这个问题可能会引发辩论 争论 民意调查或扩展讨论 如果您觉得这个问题可以改进并可能重新开放 访问帮助中心 help reopen questi
  • 升级到 MT 4.0 后不显示索引 TableView

    升级到 MT 4 0 后 以前在右侧边框上显示索引的 TableView 不再工作 表视图仍按部分显示并正常工作 但未显示索引 我在 UITableViewSource 中定义了这三种方法 并且这三种方法似乎都有效 public overr
  • 表更新事件处理程序

    我正在研究 AX 2012 中新委托和事件订阅模式的功能 目前我希望检测特定字段何时被修改 例如何时SalesTable SalesStatus更改为SalesStatus Invoiced 我创建了以下事件后处理程序并附加到 SalesT
  • 如何从 SQLAlchemy 映射对象中发现表属性

    我有一个与表映射的类 在我的例子中是以声明的方式 我想从这个类中 发现 表属性 列 名称 关系 engine create engine sqlite databasePath echo True setting up root class
  • virtualenv ImportError:没有名为 urllib3 的模块

    我在ubuntu上安装了virtualenv 但是 当我尝试创建 virtualenv 时 出现错误 我的 Zenv 文件夹不包含 activate 我该如何修复它 我会经常这样做 这是我第一次收到此错误 ubuntu ip 172 31
  • 从打包序列中获取每个序列的最后一项

    我试图通过 GRU 放置打包和填充的序列 并检索每个序列最后一项的输出 当然我的意思不是 1项目 但实际上是最后一个 未填充的项目 我们预先知道序列的长度 因此应该很容易为每个序列提取length 1 item 我尝试了以下方法 impor
  • 如何获取资产文件夹中图像的字符串路径

    我需要向第三方库传递存储在我的资产文件夹中的图像的路径 我读过一些答案 但没有一个有帮助 我努力了file android asset uk jpg但它不起作用 我需要向第三方库传递存储在我的资产文件夹中的图像的路径 没有路 您的资产不是文
  • 宁静的路线和 Django

    我正在将 Rails 项目迁移到 Django 中 Rails 项目是使用 Restful 路线构建的 它从不接触数据库 相反 它只是重定向到不同的方法 这些方法都使用指定的操作方法调用外部服务 现在 我已经找到了许多 django 框架
  • 渲染 selectManyCheckbox 而不使用 HTML 表

    有没有办法从渲染的html中删除由创建的表格h selectManyCheckbox服务器面孔中的标签 我正在使用 twitter bootstrap 并将复选框放置在下拉菜单中 ul class dropdown menu dropdow
  • Innosetup - 在安装开始之前引用[Code]中的文件

    这是一种延续这个问题 https stackoverflow com questions 5658488 adding a help button to an innosetup wizard page 我想将一个文件包含在我的安装包中 C
  • 在 Swift 中以编程方式创建 UITableViewController

    正如标题所示 我试图以编程方式设置 UITableViewController 经过几个小时的尝试 我希望有人可以帮助我 是的 我已经查看了有关此事的其他帖子 import UIKit class MainViewController UI
  • 导出为 pdf 在 ggplot2 中无法正确显示

    我有一个由 Fig NPK 和 Barchart fert 组成的复杂图形 P 它们是使用数据表 Fert 制作的 列包括 Vil N P 和 K 我的目标是创建一个pdf文件并使用ghostscript在pdf文件中嵌入 Times Ne
  • 从 Visual Studio 的哪个版本开始 vsnprintf 基本上符合标准?

    根据微软的文档vsnprintf https msdn microsoft com en us library 1kt27hek aspx 至少从 2003 版 Visual Studio 开始 该函数就是 C 运行时库的一部分 int v
  • word2vec中单词的向量代表什么?

    word2vec https code google com p word2vec 是 Google 的开源工具 它为每个单词提供一个浮点值向量 它们到底代表什么 还有一篇论文关于段落向量 http cs stanford edu quoc