word2vec中单词的向量代表什么？

2024-04-20

word2vec https://code.google.com/p/word2vec/是 Google 的开源工具：

它为每个单词提供一个浮点值向量，它们到底代表什么？
还有一篇论文关于段落向量 http://cs.stanford.edu/~quocle/paragraph_vector.pdf谁能解释一下他们如何使用 word2vec 来获得段落的固定长度向量。

TLDR：Word2Vec 正在构建单词投影（嵌入) in a 潜在空间N 维（N 是获得的词向量的大小）。浮点值表示该 N 维空间中单词的坐标。

潜在空间投影背后的主要思想是将对象放入不同的连续维度空间中，即您的对象将具有比基本对象更有趣的微积分特征的表示（向量）。

对于文字来说，有用的是你有一个dense编码的向量空间相似（即树的向量更类似于木头而不是跳舞）。这与古典主义相反sparseone-hot 或“bag-of-word”编码将每个单词视为一个维度，从而使它们正交通过设计（即树、木头和舞蹈之间的距离都相同）

Word2Vec 算法执行以下操作：

想象一下你有一句话：

狗必须去公园散步。

你显然想用“outside”这个词来填补空白，但你也可以用“out”。 w2v 算法就是受到这个想法的启发。你想要所有填满附近空白的单词，因为它们属于在一起 - 这就是所谓的分布假说- 因此，“out”和“outside”这两个词会更近，而“carrot”这样的词会更远。

这就是 word2vec 背后的“直觉”。对于正在发生的事情的更理论解释，我建议阅读：

GloVe：用于单词表示的全局向量 http://nlp.stanford.edu/pubs/glove.pdf
稀疏和显式单词表示中的语言规律 http://www.cs.bgu.ac.il/~yoavg/publications/conll2014analogies.pdf
神经词嵌入作为隐式矩阵分解 http://www.cs.bgu.ac.il/~yoavg/publications/nips2014pmi.pdf

对于段落向量，其思想与 w2v 中的相同。每个段落都可以用它的单词来表示。论文提出了两种模型。

以“词袋”方式（pv-dbow 模型），其中一个固定长度段落向量用于预测其单词。
通过添加一个固定长度单词上下文中的段落标记（pv-dm 模型）。通过逆向传播梯度，他们可以“感觉到”缺失了什么，将具有相同单词/主题的段落“缺失”紧密地结合在一起。

文章中的片段 http://cs.stanford.edu/~quocle/paragraph_vector.pdf:

这段落向量和词向量被平均或连接预测上下文中的下一个单词。 [...] 段落标记可以被认为是另一个词。它充当记忆，记住其中缺失的内容当前上下文 – 或段落主题

为了充分理解这些向量的构建方式，您需要了解神经网络的构建方式以及反向传播算法的工作原理。（我建议从这个视频 http://youtu.be/q0pm3BrIUFo和 Andrew NG 的 Coursera 课程）

NB:Softmax 只是分类的一种奇特方式，w2v 算法中的每个单词都被视为一个类。分层 softmax/负采样是加速 softmax 和处理大量类的技巧。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

word2vec中单词的向量代表什么？的相关文章

如何将 Pandas DataFrame 中加载的嵌入转换为 Gensim 模型？

我有一个 DataFrame 其中索引是单词并且有 100 个带有浮点数的列这样对于每个单词我将其嵌入为 100d 向量我想将我的 DataFrame 对象转换为gensim 模型对象 https radimrehurek com
如何训练斯坦福 NLP 情感分析工具

地狱大家我正在使用斯坦福核心 NLP 包我的目标是对推文直播进行情感分析按原样使用情感分析工具对文本态度的分析非常差许多积极因素被标记为中性许多消极因素被评为积极我已经在文本文件中获取了超过一百万条推文但我不知道如何实际获
用于估计（一元）困惑度的 NLTK 包

我正在尝试计算我所拥有的数据的困惑度我正在使用的代码是 import sys sys path append usr local anaconda lib python2 7 site packages nltk from nltk co
神经网络的局部逆

我有一个带有 N 个输入节点和 N 个输出节点的神经网络可能还有多个隐藏层和循环但让我们先忘记这些神经网络的目标是学习一个N维变量Y 给定N维值X 假设神经网络的输出是Y 学习后应该接近Y 我的问题是是否有可能得到输出 Y 的神经网
ANEW 字典可以用于 Quanteda 中的情感分析吗？

我正在尝试找到一种方法来实施英语单词情感规范荷兰语以便使用 Quanteda 进行纵向情感分析我最终想要的是每年的平均情绪以显示任何纵向趋势在数据集中所有单词均由 64 名编码员按照 7 分李克特量表在四个类别上进行评分这提
将复数名词转换为单数名词

如何使用 R 将复数名词转换为单数名词我使用 tagPOS 函数来标记每个文本然后提取所有标记为 NNS 的复数名词但是如果我想将这些复数名词转换为单数该怎么办 library openNLP library tm acq o lt
如何在 k 均值中使用欧氏距离以外的不同距离公式

我正在处理纬度经度数据我必须根据两点之间的距离进行聚类现在两个不同点之间的距离是 ACOS SIN lat1 SIN lat2 COS lat1 COS lat2 COS lon2 lon1 6371 我想在 R 中使用 k 均值有什
快速NLTK解析成语法树

我正在尝试将数百个句子解析为语法树我需要快速完成问题是如果我使用 NLTK 那么我需要定义一个语法而我不知道我只知道它会是英语我尝试使用this https github com emilmont pyStatParser统计解析器
Caffe，在层中设置自定义权重

I have a network In one place I want to use concat As on this picture 不幸的是该网络无法训练为了理解为什么我想连续改变权重这意味着 FC4096 中的所有值一开始都
如何计算两个字符串向量之间的余弦相似度

我有 2 个维度为 6 的向量我想要一个介于 0 和 1 之间的数字 a c HDa 2Pb 2 BxU BuQ Bve b c HCK 2Pb 2 09 F G 谁能解释我应该做什么使用lsa包和该包的手册 create some f
如何修复：AttributeError：模块“neat”没有属性“config”

我正在浏览使用发现的 NEAT 神经网络 API 玩 flappybird 的 AI 的指南当我运行从 Github 下载的代码时出现错误 Traceback most recent call last File test py lin
openNLP 与 Solr 集成时出现异常

我正在尝试将 openNLP 与 Solr 6 1 0 集成我配置了架构和 solrconfig 文件详细信息请参见 wiki 链接 https wiki apache org solr OpenNLP https wiki apach
如何使用sklearn Pipeline和FeatureUnion选择多个（数字和文本）列进行文本分类？

我开发了一个用于多标签分类的文本模型这OneVsRest分类器 http scikit learn org stable modules generated sklearn multiclass OneVsRestClassifier h
如何防止 Keras 在训练期间计算指标

我正在使用 Tensorflow Keras 2 4 1 并且有一个无监督的自定义指标它将我的几个模型输入作为参数例如 model build model returns a tf keras Model object my met
R 中多类分类的 ROC 曲线

我有一个包含 6 个类别的数据集我想绘制多类别分类的 ROC 曲线 Achim Zeileis 给出的第一个答案非常好 R中使用rpart包的ROC曲线 https stackoverflow com questions 30818188
我的 R 平方分数为负，但使用 k 倍交叉验证的准确度分数约为 92%

对于下面的代码我的 r 平方分数为负但使用 k 折交叉验证的准确度分数为 92 这怎么可能我使用随机森林回归算法来预测一些数据数据集的链接在下面的链接中给出 https www kaggle com ludobenistant hr
使用sklearn进行多标签特征选择

我希望使用 sklearn 对多标签数据集执行特征选择我想要获得最终的功能集across标签然后我将在另一个机器学习包中使用它我打算使用我看到的方法here https stackoverflow com questions 1640
如何在 Caffe 的网络中出现多次损失？

如果我在网络中定义多个损失层从这些末端到网络的开头是否会发生多个反向传播我的意思是他们真的是这样工作的吗假设我有这样的事情 Layer1 Layer2 Layer n Layer cls1 bottom layer n top cl
为什么 cross_val_predict 比 KNeighborsClassifier 的拟合慢得多？

在 Jupyter 笔记本上本地运行并使用 MNIST 数据集 28k 条目每个图像 28x28 像素以下内容为27秒 from sklearn neighbors import KNeighborsClassifier knn clf
如何反转 dropout 来补偿 dropout 的影响并保持期望值不变？

我正在学习神经网络中的正则化deeplearning ai课程在dropout正则化中教授说如果应用dropout 计算出的激活值将比不应用dropout时测试时更小因此我们需要扩展激活以使测试阶段更简单我理解这个事实但我

随机推荐

当应用程序进入后台时（之前）iOS 拍摄的屏幕截图？

希望大家都了解一下iOS在应用程序进入后台之前截取屏幕截图我从那里得到的官方文件 http developer apple com library ios DOCUMENTATION iPhone Conceptual iPhoneOSP
为什么我不能在 try 块内定义之前使用 Javascript 函数？

正如所讨论的here https stackoverflow com questions 261599 why can i use a function before its defined in javascript 函数定义可以在定义之
用于复制和重命名文件的 GitHub Action

有没有一个聪明的方法copy and rename通过 GitHub Actions 文件我想将一些自述文件复制到 docs文件夹相同的存储库而不是远程存储库它们将根据其 frontmatter 在其中重命名title 目标是拥有某
Python-插入ms访问表

我可以通过某些查询从 ms 访问中获取一些数据但我无法将数据存储到任何表中例如 import sys os pyodbc conn str r DRIVER Microsoft Access Driver mdb accdb r DBQ
以编程方式禁用 UIButton 单击时的突出显示

一定有办法做到这一点但我找不到我有一个以编程方式创建的按钮 UIButton button UIButton buttonWithType UIButtonTypeRoundedRect button frame CGRectMake
使用 stargazer 添加一行注释

我想运行一些回归并使用 stargazer 创建一个表例如 linear 1 lt lm rating complaints privileges learning raises critical data attitude linear
C语言中有“设计模式”吗？ [关闭]

就目前情况而言这个问题不太适合我们的问答形式我们希望答案得到事实参考资料或专业知识的支持但这个问题可能会引发辩论争论民意调查或扩展讨论如果您觉得这个问题可以改进并可能重新开放访问帮助中心 help reopen questi
升级到 MT 4.0 后不显示索引 TableView

升级到 MT 4 0 后以前在右侧边框上显示索引的 TableView 不再工作表视图仍按部分显示并正常工作但未显示索引我在 UITableViewSource 中定义了这三种方法并且这三种方法似乎都有效 public overr
表更新事件处理程序

我正在研究 AX 2012 中新委托和事件订阅模式的功能目前我希望检测特定字段何时被修改例如何时SalesTable SalesStatus更改为SalesStatus Invoiced 我创建了以下事件后处理程序并附加到 SalesT
如何从 SQLAlchemy 映射对象中发现表属性

我有一个与表映射的类在我的例子中是以声明的方式我想从这个类中发现表属性列名称关系 engine create engine sqlite databasePath echo True setting up root class
virtualenv ImportError：没有名为 urllib3 的模块

我在ubuntu上安装了virtualenv 但是当我尝试创建 virtualenv 时出现错误我的 Zenv 文件夹不包含 activate 我该如何修复它我会经常这样做这是我第一次收到此错误 ubuntu ip 172 31
从打包序列中获取每个序列的最后一项

我试图通过 GRU 放置打包和填充的序列并检索每个序列最后一项的输出当然我的意思不是 1项目但实际上是最后一个未填充的项目我们预先知道序列的长度因此应该很容易为每个序列提取length 1 item 我尝试了以下方法 impor
如何获取资产文件夹中图像的字符串路径

我需要向第三方库传递存储在我的资产文件夹中的图像的路径我读过一些答案但没有一个有帮助我努力了file android asset uk jpg但它不起作用我需要向第三方库传递存储在我的资产文件夹中的图像的路径没有路您的资产不是文
宁静的路线和 Django

我正在将 Rails 项目迁移到 Django 中 Rails 项目是使用 Restful 路线构建的它从不接触数据库相反它只是重定向到不同的方法这些方法都使用指定的操作方法调用外部服务现在我已经找到了许多 django 框架
渲染 selectManyCheckbox 而不使用 HTML 表

有没有办法从渲染的html中删除由创建的表格h selectManyCheckbox服务器面孔中的标签我正在使用 twitter bootstrap 并将复选框放置在下拉菜单中 ul class dropdown menu dropdow
Innosetup - 在安装开始之前引用[Code]中的文件

这是一种延续这个问题 https stackoverflow com questions 5658488 adding a help button to an innosetup wizard page 我想将一个文件包含在我的安装包中 C
在 Swift 中以编程方式创建 UITableViewController

正如标题所示我试图以编程方式设置 UITableViewController 经过几个小时的尝试我希望有人可以帮助我是的我已经查看了有关此事的其他帖子 import UIKit class MainViewController UI
导出为 pdf 在 ggplot2 中无法正确显示

我有一个由 Fig NPK 和 Barchart fert 组成的复杂图形 P 它们是使用数据表 Fert 制作的列包括 Vil N P 和 K 我的目标是创建一个pdf文件并使用ghostscript在pdf文件中嵌入 Times Ne
从 Visual Studio 的哪个版本开始 vsnprintf 基本上符合标准？

根据微软的文档vsnprintf https msdn microsoft com en us library 1kt27hek aspx 至少从 2003 版 Visual Studio 开始该函数就是 C 运行时库的一部分 int v
word2vec中单词的向量代表什么？

word2vec https code google com p word2vec 是 Google 的开源工具它为每个单词提供一个浮点值向量它们到底代表什么还有一篇论文关于段落向量 http cs stanford edu quoc

word2vec中单词的向量代表什么？

word2vec中单词的向量代表什么？ 的相关文章

随机推荐

热门标签

word2vec中单词的向量代表什么？的相关文章