什么是词向量维度

2023-11-29

我目前是深度学习的业余爱好者,正在这个网站上阅读有关 word2vector 的内容https://www.kaggle.com/c/word2vec-nlp-tutorial/details/part-3-more-fun-with-word-vectors

对于 CBOW 或 Skipgram 模型,我可以看到单词向量的维度为 300,词汇量为 15000。我在上一篇文章中读到的是,我们可以对向量中的单词进行硬编码。所以我想词向量的维度应该等于词汇量的大小,或者换句话说,这个词的维度是什么以及如何可视化它。你如何看待这个维度?


“词向量维度”是您使用训练文档训练的向量的维度。从技术上讲,您可以选择任何维度,例如 10、100、300,甚至 1000。行业标准是 300-500,因为我们已经尝试过不同的维度(300、400、500,... 1000 等),但没有注意到300-400 后性能显着提升。 (这也取决于您的训练数据。)顾名思义,维度越大意味着计算量越大。但是,如果我们将维度设置得太低,则没有太多向量空间来捕获整个训练文档包含的信息。

如何形象化它?

您无法轻松地可视化 300 维向量,并且可视化 300 维向量可能对您来说没有太大用处。我们能做的就是将这些向量投影到二维空间,这是我们最熟悉也很容易理解的空间。

你最后的陈述所以我猜词向量维度应该等于词汇量大小是错的! 词汇量为 171,476 个单词(英语单词总数)!词向量维度(大多是300-500。你不想训练10亿维的向量吧?)是你预先决定的用于训练数据的向量的大小。我的视频(无耻插件)将帮助你理解重要的词向量概念:人工智能与最佳

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

什么是词向量维度 的相关文章

随机推荐

  • Java:如何控制JPanel的宽高比?

    我有一个 JPanel 我想保持正方形 但我希望它的大小能够填充其父 JFrame 中可能的最大空间量 但保持正方形 即它采用 JFrame 的最短边作为正方形宽度 我搜索过网络 检查了所有布局管理器 似乎没有一个可以简单地解决这个非常简单
  • 需要更新SQLite中某列的值

    我需要对列中所有行的列值求反 我尝试使用以下查询来执行此操作 但它没有更新任何行 sqliteDatabase rawQuery UPDATE SQL TABLE NAME SET COL 1 COL 1 null 其中COL 1 col
  • 条件 WHERE 语句 SQL Server

    我想创建一个 SP 来返回所有Country行 除非CountryID作为参数提供 这是我想象的它可能的工作方式 但它不喜欢它 ALTER PROCEDURE dbo usp return countries CountryID AS IN
  • HTML5 将加密的视频帧绘制到画布(带有clearkey的加密媒体扩展)

    我正在尝试使用 Javascript 将 HTML5 视频元素中的帧绘制到画布 其中视频 webm VP9 已使用 Clearkey 加密 我正在使用 EME 在 Chrome 中解密它 使用 EME 加密媒体扩展 时 Chrome gt
  • 检测我何时在页面顶部滚动 UIWebView

    我想在我的 webview 顶部添加一个 URL google 栏 并像 Safari 一样通过向上滚动我的网页来访问它 为此 我将检测用户何时滚动页面 以及何时滚动到达顶部 但我实在不知道怎么办 一个主意 非常感谢 Martin 我也在挖
  • 如何在 Perl 中解析 XML 并创建树结构

    我正在解析 XML 文件XML Simple 有没有办法从 XML 中获取树形形式 如果是这样 请举例说明或建议 CPAN 包 我想知道之后我必须处理哪个标签column等等 标签没有顺序 这column标签可以出现在Table or di
  • 用于检索各种日期范围内的 SUM 的 SQL 查询

    我有一个表格 其中包含有关已售产品 客户 购买日期和已售单位摘要的信息 我想要得到的结果应该是 4 行 其中前三行是一月 二月和三月 最后一行是这 3 个月内未售出的产品 这是桌子 http imageshack us a img823 8
  • 不能对承诺式任务调用 Start。异常即将到来

    我正在创建一个简单的 wpf 桌面应用程序 UI 只有一个按钮和 cs 文件中的代码 例如 private void Button Click 2 object sender RoutedEventArgs e FunctionA publ
  • 随机数类内初始化

    我目前正在创建一个类 我希望每次创建对象时都用随机数初始化其中一个私有成员 下面的代码不会产生任何问题 private unsigned random rand 10 不过 我想使用 C 11 随机引擎和发行版来执行此操作 我希望能够按照以
  • 如何在android中的asynctask中检查互联网连接

    Override protected void onCreate Bundle savedInstanceState TODO Auto generated method stub super onCreate savedInstanceS
  • Woocommerce 多个结账页面

    所以我一直在用头撞我的电脑 试图弄清楚如何让它工作 并且想知道这是否可能 只要做一些工作 一切皆有可能 我的最终目标是拥有多个包含 Woocommerce 结帐表单的页面 以便我可以拥有一个用于自定义单页订阅结帐的页面 当我通过设置面板将结
  • SurfaceTexture 的 onFrameAvailable() 方法总是调用得太晚

    我正在尝试让以下 MediaExtractor 示例正常工作 http bigflake com mediacodec ExtractMpegFramesTest java 需要 4 1 API 16 我遇到的问题是 outputSurfa
  • 使用最近邻缩放图像

    我一直在尝试让我的程序放大图像 我在为缩放图像分配新空间时遇到一些问题 但我认为它已经解决了 我遇到的问题是 当我尝试从临时内存持有者发回图像时 程序崩溃了 加载的图像放置在我的struct Image 像素被放置在img gt pixel
  • jQuery:查找特定父级之前的所有父级

    jQuery 中是否有一个内置函数可以让我将所有父级添加到具有特定 ID 的父级 我有一个深度嵌套的无序列表 如果我有对 li 之一的引用 我需要找到所有父 li 直到根 ul 如果我使用parents 它会给我所有的父母直到文档的根目录
  • 使用 iPhone sdk 编辑 PDF

    我想在现有的 pdf 上添加一些图像 单击这些图像后我应该能够 显示一些动画或能够播放音乐 是否可以这样做 我使用 pageCurlUp 动画逐页显示 pdf 但我不知道如何使用外部图像显示 pdf 不同页面和不同位置会有不同的图像 请指导
  • 当不通过 ObjectMapper 时,如何在 JsonParser 上设置 ObjectCodec?

    注意 这是使用 Jackson 2 3 2 为了满足我的一个项目的需要 我正在编写一个自定义的JsonParser其中记录了一个Map钥匙在哪里JsonPointers 和值是Integers 指针指向的行号 该类被命名为LineRecor
  • Ionic 3 延迟加载使大型 html 文件出现滞后

    我在我的项目中使用 ionic 3 但在延迟加载方面遇到了一些问题 我有一个ResultPage与模板resultpage html有超过1000html 行代码 在里面HomePage我想导航到ResultPage by navCtrl
  • Bash - 简单问号(?)的含义

    我正在尝试一些 bash 功能 当我尝试回显一些输出时 我注意到 echo what about in some more complex example 结果是 在一些更复杂的例子中怎么样 我知道转义问号或整行引号可以解决问题 但我很好奇
  • Xcode 未找到匹配的私钥

    我有一个从另一台 Mac 分发的应用程序 我需要从另一台 Mac 获得什么才能将我的应用程序存档以供上传 以及我需要在 Xcode 路径中进行哪些更改才能使所有工作正常进行 谢谢 抱歉英语不好 如果您使用某人的证书 您还必须获取与该证书关联
  • 什么是词向量维度

    我目前是深度学习的业余爱好者 正在这个网站上阅读有关 word2vector 的内容https www kaggle com c word2vec nlp tutorial details part 3 more fun with word