我目前是深度学习的业余爱好者,正在这个网站上阅读有关 word2vector 的内容https://www.kaggle.com/c/word2vec-nlp-tutorial/details/part-3-more-fun-with-word-vectors
对于 CBOW 或 Skipgram 模型,我可以看到单词向量的维度为 300,词汇量为 15000。我在上一篇文章中读到的是,我们可以对向量中的单词进行硬编码。所以我想词向量的维度应该等于词汇量的大小,或者换句话说,这个词的维度是什么以及如何可视化它。你如何看待这个维度?
“词向量维度”是您使用训练文档训练的向量的维度。从技术上讲,您可以选择任何维度,例如 10、100、300,甚至 1000。行业标准是 300-500,因为我们已经尝试过不同的维度(300、400、500,... 1000 等),但没有注意到300-400 后性能显着提升。 (这也取决于您的训练数据。)顾名思义,维度越大意味着计算量越大。但是,如果我们将维度设置得太低,则没有太多向量空间来捕获整个训练文档包含的信息。
如何形象化它?
您无法轻松地可视化 300 维向量,并且可视化 300 维向量可能对您来说没有太大用处。我们能做的就是将这些向量投影到二维空间,这是我们最熟悉也很容易理解的空间。
你最后的陈述所以我猜词向量维度应该等于词汇量大小是错的!
词汇量为 171,476 个单词(英语单词总数)!词向量维度(大多是300-500。你不想训练10亿维的向量吧?)是你预先决定的用于训练数据的向量的大小。我的视频(无耻插件)将帮助你理解重要的词向量概念:人工智能与最佳
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)