词汇量和嵌入维度之间的首选比例是多少？

2024-01-28

例如使用时gensim, word2vec或用于训练嵌入向量的类似方法我想知道什么是好的比率，或者嵌入维度与词汇量之间是否有首选比率？随着更多数据的出现，这种情况会如何变化？

由于我仍在讨论这个主题，因此在训练嵌入向量时如何选择合适的窗口大小？

我问这个问题是因为我不是用现实生活中的语言词典来训练我的网络，而是这些句子会描述进程和文件以及其他进程等之间的关系。例如，我的文本语料库中的一个句子如下所示：

smss.exe irp_mj_create systemdrive windows system32 ntdll dll DesiredAccess：执行/遍历、同步、处置：打开、选项：、属性：不适用，ShareMode：读取，AllocationSize：不适用，OpenResult：已打开”

正如您可能想象的那样，变化有很多，但问题仍然是如何以最佳方式微调这些超参数，以便嵌入空间不会过度拟合，同时又为每个单词提供足够的有意义的特征。

Thanks,

Gabriel

比率不是您的目标

我不记得这个问题的任何具体论文，但这个问题感觉有点奇怪 - 一般来说，如果我有一个很棒的模型，但想切换到两倍或十倍大的词汇表，我会not更改嵌入尺寸。

恕我直言，它们是非常正交的、不相关的参数。决定最佳嵌入维度的关键因素主要与计算资源的可用性（越小越好，因此如果结果没有差异并且可以将维度减半，就这样做）、任务和（最重要的）嵌入数量相关。监督训练示例 - 嵌入维度的选择将决定你将压缩/故意限制词汇信息的程度；更大的维度将使您的模型能够区分更多的词汇细节，当且仅当您的监督数据有足够的信息来区分时，这才是好的。use该词汇细节正确，但如果不存在，那么额外的词汇信息将过度拟合，并且较小的嵌入维数将更好地概括。因此，词汇量大小和嵌入维度之间的比率不是（恕我直言，我无法提供证据，这只是实践经验）值得关注的东西，因为嵌入维度的最佳大小由下式决定：你在哪里使用嵌入，而不是训练嵌入的数据。

无论如何，这似乎是一种情况，你的里程会有所不同 - 任何理论和讨论都会很有趣，但是你的任务和文本领域非常具体，一般 NLP 的发现可能适用也可能不适用于你的情况，并且它会是最好获得有效的经验证据your数据。使用 64/128/256 或 100/200/400 或任何大小训练嵌入，使用其中每一个训练模型，并比较效果；与思考效果应该是什么相比，这会花费更少的精力（人，而不是 GPU）。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

词汇量和嵌入维度之间的首选比例是多少？的相关文章

如何在解析网页时摆脱所有智能引号？

这是我的代码 name namestr decode utf 8 name replace u u2018 replace u u2019 replace u u201c replace u u201d 这似乎不起作用我还是发现 ldqu
在防风草模型上使用 VIP 包计算重要性度量

我正在尝试使用 vi firm 在防风草中制作的逻辑回归模型上计算特征重要性对于正则表达式我将使用 iris 数据集并尝试预测观察结果是否为 setosa iris1 lt iris gt mutate class case when
Keras IndexError：索引超出范围

我是 Keras 新手我尝试在数据集上执行二进制 MLP 并且不断使索引超出范围但不知道为什么 from keras models import Sequential from keras layers core import Dens
如何用Python构建游戏神经网络？

我是神经网络初学者我想通过教计算机下跳棋来学习神经网络的基础知识其实我想学的游戏是盛气凌人 http en wikipedia org wiki Domineering and Hex http en wikipedia org wik
Keras 错误：预计会看到 1 个数组

当我尝试在 keras 中训练 MLP 模型时出现以下错误我使用的是 keras 版本1 2 2 检查模型输入时出错您输入的 Numpy 数组列表传递给您的模型的尺寸不是模型预期的尺寸预期的查看 1 个数组但得到以下 12859
敏感性特异性图 python

我正在尝试重现类似于此的灵敏度特异性图其中 X 轴是阈值但我还没有找到如何做到这一点一些 skalern 指标如 ROC 曲线会返回真阳性和假阳性但我还没有找到任何选项来制作此图我试图将概率与实际标签进行比较以保持计数我得到
为什么各个树的 xgboost 回归预测存在差异？

首先我运行一个非常简单的 xgb 回归模型其中仅包含 2 棵树每棵树有 1 个叶子可用数据here https raw githubusercontent com jbrownlee Datasets master pima ind
ValueError：在 R 中使用 keras 模型时在用户代码中

我正在尝试使用 R 在 R 中运行一维 CNNkeras包裹我正在使用以下代码 library MASS library keras Create some data data Boston data lt Boston create a
sklearn.model_selection.train_test_split 示例中的“随机状态”是什么？ [复制]

这个问题在这里已经有答案了有人能给我解释一下吗random state在下面的例子中意味着什么 import numpy as np from sklearn model selection import train test split
如何在 python 中使用交叉验证执行 GridSearchCV

我正在执行超参数调整RandomForest如下使用GridSearchCV X np array df features all features y np array df gold standard labels x train x
Tensorflow DecodeJPEG：预期图像（JPEG、PNG 或 GIF）以“\000\000\000\000\000\000\000\00”开头的格式未知

我正在循环浏览图像文件夹这种情况不断发生 tensorflow python framework errors impl InvalidArgumentError 预期的图像 JPEG PNG或GIF 以 000 000 000 000
期望最大化抛硬币的例子

我最近一直在自学期望最大化并在这个过程中给自己举了一些简单的例子 http cs dartmouth edu cs104 CS104 11 04 22 pdf http cs dartmouth edu cs104 CS104 11 04
NLTK 可用的停用词语言

我想知道在哪里可以找到 NLTK 停用词支持的语言及其键的完整列表我找到一个列表https pypi org project stop words https pypi org project stop words 但它不包含每个国家
如何在Keras模型中替换（或插入）中间层？

我有一个训练有素的 Keras 模型我想要 1 用相同但没有偏差的Con2D层替换Con2D层 2 在第一次激活之前添加 BatchNormalization 层我怎样才能做到这一点 def keras simple model fro
无法从 DenseVariational 获得合理的结果

我正在尝试使用以下大小的数据集正弦曲线进行回归问题500 首先我尝试使用 2 个密集层每个层有 10 个单元 model tf keras Sequential tf keras layers Dense 10 activation
神经网络的激活函数选择[关闭]

Closed 这个问题需要多问focused help closed questions 目前不接受答案我们可以对神经网络的隐藏层和输出层使用不同的激活函数吗使用这种方案有什么明显的优势吗对于网络的最后一层激活单元也取决于任务分类
在 keras 中使用条件实现自定义损失函数

我需要一些有关 keras 损失函数的帮助我一直在使用 Tensorflow 后端在 keras 上实现自定义损失函数我已经在 numpy 中实现了自定义损失函数但如果它可以转换为 keras 损失函数那就太好了损失函数采用数据帧
将 Readability 公式转换为 python 函数

我得到了一个名为 FRES Flesch 阅读轻松测试的公式用于衡量文档的可读性我的任务是编写一个返回文本 FRES 的 python 函数因此我需要将这个公式转换成Python函数我已经根据我必须展示的答案重新实现了我的代码以
使用 scikit-learn 在朴素贝叶斯分类器中混合类别数据和连续数据

我正在使用 Python 中的 scikit learn 开发分类算法来预测某些客户的性别除此之外我想使用朴素贝叶斯分类器但我的问题是我混合了分类数据例如在线注册接受电子邮件通知等和连续数据例如年龄长度会员资格等
使用自定义层运行 Keras 模型时出现问题

我目前正在攻读学士学位论文FIIT STU https www fiit stuba sk en html page id 749 其主要目标是尝试复制和验证以下结果study http arxiv org abs 2006 00885 这

随机推荐

如何从子进程（通过 Parallel::ForkManager 分叉）传递变量？

我的查询在下面的代码中我试图打印 commandoutput 0 被转移或传递到即将到来的子程序中我尝试通过转移来传递它但我失败了你能帮我正确的方法吗 Code my max forks 4 createThreads my com
从具有开始/结束日期的行创建年份序列行的数据框

我对 R 和编码来说是一个相对较新的用户我已经搜索过但无法解决这个问题我有以下数据 groupid start date end date Status 1 2014 01 01 2017 01 01 A 1 2018 01 01 20
Python - 检查字母是否在列表中

如果一个字母字符串在列表中 find letter o 你好 c 再见返回 True 否则返回 False def find letter lst lst o hello 1 n o if not lst return 0 elif
响应式背景图像 bootstrap 3

我正在使用 bootstrap 并试图使我的背景图像具有响应能力但它不起作用这是我的代码 html div class row div class bg img src img home bg jpg alt home backgrou
`Class of` 类型声明的含义是什么？

在查看我的代码之一时我陷入了如下的一项声明 TMyObjectClass class of TMyObject 我有点困惑想知道这句话的含义是什么作为TMyObjectClass声明之上没有任何声明 and TMyObject声明如下
ElasticSearch：未分配的分片，如何修复？

我有一个有4个节点的ES集群 number of replicas 1 search01 master false data false search02 master true data true search03 master fals
按下按钮刷新 tkinter 框架

我正在使用来自的代码在 tkinter 中的两个框架之间切换 https stackoverflow com questions 7546050 switch between two frames in tkinter制作我的图形用户界面
在 Swift 中将参数传递给选择器

我正在构建一个应用程序来跟踪大学课程的阅读作业每个 ReadingAssignment 都包含一个 Bool 值指示读者是否已完成阅读作业 ReadingAssignments 被收集到 WeeklyAssignment 数组中我希望
具有相同标签的不同散点图标记

我遇到了类似的问题Matplotlib 一个标签具有多个不同标记的图例 https stackoverflow com questions 9262307 matplotlib legend with multiple differen
多个域的集成 Windows 身份验证

我有一个针对域 A 用户的 Asp net 网站具有集成 Windows 身份验证现在B域的用户需要访问该网站但域B用户访问网站时会弹出窗口输入验证信息我的问题是如何配置IIS或Windows Server 让B域用户像A域用户一
XAML 文件的智能感知 (Xamarin.Forms)

在 Visual Studio 15 中如何让 XAML Intellisense 适用于 Xamarin Forms 中的 XAML 文件编辑将答案与问题分开这个解决方案是在这个论坛 https social msdn micro
如何检测 Angular 中属性的更改

我有一个带有子组件的组件timeline
$null 应该位于相等比较的左侧吗？（-eq 与数组）

与同事讨论应该 null是在支票的左边还是右边有什么例子可以说明为什么这很重要吗 abc null null eq abc True abc eq null True All ok abc 6 7 null 8 9 null eq ab
使用 NPOI 将图像插入 Excel 文件

我正在使用 C 在 Visual Studio 2010 中编写一个程序并且正在使用 NPOI 库我正在尝试将图像插入到 Excel 文件中我尝试了两种不同的方法但都不起作用 Method 1 HSSFPatriarch patri
服务重启后 Docker 节点宕机

我的服务器似乎空间不足并且某些已部署的 Docker 堆栈出现了一些问题我花了一段时间才弄清楚但最终我做到了并删除了一些容器和图像以释放一些空间我能够跑service docker restart它起作用了然而也存在一些问题
通过java应用程序发送附有excel文件的电子邮件 - 不起作用

我试图通过Java应用程序发送一封邮件其中包含excel文件作为附件而不实际创建该文件 excel文件中的数据来自数据库我可以发送带有附件的邮件但文件是文本制表符分隔格式但我希望该文件仅为 Excel 格式请帮忙以下是代码
在 Java 调试器中，如何忽略从未通过我的代码的异常

我目前正在使用 IntelliJ IDEA 进行 Java 开发但我也对针对其他 IDE 的答案或调试 Java 代码的一般概念感兴趣因为我在许多 IDE 中都错过了这个功能所以我不确定在从其他语言转移我的调试习惯时是否错过了工作流程
Google Dataflow（Apache Beam）JdbcIO批量插入mysql数据库

我正在使用 Dataflow SDK 2 X Java API Apache Beam SDK 将数据写入 mysql 我创建了基于管道Apache Beam SDK 文档 https beam apache org documentati
使用 window.open() 的多个窗口

众所周知如果您单击嵌入其中的提交按钮onClick windown open 这将打开一个新窗口其中包含您指定的所有可爱属性但是如果继续单击父窗口并再次单击提交按钮而不关闭先前的弹出窗口则同一窗口将被新数据覆盖现在我需要一种
词汇量和嵌入维度之间的首选比例是多少？

例如使用时gensim word2vec或用于训练嵌入向量的类似方法我想知道什么是好的比率或者嵌入维度与词汇量之间是否有首选比率随着更多数据的出现这种情况会如何变化由于我仍在讨论这个主题因此在训练嵌入向量时如何选择合适的窗口大小

词汇量和嵌入维度之间的首选比例是多少？

比率不是您的目标

词汇量和嵌入维度之间的首选比例是多少？ 的相关文章

随机推荐

热门标签

词汇量和嵌入维度之间的首选比例是多少？的相关文章