词汇量和嵌入维度之间的首选比例是多少?

2024-01-28

例如使用时gensim, word2vec或用于训练嵌入向量的类似方法我想知道什么是好的比率,或者嵌入维度与词汇量之间是否有首选比率? 随着更多数据的出现,这种情况会如何变化?

由于我仍在讨论这个主题,因此在训练嵌入向量时如何选择合适的窗口大小?

我问这个问题是因为我不是用现实生活中的语言词典来训练我的网络,而是这些句子会描述进程和文件以及其他进程等之间的关系。 例如,我的文本语料库中的一个句子如下所示:

smss.exe irp_mj_create systemdrive windows system32 ntdll dll DesiredAccess:执行/遍历、同步、处置:打开、选项:、 属性:不适用,ShareMode:读取,AllocationSize:不适用,OpenResult: 已打开”

正如您可能想象的那样,变化有很多,但问题仍然是如何以最佳方式微调这些超参数,以便嵌入空间不会过度拟合,同时又为每个单词提供足够的有意义的特征。

Thanks,

Gabriel


比率不是您的目标

我不记得这个问题的任何具体论文,但这个问题感觉有点奇怪 - 一般来说,如果我有一个很棒的模型,但想切换到两倍或十倍大的词汇表,我会not更改嵌入尺寸。

恕我直言,它们是非常正交的、不相关的参数。决定最佳嵌入维度的关键因素主要与计算资源的可用性(越小越好,因此如果结果没有差异并且可以将维度减半,就这样做)、任务和(最重要的)嵌入数量相关。监督训练示例 - 嵌入维度的选择将决定你将压缩/故意限制词汇信息的程度;更大的维度将使您的模型能够区分更多的词汇细节,当且仅当您的监督数据有足够的信息来区分时,这才是好的。use该词汇细节正确,但如果不存在,那么额外的词汇信息将过度拟合,并且较小的嵌入维数将更好地概括。因此,词汇量大小和嵌入维度之间的比率不是(恕我直言,我无法提供证据,这只是实践经验)值得关注的东西,因为嵌入维度的最佳大小由下式决定:你在哪里使用嵌入,而不是训练嵌入的数据。

无论如何,这似乎是一种情况,你的里程会有所不同 - 任何理论和讨论都会很有趣,但是你的任务和文本领域非常具体,一般 NLP 的发现可能适用也可能不适用于你的情况,并且它会是最好获得有效的经验证据your数据。使用 64/128/256 或 100/200/400 或任何大小训练嵌入,使用其中每一个训练模型,并比较效果;与思考效果应该是什么相比,这会花费更少的精力(人,而不是 GPU)。

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

词汇量和嵌入维度之间的首选比例是多少? 的相关文章

随机推荐

  • 如何从子进程(通过 Parallel::ForkManager 分叉)传递变量?

    我的查询 在下面的代码中我试图打印 commandoutput 0 被转移或传递到即将到来的子程序中 我尝试通过转移来传递它 但我失败了 你能帮我正确的方法吗 Code my max forks 4 createThreads my com
  • 从具有开始/结束日期的行创建年份序列行的数据框

    我对 R 和编码来说是一个相对较新的用户 我已经搜索过但无法解决这个问题 我有以下数据 groupid start date end date Status 1 2014 01 01 2017 01 01 A 1 2018 01 01 20
  • Python - 检查字母是否在列表中

    如果一个字母 字符串 在列表中 find letter o 你好 c 再见 返回 True 否则返回 False def find letter lst lst o hello 1 n o if not lst return 0 elif
  • 响应式背景图像 bootstrap 3

    我正在使用 bootstrap 并试图使我的背景图像具有响应能力 但它不起作用 这是我的代码 html div class row div class bg img src img home bg jpg alt home backgrou
  • `Class of` 类型声明的含义是什么?

    在查看我的代码之一时 我陷入了如下的一项声明 TMyObjectClass class of TMyObject 我有点困惑 想知道这句话的含义是什么 作为TMyObjectClass声明之上没有任何声明 and TMyObject声明如下
  • ElasticSearch:未分配的分片,如何修复?

    我有一个有4个节点的ES集群 number of replicas 1 search01 master false data false search02 master true data true search03 master fals
  • 按下按钮刷新 tkinter 框架

    我正在使用来自的代码在 tkinter 中的两个框架之间切换 https stackoverflow com questions 7546050 switch between two frames in tkinter制作我的图形用户界面
  • 在 Swift 中将参数传递给选择器

    我正在构建一个应用程序来跟踪大学课程的阅读作业 每个 ReadingAssignment 都包含一个 Bool 值 指示读者是否已完成阅读作业 ReadingAssignments 被收集到 WeeklyAssignment 数组中 我希望
  • 具有相同标签的不同散点图标记

    我遇到了 类似 的问题Matplotlib 一个标签具有多个不同标记的图例 https stackoverflow com questions 9262307 matplotlib legend with multiple differen
  • 多个域的集成 Windows 身份验证

    我有一个针对域 A 用户的 Asp net 网站 具有集成 Windows 身份验证 现在B域的用户需要访问该网站 但域B用户访问网站时会弹出窗口输入验证信息 我的问题是 如何配置IIS或Windows Server 让B域用户像A域用户一
  • XAML 文件的智能感知 (Xamarin.Forms)

    在 Visual Studio 15 中 如何让 XAML Intellisense 适用于 Xamarin Forms 中的 XAML 文件 编辑 将答案与问题分开 这个解决方案是在这个论坛 https social msdn micro
  • 如何检测 Angular 中属性的更改

    我有一个带有子组件的组件timeline
  • $null 应该位于相等比较的左侧吗? (-eq 与数组)

    与同事讨论 应该 null是在支票的左边还是右边 有什么例子可以说明为什么这很重要吗 abc null null eq abc True abc eq null True All ok abc 6 7 null 8 9 null eq ab
  • 使用 NPOI 将图像插入 Excel 文件

    我正在使用 C 在 Visual Studio 2010 中编写一个程序 并且正在使用 NPOI 库 我正在尝试将图像插入到 Excel 文件中 我尝试了两种不同的方法 但都不起作用 Method 1 HSSFPatriarch patri
  • 服务重启后 Docker 节点宕机

    我的服务器似乎空间不足 并且某些已部署的 Docker 堆栈出现了一些问题 我花了一段时间才弄清楚 但最终我做到了 并删除了一些容器和图像以释放一些空间 我能够跑service docker restart它起作用了 然而 也存在一些问题
  • 通过java应用程序发送附有excel文件的电子邮件 - 不起作用

    我试图通过Java应用程序发送一封邮件 其中包含excel文件作为附件 而不实际创建该文件 excel文件中的数据来自数据库 我可以发送带有附件的邮件 但文件是文本 制表符分隔 格式 但我希望该文件仅为 Excel 格式 请帮忙 以下是代码
  • 在 Java 调试器中,如何忽略从未通过我的代码的异常

    我目前正在使用 IntelliJ IDEA 进行 Java 开发 但我也对针对其他 IDE 的答案或调试 Java 代码的一般概念感兴趣 因为我在许多 IDE 中都错过了这个功能 所以我不确定在从其他语言转移我的调试习惯时是否错过了工作流程
  • Google Dataflow(Apache Beam)JdbcIO批量插入mysql数据库

    我正在使用 Dataflow SDK 2 X Java API Apache Beam SDK 将数据写入 mysql 我创建了基于管道Apache Beam SDK 文档 https beam apache org documentati
  • 使用 window.open() 的多个窗口

    众所周知 如果您单击嵌入其中的提交按钮onClick windown open 这将打开一个新窗口 其中包含您指定的所有可爱属性 但是 如果继续单击父窗口并再次单击 提交 按钮而不关闭先前的弹出窗口 则同一窗口将被新数据覆盖 现在我需要一种
  • 词汇量和嵌入维度之间的首选比例是多少?

    例如使用时gensim word2vec或用于训练嵌入向量的类似方法我想知道什么是好的比率 或者嵌入维度与词汇量之间是否有首选比率 随着更多数据的出现 这种情况会如何变化 由于我仍在讨论这个主题 因此在训练嵌入向量时如何选择合适的窗口大小