doc2vec 获得良好性能所需的最小数据集大小是多少?

2024-04-13

在不同大小的数据集上进行训练时,doc2vec 的表现如何?原始语料库中没有提到数据集大小,所以我想知道从 doc2vec 中获得良好性能所需的最小大小是多少。


有很多东西被称为“doc2vec”,但它似乎最常指的是 Le 和 Mikolov 的“段落向量”技术。

原本的“段落向量”论文 https://cs.stanford.edu/~quocle/paragraph_vector.pdf描述了在三个数据集上对其进行评估:

  • “斯坦福情感树库”:11,825 个电影评论句子(进一步分为 239,232 个片段短语,每个短语只有几个词)
  • “IMDB 数据集”:100,000 条电影评论(通常每条有几百个字)
  • 搜索结果“片段”段落:10,000,000 个段落,从前 10 个 Google 搜索结果中针对前 1,000,000 个最常见查询中的每一个收集

前两个是公开的,因此您还可以查看它们的总字数、典型文档大小和词汇表。 (但请注意,没有人能够在前两个数据集上完全重现该论文的情感分类结果,这意味着他们的报告中存在一些缺失信息或错误。有可能接近 IMDB 数据集。)

A 后续文件 https://arxiv.org/abs/1507.07998应用该算法来发现数据集中的主题关系:

  • 维基百科:4,490,000 篇文章正文
  • Arxiv:从 PDF 中提取的 886,000 篇学术论文文本

因此,这两篇早期论文中使用的语料库从数万到数百万个文档不等,文档大小从几个单词短语到数千字文章不等。 (但这些作品并不一定混合了大小截然不同的文档。)

一般来说,word2vec/段落向量技术受益于大量数据和各种单词上下文。如果没有至少数万个文档,我不会期望有好的结果。比几个单词长的文档效果更好。如果在同一训练中混合大小或种类截然不同的文档(例如混合推文和书籍),结果可能会更难以解释。

但你确实必须用你的语料库和目标来评估它,因为对于某些目的来说,对某些数据有效的东西可能无法推广到非常不同的项目。

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

doc2vec 获得良好性能所需的最小数据集大小是多少? 的相关文章

随机推荐