doc2vec 获得良好性能所需的最小数据集大小是多少？

2024-04-13

在不同大小的数据集上进行训练时，doc2vec 的表现如何？原始语料库中没有提到数据集大小，所以我想知道从 doc2vec 中获得良好性能所需的最小大小是多少。

有很多东西被称为“doc2vec”，但它似乎最常指的是 Le 和 Mikolov 的“段落向量”技术。

原本的“段落向量”论文 https://cs.stanford.edu/~quocle/paragraph_vector.pdf描述了在三个数据集上对其进行评估：

“斯坦福情感树库”：11,825 个电影评论句子（进一步分为 239,232 个片段短语，每个短语只有几个词）
“IMDB 数据集”：100,000 条电影评论（通常每条有几百个字）
搜索结果“片段”段落：10,000,000 个段落，从前 10 个 Google 搜索结果中针对前 1,000,000 个最常见查询中的每一个收集

前两个是公开的，因此您还可以查看它们的总字数、典型文档大小和词汇表。（但请注意，没有人能够在前两个数据集上完全重现该论文的情感分类结果，这意味着他们的报告中存在一些缺失信息或错误。有可能接近 IMDB 数据集。）

A 后续文件 https://arxiv.org/abs/1507.07998应用该算法来发现数据集中的主题关系：

维基百科：4,490,000 篇文章正文
Arxiv：从 PDF 中提取的 886,000 篇学术论文文本

因此，这两篇早期论文中使用的语料库从数万到数百万个文档不等，文档大小从几个单词短语到数千字文章不等。（但这些作品并不一定混合了大小截然不同的文档。）

一般来说，word2vec/段落向量技术受益于大量数据和各种单词上下文。如果没有至少数万个文档，我不会期望有好的结果。比几个单词长的文档效果更好。如果在同一训练中混合大小或种类截然不同的文档（例如混合推文和书籍），结果可能会更难以解释。

但你确实必须用你的语料库和目标来评估它，因为对于某些目的来说，对某些数据有效的东西可能无法推广到非常不同的项目。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

NLP

doc2vec

doc2vec 获得良好性能所需的最小数据集大小是多少？的相关文章

波特油炸的去梗

为什么波特词干算法在线 http text processing com demo stem http text processing com demo stem stem fried to fri并不是fry 我不记得任何以以下结尾的单词
如何使用CNN来训练不同大小的输入数据？

CNN 似乎主要针对固定大小的输入来实现现在我想用CNN来训练一些不同大小的句子有哪些常用的方法以下建议主要与用于计算机视觉任务特别是识别的 CNN 相关但也可能对您的领域有所帮助我会看看He 等人的用于视觉识别的深度卷积网
当我在本地运行 CoreNLP 时，为什么“corenlp.run”会产生不同的结果？

网站corenlp run http corenlp run它应该是 CoreNLP 演示站点显示的结果与我在本地计算机上运行 CoreNLP 管道时的结果截然不同网站上确实显示了正确的结果而本地机版本却没有我想知道是否有任何接近
训练新的 AutoTokenizer 拥抱脸部

收到此错误 AttributeError GPT2Tokenizer 对象没有属性 train new from iterator 与拥抱面部文档非常相似我更改了输入就是这样不应该影响它有一次就成功了 2小时后回来查看发现并没有
Attention机制中的“源隐藏状态”指的是什么？

注意力权重计算如下我想知道什么h s指在tensorflow代码中编码器RNN返回一个元组 encoder outputs encoder state tf nn dynamic rnn 正如我所想 h s应该是encoder sta
NLTK 中的 FreqDist 未对输出进行排序

我是 Python 新手我正在尝试自学语言处理 python 中的 NLTK 有一个名为 FreqDist 的函数可以给出文本中单词的频率但由于某种原因它无法正常工作这是教程让我写的 fdist1 FreqDist text1 vo
word2vec gensim 多种语言

这个问题完全超出了我的想象我正在使用 gensim 训练 Word2Vec 模型我提供了多种语言的数据即英语和印地语当我试图找到最接近人的词时我得到的是 model wv most similar positive man O
AttributeError：使用 CRF 时“Tensor”对象没有属性“_keras_history”

我知道关于这个问题有很多问题我已经阅读了其中的一些问题但没有一个对我有用 I am trying to build a model with the following architecture 代码如下 token inputs In
日语/字符的编程技巧[关闭]

Closed 这个问题需要多问focused help closed questions 目前不接受答案我有一个想法可以编写一些网络应用程序来帮助我也许还有其他人更好地学习日语因为我正在学习日语我的问题是该网站主要是英文的所以
NLTK CoreNLPDependencyParser：无法建立连接

我正在尝试通过 NLTK 使用斯坦福解析器按照示例here http www nltk org api nltk parse html nltk parse corenlp CoreNLPDependencyParser 20tutori
在非单一维度 1 处，张量 a (2) 的大小必须与张量 b (39) 的大小匹配

这是我第一次从事文本分类工作我正在使用 CamemBert 进行二进制文本分类使用 fast bert 库该库主要受到 fastai 的启发当我运行下面的代码时 from fast bert data cls import Bert
如何有效计算文档流中文档之间的相似度

我收集文本文档在 Node js 中其中一个文档i表示为单词列表考虑到新文档以文档流的形式出现计算这些文档之间相似性的有效方法是什么我目前对每个文档中单词的归一化频率使用余弦相似度我不使用 TF IDF 词频逆文档频率因为我
比较文本文档含义的最佳方法？

我正在尝试找到使用人工智能和机器学习方法来比较两个文本文档的最佳方法我使用了 TF IDF Cosine 相似度和其他相似度度量但这会在单词或 n gram 级别上比较文档我正在寻找一种方法来比较meaning的文件最好的方法是什
BERT - 池化输出与序列输出的第一个向量不同

我在 Tensorflow 中使用 BERT 有一个细节我不太明白根据文档 https tfhub dev google bert uncased L 12 H 768 A 12 1 https tfhub dev google bert
Spacy 中的自定义句子分割

I want spaCy使用我提供的句子分割边界而不是它自己的处理例如 get sentences Bob meets Alice SentBoundary They play together gt Bob meets Alice Th
如何提取数字（以及比较形容词或范围）

我正在用 Python 开发两个 NLP 项目它们都有类似的任务提取数值和比较运算符来自句子如下所示 greater than 10 weight not more than 200lbs height in 5 7 feets fas
将 python NLTK 解析树保存到图像文件[重复]

这个问题在这里已经有答案了这可能会复制这个 stackoverflowquestion https stackoverflow com questions 23429117 saving nltk drawn parse tree to
gensim如何计算doc2vec段落向量

我正在看这篇论文http cs stanford edu quocle paragraph vector pdf http cs stanford edu quocle paragraph vector pdf 它指出段落向量和词向量被平
如何在R中使用OpenNLP获取POS标签？

这是 R 代码 library NLP library openNLP tagPOS lt function x s lt as String x word token annotator lt Maxent Word Token Anno
旧版本的 spaCy 在尝试安装模型时抛出“KeyError: 'package'”错误

我在 Ubuntu 14 04 4 LTS x64 上使用 spaCy 1 6 0 和 python3 5 为了安装 spaCy 的英文版本我尝试运行这给了我错误消息 ubun ner 3 NeuroNER master src pyt

随机推荐

UICollectionView - 滚动到下一页

是否有机会使用 UICollectionView 滚动到所需的项目 scrollToItemAtIndexPath 并且不捕捉到项目本身而是捕捉到项目所属的页面我启用了分页功能 Cheers 你需要创建NSIndexPath而不是滚动到
创建自定义 UTI 以与空投、iOS 一起使用

我在 info plist 中使用此代码
在 Bash 中动态构建命令管道

我正在编写一个带有选项的 bash 程序例如 my program l 3 a s l 3将输出限制为三行 a将选择我的所有文件 s将对输出进行排序现在我可以这样一次使用两个选项 if all 1 then if sort 1 the
升级 ng-jhipster 库以兼容 Angular 16.2.0

我正在开发一个依赖 ng jhipster 库的 Angular 应用程序特别是版本 0 16 0 以下是 ng jhipster 的 package json 中的相关部分 name ng jhipster description A
由于“无法获取 QuerySet 类的 repr”错误，嵌套序列化器上的非空约束失败

尝试在我的 DRF 项目中使用基本的消息传递功能我似乎对嵌套序列化器验证有问题我是 DRF 的新手已经阅读文档几天了但我一定错过了一些东西错误发生在行内message Message objects create validate
JIT 与解释器

我找不到 JIT 和解释器之间的区别 Jit 是解释器和编译器的中介在运行时它将字节代码转换为机器代码 JVM 或实际机器下次它从缓存中获取并运行我对吗解释器将直接执行字节码而不将其转换为机器代码是对的吗我们电脑中真正的处
HTML5 视频 JavaScript 控件 - 重新启动视频

我知道如何使用 play 和pause 开始和停止视频但是如何使用 javascript 将视频放回到 HTML5 的开头有没有办法将指针移回开头 Set the currentTime http www w3 org TR html5
针对特定集合的多对多关系核心数据查询

public enum Ability String case newcomer Newcomer case beginner Beginner case intermediate Intermediate case advanced Ad
ActiveRecord 包括。指定包含的列

我有模特个人资料个人资料有一个用户用户模型具有字段电子邮件当我打电话时 Profile some scope includes user it calls SELECT users FROM users WHERE users id
需要一种内置方法来为现有存储库的 Dapper 添加死锁恢复能力，而无需更改它们

需要全部做完现有的回购协议大约 30 对死锁具有容错能力并通过日志和等待方法从死锁中恢复尝试成功经过一些研究并根据项目进行定制后我使用 Polly 回答了下面的自定义 SqlResiliencyPolicy 但是我寻求的是目前
在张量流中检索未命名变量

我已经训练了一个模型并将其保存在检查点中但刚刚意识到我忘记命名恢复模型时要检查的变量之一我知道如何从张量流中检索命名变量 g tf get default graph 进而g get tensor by name name 在这种情况下
ubuntu `env：'pg_dump'：没有这样的文件或目录`错误

ubuntu 16 10 中缺少 pg dump 环境变量或文件运行并安装后sudo apt get install postgresql client see pg dump 和 pg restore 错误的含义是什么 https st
使用 .net core 3.0 并使用 /p:PublishSingleFile=true 标志时如何获取可执行文件的实际路径？

我最近将一个应用程序升级到 dotnet core 3 并在构建过程中开始使用 PublishSingleFile 标志通过这两个更改查找可执行路径的方式发生了变化现在我不再获取可执行文件所在的路径而是重定向到以下位置的随机目录
包含一个主要可执行文件和一个辅助应用程序的应用程序包

我编写了一个应用程序它使用外部ask pass 我为gui工具编写的一个小应用程序 cmd行工具来访问ssh 到目前为止在开发模式下一切都运行良好但是当我想要存档捆绑该应用程序时它会为我创建一个包含 2 个可执行文件的 zip
如何检测在fragment android中按下后退按钮的时间？

我的项目带有带片段的导航抽屉有 5 个菜单问题是当我转到菜单 4 并按下后退按钮时应用程序关闭但我需要应用程序返回到第一个菜单即片段中的所有菜单这是主要活动导航抽屉的代码 public class MainActivity
Symfony 表单（作为 Doctrine 的独立组件）EntityType 不起作用

我使用 Symfony 表单 v3 0 而不使用 Symfony 框架的其余部分使用 Dotrine v2 5 我创建了一个表单这是表单类型类 class CreateMyEntityForm extends BaseFormType
Python 中的“布尔”运算（即：和/或运算符）

此方法搜索第一组单词字符即 a zA Z0 9 返回第一个匹配的组或None万一失败 def test str m re search r w str if m return m group 1 return None 相同的函数可以重写
在 Postgres 中添加 current_timestamp 和 days 列的总和

我想通过向当前时间添加天数来更新列用伪语法来说它是 UPDATE foo SET time current timestamp days integer days 是同一个表中的一列 select now cast 1 day as i
64位进程的进程内存限制

我目前有一个 32 位 Net 应用程序在 x86 Windows 上需要大量内存最近它开始抛出 System OutOfMemoryException 因此我计划将其作为 64 位进程迁移到 x64 平台这将有助于解决内存不足的
doc2vec 获得良好性能所需的最小数据集大小是多少？

在不同大小的数据集上进行训练时 doc2vec 的表现如何原始语料库中没有提到数据集大小所以我想知道从 doc2vec 中获得良好性能所需的最小大小是多少有很多东西被称为 doc2vec 但它似乎最常指的是 Le 和 Mikolov

doc2vec 获得良好性能所需的最小数据集大小是多少？

doc2vec 获得良好性能所需的最小数据集大小是多少？ 的相关文章

随机推荐

热门标签

doc2vec 获得良好性能所需的最小数据集大小是多少？的相关文章