我目前正在使用在 Google 新闻语料库上训练的 Word2Vec 模型(来自here)
由于仅在 2013 年之前对新闻进行训练,因此我需要更新向量,并根据 2013 年之后的新闻在词汇表中添加新单词。
假设我在 2013 年之后有一个新的新闻语料库。我可以重新训练、微调或更新 Google News Word2Vec 模型吗?使用Gensim可以完成吗?使用 FastText 可以完成吗?
你可以看看这个:https://github.com/facebookresearch/fastText/pull/423
它做的事情和你想要的完全一样:
链接内容如下:
增量训练分类模型或词向量模型。
./fasttext [监督|跳过图 | cbow] -输入train.data -inputModel训练.model.bin -输出重新训练[其他选项] -incr
-incr 代表增量训练。
训练词嵌入时,可以每次使用所有数据从头开始,或者只使用新数据。对于分类,可以使用所有数据或仅新数据的预训练词嵌入从头开始训练它,而不改变词嵌入。
增量训练实际上意味着,用我们之前得到的数据完成模型的训练,然后用我们得到的新数据重新训练模型,而不是从头开始。
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)