我正在为 NLP 任务构建 TensorFlow 模型,并且使用预训练的 Glove 300d 词向量/嵌入数据集。
显然,有些标记无法解析为嵌入,因为它们没有包含在词向量嵌入模型的训练数据集中,例如罕见的名字。
我可以用 0 向量替换这些标记,但我更愿意以某种方式对其进行编码并将其包含到我的训练数据中,而不是将这些信息丢弃在地板上。
比如说,我有“raijin”单词,它无法解析为嵌入向量,那么与 Glove 嵌入数据集一致地对其进行编码的最佳方法是什么?将其转换为 300d 矢量的最佳方法是什么?
谢谢。
而不是分配所有Out of Vocabulary
共同的令牌UNK
向量(零),最好为它们分配一个唯一的随机向量。至少这样,当你发现它们与任何其他单词之间的相似性时,它们中的每一个都是唯一的,并且模型可以从中学习一些东西。在里面UNK case
,它们都是相同的,因此所有 UNK 单词将被视为具有相同的上下文。
我尝试了这种方法,结果准确率提高了 3%Quora Duplicate question pair detection
数据集使用LSTM
model.
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)