我正在研究 NLP 预处理。在某些时候,我想实现一个上下文相关的词嵌入,作为辨别词义的一种方式,并且我正在考虑使用 BERT 的输出来实现这一点。我注意到 BERT 使用 WordPiece 标记化(例如,“playing”->“play”+“##ing”)。
现在,我使用标准分词器对文本进行预处理,该分词器按空格/一些标点符号进行分割,然后我有一个词形还原器(“播放”->“播放”)。我想知道 WordPiece 标记化相对于标准标记化 + 词形还原有什么好处。我知道 WordPiece 可以帮助处理词汇量不足的单词,但是还有其他方法吗?也就是说,即使我最终没有使用 BERT,我是否应该考虑用单词标记化替换我的标记生成器 + 词形还原器?在什么情况下这会有用?
单词片段标记化在很多方面都有帮助,并且应该比词形还原器更好。由于多种原因:
- 如果您将“playful”、“playing”、“played”等词词形还原为“play”,它可能会丢失一些信息,例如
playing
是现在时并且played
是过去时,这在单词片段标记化中不会发生。
- 词块标记涵盖了所有单词,甚至是字典中没有出现的单词。它会分割单词,并且会有单词片段标记,这样,您就应该嵌入分割后的单词片段,这与删除单词或替换为“未知”标记不同。
使用单词片段标记化而不是标记器+词形还原器只是一种设计选择,单词片段标记化应该表现良好。但是您可能必须考虑计数,因为单词片段标记化会增加标记的数量,而词形还原中的情况并非如此。
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)