tokenizer

大模型：如何利用旧的tokenizer训练出一个新的来？

背景我们在用chatGPT或者SD的时候发现如果使用英语写提示词得到的结果比我们使用中文得到的结果要好很多为什么呢这其中就有一个叫做tokenizer的东西在作怪训练一个合适的tokenizer是训练大模型的基础我们既可以从头开

人工智能 tokenizer train LLM Transformer
bert第三篇：tokenizer

文章目录 tokenizer基本含义 bert里涉及的tokenizer BasicTokenzer wordpiecetokenizer FullTokenzier PretrainTokenizer 关系图实操如何训练训练自己中文

机器学习 深度学习 Bert tokenizer WordPiece

大模型：如何利用旧的tokenizer训练出一个新的来？