大模型：如何利用旧的tokenizer训练出一个新的来？

2023-11-15

背景：

我们在用chatGPT或者SD的时候，发现如果使用英语写提示词得到的结果比我们使用中文得到的结果要好很多，为什么呢？这其中就有一个叫做tokenizer的东西在作怪。

训练一个合适的tokenizer是训练大模型的基础，我们既可以从头开始训练一个全新的tokenizer，也可以利用旧的tokenizer训练出一个新的来，今天就让我们看看如何来以旧换新。

第一步：数据准备

不管是训练大模型，还是训练tokenizer，首先都需要我们准备数据集：

from datasets import load_dataset
#加载数据集
raw_datasets = load_dataset("code_search_net", "python")

#写一个迭代函数，分配加载数据，防止数据集太大导致内存溢出
def get_training_corpus():
    return (
        raw_datasets["train"][i : i + 1000]["whole_func_string"]
        for i in range(0, len(raw_datasets["train"]), 1000)
    )


training_corpus = get_training_corpus()

第二步：训练

#加载旧的tokenizer
old_tokenizer = AutoTokenizer.from_pretrained("gpt2")
#进行训练
tokenizer = old_tokenizer.train_new_from_iterator(training_corpus, 52000)

第三步：保存

tokenizer.save_pretrained("code-search-net-tokenizer")

第四步：使用

tokenizer = AutoTokenizer.from_pretrained("huggingface-course/code-search-net-tokenizer")

总结：

1、利用AutoTokenizer.train_new_from_iterator()可以很轻松的使用我们自己的数据集来根据旧的tokenizer来训练出一个全新的tokenizer

2、如果我们需要的语言中没有可用的大语言模型，或者我们要预测的数据集与我们选择的大语言模型训练的数据集非常不同，我们就需要使用适合我们的数据的tokenizer从头开始重新训练模型。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

人工智能

tokenizer

train

LLM

Transformer

大模型：如何利用旧的tokenizer训练出一个新的来？的相关文章

2024年华数杯国际赛B题：光伏发电功率思路模型代码解析

2024年华数杯国际赛B题光伏发电功率 Photovoltaic Power 一问题描述中国的电力构成包括传统能源发电如煤油和天然气可再生能源发电如水电风能太阳能和核能以及其他形式的电力这些发电模式在满足中国对电力的巨
【固定翼飞机】基于最优控制的固定翼飞机着陆控制器设计研究（Matlab代码实现）

欢迎来到本博客博主优势博客内容尽量做到思维缜密逻辑清晰为了方便读者座右铭行百里者半于九十本文目录如下目录 1 概述 2 运行结果 3 参考文献 4 Matlab代码及文章
【EI复现】基于深度强化学习的微能源网能量管理与优化策略研究（Python代码实现）

欢迎来到本博客博主优势博客内容尽量做到思维缜密逻辑清晰为了方便读者座右铭行百里者半于九十本文目录如下目录 1 概述 2 运行结果 2 1 有无策略奖励 2 2 训练结果1
【图像融合】基于联合双边滤波和局部梯度能量的多模态医学图像融合研究（Matlab代码实现）

欢迎来到本博客博主优势博客内容尽量做到思维缜密逻辑清晰为了方便读者座右铭行百里者半于九十本文目录如下目录 1 概述 2 运行结果 3 参考文献 4 Matlab代码图像文章
【多源数据融合】基于Dempster-Shafer理论的信念对数相似度测量及其在多源数据融合中的应用（Matlab代码实现）

欢迎来到本博客博主优势博客内容尽量做到思维缜密逻辑清晰为了方便读者座右铭行百里者半于九十本文目录如下目录 1 概述 2 运行结果 3 参考文献 4 Matlab代码实现
Soul App：年轻人的社交状态，还有多少种可能？

查尔斯狄更斯在双城记的开篇写下这是最好的时代这是最坏的时代这是智慧的时代这是愚蠢的时代这是信仰的时期这是怀疑的时期人们面前有着各样事物人们面前一无所有既然万事万物都和狄更斯所说般好坏参半那又何必执着于过去苦恼于
什么是充放电振子理论？

CHAT回复充放电振子模型 Charging Reversal Oscillator Model 是一种解释ENSO现象的理论模型这个模型把ENSO现象比喻成一个热力学振荡系统在这个模型中 ENSO现象由三个组成部分充电 Char
基于java的ssh医院在线挂号系统设计与实现

基于java的ssh医院在线挂号系统设计与实现 I 引言 A 研究背景和动机基于Java的SSH医院在线挂号系统设计与实现的研究背景和动机随着信息技术的迅速发展和应用医院在线挂号系统已成为医院管理的重要组成部分传统的挂号方式存在许多
让CHAT介绍下V2ray

CHAT回复 V2Ray是一个网络工具主要用于科学上网和保护用户的网络安全它的名字源自Vmess Ray 光线通过使用新的网络协议为用户提供稳定且灵活的代理服务下面是一些V2Ray的主要特性 1 多协议支持 V2Ray 提供了大量
用CHAT分析高校体育智慧教学体系构建与探索研究现状

CHAT回复现阶段高校体育智慧教学体系的构建与探索研究还处于初级阶段但全球数字化转型大潮的推动下一些较为前沿的研究和实践已经开始出现 1 教学平台的建设很多高校已经开始尝试使用在线教育平台进行体育教学把传统的面对面授课模式转变为
扬帆证券：三只松鼠去年扣非净利预增超1.4倍

在高端性价比战略驱动下三只松鼠 300783 重拾增势 1月15日晚间三只松鼠发布成绩预告预计2023年度净赢利为2亿元至2 2亿元同比增加54 97 至70 47 扣非后净赢利为1亿元至1 1亿元同比增速达146 9 至17
明日 15:00 | NeurIPS 2023 Spotlight 论文

点击蓝字关注我们 AI TIME欢迎每一位AI爱好者的加入哔哩哔哩直播通道扫码关注AITIME哔哩哔哩官方账号预约直播 1月17日 15 00 16 00 讲者介绍黄若孜腾讯AI LAB游戏AI研究员 2020年复旦大学硕士毕业后
毕业设计- 基于深度学习的小样本时间序列预测算法 - Attention

目录前言课题背景与意义课题实现一数据集二设计思路三相关代码示例最后前言大四是整个大学期间最忙碌的时光一边要忙着准备考研考公考教资或者实习为毕业后面临的就业升学做准备一边要为毕业设计耗费大量精力近几年各个学校
无人机视角、多模态、模型剪枝、国产AI芯片部署

无人机视角多模态模型剪枝国产AI芯片部署是当前无人机技术领域的重要研究方向其原理和应用价值在以下几个方面进行详细讲述一无人机视角无人机视角是指在无人机上搭载摄像头等设备通过航拍图像获取环境信息并进行图像处理和分析这种技术
毕业设计：基于卷积神经网络的图像分类系统 python人工智能

目录前言设计思路一课题背景与意义二算法理论原理 2 1 卷积神经网络 2 2 SVM算法三检测的实现最后前言大四是整个大学期间最忙碌的时光一边要忙着备考或实习为毕业后面临的就业升学做准备一边要为毕业设计耗费大量精力
做大模型也有1年多了，聊聊这段时间的感悟！

自ChatGPT问世以来做大模型也有1年多了今天给大家分享这一年后的感悟过去一年应该是AI圈最万千瞩目的一年了大家对大模型 OpenAI ChatGPT AI Native Agent这些词投入了太多的关注以至于有一年的时间好像经
AI在保护环境、应对气候变化中的作用

对于AI生命周期数据领域的全球领导者而言暂时搁置我们惯常的AI见解和AI生命周期数据内容产出来认识诸如世界地球日这样的自然环境类活动日似乎是个奇怪的事情我们想要知道数据是否真的会影响我们的地球环境简而言之是确实如此但作为一
【EI复现】基于深度强化学习的微能源网能量管理与优化策略研究（Python代码实现）

欢迎来到本博客博主优势博客内容尽量做到思维缜密逻辑清晰为了方便读者座右铭行百里者半于九十本文目录如下目录 1 概述 2 运行结果 2 1 有无策略奖励 2 2 训练结果1
自动驾驶离不开的仿真！Carla-Autoware联合仿真全栈教程

随着自动驾驶技术的不断发展研发技术人员开始面对一系列复杂挑战特别是在确保系统安全性处理复杂交通场景以及优化算法性能等方面这些挑战中尤其突出的是所谓的长尾问题即那些在实际道路测试中难以遇到的罕见或异常驾驶情况这些问题暴露了实车
AI 赋能绿色制冷，香港岭南大学开发 DEMMFL 模型进行建筑冷负荷预测

近年来城市化进程加速所带来的碳排放量骤增已经严重威胁到了全球环境多个国家均已给出了碳达峰碳中和的明确时间点一场覆盖全球全行业的绿色革命已经拉开序幕在一众行业中建筑是当之无愧的能耗大户其中又以暖通空调 Heating

随机推荐

深度学习基础模型算法原理及编程实现--10.优化方法：从梯度下降到NAdam

文章列表 1 深度学习基础模型算法原理及编程实现 01 感知机 2 深度学习基础模型算法原理及编程实现 02 线性单元 3 深度学习基础模型算法原理及编程实现 03 全链接 4 深度学习基础模型算法原理及编程实现 04 改进神经网络的方法
C/C++趣味编程经典100例详解

更新记录 2019 08 27 28题重写 C C 语言经典实用趣味程序设计编程百例精解 1 绘制余弦曲线在屏幕上用显示0 360度的余弦函数cos x 曲线问题分析与算法设计如果在程序中使用数组的话这个问题十分简单但若规
阿辉闯Java（Java基本语法）

hallo 大家好接下来和阿辉一起了解一下Java的基本语法吧 1 Java程序的基本格式 Java程序代码必须放在一个类中初学者可以简单地把一个类理解为一个Java程序类使用class关键字定义在class前面可以有类的修饰符类
二十、转置矩阵

1 定义假设交换A的所有行和列后形成的新矩阵即为矩阵A的转置矩阵对一个矩阵进行转置的转置结果是原矩阵 2 下面为转置矩阵的性质分析矩阵时我们主要从加法乘法零空间列空间秩行列式等角度进行分析矩阵又分为原始矩阵逆矩
Uncaught ReferenceError: xxx is not defined 解决办法

VM11371 1 Uncaught ReferenceError inputSize is not defined at
JSP&EL表达式&MVC&三层结构综合案例

文章目录 JSP 1 JSP 概述 2 JSP 快速入门 2 1 搭建环境 2 2 导入 JSP 依赖 2 3 创建 jsp 页面 2 4 编写代码 2 5 测试 3 JSP 原理 4 JSP 脚本 4 1 JSP 脚本分类 4 2 案例
YOLOv7原文翻译

前言这个本来是我的毕业论文文献翻译但是老师给打回来了原因是网上的重合率太高所以我又重新找了一篇大家文献翻译千万不要找大热门太痛苦了但是翻都翻完了所以就扔上来除了一些名词不知道怎么翻译之外也还好按理这些名词应该不翻译直接用
CentOS7下解决ifconfig command not found的办法

注本办法仅限于可联网的机器即在安装时设置了IP地址和DNS可正常上网解决办法如下 1 输入ip addr 确认IP地址是否设置正常设置好如下所示如果没有获取到IP地址则设置一个即可 2 确认sbin目录是否存在 cd sbin 3
Makefile学习（二）

Makefile 1 ifeq DEBUG true 2 CC gcc g 生成debug版本才可以生成调试信息对程序进行调试 3 else 4 CC gcc 5 endif 6 all hello 7 hello lcd o play
使用 Docker Desktop 安装 Centos 系统

一前言由于 Docker 是一个容器它支持在一个服务器进行多服务部署并且还能保持服务的独立性那么在Docker 上的运用时我们也是可以独立部署多个系统来做不同是其他这样环境独立的情况下也就不会造成一下不必要的问题二使
后端开发通用

1 前后端开发项目基于前后端分离的架构进行开发前后端分离架构总体上包括前端和服务端通常是多人协作开发对于后端java工程师把精力放在设计模式 spring springmvc linux mysql事务隔离与锁机制 mongodb
WB_BF项目问题说明以及探究

我就现在WB BF项目群里面提到的根据测试脚本运行日志来看 bf运行了约31小时后又开始出现了api调用返回nginx的错误信息之后 bf客户端也无法打开问题做一下说明今天早上我在机器上复现了这一问题针对于api调用会返回ngin
遗传算法整理

1 基本概念使用群体搜索技术将种群代表一组问题解通过对当前种群施加选择交叉和变异等一系列遗传操作来产生新一代种群并逐步使种群进化到包含近似最优解的状态 2 遗传算法流程 3 标准遗传算法标准遗传算法又称为经典遗传算法它的优化变
百度搭台，千家打擂，文心杯创业大赛成投资人新宠？

百模大战打响掀起大模型领域创业热潮今年5月31日百度启动文心杯创业大赛后简称大赛不到1个月报名时间吸引近1000个项目激烈角逐在知名投资人和AI专家的权威评审和层层筛选后 40个潜力项目闯入决赛圈进行最终较量大
Python数据可视化的例子——热力图（heatmap）

关系型数据的可视化热力图体现了两个离散变量之间的组合关系热力图有时也称之为交叉填充表该图形最典型的用法就是实现列联表的可视化即通过图形的方式展现两个离散变量之间的组合关系读者可以借助于seaborn模块中的heatmap函数完
skopt下载

在pycharm中直接下载skopt时失败网上有如下解决办法在python当前位置执行下载 1 先安装scikit optimize pip install scikit optimize 后直接在pycharm中安装skopt成功若
fastJson注解@JSONField指定字段的顺序

使 ordinal指定字段的顺序 public class BasePackage JSONField ordinal 1 private int id JSONField ordinal 2 private int direction J
mysql数据库管理-FEDERATED存储引擎远程链接MYSQL+ORACLE

一 FEDERATED存储引擎 01 从5 1 26开始默认MySQL不启用federated存储引擎所以需要在my cnf中加入federated选项 02 或是在命令行用 federated选项启动mysqld 1 1 说明 mys
ubuntu下修改用户的默认目录

linux系统下不同的用户有对应的默认目录设置这些设置都被保存在配置文件 etc passwd中由上我们可以看出对于用户名为JACK的用户其系统默认目录为 home JACK 那么有时候我们可能在JACK目录下新建了一个目录 co
大模型：如何利用旧的tokenizer训练出一个新的来？

背景我们在用chatGPT或者SD的时候发现如果使用英语写提示词得到的结果比我们使用中文得到的结果要好很多为什么呢这其中就有一个叫做tokenizer的东西在作怪训练一个合适的tokenizer是训练大模型的基础我们既可以从头开

大模型：如何利用旧的tokenizer训练出一个新的来？

大模型：如何利用旧的tokenizer训练出一个新的来？ 的相关文章

随机推荐

热门标签

大模型：如何利用旧的tokenizer训练出一个新的来？的相关文章