仅用61行代码,你也能从零训练大模型

2023-12-05

本文并非基于微调训练模型,而是从头开始训练出一个全新的大语言模型的硬核教程。看完本篇,你将了解训练出一个大模型的环境准备、数据准备,生成分词,模型训练、测试模型等环节分别需要做什么。AI 小白友好~文中代码可以直接实操运行。欢迎阅读体验。

目录

1 准备训练环境

2 准备训练数据

3 训练分词器

4 训练模型

5 测试模型

6 完整代码

通过这篇文章,你可以预训练一个全新大语言模型。

注意是全新的模型,不是微调。

全新训练的好处是训练的数据、训练的参数都是可修改的,通过调试运行我们可以更好的理解大模型训练过程。我们可以用特定类型数据的训练,来完成特定类型数据的输出。

关于大模型已经有很多文章,微调模型的文章比较多,全新预训练全新模型的文章很少。个人觉得有的也讲的很复杂,代码也很难跑通。本文不会讲的很复杂,代码也很容易运行。仅用61行代码,就能训练出一个全新大语言模型。

本文以代码为主,运行代码需要 Python 环境。

01、准备训练环境

我的训练环境基于腾讯云的 GPU 机器。

地址: https://cloud.tencent.com/product/gpu

GPU类型:GN7.2XLARGE32 T4 显卡:1颗 显存:16GB;
python 3.11;
requirements.txt:
tokenizers==0.13.3
torch==2.0.1
transformers==4.30.

02、准备训练数据

首先我们要为训练准备数据,比如我就想基于《三国演义》训练一个模型。三国演义下载地址:

https://raw.githubusercontent.com/xinzhanguo/hellollm/main/text/sanguoyanyi.txt

03、训练分词器

分词(tokenization)是把输入文本切分成有意义的子单元(tokens)。通过以下代码,根据我们的数据生成一个新的分词器:

from tokenizers import Tokenizer
from tokenizers.models import BPE
from tokenizers.trainers import BpeTrainer
from tokenizers.normalizers import NFKC, Sequence
from tokenizers.pre_tokenizers import ByteLevel
from tokenizers.decoders import ByteLevel as ByteLevelDecoder
from transformers import GPT2TokenizerFast

# 构建分词器 GPT2 基于 BPE 算法实现
tokenizer = Tokenizer(BPE(unk_token="<unk>"))
tokenizer.normalizer = Sequence([NFKC()])
tokenizer.pre_tokenizer = ByteLevel()
tokenizer.decoder = ByteLevelDecoder()

special_tokens = ["<s>","<pad>","</s>","<unk>","<mask>"]
trainer = BpeTrainer(vocab_size=50000, show_progress=True, inital_alphabet=ByteLevel.alphabet(), special_tokens=special_tokens)
# 创建 text 文件夹,并把 sanguoyanyi.txt 下载,放到目录里
files = ["text/sanguoyanyi.txt"]
# 开始训练了
tokenizer.train(files, trainer)
# 把训练的分词通过GPT2保存起来,以方便后续使用
newtokenizer = GPT2TokenizerFast(tokenizer_object=tokenizer)
newtokenizer.save_pretrained("./sanguo")

运行时显示如下图:

成功运行代码后,我们在 sanguo 目录生成如下文件:

merges.txt
special_tokens_map.json
tokenizer.json
tokenizer_config.json
vocab.json

现在我们已经成功训练了一个大语言模型的分词器。

04、训练模型

利用下面代码进行模型训练:

from transformers import GPT2Config, GPT2LMHeadModel, GPT2Tokenizer
# 加载分词器
tokenizer = GPT2Tokenizer.from_pretrained("./sanguo")
tokenizer.add_special_tokens({
  "eos_token": "</s>",
  "bos_token": "<s>",
  "unk_token": "<unk>",
  "pad_token": "<pad>",
  "mask_token": "<mask>"
})
# 配置GPT2模型参数
config = GPT2Config(
  vocab_size=tokenizer.vocab_size,
  bos_token_id=tokenizer.bos_token_id,
  eos_token_id=tokenizer.eos_token_id
)
# 创建模型
model = GPT2LMHeadModel(config)
# 训练数据我们用按行分割
from transformers import LineByLineTextDataset
dataset = LineByLineTextDataset(
    tokenizer=tokenizer,
    file_path="./text/sanguoyanyi.txt",
    block_size=32,
  # 如果训练时你的显存不够
  # 可以适当调小 block_size
)
from transformers import DataCollatorForLanguageModeling
data_collator = DataCollatorForLanguageModeling(
    tokenizer=tokenizer, mlm=False, mlm_probability=0.15
)

from transformers import Trainer, TrainingArguments
# 配置训练参数
training_args = TrainingArguments(
    output_dir="./output",
    overwrite_output_dir=True,
    num_train_epochs=20,
    per_gpu_train_batch_size=16,
    save_steps=2000,
    save_total_limit=2,
)
trainer = Trainer(
    model=model,
    args=training_args,
    data_collator=data_collator,
    train_dataset=dataset,
)
trainer.train()
# 保存模型
model.save_pretrained('./sanguo')

运行比较耗时,显示训练数据如下图:

成功运行代码,我们发现 sanguo 目录下面多了三个文件:

config.json
generation_config.json
pytorch_model.bin

现在我们就成功生成训练出基于《三国演义》的一个大语言模型。

05、测试模型

我们用文本生成,对模型进行测试代码如下:

from transformers import pipeline, set_seed
generator = pipeline('text-generation', model='./sanguo')
set_seed(42)
txt = generator("吕布", max_length=10)
print(txt)

运行显示模型输出了三国相关的文本:“吕布十二回 张翼德 张翼德时曹操 武侯计计计”

再测试一条:

txt = generator("接着奏乐", max_length=10)
print(txt)

“接着奏乐\u3000却说曹操引军因二人”

这内容不忍直视,如果想优化,我们也可以基于全新的模型进行微调训练;我们也可以适当地调整下训练参数,以达到较好的效果。

06、完整代码

以下是完整代码,代码地址:

https://github.com/xinzhanguo/hellollm/blob/main/sanguo.py

linux 中运行方法:

# 创建环境
python3 -m venv ~/.env
# 加载环境
source ~/.env/bin/activate
# 下载代码
git clone git@github.com:xinzhanguo/hellollm.git
cd hellollm
# 安装依赖
pip install -r requirements.txt
# 运行代码
python sanguo.py

以上我们就完成一个全新的模型训练。代码去除注释空行总共61行。

本文代码模型是基于 GPT2 的,当然你也可以基于 LLama 或者 Bert 等模型去实现全新的大语言模型。

代码虽然不是很多,但是如果初次尝试运行的话你也许会遇到很多问题,比如环境搭建。为了避免其他烦恼,我建议用 docker 方式运行代码:

# 下载代码
git clone git@github.com:xinzhanguo/hellollm.git
cd hellollm
# 编译镜像
docker build -t hellollm:beta .
# 可以选择以GPU方式运行
# docker run -it --gpus all hellollm:beta sh
docker run -it hellollm:beta sh
python sanguo.py

更多代码可以参考:Hello LLM!

https://github.com/xinzhanguo/h

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

仅用61行代码,你也能从零训练大模型 的相关文章

  • 用通俗易懂的方式讲解:如何用大语言模型构建一个知识问答系统

    传统搜索系统基于关键字匹配 在面向 游戏攻略 技术图谱 知识库等业务场景时 缺少对用户问题理解和答案二次处理能力 本文探索使用大语言模型 Large Language Model LLM 通过其对自然语言理解和生成的能力 揣摩用户意图 并对
  • 【多源数据融合】基于Dempster-Shafer理论的信念对数相似度测量及其在多源数据融合中的应用(Matlab代码实现)

    欢迎来到本博客 博主优势 博客内容尽量做到思维缜密 逻辑清晰 为了方便读者 座右铭 行百里者 半于九十 本文目录如下 目录 1 概述 2 运行结果 3 参考文献 4 Matlab代码实现
  • 利用CHAT写实验结论

    问CHAT 通过观察放置在玻璃表面上的单个水滴 人们可以观察到水滴充当成像系统 探究这样一个透镜的放大倍数和分辨率 CHAT回复 实验报告标题 利用玻璃表面的单一水滴观察成像系统的放大倍数和分辨率 一 实验目的 通过对比和测量 研究和探索玻
  • 让CHAT介绍下V2ray

    CHAT回复 V2Ray是一个网络工具 主要用于科学上网和保护用户的网络安全 它的名字源自Vmess Ray 光线 通过使用新的网络协议 为用户提供稳定且灵活的代理服务 下面是一些V2Ray的主要特性 1 多协议支持 V2Ray 提供了大量
  • 面对AI革新时,Soul App等社交应用的“出圈”解法是什么?

    2023年初 ChatGPT掀开海内外互联网 AI革新 的序幕 公众在惊讶于ChatGPT对于海量信息富有逻辑的整合归纳 帮助大家提升工作及学习效率之余 更为期待的莫过于有一天人工智能的 意识觉醒 十余年前由斯派克 琼斯 Spike Jon
  • 利用CHAT上传文件的操作

    问CHAT autox js ui 上传框 CHAT回复 上传文件的操作如果是在应用界面中的话 由于Android对于文件权限的限制 你可能不能直接模拟点击选择文件 一般来说有两种常见的解决方案 一种是使用intent来模拟发送一个文件路径
  • 毕业设计- 基于深度学习的小样本时间序列预测算法 - Attention

    目录 前言 课题背景与意义 课题实现 一 数据集 二 设计思路 三 相关代码示例 最后 前言 大四是整个大学期间最忙碌的时光 一边要忙着准备考研 考公 考教资或者实习为毕业后面临的就业升学做准备 一边要为毕业设计耗费大量精力 近几年各个学校
  • 无人机视角、多模态、模型剪枝、国产AI芯片部署

    无人机视角 多模态 模型剪枝 国产AI芯片部署是当前无人机技术领域的重要研究方向 其原理和应用价值在以下几个方面进行详细讲述 一 无人机视角 无人机视角是指在无人机上搭载摄像头等设备 通过航拍图像获取环境信息 并进行图像处理和分析 这种技术
  • 台积电再被坑,2纳米光刻机优先给Intel和三星,美国太霸道了

    外媒指出今年ASML的10台2纳米光刻机分配已经基本确定了 Intel拿到6台 三星获得3台 台积电只能得到一台 考虑到美国对ASML的强大影响力 外媒的这些消息应该有较高的可信性 Intel在先进工艺制程方面 自从2014年量产14纳米之
  • 强烈推荐收藏!LlamaIndex 官方发布高清大图,纵览高级 RAG技术

    近日 Llamaindex 官方博客重磅发布了一篇博文 A Cheat Sheet and Some Recipes For Building Advanced RAG 通过一张图给开发者总结了当下主流的高级RAG技术 帮助应对复杂的生产场
  • 如何快速申请GPT账号?

    详情点击链接 如何快速申请GPT账号 一OpenAI 1 最新大模型GPT 4 Turbo 2 最新发布的高级数据分析 AI画图 图像识别 文档API 3 GPT Store 4 从0到1创建自己的GPT应用 5 模型Gemini以及大模型
  • 机器学习算法实战案例:时间序列数据最全的预处理方法总结

    文章目录 1 缺失值处理 1 1 统计缺失值 1 2 删除缺失值 1 3 指定值填充 1 4 均值 中位数 众数填充
  • 如何用GPT进行论文润色与改写?

    详情点击链接 如何用GPT GPT4进行论文润色与改写 一OpenAI 1 最新大模型GPT 4 Turbo 2 最新发布的高级数据分析 AI画图 图像识别 文档API 3 GPT Store 4 从0到1创建自己的GPT应用 5 模型Ge
  • 不要再苦苦寻觅了!AI 大模型面试指南(含答案)的最全总结来了!

    AI 大模型技术经过2023年的狂飙 2024年必将迎来应用的落地 对 IT 同学来讲 这里蕴含着大量的技术机会 越来越多的企业开始招聘 AI 大模型岗位 本文梳理了 AI 大模型开发技术的面试之道 从 AI 大模型基础面 AI 大模型进阶
  • AI帮助终结全球饥饿问题

    全球饥饿问题是牵动人心的头等大事 5月28日是 世界饥饿日 这一问题更值得关注 让人人都能吃饱的想法不仅令人向往 而且很快就会变成现实 与大多数新事物引进一样 对于在控制世界粮食供应这样复杂的任务中AI究竟应该发挥多大的作用 人们还踟蹰不前
  • 史上最全自动驾驶岗位介绍

    作者 自动驾驶转型者 编辑 汽车人 原文链接 https zhuanlan zhihu com p 353480028 点击下方 卡片 关注 自动驾驶之心 公众号 ADAS巨卷干货 即可获取 点击进入 自动驾驶之心 求职交流 技术交流群 本
  • 15天学会Python深度学习,我是如何办到的?

    陆陆续续有同学向我们咨询 Python编程如何上手 深度学习怎么学习 如果有人能手把手 一对一帮帮我就好了 我们非常理解初学者的茫然和困惑 大量视频 书籍 广告干扰了大家的判断 学习Python和人工智能 成为内行人不难 为此 我们推出了
  • 考虑光伏出力利用率的电动汽车充电站能量调度策略研究(Matlab代码实现)

    欢迎来到本博客 博主优势 博客内容尽量做到思维缜密 逻辑清晰 为了方便读者 座右铭 行百里者 半于九十 本文目录如下 目录 1 概述 2 运行结果 3 参考文献 4 Matlab代码 数据
  • 基于节点电价的电网对电动汽车接纳能力评估模型研究(Matlab代码实现)

    欢迎来到本博客 博主优势 博客内容尽量做到思维缜密 逻辑清晰 为了方便读者 座右铭 行百里者 半于九十 本文目录如下 目录 1 概述 2 运行结果 3 参考文献 4 Matlab代码 数据
  • 深度学习(5)--Keras实战

    一 Keras基础概念 Keras是深度学习中的一个神经网络框架 是一个高级神经网络API 用Python编写 可以在TensorFlow CNTK或Theano之上运行 Keras优点 1 允许简单快速的原型设计 用户友好性 模块化和可扩

随机推荐

  • 【Shell部署脚本】更换源

    bin bash 异常捕捉 set e 判断权限 id u gt 0 echo Error 无法操作 权限不够 exit 1 备份文件 cp etc apt sources list etc apt sources list bak 阿里源
  • 保护你的数据:深入了解安全测试!

    安全测试是一种非功能性测试 与功能测试不同 功能测试关注的是软件的功能是否正常工作 软件做什么 非功能测试关注的是应用程序是否被正确设计和配置 安全测试的主要目标 识别资产 需要保护的东西 如软件应用程序和计算基础设施 识别威胁和漏洞 可能
  • Unity万向节死锁解决方案(2023/12/4)

    1 万向节死锁无法解决 这是因为它的特性就是如此 就像玻璃杯就是玻璃 这不可否认 别钻牛角尖昂 2 大多数情况下欧拉角足够用 例如 CF 摄像机不可能绕z轴旋转 x轴旋转也不会超过九十度 因为那样人物的腰子会被扭断 塔防游戏 保卫萝卜 吃鸡
  • 编译报错问题汇总

    1 error undefined reference to dlsym solution target link libraries target lpthread ldl https www cnblogs com midnightca
  • termius 好用吗?

    termius 好用吗 我现在接触过的 1 xshell 第一次接触shell 需要付费 2 mobaxterm 感觉还行 需要付费 3 termius 没用过 需要付费 4 MobaXterm 支持SSH跳板 Termius是一款跨平台的
  • unity3d 自定义的图片无法放入source image中

    须将图片的texture type改为 sprite
  • Google Guava 数学工具使用详解

    文章目录 数学 数值运算 取整 范围值比较 其他 数学 在 Guava 中 数学 Math 模块提供了一些常用的数学运算功能 包括数值运算 取整 范围值比较等 下面详细介绍一些 Guava 数学运算的使用方法和示例 数值运算 In
  • 【传输线开路和短路故障】带有集总元件的非对称传输线扩频时域反射测量(Matlab代码实现)

    欢迎来到本博客 博主优势 博客内容尽量做到思维缜密 逻辑清晰 为了方便读者 座右铭 行百里者 半于九十 本文目录如下 目录 1 概述 2 运行结果 3 参考文献 4 Matlab代码 数据 文章讲解
  • 【单载波调制方案】正交时序多路复用调制:分析和低复杂度接收机设计(Matlab代码实现)

    欢迎来到本博客 博主优势 博客内容尽量做到思维缜密 逻辑清晰 为了方便读者 座右铭 行百里者 半于九十 本文目录如下 目录 1 概述 2 运行结果 3 参考文献 4 Matlab代码 数据 文献下载
  • 网络安全工程师必用的6个渗透工具,专业工具渗透工作更好做

    网络安全工程师必用的6个渗透工具 专业工具渗透工作更好做 渗透测试是通过模拟恶意黑客的攻击方法 来评估计算机网络系统安全的一种评估方法 同时 网络所有者根据渗透人员提供的渗透测试报告 可以清晰知晓系统中存在的安全隐患和问题 在这些过程中除了
  • 【用于OCT体积的散斑噪声降低】光学相干层析成像自适应复合散斑降噪滤波器研究(Matlab代码实现)

    欢迎来到本博客 博主优势 博客内容尽量做到思维缜密 逻辑清晰 为了方便读者 座右铭 行百里者 半于九十 本文目录如下 目录 1 概述 2 运行结果 3 参考文献 4 Matlab代码 数据 文章
  • 安全测试工具,自动发现网站所有URL!

    作为一个安全测试人员来说 首先要拿到网站所有url 然后根据拿到的url进行渗透测试进行漏洞挖掘 本文给大家介绍的是如何拿到一个网站所有的url 深度爬取层级控制 现在我也找了很多测试的朋友 做了一个分享技术的交流群 共享了很多我们收集的技
  • 金融级漏洞挖掘思路总结

    金融级漏洞挖掘思路总结 总结一下思路吧 一些有意思的姿势 或许对大家都有一些帮助 入职第一天 进了渗透组 拿到了目标 此目标经过了5次漏洞挖掘 公司一堆大佬 客户要求继续往下挖 老板提出需求 必须要有一个高危 2个中危 低危不要 了解到次项
  • 搭建若依框架完成医疗项目 ——业务流程及页面展示

    目录 一 搭建若依项目 1 1 快速了解 1 1 1 技术选型 1 1 2 内置功能 1 2 环境部署 二 医疗项目业务 2 1 门诊模块 2 2 住院模块 2 3 药房药库 2 4 表设计 三 项目展示 3 1 项目背景 3 2 门诊功能
  • 推荐一款自动向hackerone发送漏洞报告的扫描器

    推荐一款自动向hackerone发送漏洞报告的扫描器 自从阿浪写了那个工具 总感觉没有web页面就是没有灵魂 然后在GitHub闲逛的时候 发现了这一款工具 用了一个多月 效果还行 可以平替 唯一的缺点就是搭建起来有些困难 需要修改文件来达
  • Google Guava 反射工具使用详解

    文章目录 反射 类操作 方法操作 字段操作 获取注解 反射 在 Guava 中 反射 Reflection 模块提供了一些用于简化反射操作的工具类和方法 通过 Guava 的反射模块 您可以方便地进行类 方法 字段的操作 获取注解信息等 下
  • Mybatis 1对1的关联映射结果集

    在MyBatis中 ResultMap 被用于详细地描述如何从数据库的结果集映射到Java对象 这对于处理复杂的SQL查询和关联表格非常有用 因为它提供了一种灵活的方式来处理数据库列和Java对象属性之间的不匹配 以及数据嵌套 Result
  • 3D Web可视化平台助力Aras开发PLM系统:提供数据访问、可视化和发布功能

    HOOPS中文网 慧都科技是HOOPS全套产品中国地区指定授权经销商 提供3D软件开发工具HOOPS售卖 试用 中文试用指导服务 中文技术支持 http techsoft3d evget com Aras是一个面向数字化工业应用的开放性平台
  • Google Guava 散列工具使用详解

    文章目录 散列 哈希函数 哈希码 布隆过滤器 散列 Guava 提供了一组散列 哈希 相关的工具类和方法 包括哈希函数接口 哈希算法实现 哈希码 HashCode 类 布隆过滤器 BloomFilter 等等 Guava 提供了多种哈希函数
  • 仅用61行代码,你也能从零训练大模型

    本文并非基于微调训练模型 而是从头开始训练出一个全新的大语言模型的硬核教程 看完本篇 你将了解训练出一个大模型的环境准备 数据准备 生成分词 模型训练 测试模型等环节分别需要做什么 AI 小白友好 文中代码可以直接实操运行 欢迎阅读体验 目