ChatGLM2-6B! 我跑通啦!本地部署+微调(windows系统)

2023-11-13

1. 跑通了啥?

记录一下此时此刻,2023年7月8日22点04,从ChatGLM2-6B在7月4日开放了ptuning到此时此刻,ChatGLM2-6B的微调终于被哥们跑通了!
本地部署ChatGLM2-6B本地进行P-tuning微调,再到最后的模型检测,哥们全跑通了!

2. 咋跑通的?

2.1 ChatGLM2-6B本地部署

这里非常感谢ChatGLM2-6B|开源本地化语言模型这篇博客!因为我布置环境,本地部署完全按照这个博客来的,而且他/她还贴心地帮我把要从huggingface上下载巨慢的内容下载打包好了,真的是爱了!

这里要提醒的是,要注意文件目录严格按照这个博客来,可以免除很多麻烦!
同时这篇文章提到源码修改也是非常有意义的,这和windows系统解析符号有关,后面的模型检测中,可能还会遇见这个错误!

本地部署相对麻烦的环节是pytorch的安装
我也是征战pytorch和tensorflow安装战场多年,虽然我用的服务器很高级,但是在我使用之前就下载了一个cuda是10.2版本,这可把我愁坏了。查阅版本信息可以点这个链接,可以发现10.2GPU最高安装版本是pytorch1.12.1,于是我先头铁下载了这个

conda install pytorch==1.12.1 torchvision==0.13.1 torchaudio==0.12.1 cudatoolkit=10.2 -c pytorch 

没想到的是,下载的时候表面上是GPU版本,但是G!!! 下载下来是cpu版的,于是我铤而走险,像赌徒一样,试了试pytorch1.11.0,cuda版本是11.3的

conda install pytorch==1.11.0 torchvision==0.12.0 torchaudio==0.11.0 cudatoolkit=11.3 -c pytorch

令人惊讶的是,成了!!!标志是下载的时候,后面的注释的内容不是cpu**,而是cuda**
所以我大胆推测,pytorch的驱动核心在于,cudatoolkit的版本,只要电脑可以驱动cudatoolkit的版本即可,可以通过尝试这些代码,观察下载内容是 cpu** 还是 cuda**来确定下载的版本是不是正确的。

网上又说,torch最好是2.0.0以上,按照我的经验,不需要! 我transformer的版本是4.30,这是chatglm2-6b要求的,和chatglm-6b不一样。

最后告诉大家一个我尝试的结果:10.2的cuda 应该最高支持到pytorch的1.10.*这个系列

最后在提醒一下大家,按照上述文章,最好每一步都一样,是可以一边成功的。顺序也可以按照上述要求。

年纪大,爱唠叨,说了好几遍最后,但是还有一件事情怕大家疑惑,那就是如果你,conda list,你会发现这个现象:
conda list 结果
既有一个torch也有一个pytorch,哈哈,而且版本不一样,经过我的观察,torch是通过 pip install -r requirements.txt下载的,pytorch是通过conda下载的,但是两者分别的作用机理,我也不清楚,但是我暂时的结论是,两者不冲突,而且似乎以conda下载那个为主,也希望有懂这个的小伙伴或者大伙伴可以指导一下!

2.2 ChatGLM2-6B本地微调

本地微调要感谢B站up主AI李大鹅!他的视频使用P-Tuning微调Chatglm2-6B,喂饭级教程给了我很大的启发。视频只有6分钟,但是我研究他的内容用了2天吧。下面把我遇到的一些困难和心得介绍一下。

首先是系统问题,这就是我为什么在开头强调这是windows系统的解决方案,因为和linux真的不一样,官方提供的文档,是基于shell脚本的,在windows的cmd不可以直接运行,哪怕是我用git bash 也出现了问题。视频中给出 了一个解决方案——利用.bat文件,可以实现。
train.bat代码如下

set PRE_SEQ_LEN=128
set LR=2e-2

python main.py ^
    --do_train ^
    --train_file train.json ^
    --validation_file dev.json ^
    --preprocessing_num_workers 10 ^
    --prompt_column content ^
    --response_column summary ^
    --overwrite_cache ^
    --model_name_or_path THUDM/chatglm2-6b ^
    --output_dir output/adgen-chatglm2-6b-pt-%PRE_SEQ_LEN%-%LR% ^
    --overwrite_output_dir ^
    --max_source_length 64 ^
    --max_target_length 128 ^
    --per_device_train_batch_size 1 ^
    --per_device_eval_batch_size 1 ^
    --gradient_accumulation_steps 16 ^
    --predict_with_generate ^
    --max_steps 3000 ^
    --logging_steps 10 ^
    --save_steps 1000 ^
    --learning_rate %LR% ^
    --pre_seq_len %PRE_SEQ_LEN% ^
    --quantization_bit 4

当然这里的很多参数是可以调整的。
在cmd中按照如下步骤运行(下面是我的运行步骤,要根据自己的文件目录进行调整)

  1. cd /d E:\openai.wiki\ChatGLM2-6B
  2. conda activate E:\openai.wiki\ChatGLM2-6B\ENV
  3. cd ptuning
  4. train.bat

当然,要注意train.bat中训练文件train.json和推理文件evaluate.json的位置
在运行train.bat时,我出现了一个困恼了我一下午的bug,

RuntimeError: Default process group has not been initialized, please make sure to call
init_process_group.

这个错误我估计很多兄弟应该不会出现,但是因为用的服务器太高级了,三块独立显卡,导致了代码优先进行并行训练,但是这些我不知道该怎么处理,只能去蒙,最后蒙到了一个办法,分享给同样遇到这个问题的朋友
在main.py函数中,添加下列内容
绝技
这样应该就ok了,真的很神奇!
我还遇见了一个错误

AttributeError: 'Seq2SeqTrainer' object has no attribute 'is_deepspeed_enabled'

这个错误要修改文件在这个目录
在这里插入图片描述
在840行左右,一个控制学习率的函数中进行修改,我采用非常鲁莽方式
在这里插入图片描述
直接把判断的上半部分写成了False,这样避开了这个参数的调用。这个问题个人应该没有很好的解决办法,只能祈求自己不会出现这个报错,或者就按照我的方法来,经过我的实践,这是ok的!

我大概训练了2个小时,时间还可以!

训练完了是推理部分,下面是推理evaluate.bat的代码

set PRE_SEQ_LEN=128
set CHECKPOINT=adgen-chatglm2-6b-pt-128-2e-2
set STEP=3000
set NUM_GPUS=1

python main.py ^
    --do_predict ^
    --validation_file dev.json ^
    --test_file dev.json ^
    --overwrite_cache ^
    --prompt_column content ^
    --response_column summary ^
    --model_name_or_path THUDM/chatglm2-6b ^
    --ptuning_checkpoint ./output/%CHECKPOINT%/checkpoint-%STEP% ^
    --output_dir ./output/%CHECKPOINT% ^
    --overwrite_output_dir ^
    --max_source_length 64 ^
    --max_target_length 64 ^
    --per_device_eval_batch_size 1 ^
    --predict_with_generate ^
    --pre_seq_len %PRE_SEQ_LEN% ^
    --quantization_bit 4

推理过程,很快,而且0bug,幸福!

最后是模型检测阶段
model_test.py代码如下(这是要自己写的,补充进去)(注意地址需要修改)

from transformers import AutoConfig,AutoModel,AutoTokenizer
import os,torch

CHECKPOINT_PATH = "E:\openai.wiki\ChatGLM2-6B\ptuning\output/adgen-chatglm2-6b-pt-128-2e-2\checkpoint-3000"

# 载入Tokenizer
tokenizer = AutoTokenizer.from_pretrained('THUDM/chatglm2-6b',trust_remote_code = True)

# 加载P-Tuning的checkpoint
config = AutoConfig.from_pretrained("THUDM/chatglm2-6b",trust_remote_code = True,pre_seq_len=128)
model = AutoModel.from_pretrained("THUDM/chatglm2-6b",config=config,trust_remote_code = True)
prefix_state_dict = torch.load(os.path.join(CHECKPOINT_PATH,'pytorch_model.bin'))
print(prefix_state_dict)
new_prefix_state_dict = {}
for k,v in prefix_state_dict.items():
    if k.startswith('transformers.prefix_encoder.'):
        new_prefix_state_dict[k[len('transformers.prefix_encoder.'):]] = v
model.transformer.prefix_encoder.load_state_dict(new_prefix_state_dict,False)

model = model.half().cuda()
model.transformer.prefix_encoder.float().cuda()
model = model.eval()
response,history = model.chat(tokenizer,'宽松的衣服质感如何',history=[])
print(response)

可以观察到CHECKPOINT_PATH = "E:\openai.wiki\ChatGLM2-6B\ptuning\output/adgen-chatglm2-6b-pt-128-2e-2\checkpoint-3000"中很细节的把\adgen** 修改成了/adgen**,就是第一篇博客中提到转义问题。
这是遇到的最后一个问题,
请添加图片描述
因为AI李大鹅提供的源代码中,下面这一句是没有False的。
model.transformer.prefix_encoder.load_state_dict(new_prefix_state_dict,False)
没有False我就会出现上述的报错。所以我还是一种选择忽略错误的方式,在结尾加了一个False。这不影响最后的运行和加载。
最后成功的标志:
在这里插入图片描述

2.3 小结

使用大模型,就会遇见这些各种各样的问题,这既让我体会到了python这种脚本语言的便捷,同时让我感受到了版本的混乱,而且这种别人写好的代码,如何进行debug,我认为这是未来走向工作岗位或者科研岗,非常重要的技能!
以上内容也仅仅是我自己遇见的问题,可能还会有别的问题,可能试着按照我这种忽略法来解决,毕竟,能跑起来就行!结果慢慢考虑。

3. 打算做什么?

有了这套技术,我的下一步目标就是,收集土建行业数据,构建土建行业大模型。我了解的还不够深入,看论坛看到了一些炫酷的名词,比如历史遗忘等等,暂时我也不懂这些,希望在下一步的研究中,可以继续深入研究,加油!
欢迎小伙伴和大伙伴们可以积极留言自己搞这一套遇到的问题,我可以尽力帮助大家,同时收集大家的问题,让大模型的门槛越来越低!真正走向大众!

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

ChatGLM2-6B! 我跑通啦!本地部署+微调(windows系统) 的相关文章

  • 查找所有 DHCP 和 DNS 服务器

    我有一位客户要求我找到他所有的 Dhcp 和 DNS 服务器以及一些附加信息 例如 DC 服务器和操作系统 所以我决定尝试提高我的 powershell 技能 但我对此还很陌生 所以我写了这个脚本 但我想仍然缺少一些东西 因为它不起作用 编
  • Chrome 扩展 - 消息传递到批处理文件

    我使用了示例项目https developer chrome com extensions samples https developer chrome com extensions samples我能够运行 python 本机应用程序 有
  • .NET 中安全身份的本地化

    我想在 NET 中实现一个用于服务 客户端通信的命名管道 并遇到了这段代码 http code msdn microsoft com windowsdesktop CSNamedPipeCommunication 33b2485c view
  • Apache 子进程已退出,状态为 255

    经过大量的搜索 尝试 修复 等待和哭泣 在我放弃之前 我想为这个错误抓住最后的机会 我们正在奔跑Microsoft Windows Server 2012 Apache 2 4 6 Win64 OpenSSL 1 0 1e PHP 5 5
  • 在 Windows 下克隆 git repo 时,出现“错误:无法创建文件 <文件>...(是目录)”

    Z gt git clone git github com kennethreitz httpbin git Cloning into httpbin remote Counting objects 1073 done remote Com
  • Chromium 中的 MP4 编解码器支持

    我们已将 Chromium 嵌入式框架集成到我们的 Windows 游戏中 以允许我们从应用程序内渲染网页 并且一切正常 除了 MP4 视频 据我所知 由于许可问题 Chromium 不包含此编解码器 但任何人都可以提供有关我们如何添加支持
  • 为什么某些安装程序需要在运行程序之前重新启动计算机?

    我对部署桌面应用程序相当陌生 所以这是我第一次为我的软件构建安装程序 目前 我安装软件后第一次运行它时 它崩溃了 之后 它运行良好 我仍在调试此问题 但我注意到在安装后和运行软件之前立即重新启动似乎可以修复此崩溃 某些安装程序要求您在运行软
  • 推送更改到 Git 不起作用

    每次我想要提交命令 git push heroku master 时 系统都会要求我在 PowerShell 中输入凭据 当我输入 heroku 凭据 默认情况下连接到 git 时 我收到错误消息 但是 当我输入我的主目录中的 netrc
  • 将键码转换为相关的显示字符

    在 C Windows Forms 项目中 我有一个不提供 KeyPressed 事件的控件 它是一个 COM 控件 ESRI 映射 它仅提供 KeyUp 和 KeyDown 事件 包含关键事件参数 http msdn microsoft
  • msvcrt.getch() 每次都会检测到空格

    我正在编写一个简单的Python代码 它应该检测我的击键 但由于某种原因 在每次击键后检测空格 代码 import msvcrt print press escape to quit text while 1 char msvcrt get
  • QFileInfo::isWritable() 在 Windows 7 上具有完全权限时返回 false

    QFile file filePath QFileInfo fileInfo file file open QIODevice ReadWrite or WriteOnly if fileInfo isWritable Log error
  • fopen_s 怎么会比 fopen 更安全呢?

    我正在处理遗留代码Windows平台 当我编译代码时VS2013 它给出以下警告 错误 C4996 fopen 该函数或变量可能不安全 考虑使用fopen s反而 要禁用弃用 请使用 CRT SECURE NO WARNINGS 详情请参见
  • 如何在 Windows 上为 GeoDjango 安装 GEOS

    我正在使用 Python 2 5 Django 1 2 MySQL 和 Apache 启动一个 GeoDjango 项目 该项目将上传到 Linux 服务器 但开发将在 Windows 上进行 问题是我无法通过安装 GEOS 这是怎么完成的
  • 如何在 IIS 上设置 Mercurial 和 hgweb?

    我一直在寻找关于如何让 hgweb 在 IIS 上工作的不错的说明 但我没有发现太多有价值的信息 There s 这个 一步一步 https www mercurial scm org wiki HgWebDirStepByStep在 Me
  • 在 SYSTEMTIME 上执行算术

    我有一个以 SYSTEMTIME 表示的时间值 我想从中添加 减去 1 小时并获取新获得的 SYSTEMTIME 我希望转换应该处理加法 减法或月份更改或 e1 年更改的日期更改 如果有一些 Windows api 在 SYSTEMTIME
  • Linux“屏幕”的 Windows 等效项还是其他替代方案?

    我正在寻找一种在 Windows 环境中控制程序的方法 我希望它与 Linux 软件有点相似 screen 我搜索的原因是我需要使用标识符启动一个程序 在 Windows 上 这样我以后就能够关闭该特定程序 而无需关闭其他任何程序 即使实际
  • Inno Setup 安装程序的文本编码错误

    对于某些 Windows 安装 我的安装程序 Inno Setup 的俄语文本编码很差 所有机器都安装了Windows XP SP3 英文版 但有些机器可以运行 有些机器则没有 Windows 上有什么设置可以解决这个问题吗 Thanks
  • 如何使用 VB6 调用 Windows shell 命令?

    究竟如何使用 VB6 才能像从命令行一样调用任何 Windows shell 命令 例如 一些微不足道的事情 echo foo 操作方法如下 Shell cmd echo foo vbNormalFocus
  • 在Windows cmd中获取精确到毫秒的系统时间

    我试图在 Windows cmd 中将系统时间精确 到毫秒 我知道可以使用以下方法获得厘秒精度 echo time 我发现其他问题提出了完全相同的问题 但没有答案可以完全回答该问题 这是我到目前为止发现的 该解决方案仅适用于厘秒精度 与我上
  • 使用 Windows 锁定屏幕后删除 Kerberos 缓存票证

    无论如何 有没有办法阻止 Kerberos 缓存的票证在 Windows 进入锁定屏幕后被删除 首次登录 Windows 时 klist exe 显示 2 个缓存票证 但是 发生 Windows 锁屏事件后 klist exe 显示 0 个

随机推荐

  • 2023年自治区职业院校技能大赛暨全国职业院校技能大赛新疆选拔赛任务书

    2023年自治区职业院校技能大赛暨全国职业院校技能大赛新疆选拔赛任务书 2023年自治区职业院校技能大赛暨全国职业院校技能大赛新疆选拔赛任务书 A模块基础设施设置 安全加固 200分 A 1 登录安全加固 Windows Linux A 2
  • Ubuntu16.04编译Linux内核

    本文介绍在Ubuntu中编译Linux内核并添加新的启动项信息 第一步 下载内核源码并解压 内核源码可以在官网下载 点击打开链接 笔者用的内核版本是4 14的 把下载好的内核源码放在 usr src kernel目录下 没有这个目录的话可以
  • DR数字成像平板探测器的主要特性

    平板探测器是DR和CT的核心部件 其性能对图像质量影响很大 随着市面上探测器的品牌和型号越来越丰富 价格也是有高有低 让人挑起来眼花缭乱 下面整理了一些探测器的主要特性及简单分析 希望对大家在数字成像中探测器的选型有所帮助 实时成像中动态图
  • 深度之眼(十)——矩阵特征值与特征向量

  • 机器学习算法系列(二十一)-k近邻算法(k-Nearest Neighbor / kNN Algorithm)

    阅读本文需要的背景知识点 一丢丢编程知识 一 引言 前面一节我们学习了机器学习算法系列 二十 梯度提升决策树算法 Gradient Boosted Decision Trees GBDT 是一种集成学习的算法 这一节我们来学习一个相对简单直
  • Python 3.6打包成EXE可执行程序

    Python 3 6打包成EXE可执行程序 下载pyinstaller python 3 6 已经自己安装了pip 所以只需要执行 pip install pyinstaller就可以了 打包程序 进入到你你需要打包的目录 比如我在H xc
  • python爬虫工程师面经(2023年金三银四)

    python爬虫工程师面经 前言 面经总结 发展相关问题 爬虫基础相关问题 工作经验相关问题 总结 前言 过年期间 经过自我慎重的考虑后 终于决定在2月份向公司提出了辞职 说实话很慌 也做好了长时间找不到工作的准备 只是继续呆在公司对自我发
  • 用Kettle实现转换和作业例子

    一 转换 双击Kettle目录下的Spoon bat脚本 启动Kettle工具 在工具栏处选择 文件 新建 转换 命令 创建一个转换 名称默认是 转换1 选择 文件 保存 命令 可以对转换进行重命名以及选择转换保存路径 重命名为exampl
  • Java多线程-线程池ThreadPoolExecutor的submit返回值Future

    一般使用线程池执行任务都是调用的execute方法 这个方法定义在Executor接口中 public interface Executor void execute Runnable command 1 2 3 这个方法是没有返回值的 而
  • 微信企业号的基本配置流程(新手,勿喷!)

    一 登录微信公众号 确认登录的公众号为企业认证 二 打开开发里面的基本配置 如图 三 根据你的项目后台微信配置里面需要的数据 来在微信公众号的后台找到 然后 一一对应的写入你的项目后台的微信配置 如图 这是我的项目后台微信配置 四 按照自己
  • 《统计学习方法》学习笔记(一):概论

    统计学习方法三要素 模型 策略和算法 策略是想要最优解 模型给定输入 训练 得到输出 算法处理信息的方法 模型选择 正则化 交叉验证与学习泛化的能力 正则化 防止过拟合 简单来说是限制在规则之内 减小误差的行为 规则化 给需要训练的目标函数
  • Oracle的锁表与解锁

    Oracle的锁表与解锁 SELECT rule s username decode l type TM TABLE LOCK TX ROW LOCK NULL LOCK LEVEL o owner o object name o obje
  • Java学习:使用Freemarker导出简单的Word文档

    一 准备工作 准备想要导出的word文档的模板 准备maven的依赖
  • 实验室服务器conda使用教程

    目录 前言 1 下载conda 2 安装conda 3 检查conda是否安装成功 4 配置conda镜像 5 创建conda环境 6 在环境中安装模型所需的库文件 7 conda的其他用法 8 服务器离线安装python库文件 以torc
  • ubuntu下移植Qt软件

    export PATH home ubuntu yhj plugins PATH export QTDIR home ubuntu yhj plugins export LD LIBRARY PATH QTDIR lib LD LIBRAR
  • Kvrocks 在 RocksDB 上的优化实践

    不久前 Kvrocks 发布 2 0 5 版本 该版本不仅增加了许多新功能 还使用了RocksDB 的新特性大大提升了性能 本文将重点介绍 Kvrocks 是如何使用这些特性来提升磁盘类型 Redis 服务的性能 希望能给大家带来一些参考
  • mock.js文档详解1及下载(数据模板)

    作用 生成随机数据 拦截Ajax请求 mock数据模板的书写规则 属性名 规则 属性值 规则共有七种 1 name min max value 针对value的不同类型会有不同意义 2 name count value 3 name min
  • 手机按键失灵怎么修复_手机触摸屏失灵了怎么办,六种方法自己就能修好它!...

    你是否碰到这种抓狂的时候 手机屏幕总是要按多几下才能反应过来 有时点了好几下也依然没反应 其实 发生这样的触屏失灵的问题 也是有多方面的原因造成 有时是外在的客观原因引起 有时是个人的主观因素导致 如今 我们的手机绝大多数都是电容屏的 而电
  • 2022全国高校计算机能力挑战赛决赛python组编程计挑赛决赛3

    输入格式 一个日期 格式 年 月 日 1 算法中要能够自动对输入的日期进行判断 若年份不是2022年或月份不是1月份至8月份中的某一个月份值 则输出 数据输入错误 2 算法中能够对输入的 日 的数字进行判断 要按照实际情况进行判断 如1 3
  • ChatGLM2-6B! 我跑通啦!本地部署+微调(windows系统)

    ChatGLM2 6B 我跑通啦 windows系统 1 跑通了啥 2 咋跑通的 2 1 ChatGLM2 6B本地部署 2 2 ChatGLM2 6B本地微调 2 3 小结 3 打算做什么 1 跑通了啥 记录一下此时此刻 2023年7月8