大模型训练时，使用bitsandbytes报错的解决方法

2023-11-05

前言

在对大语言模型(LLaMa、Chat-GLM等)进行微调时，考虑到减少显存占用，会使用如下方式加载模型。

from transformers import AutoModel

model = AutoModel.from_pretrained(
	model_path,
    trust_remote_code=True,
    load_in_8bit=True,
    torch_dtype=torch.float16,
    device_map='auto',
)

为了使用上述功能，需要安装bitsandbytes库，但在使用时，会提示UserWarning: The installed version of bitsandbytes was compiled without GPU support.。
进而，在模型加载时会报有关"libsbitsandbytes_cpu.so"的编译错误。

原因分析

在bitsandbytes源码中，有如下一段代码 bitsandbytes代码

这段代码会在引入bitsandbytes时执行，主要功能是找到cuda_lib的路径。
若该方法返回路径为空，则在后续会产生上述警告。
而通过注释不难看出，其搜索方式有三种: conda环境变量、LD_LIBRARY_PATH、其他环境变量。
因此，解决bitsandbytes找不到GPU的问题，只需配置好相应的环境变量即可。

解决方案

可通过如下方式解决上述问题：
~~1. 使用pip install bitsandbytes正常安装库~~
~~2. 切换到bitsandbytes所在lib目录，例如: xxx/venv/lib/python3.9/site-packages/bitsandbytes/cuda_setup~~
~~3. 使用vim指令或其他方式编辑main.py文件~~
4. 定位到if not torch.cuda.is_available(): return 'libsbitsandbytes_cpu.so', None, None, None, None，将其替换为if torch.cuda.is_available(): return 'libbitsandbytes_cuda116.so', None, None, None, None 。（并非一定要使用cuda116，只需大于等于自身显卡cuda版本即可）
~~5. 定位到self.lib = ct.cdll.LoadLibrary(binary_path)，会找到两处，把两处都替换为self.lib = ct.cdll.LoadLibrary(str(binary_path))~~

正确安装cuda、cuda-tookit
配置LD_LIBRARY_PATH
重新加载环境后，使用之前的模型加载代码则不会报错了

之前的解决方案并未从根本解决问题，因此已划掉，建议使用配置环境变量的方式。

参考资料：
https://github.com/oobabooga/text-generation-webui/issues/147#issuecomment-1456040134
cuda安装&配置

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

问题记录

linux运维

语言模型

Pytorch

深度学习

大模型训练时，使用bitsandbytes报错的解决方法的相关文章

Pytorch 说 CUDA 不可用（在 Ubuntu 上）

我正在尝试在我拥有的笔记本电脑上运行 Pytorch 这是一个较旧的型号但它确实有 Nvidia 显卡我意识到这可能不足以实现真正的机器学习但我正在尝试这样做以便我可以了解安装 CUDA 的过程我已按照上面的步骤操作安装指南 ht
如何在 PyTorch 中的特定新维度中重复张量

如果我有一个张量A有形状 M N 我想重复张量 K 次以便结果B有形状 M K N 和每片B k 应该具有相同的数据A 这是没有 for 循环的最佳实践 K可能在其他维度 torch repeat interleave and tenso
在 Pytorch 中获取负片（倒置）图像

我想直接从数据加载器获取图像的负片并将其作为张量提供有我可以使用的库吗我试过火炬transforms并没有找到任何不要费力只需使用255 image它会给你一个负面的形象试试吧
Win10 64位上CUDA 12的PyTorch安装

我需要在我的 PC 上安装 PyTorch 其 CUDA 版本 12 0 pytorch 2 的表 https i stack imgur com X13oS png in In 火炬网站 https pytorch org get sta
无法将 cuda:0 设备类型张量转换为 numpy。首先使用 Tensor.cpu() 将张量复制到主机内存

我试图展示 GAN 网络在某些指定时期的结果打印当前结果的功能之前是在 TF 中使用的我需要换成pytorch def show result G net z num epoch show False save False path r
PyTorch - 参数不变

为了了解 pytorch 的工作原理我尝试对多元正态分布中的一些参数进行最大似然估计然而它似乎不适用于任何协方差相关的参数所以我的问题是为什么这段代码不起作用 import torch def make covariance ma
PoseWarping：如何矢量化此 for 循环（z 缓冲区）

我正在尝试使用地面真实深度图姿势信息和相机矩阵将帧从视图 1 扭曲到视图 2 我已经能够删除大部分 for 循环并将其矢量化除了一个 for 循环扭曲时由于遮挡视图 1 中的多个像素可能会映射到视图 2 中的单个位置在这种情况下
pytorch通过易失性变量反向传播错误

我试图通过多次向后传递迭代来运行它并在每个步骤更新输入从而最小化相对于某个目标的一些输入第一遍运行成功但在第二遍时出现以下错误 RuntimeError element 0 of variables tuple is volatile
预训练 Transformer 模型的配置更改

我正在尝试为重整变压器实现一个分类头分类头工作正常但是当我尝试更改配置参数之一 config axis pos shape 即模型的序列长度参数时它会抛出错误 Reformer embeddings position embeddin
运行时错误：CUDA 错误：设备端断言已触发 - 训练 LayoutLMV3 时

我正在训练最新版本的layoutLMv3模型但在开始训练时trainer train 出现以下错误请帮我解决它我使用的是 v100 4 GPU RuntimeError Traceback most recent call last
为什么 RNN 需要两个偏置向量？

In Pytorch RNN 实现 http pytorch org docs master nn html highlight rnn torch nn RNN 有两个偏差 b ih and b hh 为什么是这样它与使用一种偏差有什么
一次热编码期间出现 RunTimeError

我有一个数据集其中类值以 1 步从 2 到 2 i e 2 1 0 1 2 其中 9 标识未标记的数据使用一种热编码 self one hot encode labels 我收到以下错误 RuntimeError index 1 is
如何在pytorch中查看DataLoader中的数据

我在 Github 上的示例中看到类似以下内容如何查看该数据的类型形状和其他属性 train data MyDataset int 1e3 length 50 train iterator DataLoader train data b
尝试理解 Pytorch 的 LSTM 实现

我有一个包含 1000 个示例的数据集其中每个示例都有5特征 a b c d e 我想喂7LSTM 的示例以便它预测第 8 天的特征 a 阅读 nn LSTM 的 Pytorchs 文档我得出以下结论 input size 5 hid
在非单一维度 1 处，张量 a (2) 的大小必须与张量 b (39) 的大小匹配

这是我第一次从事文本分类工作我正在使用 CamemBert 进行二进制文本分类使用 fast bert 库该库主要受到 fastai 的启发当我运行下面的代码时 from fast bert data cls import Bert
Blenderbot 微调

我一直在尝试微调 HuggingFace 的对话模型 Blendebot 我已经尝试过官方拥抱脸网站上给出的传统方法该方法要求我们使用 trainer train 方法来完成此操作我使用 compile 方法尝试了它我尝试过使用 Py
将 Keras (Tensorflow) 卷积神经网络转换为 PyTorch 卷积网络？

Keras 和 PyTorch 使用不同的参数进行填充 Keras 需要输入字符串而 PyTorch 使用数字有什么区别如何将一个转换为另一个哪些代码在任一框架中获得相同的结果 PyTorch 还采用参数 in channels o
pytorch 的 IDE 自动完成

我正在使用 Visual Studio 代码最近尝试了风筝这两者似乎都没有 pytorch 的自动完成功能这些工具可以吗如果没有有人可以推荐一个可以的编辑器吗谢谢你使用Pycharmhttps www jetbrains co
如何使用 pytorch 同时迭代两个数据加载器？

我正在尝试实现一个接收两张图像的暹罗网络我加载这些图像并创建两个单独的数据加载器在我的循环中我想同时遍历两个数据加载器以便我可以在两个图像上训练网络 for i data in enumerate zip dataloaders1
在Pytorch中计算欧几里得范数..理解和实现上的麻烦

我见过另一个 StackOverflow 线程讨论计算欧几里德范数的各种实现但我很难理解特定实现的原因如何工作该代码可以在 MMD 指标的实现中找到 https github com josipd torch two sample b

随机推荐

你不知道的正则表达式理解

正则表达式 Regular Expression 简称正则一什么是正则在我们实际开发过程中经常会遇到有查找符合某些复杂规则的字符串的需要比如我们要查找用户名邮箱手机号码等这时候想匹配或者查找符合某些规则的字符串就可以使用
ODS 、DW、 DM、CDC等名词解释

Q ODS层 DW层 DM层是什么意思 A ODS层 DW层和DM层是数据仓库中的三个重要组成部分它们分别代表了操作数据存储层数据仓库层和数据集市层 ODS层 Operational Data Store 操作数据存储层 ODS层是数据
金融ARQC、ARPC验证生成规则

从2012年从事金融行业的IT开发和实施工作以来接触最多的就是IC卡片的ARQC等安全验证只从发行IC卡以来行业里面安全验证就是使用ARQC来验证交易的安全性最近在项目中实施改造的时候因为前段读卡上送过来的ARQC到我系统我系统去
kafka对单分区重设偏移量

一整个kafka设置偏移量对kafka整个集群设置偏移量大家使用较多适合测试环境丢弃整个消息队列中的数据 kafka consumer groups sh bootstrap server localhost 9092 group
arduino笔记28：使用TM1637四位数码管显示模块

TM1637模块有四个引脚相比于使用四位数码管的10个引脚使用TM1637模块可以大大节省引脚数量四个引脚的意义如下 GND 电源负级 VCC 电源正极 5V DIO 数据IO模块可以接任意的数字引脚 CLK 时钟引脚可以接任意的
yolo deepsort_基于YOLOv5和DeepSort的目标跟踪

软硬件环境 windows 10 64bit pytorch yolov5 deepsort YOLOv5 前文 YOLOv5目标检测和 YOLOv5模型训练已经介绍过了YOLOv5相关的内容在目标检测中效果不错 DeepSort S
这可能是介绍Android UvcCamera最详细的文章了

设备外接usb摄像头进行基本的预览拍照录像相信有些同学在工作中有遇到类似的需求 uvc camera 不管你之前有没用过有没遇到过相信看完这篇文章一定会带给你一些收获这篇文章将从下面几点展开讲解一什么是UVC 二 UVC
MySQL：MySQL8用户与角色管理

文章目录 MySQL用户管理创建用户查看用户权限添加删除权限查询表权限使用新创建的用户登陆修改密码删除用户 mysql用户管理表 caching sha2 password插件 validate password组件的安装和
CSS3 连续向下循环播放动画

向下动画是在 animate css 的基础上进行修改的效果展示
Java加密工具类EncryptUtils

Java 提供了一些常见的加密算法如 MD5 SHA AES DES 现将这些实现方法放进加密工具类 EncryptionUtils 使用了 String format 来确保每个字节都能够正确的被转化为成十六进制字符串而且不会因为缺少
浏览器背后的运行机制

浏览器背后的运行机制从本章开始我们的性能优化探险也正式进入到了深水区浏览器端的性能优化平时我们几乎每天都在和浏览器打交道在一些兼容任务比较繁重的团队里苦逼的前端攻城师们甚至为了兼容各个浏览器而不断地去测试和调试还要在脑子中记
vant-ui 按需引入

我们在开发移动端的时候在布局的过程中大部分会用到vant ui 方便快捷也能更好的帮助我们快速的完成项目布局首先第一步安装vant 在现有项目中使用 Vant 时可以通过 npm 或 yarn 进行安装 Vue 2 项目安装
【华为OD机试】跳房子1【2023 B卷

华为OD机试真题点这里华为OD机试真题考点分类点这里题目描述跳房子也叫跳飞机是一种世界性的儿童游戏游戏参与者需要分多个回合按顺序跳到第1格直到房子的最后一格跳房子的过程中可以向前跳也可以向后跳假设房子的总格数是c
无线地磁传感器更适合路边停车系统

随着停车难问题日益严重在有限的固定停车场外路边停车就成为当下很常见的一种停车方式早起国外采用电感线圈来作为车位的传感器国内比较少见而我国直接跨过了电感线圈直接采用了无线地磁传感器作为车位的传感器那么无线地磁传感器优势在哪地磁
程序员经常聚集的国内开发者社区总览表

转载 http www iteye com topic 1135562 云盘 http yunpan 360 cn 不管是编程菜鸟还是程序员大牛都需要有自己的交流圈和学习平台根据我自己的经验总结分享一些开发者论坛社区啊有大牛聚集的地
Nginx完美解决前后端分离端口号不同导致的跨域问题

笔者在做前后端分离系统时出现了很多坑比如前后端的url域名相同但是端口号不同例如前端页面为 http 127 0 0 1 后端api根路径为 http 127 0 0 1 8888 这样就导致跨域问题前端设置的request he
雷达辐射源调制信号仿真（代码）

雷达辐射源调制信号仿真说明通过Matlab进行单载频 CW 线性调频 LFM 非线性调频 NLFM 二相编码 BPSK 四相编码 QPSK 二频编码 BFSK 四频编码 QFSK 七种雷达脉内调制信号的方仿真环境 Matlab 直通
【Web前端学习笔记】第一章 HTML常用标签

Web前端学习笔记第一章 HTML常用标签文章目录 Web前端学习笔记前言一 HTML是什么二常见标签 1 文本标签 2 列表标签 3 图片标签img 4 超链接a 5 表格标签table 6 表单form 7 分区标签总结
开源软件收集

http www 7 zip org 7 Zip 4 16 Beta 文件压缩工具可与Windows资源管理器集成http a note sourceforge net A Note 4 2 1 可在Windows桌面放置便笺并可提供闹
大模型训练时，使用bitsandbytes报错的解决方法

前言在对大语言模型 LLaMa Chat GLM等进行微调时考虑到减少显存占用会使用如下方式加载模型 from transformers import AutoModel model AutoModel from pretraine

热门标签