本地部署LLaMA-中文LoRA部署详细说明

2023-11-19

在Ubuntu18.04 部署中文LLaMA模型

环境准备

  1. 硬件环境

    1. AMD 5950X
    2. 128GB RAM
    3. RTX 3090(24G VRAM)
  2. 操作系统

    1. Ubuntu 18.04
  3. 编译环境(可选)

    1. llama.cpp
      1. 编译:
      cd /llama.cpp
      make
      
    2. 遇到Ubuntu18.04默认稳定版本gcc和g++不兼容问题,报错:
    (base) llama@llama-3090:~/AI/llama.cpp$ make
    I llama.cpp build info: 
    I UNAME_S:  Linux
    I UNAME_P:  x86_64
    I UNAME_M:  x86_64
    I CFLAGS:   -I.              -O3 -std=c11   -fPIC -DNDEBUG -Wall -Wextra -Wpedantic -Wcast-qual -Wdouble-promotion -Wshadow -Wstrict-prototypes -Wpointer-arith -pthread -march=native -mtune=native
    I CXXFLAGS: -I. -I./examples -O3 -std=c++11 -fPIC -DNDEBUG -Wall -Wextra -Wpedantic -Wcast-qual -Wno-unused-function -Wno-multichar -pthread -march=native -mtune=native
    I LDFLAGS:  
    I CC:       cc (Ubuntu 7.5.0-3ubuntu1~18.04) 7.5.0
    I CXX:      g++ (Ubuntu 7.5.0-3ubuntu1~18.04) 7.5.0
    
    cc  -I.              -O3 -std=c11   -fPIC -DNDEBUG -Wall -Wextra -Wpedantic -Wcast-qual -Wdouble-promotion -Wshadow -Wstrict-prototypes -Wpointer-arith -pthread -march=native -mtune=native   -c ggml.c -o ggml.o
    ggml.c: In function ‘bytes_from_nibbles_32’:
    ggml.c:534:27: warning: implicit declaration of function ‘_mm256_set_m128i’; did you mean ‘_mm256_set_epi8’? [-Wimplicit-function-declaration]
        const __m256i bytes = _mm256_set_m128i(_mm_srli_epi16(tmp, 4), tmp);
                            ^~~~~~~~~~~~~~~~
                            _mm256_set_epi8
    ggml.c:534:27: error: incompatible types when initializing type ‘__m256i {aka const __vector(4) long long int}’ using type ‘int’
    Makefile:186: recipe for target 'ggml.o' failed
    make: *** [ggml.o] Error 1
    

    通过更新Ubuntu的gcc,g++版本后,make进行编译;

  4. Python虚拟环境

    1. Python = 3.10.7
    2. requirements.txt
     torch==1.13.1
     peft==0.3.0dev
     transformers==4.28.1
     sentencepiece==0.1.97
    
  5. 安装CUDA,CUDA == 11.7;

    1. 卸载老版本:
    sudo apt-get remove cuda
    sudo apt autoremove 
    sudo apt-get remove cuda*
    
    cd /usr/local/
    sudo rm -r cuda-11.x  x代表版本
    
    sudo dpkg -l |grep cuda    这个只能卸载 dpkg
    
    然后使用 nvcc -V 仍然看到 cuda 版本
    
    接着使用:
    sudo apt-get --purge remove "*cublas*" "*cufft*" "*curand*"  "*cusolver*" "*cusparse*" "*npp*" "*nvjpeg*" "cuda*" "nsight*" 
    
    就完全卸载好了,再用 nvcc -V 没有版本了
    
    1. 安装新版本CUDA(实际为11.7,此处以11.4版本示例)
    wget https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2004/x86_64/cuda-ubuntu2004.pin
    sudo mv cuda-ubuntu2004.pin /etc/apt/preferences.d/cuda-repository-pin-600
    wget https://developer.download.nvidia.com/compute/cuda/11.4.0/local_installers/cuda-repo-ubuntu2004-11-4-local_11.4.0-470.42.01-1_amd64.deb
    sudo dpkg -i cuda-repo-ubuntu2004-11-4-local_11.4.0-470.42.01-1_amd64.deb
    sudo apt-key add /var/cuda-repo-ubuntu2004-11-4-local/7fa2af80.pub
    sudo apt-get update
    sudo apt-get -y install cuda
    

    3.验证安装

    nvcc -V #查看是否输出预期的版本.
    

部署文件

  1. LLaMA 原生PR(13B)
    下载地址:
链接: https://pan.baidu.com/s/1Q6Lbw6kDR3dig73Q5uTnNg?pwd=vhdg 提取码: vhdg
  1. LLaMA Chinese LoRA(13B)
链接: https://pan.baidu.com/s/17QGtgKYrd5dF1XGBm9xmDg?pwd=sbqi 提取码: sbqi
  1. Alpaca Chinese LoRA(13B)
链接: https://pan.baidu.com/s/1WD2vU8P-CLq_0UjVuNnLoA?pwd=v37s 提取码: v37s

模型格式转换

1.克隆ymcui的代码包;

git clone https://github.com/ymcui/Chinese-LLaMA-Alpaca/

2.确保机器有足够的内存加载完整模型(13B模型需要32G以上)以进行合并模型操作。
3.确认原版LLaMA模型和下载的LoRA模型完整性,检查是否与SHA256.md所示的值一致,否则无法进行合并操作。原版LLaMA包含:tokenizer.model、tokenizer_checklist.chk、consolidated.*.pth、params.json;
4.主要依赖库如下(如果出问题就请安装以下指定版本):

torch(1.10,1.12,1.13测试通过)
transformers(4.28.1测试通过)
sentencepiece(0.1.97测试通过)
peft(0.3.0dev测试通过)-->dev版本如果找不到,可以用0.3.0版本;
python版本建议在3.9以上
pip install torch==1.13.1
pip install transformers
pip install sentencepiece
pip install git+https://github.com/huggingface/peft

5.将原版LLaMA模型转换为huggingface格式

1.使用									
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

本地部署LLaMA-中文LoRA部署详细说明 的相关文章

  • vue3页面跳转

    vue3的页面跳转有两种方式 第一种是标签内跳转 第二种是编程式路由导航 1
  • Hadoop全集1-Hadoop简介

    Hadoop全集1 Hadoop简介 文章目录 Hadoop全集1 Hadoop简介 前言 一 Hadoop是什么 二 Hadoop的优势 三 Hadoop的组成 1 HDFS 2 MapReduce 3 Yarn 小结 前言 大数据时代
  • ffplay 播放m3u8 hls Failed to open segment of playlist 0

    用ffplay 播放m3u8文件 出现 Failed to open segment of playlist 0 Error when loading first segment test0 ts 错误 同样的文件用VLC播放正常 经过一番
  • Arcgis报错 ERROR 999999的解决方法汇总

    针对ERROR999999 官方给出的解决方案 1 修复几何 2 检查命名 3 检查创建输出位置的权限 4 大数据集分割处理 5 输出路径过长 6 以管理员模式运行 7 修改空数据属性 8 清除默认临时目录并重启程序 附方案地址 https

随机推荐

  • AD 封装组件的水平/垂直间距报错

    快捷键 D设计 R规则 一般情况下设置的都是 Electrical 下的Clearance 但是设置完了还是继续报错 是封装之间的水平间距问题 应该设置Placement 下的ComponentClearance
  • Nacos 1.4.1注册中心源码深度解析-服务下线

    服务下线比较简单 入口在com alibaba nacos naming controllers InstanceController deregister gt serviceManager removeInstance gt remov
  • Linux,Network manager 导致节点异常重启

    推断是Network manager 导致的 原因待查今天在VmWare的虚拟机上装了个测试RAC 又遇到了一个摸不到头绪的问题CRS装好后 一旦登陆图形界面 节点就重启 事情就有这么巧不登陆图形界面 观察了1个小时没问题 一旦登陆后 立刻
  • 微信JS-SDK获取signature签名以及config配置(微信转发分享页面需要)

    Js代码 wx config debug true 开启调试模式 调用的所有api的返回值会在客户端alert出来 若要查看传入的参数 可以在pc端打开 参数信息会通过log打出 仅在pc端时才会打印 appId 必填 公众号的唯一标识 t
  • 互斥锁(mutex)

    Linux中提供一把互斥锁mutex 也称之为互斥量 每个线程在对资源操作前都尝试先加锁 成功加锁才能操作 操作结束解锁 但通过 锁 就将资源的访问变成互斥操作 而后与时间有关的错误也不会再产生了 但 应注意 同一时刻 只能有一个线程持有该
  • 关于DC综合的随笔记录

    1 DC综合的常用命令 DC综合 常用命令 时钟树上的小猴子的博客 CSDN博客 dc综合命令文章目录DC文件转换 lib gt db展平网表读入 vhdl文件使用typical库面积约束其他命令DC文件转换 lib gt dbread l
  • 基于深度学习的人脸识别算法

    基于深度学习的人脸识别算法 简介 Contrastive Loss Triplet Loss Center Loss A Softmax Loss 参考文献 简介 我们经常能从电影中看到各种神奇的人脸识别技术 例如图1 人脸识别技术是基于面
  • 前端面试的性能优化部分(3)每天10个小知识点

    目录 系列文章目录 前端面试的性能优化部分 1 每天10个小知识点 前端面试的性能优化部分 2 每天10个小知识点 前端面试的性能优化部分 3 每天10个小知识点 前端面试的性能优化部分 4 每天10个小知识点 前端面试的性能优化部分 5
  • java复制文件后保持文件的创建时间不变

    复制后保持文件的创建时间不变 File oldFile new File E test old png File newFile new File E test new png FileCopyUtils copy oldFile newF
  • 【JAVA

    package learn import javax swing public class SimpleTable JFrame jf new JFrame 简单表格 String titles 姓名 性别 职业 String data 李
  • C语言数据变量

    1 变量的创建 上篇文章我们了解清楚了数据的类型 我们使 类型做什么呢 在C语言中 变量的创建包括变量的声明和变量的定义 变量的声明是指在程序中说明变量的存在 告诉编译器变量的类型和名称 变量的声明通常放在函数的头部或全局变量的前面 例如
  • 算法,16瓶水,有一瓶有毒,假设一只小白鼠喝一滴水,一个小时后会死亡,一个小时找出那瓶有毒的水至少需要几只小白鼠?

    首先16瓶水 编号0000 0001 1110 1111 然后让第一只小白鼠喝最低位为1的水 第二只小白鼠喝次最低位为1的水 第三只小白鼠喝第三位为1的水 第四只小白鼠喝最高位为1的水 一个小时后看小白鼠的存活状态 若小白鼠全活则0000
  • 找出通过车辆最多颜色(90%用例)

    在一个狭小的路口 每秒只能通过一辆车 假如车辆的颜色只有3种 找出N秒内经过的最多颜色的车辆数量 三种颜色编号为0 1 2 输入描述 第一行输入的是通过的车辆颜色信息 0 1 1 2 代表4秒钟通过的车辆颜色分别是0 1 1 2 第二行输入
  • COCOS2DX学习之Box2D物理引擎-------物体和相互作用

    1 创建一个静态物体 创建一个静态物体应该很简单 在头文件生命一下要创建新物体的函数 然后在cpp文件中实现它即可 具体的时候先过程 首先要用createbody函数创建一个物体 然后定义一个b2bodydef变量 指定一下这个变量的typ
  • 游戏开发unity编辑器扩展知识系列:修改纹理资源的TextureType

    需要用TextureImporter导入资源 调用如下代码 TextureImporter importer TextureImporter TextureImporter GetAtPath path importer textureTy
  • ADC 读取电位器旋钮,用回差消除临界值档位跳动

    就是比如 用电位器当旋钮做风扇调速 划分出10 个速度档位 对应10 个ADC 转换结果的阈值 如果直接比较阈值 当旋钮拧到临近阈值的地方时 ADC 结果的微小跳动会导致风扇档位在两个级别之间不停左右横跳 因此想到了利用回差来消除抖动 回差
  • Pycharm官网下载安装

    下载链接 pycharm官网 https www jetbrains com pycharm 然后来到这个界面 点击Download 下载按钮 然后点击开源版本 Community 下载安装就好了 接下来就创建项目 点击Create 这样就
  • FISCO BCOS 2.0新特性解读

    FISCO BCOS是完全开源的联盟区块链底层技术平台 由金融区块链合作联盟 深圳 简称金链盟 成立开源工作组通力打造 开源工作组成员包括博彦科技 华为 深证通 神州数码 四方精创 腾讯 微众银行 亦笔科技和越秀金科等金链盟成员机构 代码仓
  • Nacos、ZooKeeper和Dubbo的区别

    Nacos ZooKeeper和Dubbo是三个不同的分布式系统组件 它们之间有以下几点区别 功能定位 Nacos主要提供服务发现 配置管理和服务治理等功能 而ZooKeeper主要是分布式协调服务 提供了分布式锁 分布式队列等原语 Dub
  • 本地部署LLaMA-中文LoRA部署详细说明

    在Ubuntu18 04 部署中文LLaMA模型 环境准备 硬件环境 AMD 5950X 128GB RAM RTX 3090 24G VRAM 操作系统 Ubuntu 18 04 编译环境 可选 llama cpp 编译 cd llama
Powered by Hwhale