ChatGLM-6B本地cpu部署

2023-05-16

ChatGLM-6B是清华团队研发的机器人对话系统，类似ChatGPT，但是实际相差很多，可以当作一个简单的ChatGPT。

ChatGLM部署默认是支持GPU加速，内存需要32G以上。普通的机器无法运行。但是可以部署本地cpu版本。

本地部署，需要的环境：

python3.9及以上
gcc

这个框架本身就是python编写的，所以需要python环境。另外，运行的时候，需要加载cpu内核，所以需要编译本地内核，gcc环境就是用来编译quantization_kernels.c和quantization_kernels_parallel.c文件的。

gcc环境在windows上，可以通过mingw来安装，也可以通过tdm-gcc来安装。

我本地的相关环境：

1、克隆源码

git clone https://github.com/THUDM/ChatGLM-6B

2、安装依赖

cd ChatGLM-6B
pip install -r requirements.txt

3、改变源码web_demo.py支持cpu

默认代码：

修改支持cpu:

tokenizer = AutoTokenizer.from_pretrained("THUDM/chatglm-6b-int4", trust_remote_code=True)
model = AutoModel.from_pretrained("THUDM/chatglm-6b-int4", trust_remote_code=True).float()
model = model.eval()

模型的名字由THUDM/chatglm-6b改为THUDM/chatglm-6b-int4

gpu模型源码中.half().cuda()替换为.float()

4、运行python web_demo.py

python web_demo.py

模型第一次加载会去https://huggingface.co/THUDM/chatglm-6b-int4下载pytorch_model.bin模型文件。

还会使用安装的gcc编译quantization_kernels.c和quantization_kernels_parallel.c文件，生成动态库quantization_kernels.so和quantization_kernels_parallel.so。

5、运行成功，会打开浏览器，并直接显示对话框，可以输入问题，不过这个回答很慢：

提出问题，并不是秒回，很慢，感觉还是内存的问题，我的机器16G内存，效果好像也不是很好。

几个抽风的问题：

1、我昨天在电脑上运行好好的，结果今天来测试，直接运行python web_demo.py就报了这样的错误：504 Server Error: Gateway Time-out for url: https://huggingface.co/api/models/THUDM/chatglm-6b

这个错误有点蛋疼，貌似是去下载模型文件，但是远程地址不知道为什么就504了，好在这些模型可以通过加载本地缓存的模型，解决办法就是手动下载这些模型文件到一个指定目录。

https://huggingface.co/THUDM/chatglm-6b-int4/tree/main ，把这里的文件，包括json文件全部下载到项目路径下的models目录中：

改动web_demo.py文件内容：

tokenizer = AutoTokenizer.from_pretrained("./models", trust_remote_code=True)
model = AutoModel.from_pretrained("./models", trust_remote_code=True).float()
model = model.eval()

2、找不到模块transformers_modules，如下所示：

我昨天运行好好的，也就是说这个模块肯定是有的，不知道今天抽什么风，竟然没有，解决办法就是把当前transformers=4.27.1版本降级到4.26.1：

最后再来感受一下chatglm对话：

这个结果全部显示完，用了差不多10分钟，哈哈，挤牙膏似的。

完。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

ChatGLM

CPU

ChatGLM-6B本地cpu部署的相关文章

曾几何时，> 比 < 更快……等等，什么？

我在读很棒的 OpenGL 教程 https paroj github io gltut Positioning Tut05 20Overlap 20and 20Depth 20Buffering html 这真的很棒相信我我当前的主题
强制默认 CPU 实现时，RenderScript 加速 10 倍

我已经在 RenderScript 中实现了 CNN 如上一个问题 https stackoverflow com questions 37080673 how to do correct timing of android renders
高处理器使用率下的 WCF 和线程池响应能力

我们在控制使用 WCF 发送启动停止命令的长时间运行进程时遇到问题问题似乎是当CPU负载较高时WCF不响应请求不幸的是对于相关应用程序来说尽可能多的内核上的高 CPU 是必要的因为它需要执行大量的数值计算该问题是否与使用 WC
获取CPU或主板序列号？

我正在尝试获取CPU serial or motherboard serial using C or Python出于许可目的是否可以我在用着Linux 在 Linux 下您可以使用 lshw quiet xml 并解析其输出您将在
CPU和GPU的区别

CPU的单个处理单元和GPU的单个处理单元有什么区别我在互联网上看到的大多数地方都涵盖了两者之间的高级差异我想知道每条指令可以执行哪些指令它们的速度有多快以及这些处理单元如何集成到完整的架构中这似乎是一个答案很长的问题所以很多链
多核汇编语言是什么样的？

例如曾几何时要编写 x86 汇编程序您可能会收到这样的指令将值 5 加载到 EDX 寄存器递增 EDX 寄存器等对于具有 4 个核心甚至更多的现代 CPU 在机器代码级别看起来是否只是有 4 个独立的 CPU 即只有 4 个
在 C++ 中处理 CPU 异常

是否有跨平台的方法来处理 CPU 异常例如分段错误或除以零可以说我需要调用一些潜在不安全的函数例如从插件文件这可能会导致段错误或在执行之前无法测试的一些其他问题我知道 C 标准库有信号处理函数但我不知道如何使用它们来处理问题
用于查找 UNIX 计算机上 CPU 信息的命令

您知道是否有一个 UNIX 命令可以告诉我 Sun OS UNIX 机器的 CPU 配置是什么我也在尝试确定内存配置有没有 UNIX 命令可以告诉我这一点 AFAIK 没有标准的 Unix 命令我没有使用过Sun OS 但是在Linu
运行 Android Studio gradle 构建时如何使用所有 CPU 核心/线程？

我正在 Android Studio 中寻找参数或配置 Gradle 它可以设置构建以便在构建期间使用我的所有 CPU 核心即如果我有一个四核 CPU 并且每个核心运行 8 个线程我如何优化构建以便它将使用它可以获得的所有资源当
如何通过.NET Core查找物理CPU核心数（不是逻辑SMT超线程）？

我想检测实际物理核心的数量而不是逻辑核心的数量因为当更多线程竞争私有每核心缓存时工作负载会出现负扩展和或具有足够高的 IPC 每个核心运行多个逻辑线程不会吞吐量的增加超过线程开销的增加特别是对于无法完美扩展到大量内核的问题或者
使CPU的缓存失效

当我的程序执行具有获取语义的加载操作具有释放语义的存储操作或可能是完整栅栏时它会使 CPU 的缓存无效我的问题是缓存的哪一部分实际上失效了只有保存我使用的获取释放变量的缓存行或者整个缓存都失效了 L1 L2 L3 等等当我使
Java限制资源使用

有没有办法限制java使用的核心数量同样是否有可能限制该核心的使用量您可以在 Linux 上使用任务集您还可以降低进程的优先级但除非 CPU 繁忙否则进程将获得尽可能多的 CPU 我有一个将线程专用于核心的库称为 Java T
如何使用C获取Linux中的CPU数量？

Linux 中是否有 API 可以获取可用 CPU 的数量我的意思是不使用 proc cpuinfo 或任何其他系统节点文件我使用 sched h 找到了这个实现 int GetCPUCount cpu set t cs CPU ZE
Tensorflow 相同的代码，但从 CPU 设备到 GPU 设备得到不同的结果

我正在尝试实现一个程序来测试 GPU 设备上的 Tensorflow 性能数据测试是MNIST数据使用多层感知器神经网络进行监督训练我跟着这个简单的例子 http gist github com nishidy 8176548ec
GCC对读/写指令的重新排序

Linux 的同步原语自旋锁互斥锁 RCU 使用内存屏障指令来强制内存访问指令重新排序这种重新排序可以由 CPU 本身完成也可以由编译器完成有人可以展示一些 GCC 生成的代码示例其中完成了此类重新排序吗我主要对 x86 感兴
如何获取 Java7 应用程序的 CPU、RAM 和网络使用情况

我找到了这篇旧文章如何在 Java 中监控计算机的 cpu 内存和磁盘使用情况 https stackoverflow com questions 47177 how to monitor the computers cpu memory
C# 程序占用太多CPU？

我有一个程序它在启动时不断地在 3 个独立的计时器之间切换我的应用程序的主线程有一个 while 循环它不断检查全局变量是否已设置为 true 如果设置为 true 它将停止一个计时器并启动另外两个计时器一个连续另一个自动停止如
查看x86架构中的cpu缓存内容

如何查看或转储基于 x86 的架构的 cpu 缓存内容每次进行缓存刷新时我如何才能看到刷新了什么在哪里你不能真的 CPU 缓存被设计为对于 CPU 上运行的代码是透明的它具有加快代码执行速度的效果但 CPU 管理有关缓存的所有
python 进程占用 100% CPU

我正在尝试运行 python 应用程序并根据指定的时间间隔执行操作下面的代码持续消耗 100 的 CPU def action print print hello there interval 5 next run 0 while Tru
普通的 x86 或 AMD PC 是直接从 ROM 运行启动/BIOS 代码，还是先将其复制到 RAM？ [关闭]

Closed 这个问题不符合堆栈溢出指南 help closed questions 目前不接受答案我知道现代计算机已经修改了哈佛架构它们可以从保存数据的地方以外的地方读取指令这一事实是否允许它们直接从 ROM 芯片获取指令他们是先

随机推荐

C++智能指针详解：shared_ptr

C 43 43 没有内存回收机制 xff0c 每次程序员new出来的对象需要手动delete xff0c 流程复杂时可能会漏掉delete xff0c 导致内存泄漏于是C 43 43 引入智能指针 xff0c 可用于动态资源管理 xff0
C++算法题：关于树的算法

问题1 xff1a 输入一棵二元查找树 xff0c 将该二元查找树转换成一个排序的双向链表要求不能创建任何新的结点 xff0c 只调整指针的指向什么是二元查找树 xff1f 比如 xff1a 转换成双向链表的顺序是 xff1a 1 3
C++算法题：递归和栈的算法

问题1 xff1a 跳台阶问题具体描述 xff0c 一个台阶总共有n级 xff0c 如果一次可以跳1级 xff0c 也可以跳2级求总共有多少总跳法 xff0c 并分析算法的时间杂度相当于从下往上跳 xff0c 最后剩一个 xff08
Linux的.service服务实现程序开机自启

一 service文件的位置所有可用的单元文件存放在 lib systemd system 和 etc systemd system 目录我们需要在 lib systemd system 下存放 service文件 xff0c 当sys
计算机网络复习提纲（完整版）

第一章概述计算机网络 xff1a 利用通信线路和通信设备 xff0c 将地理位置和功能不同的多台计算机互联起来 xff0c 用完善的网络软件实现资源共享和信息传递的网络组成 xff1a 计算机 xff0c 网络操作系统 xff0c 传
无人机多任务寻径仿真软件与实验平台（一）

项目背景 xff1a 近年来 xff0c 无人机的应用领域已经得到了极大的拓展 xff0c 旋翼无人机凭借较大的载荷 xff0c 稳定的飞行状态与对高空环境的高度适应 xff0c 成为了应用最为广泛的一类无人机在欧洲 xff0c 北美洲等
无人机实验平台(七) 实验平台的坐标转换（上）

为什么要做坐标转换 xff1f 大疆提供的sdk中指出 xff0c 无人机通常情况下通过两个坐标系来控制方向 xff1a 自身坐标系 xff08 Body xff09 和地面坐标系 xff08 N E D xff09 这两个坐标系可以相互转
无人机实验平台（十）室内悬停问题

VirtualStick Mode VirtualStick Mode是Sdk提供的一种底层控制模式 xff0c 通过模拟物理摇杆的运动向无人机按照一定频率发送摇杆差分信息 xff0c 使得无人机按照类似于被物理摇杆控制的方式运行 xff0
第30章 ADC—电压采集—零死角玩转STM32-F429系列

第30章 ADC 电压采集全套 200 集视频教程和 1000 页 PDF 教程请到秉火论坛下载 xff1a www firebbs cn 野火视频教程优酷观看网址 xff1a http i youku com firege 本章参考资料
大数据安全考试提纲

范围划得虽大 xff0c 但是主题不多 xff0c 和往常一样记录一下重点考试范围 1 大数据安全概念及目标 2 传统访问控制技术和基于密码的访问控制技术 3 角色挖掘的算法 4 对称密码 xff0c 非对称密码 xff0c hash算法
算法设计与分析（小总结）

原先一直没注意这一门 xff0c 大概是因为学这些算法的时候 xff0c 板子都不知道背多少遍了可是考试毕竟不一样 xff0c 如果来个证明很容易抓瞎看了往年的试题 xff0c 可能确实因为难度高 xff0c 范围一缩再缩 xff0c
软件测试技术

引论为什么进行软件测试 xff1f 软件存在缺陷 xff0c 只有通过测试才可以发现缺陷 xff0c 只有发现缺陷才能把缺陷从产品中清除出去软件中缺陷带来的损失是巨大的测试是所有工程学科的基本组成单元软件测试 xff1a 验证 43
c语言自定义tcp协议实现socket通信(windows版本)

前面一篇博客介绍了mac linux下通过C语言自定义协议实现socket通信的示例 xff0c 因为大部分api与windows还有很多区别 xff0c 这里就特意把windows下的tcp通信实例给介绍一下无论是linux xff0c
opencv for java给图片添加水印中文问题

opencv提供的给图片添加文字的方法Imgproc putText 可以给图片添加文字 xff0c 最后类似一个添加水印的效果 xff0c 但是这个方法对中文支持不好 xff0c 在没有字体支持的情况下 xff0c 默认中文显示如下图所
社区版Intellij IDEA安装Spring Boot Assistant插件解决yml无提示问题

如题所示 xff0c 我们如果个人使用免费社区版的IDEA xff0c 它缺失了很多功能 xff0c 使用起来没有专业版那么强大 xff0c 比如无法直接创建springbootinit项目 xff0c spring配置yml文件没有提示
IDEA安装spotbugs插件替代findbugs插件

相信最近想在IDEA上安装findbugs插件的朋友 xff0c 遇到与我一样的问题 xff0c findbugs与IDEA不兼容 xff1a https plugins jetbrains com plugin 3847 findbugs
第40章 CAN—通讯实验—零死角玩转STM32-F429系列

第40章 CAN 通讯实验全套 200 集视频教程和 1000 页 PDF 教程请到秉火论坛下载 xff1a www firebbs cn 野火视频教程优酷观看网址 xff1a http i youku com firege 本章参考资料
easyexcel读取excel合并单元格数据

普通的excel列表 xff0c easyexcel读取是没有什么问题的但是 xff0c 如果有合并单元格 xff0c 那么它读取的时候 xff0c 能获取数据 xff0c 但是数据是不完整的如下所示的单元格数据 xff1a 我们通过简
clion + opencv环境搭建

clion是一个jetbrains提供的c 43 43 开发环境 xff0c 和idea pycharm等开发工具类似 xff0c 界面有很多相似的地方 clion内置了一个mingw的编译环境 xff0c 自带了gcc g 43 43 等
ChatGLM-6B本地cpu部署

ChatGLM 6B是清华团队研发的机器人对话系统 xff0c 类似ChatGPT xff0c 但是实际相差很多 xff0c 可以当作一个简单的ChatGPT ChatGLM部署默认是支持GPU加速 xff0c 内存需要32G以上普通的机

ChatGLM-6B本地cpu部署

ChatGLM-6B本地cpu部署 的相关文章

随机推荐

热门标签

ChatGLM-6B本地cpu部署的相关文章