【发布】ChatGLM又开源了一个6B多模态版本

2023-11-16

点击蓝字

关注我们

AI TIME欢迎每一位AI爱好者的加入！

OpenAI 的GPT-4样例中展现出令人印象深刻的多模态理解能力，但是能理解图像的中文开源对话模型仍是空白。

近期，智谱AI 和清华大学 KEG 实验室开源了基于 ChatGLM-6B 的多模态对话模型 VisualGLM-6B，供大家使用。

Github 链接：

https://github.com/THUDM/VisualGLM-6B

Huggingface 链接：

https://huggingface.co/THUDM/visualglm-6b

VisualGLM-6B 可以进行图像的描述及相关知识的问答：

也能结合常识或提出有趣的观点：

一、简介

VisualGLM-6B 是一个开源的，支持图像、中文和英文的多模态对话语言模型，语言模型基于 ChatGLM-6B，具有 62 亿参数；图像部分通过训练 BLIP2-Qformer 构建起视觉模型与语言模型的桥梁，整体模型共 78 亿参数。

VisualGLM-6B 依靠来自于 CogView 数据集的30M高质量中文图文对，与 300M 经过筛选的英文图文对进行预训练，中英文权重相同。该训练方式较好地将视觉信息对齐到 ChatGLM 的语义空间；之后的微调阶段，模型在长视觉问答数据上训练，以生成符合人类偏好的答案。

VisualGLM-6B 由 SwissArmyTransformer (简称 sat ) 库训练，这是一个支持 Transformer 灵活修改、训练的工具库，支持 Lora、P-tuning 等参数高效微调方法。本项目提供了符合用户习惯的 huggingface 接口，也提供了基于sat的接口。

不过，由于 VisualGLM-6B 仍处于v1版本，目前已知其具有相当多的局限性，如图像描述事实性/模型幻觉问题，图像细节信息捕捉不足，以及一些来自语言模型的局限性。请大家在使用前了解这些问题，评估可能存在的风险。在VisualGLM之后的版本中，将会着力对此类问题进行优化。

结合模型量化技术，用户可以在消费级的显卡上进行本地部署（INT4量化级别下最低只需8.7G显存）。

二、使用

模型推理

使用pip安装依赖

pip install -r requirements.txt

此时默认会安装deepspeed库（支持sat库训练），此库对于模型推理并非必要，同时部分Windows环境安装此库时会遇到问题。如果想绕过deepspeed安装，我们可以将命令改为

pip install -r requirements_wo_ds.txt
pip install --no-deps 'SwissArmyTransformer>=0.3.6'

如果使用Huggingface transformers库调用模型，可以通过如下代码（其中图像路径为本地路径）：

from transformers import AutoTokenizer, AutoModel
tokenizer = AutoTokenizer.from_pretrained("THUDM/visualglm-6b", trust_remote_code=True)
model = AutoModel.from_pretrained("THUDM/visualglm-6b", trust_remote_code=True).half().cuda()
image_path = "your image path"
response, history = model.chat(tokenizer, image_path, "描述这张图片。", history=[])
print(response)
response, history = model.chat(tokenizer, "这张图片可能是在什么场所拍摄的？", history=history)
print(response)

如果使用SwissArmyTransformer库调用模型，方法类似，可以使用环境变量SAT_HOME决定模型下载位置。在本仓库目录下

>>> import argparse
>>> from transformers import AutoTokenizer
>>> tokenizer = AutoTokenizer.from_pretrained("THUDM/chatglm-6b", trust_remote_code=True)
>>> from model import chat, VisualGLMModel
>>> model, model_args = VisualGLMModel.from_pretrained('visualglm-6b', args=argparse.Namespace(fp16=True, skip_init=True))
>>> from sat.model.mixins import CachedAutoregressiveMixin
>>> model.add_mixin('auto-regressive', CachedAutoregressiveMixin())
>>> image_path = "your image path or URL"
>>> response, history, cache_image = chat(image_path, model, tokenizer, "描述这张图片。", history=[])
>>> print(response)
>>> response, history, cache_image = chat(None, model, tokenizer, "这张图片可能是在什么场所拍摄的？", history=history, image=cache_image)
>>> print(response)

使用 sat 库也可以轻松进行进行参数高效微调。

请注意，Huggingface模型的实现位于Huggingface的仓库中，sat模型的实现包含于本仓库中。

三、部署工具

命令行 Demo

python cli_demo.py

程序会自动下载sat模型，并在命令行中进行交互式的对话，输入指示并回车即可生成回复，输入 clear 可以清空对话历史，输入 stop 终止程序。

程序提供如下超参数控制生成过程与量化精度：

usage: cli_demo.py [-h] [--max_length MAX_LENGTH] [--top_p TOP_P] [--top_k TOP_K] [--temperature TEMPERATURE] [--english] [--quant {8,4}]
optional arguments:
  -h, --help            show this help message and exit
  --max_length MAX_LENGTH
                        max length of the total sequence
  --top_p TOP_P         top p for nucleus sampling
  --top_k TOP_K         top k for top k sampling
  --temperature TEMPERATURE
                        temperature for sampling
  --english             only output English
  --quant {8,4}         quantization bits

我们也提供了继承自ChatGLM-6B的打字机效果命令行工具，此工具使用Huggingface模型：

python cli_demo_hf.py

网页版 Demo

我们提供了一个基于 Gradio 的网页版 Demo，首先安装 Gradio：pip install gradio。然后下载并进入本仓库运行web_demo.py：

git clone https://github.com/THUDM/VisualGLM-6B
cd VisualGLM-6B
python web_demo.py

程序会自动下载sat模型，并运行一个 Web Server，并输出地址。在浏览器中打开输出的地址即可使用。--quant 4使用4比特量化减少显存占用。

我们也提供了继承自ChatGLM-6B的打字机效果网页版工具，此工具使用Huggingface模型：

python web_demo_hf.py

API部署

首先需要安装额外的依赖 pip install fastapi uvicorn，然后运行仓库中的 api.py：

python api.py

程序会自动下载sat模型，默认部署在本地的 8080 端口，通过 POST 方法进行调用。下面是用curl请求的例子，一般而言可以也可以使用代码方法进行POST。

echo "{\"image\":\"$(base64 path/to/example.jpg)\",\"text\":\"描述这张图片\",\"history\":[]}" > temp.json
curl -X POST -H "Content-Type: application/json" -d @temp.json http://127.0.0.1:8080

得到的返回值为

{
    "response":"这张图片展现了一只可爱的卡通羊驼，它站在一个透明的背景上。这只羊驼长着一张毛茸茸的耳朵和一双大大的眼睛，它的身体是白色的，带有棕色斑点。",
    "history":[('描述这张图片', '这张图片展现了一只可爱的卡通羊驼，它站在一个透明的背景上。这只羊驼长着一张毛茸茸的耳朵和一双大大的眼睛，它的身体是白色的，带有棕色斑点。')],
    "status":200,
    "time":"2023-05-16 20:20:10"
  }

四、模型量化

在Huggingface实现中，模型默认以 FP16 精度加载，运行上述代码需要大概 15GB 显存。如果你的 GPU 显存有限，可以尝试以量化方式加载模型。使用方法如下：

# 按需修改，目前只支持 4/8 bit 量化。下面将只量化ChatGLM，ViT 量化时误差较大
model = AutoModel.from_pretrained("THUDM/visualglm-6b", trust_remote_code=True).quantize(8).half().cuda()

在sat实现中，需先传参将加载位置改为cpu，再进行量化。方法如下，详见cli_demo.py：

from sat.quantization.kernels import quantize
model = quantize(model.transformer, args.quant).cuda()
# 指定 model.transformer 只量化 ChatGLM，ViT 量化时误差较大

五、局限性

本项目正处于V1版本视觉和语言模型的参数、计算量都较小，我们总结了如下主要存在的改进方向：

图像描述事实性/模型幻觉问题。在生成图像长描述的时候，距离图像较远时，语言模型的将占主导，有一定可能根据上下文生成并不存在于图像的内容。
属性错配问题。在多物体的场景中，部分物体的某些属性，经常被错误安插到其他物体上。
分辨率问题。本项目使用了224*224的分辨率，也是视觉模型中最为常用的尺寸；然而为了进行更细粒度的理解，更大的分辨率和计算量是必要的。

硬核招聘

欢迎优秀的人

一起用技术改变世界

往期精彩文章推荐

记得关注我们呀！每天都有新知识！

关于AI TIME

AI TIME源起于2019年，旨在发扬科学思辨精神，邀请各界人士对人工智能理论、算法和场景应用的本质问题进行探索，加强思想碰撞，链接全球AI学者、行业专家和爱好者，希望以辩论的形式，探讨人工智能和人类未来之间的矛盾，探索人工智能领域的未来。

迄今为止，AI TIME已经邀请了1000多位海内外讲者，举办了逾550场活动，超600万人次观看。

我知道你

在看

哦

点击 阅读原文 查看！

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

【发布】ChatGLM又开源了一个6B多模态版本的相关文章

Soul App：年轻人的社交状态，还有多少种可能？

查尔斯狄更斯在双城记的开篇写下这是最好的时代这是最坏的时代这是智慧的时代这是愚蠢的时代这是信仰的时期这是怀疑的时期人们面前有着各样事物人们面前一无所有既然万事万物都和狄更斯所说般好坏参半那又何必执着于过去苦恼于
基于java的ssh医院在线挂号系统设计与实现

基于java的ssh医院在线挂号系统设计与实现 I 引言 A 研究背景和动机基于Java的SSH医院在线挂号系统设计与实现的研究背景和动机随着信息技术的迅速发展和应用医院在线挂号系统已成为医院管理的重要组成部分传统的挂号方式存在许多
用CHAT分析高校体育智慧教学体系构建与探索研究现状

CHAT回复现阶段高校体育智慧教学体系的构建与探索研究还处于初级阶段但全球数字化转型大潮的推动下一些较为前沿的研究和实践已经开始出现 1 教学平台的建设很多高校已经开始尝试使用在线教育平台进行体育教学把传统的面对面授课模式转变为
活动日程&直播预约｜智谱AI技术开放日 Zhipu DevDay

点击蓝字关注我们 AI TIME欢迎每一位AI爱好者的加入直播预约通道关于AI TIME AI TIME源起于2019年旨在发扬科学思辨精神邀请各界人士对人工智能理论算法和场景应用的本质问题进行探索加强思想碰撞链接全球AI学
明日 15:00 | NeurIPS 2023 Spotlight 论文

点击蓝字关注我们 AI TIME欢迎每一位AI爱好者的加入哔哩哔哩直播通道扫码关注AITIME哔哩哔哩官方账号预约直播 1月17日 15 00 16 00 讲者介绍黄若孜腾讯AI LAB游戏AI研究员 2020年复旦大学硕士毕业后
基于opencv的大米计数统计（详细处理流程＋代码）

在我每周的标准作业清单中有一项是编写计算机视觉算法来计算该图像中米粒的数量因此当我的一个好朋友M给我发了一张纸上的扁豆照片显然是受到上述转发的启发请我帮他数一下谷物的数量时它勾起了我怀旧的回忆因此我在我的旧硬盘上寻找很久以前
【毕业设计选题】复杂背景下的无人机(UVA)夜间目标检测系统 python 人工智能深度学习

前言大四是整个大学期间最忙碌的时光一边要忙着备考或实习为毕业后面临的就业升学做准备一边要为毕业设计耗费大量精力近几年各个学校要求的毕设项目越来越难有不少课题是研究生级别难度的对本科同学来说是充满挑战为帮助大家顺利通过和节省时间
性能大减80%，英伟达芯片在华“遇冷”，我方霸气回应：不强求

中国这么大一块市场谁看了不眼馋在科技实力大于一切的今天高端芯片的重要性不言而喻作为半导体产业发展过程中不可或缺的一环芯片技术也一直是我国技术发展的一大心病在美西方等国的联手压制下我国芯片技术发展处处受阻至今也未能在高端芯片
作物叶片病害识别系统

介绍由于植物疾病的检测在农业领域中起着重要作用因为植物疾病是相当自然的现象如果在这个领域不采取适当的护理措施就会对植物产生严重影响进而影响相关产品的质量数量或产量植物疾病会引起疾病的周期性爆发导致大规模死亡这些问题需要在初
强烈推荐收藏！LlamaIndex 官方发布高清大图，纵览高级 RAG技术

近日 Llamaindex 官方博客重磅发布了一篇博文 A Cheat Sheet and Some Recipes For Building Advanced RAG 通过一张图给开发者总结了当下主流的高级RAG技术帮助应对复杂的生产场
手把手教你用 Stable Diffusion 写好提示词

Stable Diffusion 技术把 AI 图像生成提高到了一个全新高度文生图 Text to image 生成质量很大程度上取决于你的提示词 Prompt 好不好前面文章写了一篇文章一份保姆级的 Stable Diffusion
机器学习算法实战案例：时间序列数据最全的预处理方法总结

文章目录 1 缺失值处理 1 1 统计缺失值 1 2 删除缺失值 1 3 指定值填充 1 4 均值中位数众数填充
机器学习算法实战案例：LSTM实现多变量多步负荷预测

文章目录 1 数据处理 1 1 数据集简介 1 2 数据集处理 2 模型训练与预测 2
3D点云检测神技 | UFO来了！让PointPillars、PV-RCNN统统涨点！

作者 AI驾驶员编辑智驾实验室点击下方卡片关注自动驾驶之心公众号 ADAS巨卷干货即可获取点击进入自动驾驶之心 3D目标检测技术交流群本文只做学术分享如有侵权联系删文在这篇论文中提出了一个关于在3D点云中检测未
【GRNN-RBFNN-ILC算法】【轨迹跟踪】基于神经网络的迭代学习控制用于未知SISO非线性系统的轨迹跟踪（Matlab代码实现）

欢迎来到本博客博主优势博客内容尽量做到思维缜密逻辑清晰为了方便读者座右铭行百里者半于九十本文目录如下目录 1 概述 2 运行结果 2 1 第1部分 2 2 第2部分
基于节点电价的电网对电动汽车接纳能力评估模型研究（Matlab代码实现）

欢迎来到本博客博主优势博客内容尽量做到思维缜密逻辑清晰为了方便读者座右铭行百里者半于九十本文目录如下目录 1 概述 2 运行结果 3 参考文献 4 Matlab代码数据
【GRNN-RBFNN-ILC算法】【轨迹跟踪】基于神经网络的迭代学习控制用于未知SISO非线性系统的轨迹跟踪（Matlab代码实现）

欢迎来到本博客博主优势博客内容尽量做到思维缜密逻辑清晰为了方便读者座右铭行百里者半于九十本文目录如下目录 1 概述 2 运行结果 2 1 第1部分 2 2 第2部分
两个月进口猛增10倍，买近百台光刻机，难怪ASML不舍中国市场

据统计数据显示 2023年11月和12月中国从荷兰进口的光刻机设备同比猛增10倍进口金额超过19亿美元让ASML赚得盆满钵满 ASML早前表示中国客户在2023年订购的光刻机全数交付 2023年11月中国进口的光刻机达到42台进口金
Making Large Language Models Perform Better in Knowledge Graph Completion论文阅读

文章目录摘要 1 问题的提出引出当前研究的不足与问题 KGC方法 LLM幻觉现象解决方案 2 数据集和模型构建
对中国手机作恶的谷歌，印度CEO先后向三星和苹果低头求饶

日前苹果与谷歌宣布合作发布了 Find My Device Network 的草案旨在规范蓝牙追踪器的使用在以往苹果和谷歌的生态形成鲜明的壁垒各走各路如今双方竟然达成合作发生了什么事首先是谷歌安卓系统的市场份额显著下滑数年来

随机推荐

Spring Cloud Gateway学习

文章大纲为什么需要网关传统的单体架构只有一个服务开放给客户端调用但是在微服务架构体系中是将一个系统拆分成多个微服务那么作为客户端如何去调用这些微服务呢如果没有网关的存在就只能在本地记录每个微服务的调用地址无网关的微服务架构存在
C++之MFC学习

问题1 stdafx h是怎么引入进来的 define h与stdafx h之间的关系为什么在MuisicPlayer cpp中引入stdafx h 问题2 enum class的使用问题3 列表初始化 int window trans
linux重做系统分区,搜索所有硬盘分区上的linux系统，重新安装grub的方法

电脑硬盘上非vmware 安装了Ubuntu Fedora Debian openSUSE linuxMint Mageia elementaryOS PearOS ZorinOS Bodhi Manjaro Sparky linuxDe
【星球精选】如何高效构建 Roam 与 theBrain 间细粒度双向链接？

Roam Research 作为卡片盒很好用只是目前缺乏中观网络可视化能力老牌知识管理应用TheBrian 可以很好补充上这个短板因此我希望将二者结合起来使用只是这个过程有些曲折在 Obsidian 中的 excalibrain
redis可视工具AnotherRedisDesktopManager的使用

redis可视工具AnotherRedisDesktopManager的使用系列文章 macm1安装redis过程 springboot整合redis及set map list key value和实体类操作 redis可视工具Anoth
龙书11_chapter_6 一：一般绘制流程

先看BoxDemo的前几节 1 vertex input Layout 2 vertexBuffer 3 IndexBuffer 4 vertexShader 5 constant Buffer 6 pixelShader 7 render
Hbase存储及元数据meta

Hbase的列族式存储列族就是多个数据列的组合列族式可以说是表的schema的一部分而列不是 Hbase可以说是列簇数据库在创建表的时候要指定列族而不需要指定具体的列 Hbase Table组成 Table rowkey fami
Sqli-labs之Less-25和Less-25a

Less 25 GET 基于错误您所有的OR AND都属于我们字符串单引号 Notice Undefined variable hint in C phpStudy WWW sqli Less 25 index php on line
Android自动化测试框架实现

背景介绍最近打算梳理一下不同产品领域的自动化测试实现方案如 Android终端 Web 服务端智能硬件等就先从Android终端产品开始梳理吧本文主要介绍UI自动化测试的实现因为这类测试解决方案比较通用 Android系统层内
CentOS 7下安装nginx+php+mysql

目录一安装Nginx 1 安装make 2 安装g 3 安装PCRE库 4 安装zlib库 5 安装ssl 6 下载和解压nginx 7 添加nginx用户和用户组 8 配置nginx安装参数 9 编译并且安装nginx 10 启动ng
Windows下的mingw-Qt开发环境安装及helloworld实现

Windows下的mingw Qt开发环境安装及helloworld实现我用的是Qt5 7 因此本次总结是基于Qt5 7 0的我在自学的时候使用的IDE是Qt自带的Qt creator 上手简单配置属于自己顺手的设置很方便此外如果
element主题色切换

在网上搜了很多主题切换方案发现没有适合自己项目的不得已结合根据实际情况做一个子主题切换的功能其中参考了element 官方的theme chalk preview 感兴趣的可以自己研究一下主要功能是基于less切换主题色可以自定义
网络安全工程师需要学什么？零基础怎么从入门到精通，看这一篇就够了

网络安全工程师需要学什么零基础怎么从入门到精通看这一篇就够了我发现关于网络安全的学习路线网上有非常多看似高大上却无任何参考意义的回答大多数的路线都是给了一个大概的框架告诉你那些东西要考以及建议了一个学习顺序但是这对于小白来说是
计算机退出程序的四种方法,退出windows10系统账户的四种方法

网友反馈说Win10系统打开某些程序时经常会弹出提示你要允许以下程序对此计算机进行更改吗每回都要手动关闭而且频繁的弹出影响办公效率有什么办法能将此窗口给永久关闭退出微软账户即可接下去看下具体操作方法退出Win10账户的方法
同步与异步的区别(一看则懂)

前端面试经常被问同步与异步的区别是什么答案呢大家都知道只是在于你怎么表达这种问题也不是很复杂建议在回答的时候最好结合自己的实际项目开发以及自己的理解来回答这样的效果会比较好面试上提的问题本来目的就是想考察你是否熟悉是否有用
TSN协议之冗余协议——IEEE 802.1 CB

在车载通信领域我们时常面临一个困惑要是通信线路异常断开了怎么办这里的异常断开不仅指物理上的断开也可能是受电磁干扰等导致线路通信功能的异常等解决此类问题一个显而易见的解决方案就是增加冗余路径即把数据传输2 N份以进行备份这样就
【转载】阿里数据技术大图详解

架构图从下往上看从数据采集和接入为始抽取到计算平台通过OneData体系以业务板块分析维度为架构去构建公共数据中心基于公共数据中心在上层根据业务需求去建设消费者数据体系企业数据体系内容数据体系等核心数据资产深度加工后
JS判断数组是否包含其他数组中的一个值

Test var a 2 3 4 5 6 7 8 9 10 var b 2 3 var c 1 var x S1 var y S2 c findIndex val gt x y a includes val Demo POC primary
读取nacos配置_Nacos入门指南01 Nacos是什么？

你好欢迎阅读本文是系列文章中的第1篇 Part1 Nacos 是什么 Part2 Nacos 环境搭建 Part3 Nacos 服务发现实践 Part4 Nacos 分布式配置实践本文的目标是理解 Nacos 的概念作用并理解服务发
【发布】ChatGLM又开源了一个6B多模态版本

点击蓝字关注我们 AI TIME欢迎每一位AI爱好者的加入 OpenAI 的GPT 4样例中展现出令人印象深刻的多模态理解能力但是能理解图像的中文开源对话模型仍是空白近期智谱AI 和清华大学 KEG 实验室开源了基于 ChatGLM

【发布】ChatGLM又开源了一个6B多模态版本

【发布】ChatGLM又开源了一个6B多模态版本 的相关文章

随机推荐

热门标签

【发布】ChatGLM又开源了一个6B多模态版本的相关文章