基于LLMs的多模态大模型(PALM-E,ArtGPT-4,VPGTrans )

2023-10-27

这个系列已经更文一些了,如果有新的文章会继续补充:

本篇文章先放一些比较杂的延伸和应用的文章,后面形成分支了再单独开,目前主要是PALM-E,ArtGPT-4,VPGTrans 等。


Pathways Language Model with Embodied
PALM-E是博主很关心的文章之一,它是一个562B的视觉语言模型(PaLM-540B + ViT-22B),有个是目前全球最大的视觉语言模型了。同时它将集成到机器人控制中,即多模态具身智能,这将为目前已经很强大的模型们加上机器人的手臂。关于多模态具身智能可以看博主以往的博文,不再赘述:传送门:具身智能综述和应用(Embodied AI)

在这里插入图片描述
模型结构如下图中间部分所示,PaLM-E主要是将连续的具身观察,如图像、状态估计或其他传感器模态一起输入到语言模型中。因此模型的输入会变成:

  • Give <emb> ... <img> A: How to grasp blue block?

这里对多模态输入的处理跟前几篇博文中的方法类似,也是什么模态用什么编码器先token化,然后再把大家拼在一起,然后用PaLM-E来当解码器,去自回归地生成文本。生成的文本便可以去执行动作,

  • A: First. grasp yellow block and ...

然后与真实世界做交互。
在这里插入图片描述
从论文结果上看,PaLM-E完全支持zero-shot和cot。不过目前还只放出了paper和demo,具体的细节暂时不太清楚。但至少PALM-E向我们展示了,多模态LMs+world grounding是真的很有前景(pr:欢迎感兴趣的朋友私信我一起来做)。

  • paper:PaLM-E: An Embodied Multimodal Language Model
  • arxiv:https://arxiv.org/abs/2303.03378v1
  • github:https://palm-e.github.io

ArtGPT-4: Artistic Vision-Language Understanding with Adapter-enhanced MiniGPT-4
ArtGPT-4是一类延伸模型,其主要基于MiniGPT-4,然后垂类解决它在艺术图片理解方面的问题。

模型结构如下图所示,主要通过Adapter-enhanced MiniGPT-4的策略做adapter tuning。如图主要对Vicuna的线性层和激活函数做tuning,以使模型能够更好地捕捉复杂的细节并理解艺术图像的含义,一个vicuna backbone可以被改装成如下结构:
在这里插入图片描述

训练数据集来自于ChatGPT创建的高质量图像文本对,总共 3500 对的高质量数据集。然后在Tesla A100 设备上使用大约 200 GB 的图像文本对训练2 小时。它除了改进图像理解之外,还能够生成视觉代码,包括美观的 HTML/CSS 网页等,具有更多的艺术天赋。

arxiv:https://arxiv.org/pdf/2305.07490.pdf
github:https://github.com/DLYuanGod/ArtGPT-4


VPGTrans: Transfer Visual Prompt Generator across LLMs
目前从头开始训练视觉-语言模型(VL-LLM)需要耗费大量资源,因此在前一篇博文中也基本都是把现有的语言模型和视觉模型拼接起来,这种方法虽然减少了训练消耗,但linear layers(projector)或者视觉模块(VPG)也往往是需要训练的。因此这篇文章的VPGTrans主要是一个提效方法,可以对现有的模型进行迁移来得到VL-LLM。相比于从头训练视觉模块,该方法可以将 BLIP-2 FlanT5-XXL 的训练开销从 19000+ 人民币缩减到不到 1000 元,如下图所示。
在这里插入图片描述

VPGTrans主要探索了两种类型的VPG的迁移:

  • 跨LLM大小迁移(TaS):比如从OPT-2.7B到OPT-6.7B,其意义在于可以先在小的LLM上调参,然后再扩展到大LLM。
  • 跨LLM类型迁移(TaT):比如从OPT到FlanT5,其意义在于可以快速切换不同的LLMs。

然后作者们做了一些探索实验,有一些有趣的发现:

  • 直接继承VPG可以加速收敛,但加速有限+会掉点。
  • 先warm-up projector 做3 epoch可以防止掉点+加速收敛。
  • 词向量转化器初始化可以加速3 epoch到2 eopch,这个是很有意思的。作者们认为VPG是通过把图像转化为LLM可以理解的soft prompt,而soft prompt和词向量其实是非常相似的,因此作者们训练了一个图片到图片的词向量转化器(一个线性层),然后利用它来做projector的初始化。
  • 5倍超大学习率可以加速收敛(主要是projector参数不复杂不容易崩)。

因此VPGTrans最终的训练结构如下图所示,
在这里插入图片描述
该方法同样分为两个阶段:

  • 第一阶段:使用词向量转化器和原有projector进行融合作为新projector的初始化,然后用5倍学习率训练新projector 1 epoch。
  • 第二阶段:直接正常训练VPG和projector。

demo:https://vpgtrans.github.io/
paper:https://arxiv.org/pdf/2305.01278.pdf
code:https://github.com/VPGTrans/VPGTrans

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

基于LLMs的多模态大模型(PALM-E,ArtGPT-4,VPGTrans ) 的相关文章

随机推荐

  • Tiny Httpd在ubuntu上的运行,以及对tinyhttpd的理解

    目录 对tinyhttpd的理解 在ubuntu上运行程序 下载完成后需要对代码以及makefile进行修改 运行 首先我们了解一下相关内容 分析源码 源码顺序main gt startup gt accept request gt exc
  • android layout_torightof 代码,Android常用的布局属性

    1 background 背景 值可以是颜色值 也可以是drawable的图片资源 还可以是drawable的xml背景文件 2 layout width 和 layout height 控件的宽度 高度 可以是match parent和w
  • 技术方案书模板-1

    http www mypm net blog user1 epmt archives 2006 1544 html 1 序言 简述项目实施的必要性及意义 2 需求分析 2 1 技术现状 描述用户现有技术应用环境 人员技术状况 2 2 用户需
  • 豆瓣api不能访问了的解决办法

    在参数中添加apikey apikey 0b2bdeda43b5688921839c8ecb20399b 例如https api douban com v2 movie top250 apikey 0b2bdeda43b5688921839
  • 分布式RPC系统框架Dubbo-12服务调用超时

    服务降级的发生 其实是由于消费者调用服务超时引起的 即从发出调用请求到获取到提供者的响应结果这个时间超出了设定的时限 默认服务调用超时时限为1秒 可以在消费者端与提供者端设置超时时限 1 创建提供者工程 1 创建工程 创建provider
  • javascript 函数(function)

  • Linux CGI编程基础

    1 为什么使用CGI 如前面所见 任何的HTML均是静态网页 它无法实现一些复杂的功能 而CGI可以为我们实现 如 a 列出服务器上某个目录中的文件 对目录中的文件进行操作 b 通过CGI实现串口通讯 c 实现数据库接口 d 实现从摄像头读
  • 【数学建模竞赛】Matlab逻辑规则,结构基础及函数

    逻辑基础 逻辑变量 在Matlab中 逻辑变量是一种特殊类型的变量 用于表示逻辑值 逻辑变量只有两个可能的值 true 真 和false 假 在Matlab中 我们可以使用0和1来表示逻辑变量的值 为了定义逻辑变量 可以使用syms函数来定
  • IntelliJ IDEA WEB项目的部署配置

    摘要 非maven项目 和 maven项目部署配置的探究 Intellij IDEA Web 部署 目录 1 前言 2 项目配置 Project Structure 2 1 Project 2 2 Modules 2 3 Libraries
  • windows平台下idea打开闪退和显示已停止问题处理

    1选中idea右击兼容性疑难解答 2 选择第三个 3 选择第一个 4 点击启动程序 5 最后下一步后 记住点击保存设置 以后就可以没有问题打开了
  • 中国互联网技术联盟正式成立 京东、美团、 58到家现场分享推荐系统核心技术

    12月19日 中国技术开放日暨中国互联网技术联盟 ITA 启动仪式在北京国家会议中心举行 京东技术学院院长阿朱 原明源软件CTO 美团技术学院院长刘江 原CSDN总编 及来自联盟企业的多位CTO共同见证了这一刻 中国互联网技术联盟 ITA
  • redis触发了rdb机制,去没有自动生成dump.rdb文件

    设置触发条件 进行触发rdb机制 一开始没有在 usr local bin目录下生成dump rdb文件 后来在进入redis con文件的文件夹中 发现在这里生成了dump rdb 于是查看了redis的启动目录 后来改在 usr loc
  • kaggle房价预测特征意思_Kaggle项目之房价预测

    一 明确目的 本次练习需要围绕以下目的进行 基于竞赛方所提供的爱荷华州埃姆斯的住宅数据信息 预测每间房屋的销售价格 理解问题 观察每个变量特征的意义以及对于问题的重要程度 研究主要特征 房价 研究其他变量 研究其它变量对 房价 的影响以及它
  • redis锁

    一 redis锁的实现 加锁命令 SETNX key value 当键不存在时 对键进行设置操作并返回成功1 否则返回失败0 Key是锁的唯一标识 一般按业务来决定命名 Value 往往用来比较加锁的是哪一个线程或者哪一个消息 一般使用UU
  • 开源的MiniGPT-4可以让你提前体验一下GPT-4的魅力

    多模态GPT 4大模型的发布 让很多人看到了AI人工智能的魅力 特别是ChatGPT的流行 让很多人开始关注人工智能 虽然ChatGPT可以通过一些魔法进行使用 但是GPT 4多模态大模型 openai却没有完全免费开放给个人 要想使用GP
  • Android系统启动流程 源码解析

    Android系统启动流程 本文链接 https blog csdn net feather wch article details 132518105 有道云脑图 https note youdao com s GZ9d8vzO 1 整体
  • Java中的定时任务应用

    一 使用Java的Timer import java text ParseException import java text SimpleDateFormat import java util Date import java util
  • 安装Altium Designer 2022版本步骤含阿里网盘安装包(不限速)

    Altium designer 学习笔记第一篇 安装Altium Designer2022步骤及阿里网盘安装包 不限速 一 安装包链接 https www aliyundrive com s e85bUWKU45N 提取码 jd63 注 若
  • 数据结构 - 二叉树

    文章目录 目录 文章目录 前言 一 树型结构 1 1 树的概念 了解 1 2 数的常用术语 掌握 1 3 树的应用 了解 1 4 树相较于数组和链表的优势 了解 二 二叉树 重点 2 1 二叉树的概念 2 2 两种特殊的二叉树 2 3 二叉
  • 基于LLMs的多模态大模型(PALM-E,ArtGPT-4,VPGTrans )

    这个系列已经更文一些了 如果有新的文章会继续补充 基于LLMs的多模态大模型 Visual ChatGPT PICa MM REACT MAGIC 基于LLMs的多模态大模型 Flamingo BLIP 2 KOSMOS 1 基于LLMs的