基于LLMs的多模态大模型（PALM-E，ArtGPT-4，VPGTrans ）

2023-10-27

这个系列已经更文一些了，如果有新的文章会继续补充：

本篇文章先放一些比较杂的延伸和应用的文章，后面形成分支了再单独开，目前主要是PALM-E，ArtGPT-4，VPGTrans 等。

Pathways Language Model with Embodied
PALM-E是博主很关心的文章之一，它是一个562B的视觉语言模型（PaLM-540B + ViT-22B），有个是目前全球最大的视觉语言模型了。同时它将集成到机器人控制中，即多模态具身智能，这将为目前已经很强大的模型们加上机器人的手臂。关于多模态具身智能可以看博主以往的博文，不再赘述：传送门：具身智能综述和应用（Embodied AI）。

在这里插入图片描述
模型结构如下图中间部分所示，PaLM-E主要是将连续的具身观察，如图像、状态估计或其他传感器模态一起输入到语言模型中。因此模型的输入会变成：

Give <emb> ... <img> A: How to grasp blue block?

这里对多模态输入的处理跟前几篇博文中的方法类似，也是什么模态用什么编码器先token化，然后再把大家拼在一起，然后用PaLM-E来当解码器，去自回归地生成文本。生成的文本便可以去执行动作，

A: First. grasp yellow block and ...

然后与真实世界做交互。
在这里插入图片描述
从论文结果上看，PaLM-E完全支持zero-shot和cot。不过目前还只放出了paper和demo，具体的细节暂时不太清楚。但至少PALM-E向我们展示了，多模态LMs+world grounding是真的很有前景（pr：欢迎感兴趣的朋友私信我一起来做）。

paper：PaLM-E: An Embodied Multimodal Language Model
arxiv：https://arxiv.org/abs/2303.03378v1
github：https://palm-e.github.io

ArtGPT-4: Artistic Vision-Language Understanding with Adapter-enhanced MiniGPT-4
ArtGPT-4是一类延伸模型，其主要基于MiniGPT-4，然后垂类解决它在艺术图片理解方面的问题。

模型结构如下图所示，主要通过Adapter-enhanced MiniGPT-4的策略做adapter tuning。如图主要对Vicuna的线性层和激活函数做tuning，以使模型能够更好地捕捉复杂的细节并理解艺术图像的含义，一个vicuna backbone可以被改装成如下结构：
在这里插入图片描述

训练数据集来自于ChatGPT创建的高质量图像文本对，总共 3500 对的高质量数据集。然后在Tesla A100 设备上使用大约 200 GB 的图像文本对训练2 小时。它除了改进图像理解之外，还能够生成视觉代码，包括美观的 HTML/CSS 网页等，具有更多的艺术天赋。

arxiv：https://arxiv.org/pdf/2305.07490.pdf
github：https://github.com/DLYuanGod/ArtGPT-4

VPGTrans: Transfer Visual Prompt Generator across LLMs
目前从头开始训练视觉-语言模型（VL-LLM）需要耗费大量资源，因此在前一篇博文中也基本都是把现有的语言模型和视觉模型拼接起来，这种方法虽然减少了训练消耗，但linear layers（projector）或者视觉模块（VPG）也往往是需要训练的。因此这篇文章的VPGTrans主要是一个提效方法，可以对现有的模型进行迁移来得到VL-LLM。相比于从头训练视觉模块，该方法可以将 BLIP-2 FlanT5-XXL 的训练开销从 19000+ 人民币缩减到不到 1000 元，如下图所示。
在这里插入图片描述

VPGTrans主要探索了两种类型的VPG的迁移:

跨LLM大小迁移（TaS）：比如从OPT-2.7B到OPT-6.7B，其意义在于可以先在小的LLM上调参，然后再扩展到大LLM。
跨LLM类型迁移（TaT）：比如从OPT到FlanT5，其意义在于可以快速切换不同的LLMs。

然后作者们做了一些探索实验，有一些有趣的发现：

直接继承VPG可以加速收敛，但加速有限+会掉点。
先warm-up projector 做3 epoch可以防止掉点+加速收敛。
词向量转化器初始化可以加速3 epoch到2 eopch，这个是很有意思的。作者们认为VPG是通过把图像转化为LLM可以理解的soft prompt，而soft prompt和词向量其实是非常相似的，因此作者们训练了一个图片到图片的词向量转化器（一个线性层），然后利用它来做projector的初始化。
5倍超大学习率可以加速收敛（主要是projector参数不复杂不容易崩）。

因此VPGTrans最终的训练结构如下图所示，
在这里插入图片描述
该方法同样分为两个阶段：

第一阶段：使用词向量转化器和原有projector进行融合作为新projector的初始化，然后用5倍学习率训练新projector 1 epoch。
第二阶段：直接正常训练VPG和projector。

demo：https://vpgtrans.github.io/
paper：https://arxiv.org/pdf/2305.01278.pdf
code：https://github.com/VPGTrans/VPGTrans

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

基于LLMs的多模态大模型（PALM-E，ArtGPT-4，VPGTrans ）的相关文章

【多源数据融合】基于Dempster-Shafer理论的信念对数相似度测量及其在多源数据融合中的应用（Matlab代码实现）

欢迎来到本博客博主优势博客内容尽量做到思维缜密逻辑清晰为了方便读者座右铭行百里者半于九十本文目录如下目录 1 概述 2 运行结果 3 参考文献 4 Matlab代码实现
【路径规划】基于A*算法路径规划研究（Matlab代码实现）

欢迎来到本博客博主优势博客内容尽量做到思维缜密逻辑清晰为了方便读者座右铭行百里者半于九十本文目录如下目录 1 概述 2 运行结果 3 参考文献 4 Matlab代码实现
用CHAT写一份标题为职业教育教师教学能力提升培训总结

CHAT回复标题职业教育教师教学能力提升培训总结一活动概述本次由学校组织的职业教育教师教学能力提升培训于8月15日至8月20日顺利进行来自全校的60位职业教育教师参与了此次培训主讲人为享有盛名的教育专家马丁先生二培训内容与
基于java的ssh医院在线挂号系统设计与实现

基于java的ssh医院在线挂号系统设计与实现 I 引言 A 研究背景和动机基于Java的SSH医院在线挂号系统设计与实现的研究背景和动机随着信息技术的迅速发展和应用医院在线挂号系统已成为医院管理的重要组成部分传统的挂号方式存在许多
让CHAT介绍下V2ray

CHAT回复 V2Ray是一个网络工具主要用于科学上网和保护用户的网络安全它的名字源自Vmess Ray 光线通过使用新的网络协议为用户提供稳定且灵活的代理服务下面是一些V2Ray的主要特性 1 多协议支持 V2Ray 提供了大量
面对AI革新时，Soul App等社交应用的“出圈”解法是什么？

2023年初 ChatGPT掀开海内外互联网 AI革新的序幕公众在惊讶于ChatGPT对于海量信息富有逻辑的整合归纳帮助大家提升工作及学习效率之余更为期待的莫过于有一天人工智能的意识觉醒十余年前由斯派克琼斯 Spike Jon
扬帆证券：三只松鼠去年扣非净利预增超1.4倍

在高端性价比战略驱动下三只松鼠 300783 重拾增势 1月15日晚间三只松鼠发布成绩预告预计2023年度净赢利为2亿元至2 2亿元同比增加54 97 至70 47 扣非后净赢利为1亿元至1 1亿元同比增速达146 9 至17
明日 15:00 | NeurIPS 2023 Spotlight 论文

点击蓝字关注我们 AI TIME欢迎每一位AI爱好者的加入哔哩哔哩直播通道扫码关注AITIME哔哩哔哩官方账号预约直播 1月17日 15 00 16 00 讲者介绍黄若孜腾讯AI LAB游戏AI研究员 2020年复旦大学硕士毕业后
基于opencv的大米计数统计（详细处理流程＋代码）

在我每周的标准作业清单中有一项是编写计算机视觉算法来计算该图像中米粒的数量因此当我的一个好朋友M给我发了一张纸上的扁豆照片显然是受到上述转发的启发请我帮他数一下谷物的数量时它勾起了我怀旧的回忆因此我在我的旧硬盘上寻找很久以前
毕业设计- 基于深度学习的小样本时间序列预测算法 - Attention

目录前言课题背景与意义课题实现一数据集二设计思路三相关代码示例最后前言大四是整个大学期间最忙碌的时光一边要忙着准备考研考公考教资或者实习为毕业后面临的就业升学做准备一边要为毕业设计耗费大量精力近几年各个学校
毕业设计：基于卷积神经网络的图像分类系统 python人工智能

目录前言设计思路一课题背景与意义二算法理论原理 2 1 卷积神经网络 2 2 SVM算法三检测的实现最后前言大四是整个大学期间最忙碌的时光一边要忙着备考或实习为毕业后面临的就业升学做准备一边要为毕业设计耗费大量精力
作物叶片病害识别系统

介绍由于植物疾病的检测在农业领域中起着重要作用因为植物疾病是相当自然的现象如果在这个领域不采取适当的护理措施就会对植物产生严重影响进而影响相关产品的质量数量或产量植物疾病会引起疾病的周期性爆发导致大规模死亡这些问题需要在初
机器学习算法实战案例：BiLSTM实现多变量多步光伏预测

文章目录 1 数据处理 1 1 导入库文件 1 2 导入数据集 1 3 缺失值分析 2 构造训练数据
不要再苦苦寻觅了！AI 大模型面试指南（含答案）的最全总结来了！

AI 大模型技术经过2023年的狂飙 2024年必将迎来应用的落地对 IT 同学来讲这里蕴含着大量的技术机会越来越多的企业开始招聘 AI 大模型岗位本文梳理了 AI 大模型开发技术的面试之道从 AI 大模型基础面 AI 大模型进阶
AI在保护环境、应对气候变化中的作用

对于AI生命周期数据领域的全球领导者而言暂时搁置我们惯常的AI见解和AI生命周期数据内容产出来认识诸如世界地球日这样的自然环境类活动日似乎是个奇怪的事情我们想要知道数据是否真的会影响我们的地球环境简而言之是确实如此但作为一
CorelDRAW2024官方中文版重磅发布更新

35年专注于矢量设计始于1988年并不断推陈出新致力为全球设计工作者提供更高效的设计工具 CorelDRAW 滋养并见证了一代设计师的成长在最短的时间内交付作品 CorelDRAW的智能高效会让你一见钟情 CorelDRAW 全称 Co
3D点云检测神技 | UFO来了！让PointPillars、PV-RCNN统统涨点！

作者 AI驾驶员编辑智驾实验室点击下方卡片关注自动驾驶之心公众号 ADAS巨卷干货即可获取点击进入自动驾驶之心 3D目标检测技术交流群本文只做学术分享如有侵权联系删文在这篇论文中提出了一个关于在3D点云中检测未
深度学习：人脸识别系统 Tensorflow 人脸检测 Python语言 facenet人脸识别算法毕业设计（源码）✅

博主介绍全网粉丝10W 前互联网大厂软件研发集结硕博英豪成立工作室专注于计算机相关专业毕业设计项目实战6年之久选择我们就是选择放心选择安心毕业感兴趣的可以先收藏起来点赞关注不迷路毕业设计 2023 2024年计算机毕业
基于节点电价的电网对电动汽车接纳能力评估模型研究（Matlab代码实现）

欢迎来到本博客博主优势博客内容尽量做到思维缜密逻辑清晰为了方便读者座右铭行百里者半于九十本文目录如下目录 1 概述 2 运行结果 3 参考文献 4 Matlab代码数据
基于节点电价的电网对电动汽车接纳能力评估模型研究（Matlab代码实现）

欢迎来到本博客博主优势博客内容尽量做到思维缜密逻辑清晰为了方便读者座右铭行百里者半于九十本文目录如下目录 1 概述 2 运行结果 3 参考文献 4 Matlab代码数据

随机推荐

Tiny Httpd在ubuntu上的运行，以及对tinyhttpd的理解

目录对tinyhttpd的理解在ubuntu上运行程序下载完成后需要对代码以及makefile进行修改运行首先我们了解一下相关内容分析源码源码顺序main gt startup gt accept request gt exc
android layout_torightof 代码,Android常用的布局属性

1 background 背景值可以是颜色值也可以是drawable的图片资源还可以是drawable的xml背景文件 2 layout width 和 layout height 控件的宽度高度可以是match parent和w
技术方案书模板－1

http www mypm net blog user1 epmt archives 2006 1544 html 1 序言简述项目实施的必要性及意义 2 需求分析 2 1 技术现状描述用户现有技术应用环境人员技术状况 2 2 用户需
豆瓣api不能访问了的解决办法

在参数中添加apikey apikey 0b2bdeda43b5688921839c8ecb20399b 例如https api douban com v2 movie top250 apikey 0b2bdeda43b5688921839
分布式RPC系统框架Dubbo-12服务调用超时

服务降级的发生其实是由于消费者调用服务超时引起的即从发出调用请求到获取到提供者的响应结果这个时间超出了设定的时限默认服务调用超时时限为1秒可以在消费者端与提供者端设置超时时限 1 创建提供者工程 1 创建工程创建provider
javascript 函数(function)
Linux CGI编程基础

1 为什么使用CGI 如前面所见任何的HTML均是静态网页它无法实现一些复杂的功能而CGI可以为我们实现如 a 列出服务器上某个目录中的文件对目录中的文件进行操作 b 通过CGI实现串口通讯 c 实现数据库接口 d 实现从摄像头读
【数学建模竞赛】Matlab逻辑规则，结构基础及函数

逻辑基础逻辑变量在Matlab中逻辑变量是一种特殊类型的变量用于表示逻辑值逻辑变量只有两个可能的值 true 真和false 假在Matlab中我们可以使用0和1来表示逻辑变量的值为了定义逻辑变量可以使用syms函数来定
IntelliJ IDEA WEB项目的部署配置

摘要非maven项目和 maven项目部署配置的探究 Intellij IDEA Web 部署目录 1 前言 2 项目配置 Project Structure 2 1 Project 2 2 Modules 2 3 Libraries
windows平台下idea打开闪退和显示已停止问题处理

1选中idea右击兼容性疑难解答 2 选择第三个 3 选择第一个 4 点击启动程序 5 最后下一步后记住点击保存设置以后就可以没有问题打开了
中国互联网技术联盟正式成立京东、美团、 58到家现场分享推荐系统核心技术

12月19日中国技术开放日暨中国互联网技术联盟 ITA 启动仪式在北京国家会议中心举行京东技术学院院长阿朱原明源软件CTO 美团技术学院院长刘江原CSDN总编及来自联盟企业的多位CTO共同见证了这一刻中国互联网技术联盟 ITA
redis触发了rdb机制，去没有自动生成dump.rdb文件

设置触发条件进行触发rdb机制一开始没有在 usr local bin目录下生成dump rdb文件后来在进入redis con文件的文件夹中发现在这里生成了dump rdb 于是查看了redis的启动目录后来改在 usr loc
kaggle房价预测特征意思_Kaggle项目之房价预测

一明确目的本次练习需要围绕以下目的进行基于竞赛方所提供的爱荷华州埃姆斯的住宅数据信息预测每间房屋的销售价格理解问题观察每个变量特征的意义以及对于问题的重要程度研究主要特征房价研究其他变量研究其它变量对房价的影响以及它
redis锁

一 redis锁的实现加锁命令 SETNX key value 当键不存在时对键进行设置操作并返回成功1 否则返回失败0 Key是锁的唯一标识一般按业务来决定命名 Value 往往用来比较加锁的是哪一个线程或者哪一个消息一般使用UU
开源的MiniGPT-4可以让你提前体验一下GPT-4的魅力

多模态GPT 4大模型的发布让很多人看到了AI人工智能的魅力特别是ChatGPT的流行让很多人开始关注人工智能虽然ChatGPT可以通过一些魔法进行使用但是GPT 4多模态大模型 openai却没有完全免费开放给个人要想使用GP
Android系统启动流程源码解析

Android系统启动流程本文链接 https blog csdn net feather wch article details 132518105 有道云脑图 https note youdao com s GZ9d8vzO 1 整体
Java中的定时任务应用

一使用Java的Timer import java text ParseException import java text SimpleDateFormat import java util Date import java util
安装Altium Designer 2022版本步骤含阿里网盘安装包(不限速)

Altium designer 学习笔记第一篇安装Altium Designer2022步骤及阿里网盘安装包不限速一安装包链接 https www aliyundrive com s e85bUWKU45N 提取码 jd63 注若
数据结构 - 二叉树

文章目录目录文章目录前言一树型结构 1 1 树的概念了解 1 2 数的常用术语掌握 1 3 树的应用了解 1 4 树相较于数组和链表的优势了解二二叉树重点 2 1 二叉树的概念 2 2 两种特殊的二叉树 2 3 二叉
基于LLMs的多模态大模型（PALM-E，ArtGPT-4，VPGTrans ）

这个系列已经更文一些了如果有新的文章会继续补充基于LLMs的多模态大模型 Visual ChatGPT PICa MM REACT MAGIC 基于LLMs的多模态大模型 Flamingo BLIP 2 KOSMOS 1 基于LLMs的

基于LLMs的多模态大模型（PALM-E，ArtGPT-4，VPGTrans ）

基于LLMs的多模态大模型（PALM-E，ArtGPT-4，VPGTrans ） 的相关文章

随机推荐

热门标签

基于LLMs的多模态大模型（PALM-E，ArtGPT-4，VPGTrans ）的相关文章