LLaVA和LLaVA-Plus视觉指令微调及工具使用构建多模态智能体

2023-12-21

认识和理解视觉内容，以及基于人类指令对视觉世界进行推理，长久以来一直是一个具有挑战性问题。得益于大规模预训练，OpenAI 的 GPT-4V 展示了在自然语言处理任务和复杂视觉理解中令人印象深刻的能力。

智源社区邀请到了LLaVA的一作柳昊天以及LLaVA-Plus的一作刘世隆，共同分享《LLaVA和LLaVA-Plus视觉指令微调及工具使用构建多模态智能体》欢迎大家观看。

主题一、Visual Instruction Tuning（柳昊天）在这次演讲中，我将介绍 LLaVA，第一个在图像理解和推理方面具有类似 GPT-4V 级别的能力的开源项目。我们证明了这种方法可以以较低成本构建可定制的多模态大模型。首先，我将介绍创建如何利用大语言模型，不需要大量手动注释的情况下，创建多模态指令微调数据集；并且这个方法成本可控，利用现有的预训练的大语言模型和视觉编码器，无需从头开始训练。此外，我将展示 LLaVA-1.5，仅通过对原始 LLaVA 进行简单修改，LLaVA-1.5 在 11 个基准测试中取得了SoTA。LLaVA-1.5 使用全公开数据集，一天内在单个 8-A100 节点上完成训练，并超过了包括Qwen-VL-Chat（使用十亿级数据）在内的方法。最后，我将展示一些 LLaVA 有趣的能力和限制，并概述我们渴望探索的方向。

Recognizing and understanding visual content, as well as reasoning about the visual world based on human instructions, has long been a challenging problem. Recently, OpenAI GPT-4V has showcased impressive capabilities in both NLP tasks and complex visual understanding challenges, thanks to large-scale pretraining and extensive instruction tuning. In this talk, I will introduce LLaVA, the first open-sourced project to demonstrate GPT-4V level capabilities in image understanding and reasoning. We demonstrate that this approach offers a promising path for building customizable, large multimodal models that follow human intent at an affordable cost. First, I will introduce how we approach this by creating a multimodal instruction-following dataset without the need for extensive manual annotations and by leveraging the existing pretrained LLMs and large vision encoders without the need of training-from-scratch. Additionally, I will present LLaVA-1.5, where it achieves SoTA on 11 benchmarks, with just simple modifications to the original LLaVA. It utilizes all public data, completes training in ~1 day on a single 8-A100 node, and surpasses methods like Qwen-VL-Chat that use billion-scale data. Finally, I will present some intriguing capabilities and limitations of LLaVA and outline a few future directions that we are eager to explore.

主题二、LLaVA-Plus: Large Language and Vision Assistants that Plug and Learn to Use Skills（刘世隆）

我们提出了LLaVA-Plus，使用插件（视觉工具）提升多模态大语言模型的视觉能力。我们扩展了多模态大语言模型，使其支持了包括检测、分割、检索、生成、编辑在内的多种视觉能力。

LLaVA-Plus 维护着一个技能库，其中包含各种视觉和视觉语言预训练模型（工具），并且能够根据用户的多模式输入激活相关工具，以即时组合执行结果来完成许多现实任务。我们通过实验验证了LLaVA-Plus的有效性，在多个基准测试中取得了持续改进的结果，特别是在VisIT-Bench上达到了的新SoTA。

LLaVA-Plus is a general-purpose multimodal assistant that expands the capabilities of large multimodal models. It maintains a skill repository of pre-trained vision and vision-language models and can activate relevant tools based on users’ inputs to fulfill real-world tasks. LLaVA-Plus is trained on multimodal instruction-following data to acquire the ability to use tools, covering visual understanding, generation, external knowledge retrieval, and compositions. Empirical results show that LLaVA-Plus outperforms LLaVA in existing capabilities and exhibits new ones. It is distinct in that the image query is directly grounded and actively engaged throughout the entire human-AI interaction sessions, significantly improving tool use performance and enabling new scenarios.

LLaVA: https://arxiv.org/abs/2304.08485
LLaVA-1.5: https://arxiv.org/abs/2310.03744
LLaVA-Plus: https://arxiv.org/abs/2311.05437

在这里插入图片描述

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

LLM

LLaVA和LLaVA-Plus视觉指令微调及工具使用构建多模态智能体的相关文章

GLM：ChatGLM的基座模型

介绍 ChatGLM 6B https github com THUDM ChatGLM 6B 主要是能够让我们基于单卡自己部署 ChatGLM的基座是GLM General Language Model Pretraining with
Meta算力争夺演变成团队动荡！LLaMA、LLaMA2、OPT团队成员多位离职

据TheInformation报道原参与Llama项目的团队成员有多位已经辞职原因是Meta内部的OPT研究团队与Llama团队之间发生了一场关于计算资源的内部斗争看来不管是谷歌微软 OpenAI还是Meta 人才流失都是一个避不开
LLM论文周报｜来自谷歌、Meta AI、香港中文大学等机构前沿论文研究

大模型 LLM 是一种人工智能模型旨在理解和生成人类语言它们在大量的文本数据上进行训练可以执行广泛的任务包括文本总结翻译情感分析等等 LLM的特点是规模庞大包含数十亿的参数帮助它们学习语言数据中的复杂模式这些模型通常基于深
Using Large Language Models for Zero-Shot Natural Language Generation from Knowledge Graphs

本文是LLM系列文章针对 Using Large Language Models for Zero Shot Natural Language Generation from Knowledge Graphs 的翻译利用大型语言模型从知
Llama2-Chinese项目：1-项目介绍和模型推理

Atom 7B与Llama2间的关系 Atom 7B是基于Llama2进行中文预训练的开源大模型为什么叫原子呢因为原子生万物 Llama中文社区希望原子大模型未来可以成为构建AI世界的基础单位目前社区发布了6个模型如下所示 Flag
LLM系列

简介小伙伴们好我是小窗幽记机器学习的小编卖热干面的小女孩紧接前文万字长文细说ChatGPT的前世今生后续会尝试以理论实践的方式逐步对主流的各大LLM进行实测和汉化今天这篇关于Llama2的小作文其实比较长所以分为上下两
为什么企业需要私有化专属大模型

编者按 8月29日凌晨 OpenAI在官网宣布推出企业版ChatGPT ChatGPT Enterprise 前不久 OpenAI又刚刚发布了针对企业的GPT 3 5 Turbo微调功能因而引发了一场热烈的讨论是否仍需要私有化的大模型
Generated Knowledge Prompting for Commonsense Reasoning

本文是知识图谱系列相关的文章针对 Generated Knowledge Prompting for Commonsense Reasoning 的翻译常识推理的生成知识提示摘要 1 引言 2 生成知识提示 3 实验设置 4 实验结果
LLM系列

简介月黑见渔灯孤光一点萤微微风簇浪散作满河星小伙伴们好我是微信公众号小窗幽记机器学习的小编卖钢丝球的小男孩今天这篇小作文主要介绍Vicuna模型基于官方模型13B模型部署服务及对话实测更多更新文章欢迎关注微信公众号
KNOWLEDGE SOLVER: TEACHING LLMS TO SEARCH FOR DOMAIN KNOWLEDGE FROM KNOWLEDGE GRAPHS

本文是LLM系列文章针对 KNOWLEDGE SOLVER TEACHING LLMS TO SEARCH FOR DOMAIN KNOWLEDGE FROM KNOWLEDGE GRAPHS 的翻译知识求解器教LLMS从知识图谱中搜
Introducing Language Guidance in Prompt-based Continual Learning

本文是LLM系列文章针对 Introducing Language Guidance in Prompt based Continual Learning 的翻译基于提示的持续学习中引入语言指导摘要 1 引言 2 相关工作 3 背景
Textbooks Are All You Need II: phi-1.5 technical report

本文是LLM系列文章针对 Textbooks Are All You Need II phi 1 5 technical report 的翻译教科书是你所需要的一切 phi 1 5技术报告摘要 1 引言 2 技术规范 3 基准结果 4
Empowering Language Models with Knowledge Graph Reasoning for Open-Domain Question Answering

本文是LLM系列文章针对 Empowering Language Models with Knowledge Graph Reasoning for Open Domain Question Answering 的翻译用知识图谱推理增强
A Survey on Large Language Models for Recommendation

本文是LLM系列的文章针对 A Survey on Large Language Models for Recommendation 的翻译大模型用于推荐的综述摘要 1 引言 2 建模范式和分类 3 判别式LLM用于推荐 4 生成式L
GREASELM: GRAPH REASONING ENHANCED LANGUAGE MODELS FOR QUESTION ANSWERING

本文是LLM系列文章针对 GREASELM GRAPH REASONING ENHANCED LANGUAGE MODELS FOR QUESTION ANSWERING 的翻译 GREASELM 图推理增强的问答语言模型摘要 1 引言
GPU深度学习性能的三驾马车：Tensor Core、内存带宽与内存层次结构

编者按近年来深度学习应用日益广泛其需求也在快速增长那么我们该如何选择合适的 GPU 来获得最优的训练和推理性能呢今天我们为大家带来的这篇文章作者的核心观点是 Tensor Core 内存带宽和内存层次结构是影响 GPU 深度
AI分布式训练：DDP (数据并行）技术详解与实战

编者按如今传统的单机单卡模式已经无法满足超大模型进行训练的要求如何更好地更轻松地利用多个 GPU 资源进行模型训练成为了人工智能领域的热门话题我们今天为大家带来的这篇文章详细介绍了一种名为 DDP Distributed Data
如何对大模型进行评估下

如果从实现评估的纬度来分可以将不同类型的评估分为三类具体如下所示更多理论的详细信息可以参见博客如何对大模型进行评估上接下来就从第一种类型出发看看评估脚本是如何实现的这里分析的源代码是 Qwen的评估脚本如何使用选择题类型数据
WaterBench: Towards Holistic Evaluation of Watermarks for Large Language Models

本文是LLM系列文章针对 WaterBench Towards Holistic Evaluation of Watermarks for Large Language Models 的翻译 WaterBench 面向大型语言模型水印的整
大模型笔记【2】 LLM in Flash

Apple最近发表了一篇文章可以在iphone MAC 上运行大模型 LLM in a flash Efficient Large Language Model Inference with Limited Memory 主要解决的问题是

随机推荐

医院绩效核算系统源码，java语言开发

医院绩效考核系统全套源码医院绩效核算系统源码 java语言开发医院绩效考核系统可根据工作绩效考核管理规定配置相应的绩效考核模型从工作量统计核算维度核算权重三方面计算工作绩效利用数据处理和数据分析的支撑作用实现对工作量统计和绩
多表插入、删除操作（批量）——后端

多表插入场景当添加一个菜品时还需要记录菜品的口味信息因此需要对菜品表 dish 和口味表 dish flavor 同时进行插入操作两个表的字段代码思路由DishController将前端的请求派发给相应的业务层 DishSer
vue3封装年份组件

ant框架年份组件看了ant框架针对于年份不能自定义插槽内容所以放弃用ant框架年份组件自定义插槽内容是想实现年份下方可以加小圆点的需求因加小圆点需求必须实现决定自己封装组件来实现需求自己实现的效果呢类似于ant年份控件在这里做
用户管理第2节课--idea 2023.2 后端--实现基本数据库操作(操作user表)

一模型user对象 gt 和数据库的字段关联自动生成其中涉及删除表数据一切又从零开始二模型user对象 gt 和数据库的字段关联 2 1在model文件夹下新建 user对象 2 1 1 概念大家可以想象我们现在的数据是存储
ResNet实战：CIFAR-10数据集分类

本节将使用ResNet实现CIFAR 10数据集分类 7 2 1 CIFAR 10 数据集简介 CIFAR 10数据集共有60000幅彩色图像这些图像是32 32像素的分为10个类每类6000幅图这里面有50000幅用于训练构成了
ArkTS @Observed、@ObjectLink状态装饰器的使用

作用 Observed ObjectLink装饰器用于在涉及嵌套对象或者数组元素为对象的场景中进行双向数据同步状态的使用 1 嵌套对象我们将父类设置为 Observed状态这个时候子应该设置 ObjectLink才能完成数据的双向绑
测试开发 | 个性化推荐引领社交媒体新潮流：定制化互动，畅享个性世界

在信息爆炸的数字时代社交媒体的个性化推荐技术正成为用户互动体验的亮点通过先进的算法和智能化系统个性化推荐技术为用户提供了更加精准贴近兴趣的内容为用户创造了一个充满个性丰富多彩的社交空间 1 定制化内容满足个性需求个性化推荐技
框架网页中如何查看中心网页源码

框架网页分框架和中心显示页面直接浏览器右键显示源码看到的是框架的网页方法假设框架网址是 a com menu index php 假设单击菜单后显示的center网页是 manage user php 则我们知道最终中心网页的
QT中网络编程之发送Http协议的Get和Post请求

文章目录 HTTP协议 GET请求 POST请求 QT中对HTTP协议的处理 1 QNetworkAccessManager 2 QNetworkRequest 3 QNetworkReply QT实现GET请求和POST请求
我该如何解除微软账户儿童模式？

之前注册微软账户时把日期填成小于14岁的了现在出现由于你的家庭安全设置你不能使用 Google Chrome 您可以访问以下网页 https account microsoft com family home lang 首先登陆后点击添
华纳云：ServiceComb如何实现zipkin分布式调用链追踪

Apache ServiceComb是一个开源的微服务框架它提供了分布式系统开发所需的一系列工具和服务在ServiceComb中实现分布式调用链追踪可以通过整合Zipkin来实现 Zipkin是一个开源的分布式追踪系统它可以帮助你跟
23年12月AI烟火识别系统应用案例-北京梅兰芳故居防火系统

AI烟火识别智能视频分析系统在文化遗产保护领域的应用尤其是在梅兰芳故居防火系统的部署是现代科技与传统文化保护结合的典范这篇文章将详细介绍富维烟火识别系统的设计实施及其在23年12月在北京梅兰芳故居中的应用背景介绍 nbsp 梅兰芳
http通信 axios VS fetch

基本用法 GET 两者都是基于Promise 所以可以使用 then 也可以使用async await fetch需要手动对相应内容进行转换 axios会根据响应头类型进行自动转换所以axios的代码更加简洁 axios get htt
netty源码：（28）ChannelPromise

ChannelPromise是ChannelFuture的子接口它是可写入的其父接口Promise定义如下 ChannelPromise有个默认的实现类 DefaultChannelPromise 它的setSuccess方法用来调用所
Microsoft Family Safety Microsoft 家庭安全将人员添加到你的家庭组

在创建家庭组后通过添加家庭成员来浏览 Microsoft 家庭安全的功能和权益如果某人已是家庭组成员则在加入另一个组之前他们必须退出该组或从该组中删除他们还可以创建一个新的 Microsoft 帐户以与新的家庭组相关联
大模型ChatGLM简介及应用情景

本节介绍生成模型GLM系列模型的新成员中英双语对话模型ChatGLM ChatGLM分为6B和130B 默认使用ChatGLM 6B 两种主要区别在于其模型参数不同 ChatGLM是一个开源的支持中英双语问答的对话语言模型并针对中文
WaterBench: Towards Holistic Evaluation of Watermarks for Large Language Models

本文是LLM系列文章针对 WaterBench Towards Holistic Evaluation of Watermarks for Large Language Models 的翻译 WaterBench 面向大型语言模型水印的整
【vue】$bus 跨组件调用方法

1 新建bus js import Vue from vue 使用 Event Bus const bus new Vue export default bus 2 main js引用 import bus from libs bus Vu
什么是DLNA

DLNA旨在解决个人PC 消费电器移动设备在内的无线网络和有线网络的互联互通使得数字媒体和内容服务的无限制的共享和增长成为可能 DLNA的口号是Enjoy your music photos and videos anywhere an
LLaVA和LLaVA-Plus视觉指令微调及工具使用构建多模态智能体

认识和理解视觉内容以及基于人类指令对视觉世界进行推理长久以来一直是一个具有挑战性问题得益于大规模预训练 OpenAI 的 GPT 4V 展示了在自然语言处理任务和复杂视觉理解中令人印象深刻的能力智源社区邀请到了LLaVA的一作柳昊天

LLaVA和LLaVA-Plus视觉指令微调及工具使用构建多模态智能体

LLaVA和LLaVA-Plus视觉指令微调及工具使用构建多模态智能体 的相关文章

随机推荐

热门标签

LLaVA和LLaVA-Plus视觉指令微调及工具使用构建多模态智能体的相关文章