多模态中的指令控制（InstructPix2Pix，SayCan）

2023-11-16

在这里插入图片描述
InstructPix2Pix: Learning to Follow Image Editing Instructions
图像的语言指令生成。目的是遵循人工指令去编辑图像，即给定输入图像和一个如何编辑它的文本指令，模型尝试遵循这些指令来编辑图像。

这份论文与现有基于文本的图像编辑工作们最大的不同在于，它可以直接以自然文本形式告诉模型要执行什么操作（Instructs），而不是以文本标签、描述或字幕等方式。指令形式的一个好处在于，用户可以用自然的书面文本准确地告诉模型该做什么。指令具有表达性、精确和直观，允许用户轻松地对某些特定对象或视觉属性进行更改。

由于该任务的训练数据难以在大规模上获取，为了获得训练数据，作者结合了两个大型的预训练模型的知识：GPT-3和stable diffusion，以生成一个用于图像编辑任务的大型生成训练数据集。这两个大模型可以分别捕获关于语言和图像的互补知识，以为跨模态的任务创建一些成对的训练数据。

因此InstructPix2Pix的方法包括两部分：生成一个图像编辑数据集，以及基于该数据集训练扩散模型。具体的步骤有如下几步：

a)首先使用一个微调过的GPT-3来生成指令Instruction和按照指令编辑图像后的描述Edited Caption。如

Input Caption: “photograph of a girl riding a horse” Instruction:
GPT-3生成Instruction：“have her ride a dragon”
GPT-3生成Edited Caption: “photograph of a girl riding a dragon”

在文本域中的操作可以生成大量和多样化的编辑指令集合，同时还能保持图像变化前后的文字对应关系。其中作者是在GPT-3 Davinci上进行微调的，微调使用Human-written的700个Caption–Instruction–Edited Caption数据。得益于GPT-3丰富的知识和概括能力，微调后的模型能够生成创造性而明确的指令和描述。

b)然后指令实施前后的Input Caption和Edited Caption，由Stable Diffusion和Prompt-to-Prompt一起生成图像对。此处必需使用Prompt-to-Prompt的原因是，文本到图像的转换并不能保证图像的一致性，即使是在非常小的条件变化下，如下图的对比。因此为了保证数据集的稳定性，强调每轮扩散之间要尽可能相似的Prompt-to-Prompt方法十分适合。因此作者通过控制denoising steps p和利用CLIP特征计算相似度过滤来尽可能保证得到的图像对的质量，和可信度。
c)最终作者们一共创建了超过45万的训练数据集。
d)最后进行条件扩散模型的训练，以期望其在推理时能泛化到真实图像和用户编写的指令场景中。

虽然InstructPix2Pix是完全在自己生成的数据集上进行训练，即利用GPT-3和stable diffusion生成的数据，但其实仍然现了对任意真实图像和人类编写文本的zero-shot泛化。

paper：https://arxiv.org/abs/2211.09800

Do As I Can, Not As I Say: Grounding Language in Robotic Affordances
如题是Grounding Language任务，即按照人类口头指令执行现实世界的任务。论文motivation在于，使用大语言模型来理解口头指令可以编码关于世界的丰富语义知识，这些知识对于机器人能够执行高水平的指令可能非常有用。然而，语言模型的一个显著弱点是它们缺乏现实世界的经验，这使得很难利用它们来进行具象决策。

如下图所示，对于“我把饮料洒了出来，你能帮忙吗？” ，缺乏现实经验的语言模型可能会给出不现实的建议，如如果现场没有吸尘器等物品，机器人是无法帮忙清除饮料的。因此，相结合之下，机器人可以作为语言模型的“手和眼睛”，而语言模型则提供关于任务的高级语义知识，从而将低级别技能与大型语言模型结合起来。
在这里插入图片描述

本文主要提出了一种将语言模型转化为机器指令的方法，如上图右侧，大规模语言模型的能力可以帮助分解语义从而得到足够的可能，然后通过强化学习训练一个价值函数来判断可能的价值，最终指导机器人去找到海绵、拿起海绵、找到你、放下海绵、结束。具体的模型结构如下图所示，

在这里插入图片描述

给定一个高级指令，SayCan结合了来自LLM的概率（一个技能对指令有用的概率）和来自一个值函数的概率(为的概率成功地执行上述技能)来选择要执行的技能。

LLM。先把指令变成Prompt形式，再利用LLM把指令分解成多个动作，如拿起或放下苹果。
VF。通过训练好的价值函数，联合LLM给出动作的概率分布，并使机器人执行概率最大的动作，如找到苹果。
重复。执行完第一个动作之后，再拼接成新的prompt以生成第二个动作。

code：https://github.com/google-research/google-research/tree/master/saycan
paper：https://arxiv.org/pdf/2204.01691
demo：https://sites.research.google/palm-saycan

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

多模态中的指令控制（InstructPix2Pix，SayCan）的相关文章

mqtt 变为乱码接受16进制字节流_常见乱码问题分析和总结

背景概述在我们的日常工作生活中一定碰到过下面的情况场景1 安装完某个软件后看到的安装程序变成类似这样的一组字符图1所示的样子图 1 安装程序中的乱码场景2 打开一个文档发现里面的内容全面是问号如图2所示图 2 带有问号的乱码
Redis类型之Geospatial

1 简介 Redis 3 2 中增加了对GEO类型的支持 GEO Geographic 地理信息的缩写该类型就是元素的2维坐标在地图上就是经纬度 redis基于该类型提供了经纬度设置查询范围查询距离查询经纬度Hash等常见操
locate函数

include
如何从远程服务器复制文件,远程服务器文件如何复制到本地

远程服务器文件如何复制到本地内容精选换一换本节为您介绍如何在本机使用远程登录工具MSTSC登录Windows裸金属服务器裸金属服务器状态必须为运行中如果Windows裸金属服务器采用密钥方式鉴权需要先获取裸金属服务器的密码获
3D游戏编程与设计作业——游戏智能

一作业要求坦克对战游戏AI设计从商店下载游戏 Kawaii Tank 或其他坦克模型构建AI对战坦克具体要求使用感知思考行为模型建模 AI 坦克场景中要放置一些障碍阻挡对手视线坦克要放置一个矩阵包围盒触发器保证
如何解决Exception in thread “main” java.sql.SQLException: Statement.executeUpdate() or Statement.execute

场景黑马程序员javaweb基础教程视频jdbc快速入门时出现的报错问题描述 Exception in thread main java sql SQLException Statement executeUpdate or Stat
late_initcall和module_init

late initcall和module init 分类 linux驱动程序设计 2012 11 04 15 14 3680人阅读评论 0 收藏举报所有的 init函数在区段 initcall init中还保存了一份函数指针在初始化
unittest+ddt自动化测试相关知识点

unittest是Python单元测试框架主要分为测试用例TestCase 一个完整的测试流程测试套件TestSuite 多个测试用例集合在一起执行结果呈现TextTestRunner 用例运行和结果呈现结果呈现常用HtmlTe
环境配置tips

一 MySQL在Linux下数据库名表名列名别名大小写规则是这样的 1 数据库名与表名是严格区分大小写的 2 表的别名是严格区分大小写的 3 列名与列的别名在所有的情况下均是忽略大小写的 4 变量名也是严格区分大小写的修改不区分大小

随机推荐

OpenWrt系统无法进入Luci解决办法之一

当在OpenWrt系统重启后打开Luci后台时有时可能会遇到以下错误报告 usr lib lua luci dispatcher lua 577 bad argument 1 to pairs table expected got nil
cocos2d-x 4.0 版本修改点

转自 https discuss cocos2d x org t cocos2d x v4 0 released 48487 Features support metal on iOS macOS use CMake for all pla
vue : 无法加载文件 \Node.js\node_global\vue.ps1。未对文件 \Node.js\node_global\vue.ps1 进行数字签名。无法在当前系统上运行该脚本。

vue 无法加载文件 D Node js node global vue ps1 未对文件 D Node js node global vue ps1 进行数字签名无法在当前系统上运行该脚本最近在使用powershell下使用 vue
pandas的行列获取/pandas iloc和loc的使用/如何获取pandas的行和列

Pandas行和列的获取由于平时没有系统的学习pandas 导致在实际应用过程中对于获取df中的行和列经常出现问题于是总结一下供自己以后参考参考的书籍在线版链接利用 Python 进行数据分析第 2 版 0 查看手册请当你看
深度学习之基于VGG16与ResNet50实现鸟类识别

鸟类识别在之前做过但是效果特别差而且ResNet50的效果直接差到爆炸这次利用VGG16与ResNet50的官方模型进行鸟类识别 1 导入库 import tensorflow as tf import numpy as np imp
ubuntu安装/查看已安装包的方法

自己折腾ubuntu安装包来着发现一篇文章非常实用将apt get和dpkg等命令的参数讲解非常全面于是转载过来中文的比英文的帮助看着还是顺手一点原文链接 http www cnblogs com forward archive
vue 给页面局部加水印和全部加水印

局部加水印在公共类js下新建一个watermask js 代码如下 export default tool js addWaterMark const strArr localStorage getItem loginUserName
图的深度优先遍历（Depth First Search）

图的深度优先遍历 Depth First Search 基本思想类似于二叉树的先序遍历假设图中所有结点均未被访问从初始结点访问访问其第一个邻接结点接着以被访问的邻接结点作为初始结点访问它的第一个邻接结点递归的过程算法步骤访
Cesium快速入门

Cesium是全世界使用最广泛的3D WebGIS引擎国内有若干个GIS厂家的3D GIS引擎也是基于Cesium进行开发随着国家新基建数字化战略的不断发展深化越来越多的城市数字化项目需要用上3D GIS引擎对Web端而言 C
简单记录搭建SSM（Spring+Spring MVC+Mybatis）整合

业务层 View 数据显示 Controller 业务控制执行成功怎么处理执行失败怎么处理 Service 业务处理 Model 数据库相关实体类增删改查工程搭建第一步创建Maven web工程点击finish创建完毕工程第
C++在路径下新建一个指定名称的文件夹

在保存数据是我们希望将新生成的数据单独保存在一个文件夹中其实我们可以通过程序自动生成一个指定名称的文件夹存放数据而不必提前手动新建文件夹并修改名称代码实现的方法也很简单但是需要注意的是该方法需要包含windows h头文件代如
树莓派——制作静态库、动态库

库的特点库是可执行代码的二进制形式即将源代码转换成二进制的源代码相当于对源代码进行了加密别人可以看见库使用库但是看不见库的源代码 2种类型库静态库 libxxx a 动态库 libxxx so 静态库在程序执行前就加入到目标程
Spring IoC是什么

IoC是什么 Ioc Inversion of Control 即控制反转不是什么技术而是一种设计思想在Java开发中 Ioc意味着将你设计好的对象交给容器控制而不是传统的在你的对象内部直接控制如何理解好Ioc呢理解好Ioc的
FDTD solutions——TFSF（全场散射场）光源及斜入射

每天一遍防止忘记初始建立仿真文件 1 建立物理结构几何结构材料特性 2 定义仿真区域边界条件 3 设置激励源光源 4 设置监视器至少使用一个时间监视器分析组只记录需要的数据运行与仿真 1 运行仿真文件分布式并行运算并
深度学习中的目标识别

博主简介博主是一名大二学生主攻人工智能研究感谢让我们在CSDN相遇博主致力于在这里分享关于人工智能 c Python 爬虫等方面知识的分享如果有需要的小伙伴可以关注博主博主会继续更新的如果有错误之处大家可以指正专栏简介本
车联网企业排行榜

1 为紧跟车联网行业发展动态聚焦优质市场主体中国价值公司100排行榜之车联网企业排行榜从经营分析发展能力以及社会责任三个维度对30家车联网重点企业进行综合评分 2 车载信息服务领域市场主体多样角色多元以百度腾讯博泰四维图新
K8s-yaml的使用及命令

YAML配置文件管理对象对象管理创建deployment资源 kubectl create f nginx deployment yaml 查看deployment kubectl get deploy 查看ReplicaSet kub
超详细OpenStack一键式部署

1 准备镜像文件 Cen1 创建新的虚拟机 1 创建虚拟机点击关闭 2 安装Centos7 密码自己设置不用跟着一样 2 生成动态IP地址 root localhost dhclient 3 查看生成的IP地址 root localho
Windows安装子系统Linux

Windows安装子系统 Linux ubuntu 安装条件步骤 1 安装WSL命令 2 设置Linux用户名和密码 3 写个简单的 c程序看看 4 如何互传文件安装条件 Windows 10版本2004及更高的版本才能安装步骤 1
多模态中的指令控制（InstructPix2Pix，SayCan）

InstructPix2Pix Learning to Follow Image Editing Instructions 图像的语言指令生成目的是遵循人工指令去编辑图像即给定输入图像和一个如何编辑它的文本指令模型尝试遵循这些指令来编

多模态中的指令控制（InstructPix2Pix，SayCan）

多模态中的指令控制（InstructPix2Pix，SayCan） 的相关文章

随机推荐

热门标签

多模态中的指令控制（InstructPix2Pix，SayCan）的相关文章