GPT3动口,RT-1动手,智能机器人开卷; 代码开源!

2023-10-30

在这里插入图片描述

机器学习 (ML) 研究的多个子领域(例如计算机视觉和自然语言处理)的最新重大进展是通过一种共享的通用方法实现的,该方法利用大型、多样化的数据集和能够有效吸收所有数据的表达模型。尽管已经有各种尝试将这种方法应于机器人技术,但机器人尚未利用高性能模型以及其他子领域。

有几个因素促成了这一挑战。首先,缺乏大规模和多样化机器人数据,这限制了模型吸收广泛机器人经验的能力。数据收集对于机器人技术来说特别昂贵且具有挑战性,因为数据集管理需要工程量大的自主操作,或使用人类远程操作收集的演示。第二个因素是缺乏可从此类数据集中学习并有效泛化的表达力强、可扩展且速度足够快的实时推理模型。

为了应对这些挑战,我们(谷歌)提出了Robotics Transformer 1 (RT-1),这是一种多任务模型,可以标记机器人输入和输出动作(例如,相机图像、任务指令和电机命令)以在运行时实现高效推理,它使实时控制成为可能。该模型在包含 130k 集的大规模、真实世界的机器人数据集上进行训练,该数据集涵盖 700 多项任务,使用来自Everyday Robots的 13 个机器人组成的车队收集(EDR) 超过 17 个月。我们证明,与现有技术相比,RT-1 可以显着改进对新任务、环境和对象的零样本泛化。此外,我们仔细评估和消融了模型和训练集中的许多设计选择,分析了标记化、动作表示和数据集组成的影响。最后,我们将RT-1 代码开源,希望它能为未来扩大机器人学习的研究提供宝贵的资源。

RT-1

RT-1 建立在一个转换器架构 (transformer)上,该架构从机器人的相机中获取图像的简短历史以及以自然语言表达的任务描述作为输入,并直接输出标记化的动作。

RT-1 的体系结构类似于针对具有因果掩蔽的标准分类交叉熵目标训练的当代仅解码器序列模型。其主要功能包括:图像标记化、动作标记化和标记压缩,如下所述。

图像标记化:我们通过在ImageNet上预训练的EfficientNet-B3 模型传递图像,然后将生成的 9×9×512 空间特征图扁平化为 81 个标记。图像分词器以自然语言任务指令为条件,并使用初始化为身份的 FiLM 层在早期提取与任务相关的图像特征。

动作标记化:机器人的动作维度是手臂运动的 7 个变量(x、y、z、滚动、俯仰、偏航、夹具打开),3 个基本运动变量(x、y、偏航),以及一个额外的离散变量来切换在三种模式之间:控制臂、控制基地或终止剧集。每个动作维度被离散化为 256 个 bin。

令牌压缩:该模型自适应地选择图像令牌的软组合,这些组合可以根据它们对使用元素注意模块TokenLearner进行学习的影响进行压缩,从而使推理速度提高 2.4 倍以上。

在这里插入图片描述

为了构建一个可以泛化到新任务并显示出对不同干扰因素和背景的鲁棒性的系统,我们收集了一个大型、多样化的机器人轨迹数据集。我们使用了 13 个 EDR 机器人操纵器,每个都带有 7 个自由度的手臂、一个 2 指夹持器和一个移动底座,在 17 个月内收集了 13 万集。我们使用人类通过远程操作提供的演示,并用机器人刚刚执行的指令的文本描述对每一集进行注释。数据集中表示的一组高级技能包括拾取和放置物品、打开和关闭抽屉、将物品放入和取出抽屉、将细长的物品直立放置、将物体打翻、拉餐巾和打开罐子。生成的数据集包括 130k+ 集,涵盖使用许多不同对象的 700 多个任务。

实验和结果

为了更好地理解 RT-1 的泛化能力,我们研究了它针对三个基线的性能:Gato、BC-Z 和 BC-Z XL(即具有与 RT-1 相同数量的参数的 BC-Z),分为四个类别:

1.Seen tasks performance:在训练期间 看到的任务表现

  1. 看不见的任务表现:在看不见的任务上的表现,其中技能和对象在训练集中是分开看到的,但以新颖的方式组合在一起

3.稳健性(干扰因素和背景):干扰因素(最多 9 个干扰因素和遮挡)的性能和背景变化(新厨房、照明、背景场景)的性能

  1. 长期场景:在真实厨房中执行SayCan类型的自然语言指令

RT-1 在所有四个类别中都大大优于基线,表现出令人印象深刻的泛化和鲁棒性。

在这里插入图片描述

合并异构数据源

为了进一步推动 RT-1,我们使用从另一个机器人收集的数据对其进行训练,以测试 (1) 模型在出现新数据源时是否保持其在原始任务上的性能,以及 (2) 模型是否在泛化方面得到提升具有新的和不同的数据,这两者对于通用机器人学习模型都是可取的。具体来说,我们使用在QT-Opt 项目的固定底座Kuka 手臂上自主收集的 209k 次不加区别的抓握事件. 我们转换收集的数据以匹配我们使用 EDR 收集的原始数据集的动作规范和边界,并用任务指令“选择任何东西”标记每一集(Kuka 数据集没有对象标签)。然后在每个训练批次中将 Kuka 数据与 EDR 数据以 1:2 的比例混合,以控制原始 EDR 技能的回归。

我们的结果表明 RT-1 能够通过观察其他机器人的经验来获得新技能。特别是,当 RT-1 在 Kuka 的垃圾箱拣选数据和机器人教室的现有 EDR 数据上进行训练时,仅使用 EDR 数据进行训练时的 22% 准确率跃升了近 2 倍,达到 39%,我们在机器人教室收集了大部分 RT- 1 数据。当单独使用来自 Kuka 的拣选数据训练 RT-1,然后使用来自 EDR 机器人的拣选数据对其进行评估时,我们看到准确率为 0%。另一方面,混合来自两个机器人的数据允许 RT-1 在面对 Kuka 观察到的状态时推断 EDR 机器人的动作,而无需在 EDR 机器人上明确展示拾取箱子,并利用经验库卡收集。这为未来的工作提供了一个机会,可以结合更多的多机器人数据集来增强机器人的能力。

在这里插入图片描述

长期 SayCan 任务

RT-1 的高性能和泛化能力可以通过 SayCan 实现远距离、移动操作任务。SayCan 的工作原理是将语言模型置于机器人可供性中,并利用少量提示将以自然语言表达的长期任务分解为一系列低级技能。

SayCan 任务提供了一个理想的评估设置来测试各种功能:

长期任务成功率随任务长度呈指数下降,因此高操作成功率很重要。

移动操作任务需要在导航和操作之间进行多次切换,因此对初始策略条件(例如,基本位置)变化的鲁棒性至关重要。

可能的高级指令的数量随着操作原语的技能广度组合增加。

我们在两个真实厨房中使用 RT-1 和其他两个基线(SayCan with Gato 和 SayCan with BC-Z)评估 SayCan。下面,“Kitchen2”构成了比“Kitchen1”更具挑战性的泛化场景。用于收集大部分训练数据的模拟厨房是在 Kitchen1 之后建模的。

SayCan with RT-1 在 Kitchen1 中的执行成功率为 67%,优于其他基线。由于新的看不见的厨房带来的泛化困难,SayCan with Gato 和 SayCan with BCZ 的性能下降明显,而 RT-1 没有表现出明显的下降。

在这里插入图片描述

结论

RT-1 Robotics Transformer 是一种简单且可扩展的动作生成模型,适用于现实世界的机器人任务。它对所有输入和输出进行标记,并使用具有早期语言融合的预训练 EfficientNet 模型和用于压缩的标记学习器。RT-1 在数百个任务中显示出强大的性能,以及广泛的泛化能力和在现实世界设置中的鲁棒性。

在探索这项工作的未来方向时,我们希望通过开发允许非专家通过定向数据收集和模型提示来训练机器人的方法来更快地扩展机器人技能的数量。我们还期待通过可扩展的注意力和记忆力来提高机器人变压器的反应速度和上下文保留。要了解更多信息,请查看论文、开源RT-1 代码和项目网站。

代码
文末代码链接

最后一个问题: 现在AI这么牛,自己如何搞得定?万丈高楼拔地起来。首先找一本AI基本的原理和实践书籍入手。比如下面这本,来自小编的书:
北大出版社,人工智能原理与实践 人工智能和数据科学从入门到精通 详解机器学习深度学习算法原理

人工智能原理与实践 全面涵盖人工智能和数据科学各个重要体系经典

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

GPT3动口,RT-1动手,智能机器人开卷; 代码开源! 的相关文章

随机推荐

  • 软件测试/测试开发丨venv 环境管理 学习笔记

    点此获取更多相关资料 本文为霍格沃兹测试开发学社学员学习笔记分享 原文链接 https ceshiren com t topic 27070 venv 环境管理 venv 虚拟环境 虚拟环境是什么 单独隔离的开发环境 各个环境之间互不干扰
  • [CocosCreator 踩坑记录] 无法保存场景Failed to update asset db

    问题描述 无法保存场景 并出现以下报错 Failed to update asset db assets scences messages Error EISDIR illegal operation on a directory open
  • Vue3描述列表(Descriptions)

    整体功能效果与 ant design vue 保持高度一致 包含两种组件 Descriptions 和 DescriptionsItem 必须搭配使用 效果如下图 在线预览 APIs Descriptions 参数 说明 类型 默认值 必传
  • 解决4G网络移动打不开网站,WiFi可以正常访问

    一 解决4G网络移动打不开网站 WiFi可以打开1 把域名放进http ping chinaz com 看看解析IP延迟是否过高2 询问WiFi能打开网站 4G网络打不开网站的人 是不是本地网络出问题或者只有移动4g 其他运营商是不是都能访
  • esxi 无盘服务器,用ipxe网络启动打造无盘ESXi系统

    一 源码与链接 几个相关链接 相关源码 二 编译一个带 iSCSI 和 COMBOOT 功能的 iPXE 固件 这个参考 ipxe 官网或 iPXE 编译增加功能与自定义脚本 进行编译 在我的源码 netboot tftp 中有编译好可用的
  • MySQL高级篇(逻辑架构、存储引擎、用户与权限管理、索引优化、慢查询日志、主从复制等)

    MySQL高级 1 MySQL逻辑架构 1 1 概览 1 1 1 连接层 1 1 2 服务层 1 1 3 引擎层 1 1 4 存储层 1 2 查看SQL的执行周期 1 3 查询流程 1 4 SQL执行顺序 2 MySQL存储引擎 2 1 查
  • 百分百全开源的ERP项目,太赞了

    大家好 我是小编南风吹 每天推荐一个小工具 源码 装满你的收藏夹 让你轻松节省开发效率 实现不加班不熬夜不掉头发 今天小编推荐一款基于SpringBoot框架和SaaS模式的ERP 目前专注进销存 财务 生产功能 主要模块有零售管理 采购管
  • MySQL的字段属性,以及存储引擎和字符集

    目录 1 字段属性 1 1 zerofill 填充0 1 2 primary key 主键 1 3 auto increment 1 4 not null 1 5 foreign key 外键 1 6 comment 1 7 default
  • 5.类和对象的创建

    文章目录 1 面向过程和面向对象的理解 2 类和对象的理解 3 类和对象的创建 1 面向过程和面向对象的理解 1 二者都是一种思想 面向对象是相对于面向过程而言的 面向过程 强调的是功能行为 以函数为最小单位 考虑怎么做 面向对象 将功能封
  • 用Python手撸一个神经网络

    单隐藏层神经网络的实现 用Python实现用于分类任务的简单神经网络 神经网络简述 编程弯路 从矩阵视角看神经网络 反向传播及其实现 效果测试 用神经网络解决更复杂的分类任务 结语 用Python实现用于分类任务的简单神经网络 一年前接触
  • 分类算法概述

    摘 要 分类是数据挖掘 机器学习和模式识别中一个重要的研究领域 通过对当前数据挖掘中具有代表性的优秀分类算法进行分析和比较 总结出了各种算法的特性 为使用者选择算法或研究者改进算法提供了依据 1 概述分类是一种重要的数据挖掘技术 分类的目的
  • MIUI解BL锁失败

    最后解决办法是 换USB 2 0接口 分析问题 或许可能是软件兼容性不好 USB3 0影响读取设备信息 导致无法解锁
  • 基于战争策略算法优化的BP神经网络(预测应用) - 附代码

    基于战争策略算法优化的BP神经网络 预测应用 附代码 文章目录 基于战争策略算法优化的BP神经网络 预测应用 附代码 1 数据介绍 2 战争策略优化BP神经网络 2 1 BP神经网络参数设置 2 2 战争策略算法应用 4 测试结果 5 Ma
  • 运算放大器的应用之:T形电阻网络公式的三种推导方法

    上面公式怎么推导 推导1 根据KCL KVL定律 当Vi单独作用时 当VREF单独作用时 根据叠加定理得 推导2 利用戴维宁定理推导 如下图所示 在A B处把电路断开 然后 利用戴维宁定理 得到如下等效电压及等效电阻 把输出电路替换成戴维宁
  • 实现快速排序

    原理 找出一个数字 然后从该数列的右边找一个数比该数字大的第一个数 填入该数的位置中去 然后又从左往右找第一个数大于或等于该数字的数 然后填入上一个数的位置中去 也就是上一次找比该数字大的第一个数的位置中去 直到i和j 相遇就停止循环 再排
  • 追尾事故降发生:超低功耗滴滴桔视ADAS落地实践

    桔妹导读 道路交通事故每年都给人类带来巨大的生命和财产损失 滴滴作为交通领域的深度参与者 不断地探索降低交通事故的方法 本文重点介绍车载视觉团队是如何在滴滴的场景下 在桔视设备上 使用超低功耗的桔视ADAS 高级辅助驾驶系统 技术 降低交通
  • 计算机系统大作业

    摘 要 本文对hello c在Linux下的生命周期进行了分析 通过一些Linux平台的工具 如gcc objdump edb gdb readelf对程序代码的预处理 编译 汇编 链接 反汇编的过程进行了分析 对比 通过hello在she
  • 我曾经喜欢夏天

    我小时候在农村长大 夏末初秋时节 在农村院子里躺在凉席上 听大人讲他们一天的收获和明天的计划 夜风吹来树叶沙沙作响 夜空中繁星点点 偶尔飞过一两只飞鸟 发出清脆的声音 那些夜里 我要么抱着一个井里冰镇过的大西瓜 大块朵颐 要么啃着一根自家地
  • Linux yum提示Loaded plugins 错误的解决办法

    在Linux中使用yum时出现错误信息 Loaded plugins fastestmirror langpacks Existing lock var run yum pid another copy is running as pid
  • GPT3动口,RT-1动手,智能机器人开卷; 代码开源!

    机器学习 ML 研究的多个子领域 例如计算机视觉和自然语言处理 的最新重大进展是通过一种共享的通用方法实现的 该方法利用大型 多样化的数据集和能够有效吸收所有数据的表达模型 尽管已经有各种尝试将这种方法应于机器人技术 但机器人尚未利用高性能