GPT3动口，RT-1动手，智能机器人开卷；代码开源！

2023-10-30

在这里插入图片描述

机器学习 (ML) 研究的多个子领域（例如计算机视觉和自然语言处理）的最新重大进展是通过一种共享的通用方法实现的，该方法利用大型、多样化的数据集和能够有效吸收所有数据的表达模型。尽管已经有各种尝试将这种方法应于机器人技术，但机器人尚未利用高性能模型以及其他子领域。

有几个因素促成了这一挑战。首先，缺乏大规模和多样化机器人数据，这限制了模型吸收广泛机器人经验的能力。数据收集对于机器人技术来说特别昂贵且具有挑战性，因为数据集管理需要工程量大的自主操作，或使用人类远程操作收集的演示。第二个因素是缺乏可从此类数据集中学习并有效泛化的表达力强、可扩展且速度足够快的实时推理模型。

为了应对这些挑战，我们（谷歌）提出了Robotics Transformer 1 (RT-1)，这是一种多任务模型，可以标记机器人输入和输出动作（例如，相机图像、任务指令和电机命令）以在运行时实现高效推理，它使实时控制成为可能。该模型在包含 130k 集的大规模、真实世界的机器人数据集上进行训练，该数据集涵盖 700 多项任务，使用来自Everyday Robots的 13 个机器人组成的车队收集(EDR) 超过 17 个月。我们证明，与现有技术相比，RT-1 可以显着改进对新任务、环境和对象的零样本泛化。此外，我们仔细评估和消融了模型和训练集中的许多设计选择，分析了标记化、动作表示和数据集组成的影响。最后，我们将RT-1 代码开源，希望它能为未来扩大机器人学习的研究提供宝贵的资源。

RT-1

RT-1 建立在一个转换器架构 (transformer)上，该架构从机器人的相机中获取图像的简短历史以及以自然语言表达的任务描述作为输入，并直接输出标记化的动作。

RT-1 的体系结构类似于针对具有因果掩蔽的标准分类交叉熵目标训练的当代仅解码器序列模型。其主要功能包括：图像标记化、动作标记化和标记压缩，如下所述。

图像标记化：我们通过在ImageNet上预训练的EfficientNet-B3 模型传递图像，然后将生成的 9×9×512 空间特征图扁平化为 81 个标记。图像分词器以自然语言任务指令为条件，并使用初始化为身份的 FiLM 层在早期提取与任务相关的图像特征。

动作标记化：机器人的动作维度是手臂运动的 7 个变量（x、y、z、滚动、俯仰、偏航、夹具打开），3 个基本运动变量（x、y、偏航），以及一个额外的离散变量来切换在三种模式之间：控制臂、控制基地或终止剧集。每个动作维度被离散化为 256 个 bin。

令牌压缩：该模型自适应地选择图像令牌的软组合，这些组合可以根据它们对使用元素注意模块TokenLearner进行学习的影响进行压缩，从而使推理速度提高 2.4 倍以上。

在这里插入图片描述

为了构建一个可以泛化到新任务并显示出对不同干扰因素和背景的鲁棒性的系统，我们收集了一个大型、多样化的机器人轨迹数据集。我们使用了 13 个 EDR 机器人操纵器，每个都带有 7 个自由度的手臂、一个 2 指夹持器和一个移动底座，在 17 个月内收集了 13 万集。我们使用人类通过远程操作提供的演示，并用机器人刚刚执行的指令的文本描述对每一集进行注释。数据集中表示的一组高级技能包括拾取和放置物品、打开和关闭抽屉、将物品放入和取出抽屉、将细长的物品直立放置、将物体打翻、拉餐巾和打开罐子。生成的数据集包括 130k+ 集，涵盖使用许多不同对象的 700 多个任务。

实验和结果

为了更好地理解 RT-1 的泛化能力，我们研究了它针对三个基线的性能：Gato、BC-Z 和 BC-Z XL（即具有与 RT-1 相同数量的参数的 BC-Z），分为四个类别：

1.Seen tasks performance：在训练期间看到的任务表现

看不见的任务表现：在看不见的任务上的表现，其中技能和对象在训练集中是分开看到的，但以新颖的方式组合在一起

3.稳健性（干扰因素和背景）：干扰因素（最多 9 个干扰因素和遮挡）的性能和背景变化（新厨房、照明、背景场景）的性能

长期场景：在真实厨房中执行SayCan类型的自然语言指令

RT-1 在所有四个类别中都大大优于基线，表现出令人印象深刻的泛化和鲁棒性。

在这里插入图片描述

合并异构数据源

为了进一步推动 RT-1，我们使用从另一个机器人收集的数据对其进行训练，以测试 (1) 模型在出现新数据源时是否保持其在原始任务上的性能，以及 (2) 模型是否在泛化方面得到提升具有新的和不同的数据，这两者对于通用机器人学习模型都是可取的。具体来说，我们使用在QT-Opt 项目的固定底座Kuka 手臂上自主收集的 209k 次不加区别的抓握事件. 我们转换收集的数据以匹配我们使用 EDR 收集的原始数据集的动作规范和边界，并用任务指令“选择任何东西”标记每一集（Kuka 数据集没有对象标签）。然后在每个训练批次中将 Kuka 数据与 EDR 数据以 1:2 的比例混合，以控制原始 EDR 技能的回归。

我们的结果表明 RT-1 能够通过观察其他机器人的经验来获得新技能。特别是，当 RT-1 在 Kuka 的垃圾箱拣选数据和机器人教室的现有 EDR 数据上进行训练时，仅使用 EDR 数据进行训练时的 22% 准确率跃升了近 2 倍，达到 39%，我们在机器人教室收集了大部分 RT- 1 数据。当单独使用来自 Kuka 的拣选数据训练 RT-1，然后使用来自 EDR 机器人的拣选数据对其进行评估时，我们看到准确率为 0%。另一方面，混合来自两个机器人的数据允许 RT-1 在面对 Kuka 观察到的状态时推断 EDR 机器人的动作，而无需在 EDR 机器人上明确展示拾取箱子，并利用经验库卡收集。这为未来的工作提供了一个机会，可以结合更多的多机器人数据集来增强机器人的能力。

在这里插入图片描述

长期 SayCan 任务

RT-1 的高性能和泛化能力可以通过 SayCan 实现远距离、移动操作任务。SayCan 的工作原理是将语言模型置于机器人可供性中，并利用少量提示将以自然语言表达的长期任务分解为一系列低级技能。

SayCan 任务提供了一个理想的评估设置来测试各种功能：

长期任务成功率随任务长度呈指数下降，因此高操作成功率很重要。

移动操作任务需要在导航和操作之间进行多次切换，因此对初始策略条件（例如，基本位置）变化的鲁棒性至关重要。

可能的高级指令的数量随着操作原语的技能广度组合增加。

我们在两个真实厨房中使用 RT-1 和其他两个基线（SayCan with Gato 和 SayCan with BC-Z）评估 SayCan。下面，“Kitchen2”构成了比“Kitchen1”更具挑战性的泛化场景。用于收集大部分训练数据的模拟厨房是在 Kitchen1 之后建模的。

SayCan with RT-1 在 Kitchen1 中的执行成功率为 67%，优于其他基线。由于新的看不见的厨房带来的泛化困难，SayCan with Gato 和 SayCan with BCZ 的性能下降明显，而 RT-1 没有表现出明显的下降。

在这里插入图片描述

结论

RT-1 Robotics Transformer 是一种简单且可扩展的动作生成模型，适用于现实世界的机器人任务。它对所有输入和输出进行标记，并使用具有早期语言融合的预训练 EfficientNet 模型和用于压缩的标记学习器。RT-1 在数百个任务中显示出强大的性能，以及广泛的泛化能力和在现实世界设置中的鲁棒性。

在探索这项工作的未来方向时，我们希望通过开发允许非专家通过定向数据收集和模型提示来训练机器人的方法来更快地扩展机器人技能的数量。我们还期待通过可扩展的注意力和记忆力来提高机器人变压器的反应速度和上下文保留。要了解更多信息，请查看论文、开源RT-1 代码和项目网站。

代码
文末代码链接

最后一个问题：现在AI这么牛，自己如何搞得定？万丈高楼拔地起来。首先找一本AI基本的原理和实践书籍入手。比如下面这本，来自小编的书：
北大出版社，人工智能原理与实践人工智能和数据科学从入门到精通详解机器学习深度学习算法原理

人工智能原理与实践全面涵盖人工智能和数据科学各个重要体系经典

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

GPT3动口，RT-1动手，智能机器人开卷；代码开源！的相关文章

毕业设计-基于深度学习的细菌微生物目标检测系统系统 YOLO python 目标检测人工智能卷积神经网络机器学习

目录前言设计思路一课题背景与意义二算法理论原理 2 1 CBAM模块 2 2 损失函数三检测的实现 3 1 数据集 3 2 实验环境搭建 3 3 实验及结果分析实现效果图样例最后前言大四是整个大学期间最忙碌的时光一
文档扫描与矫正-仿射变换

图像变换是计算机视觉和图像处理中的关键技术之一它允许我们对图像进行各种形式的变形调整和校正其中仿射变换是一种常见的变换方式在文档扫描过程中由于拍摄角度和畸变等原因文档图像可能存在一定程度的形变仿射变换可以用于校正文档图像使
比尔盖茨与萨姆.奥尔特曼的对话及感想

谈话内容比尔盖茨嘿萨姆萨姆奥尔特曼嘿比尔比尔盖茨你好吗萨姆奥尔特曼哦天哪这真的太疯狂了我还好这是一个非常激动人心的时期比尔盖茨团队情况怎么样萨姆奥尔特曼我想你知道很多人都注意到了这样一个事实
用通俗易懂的方式讲解：图解 Transformer 架构

文章目录用通俗易懂方式讲解系列 1 导语 2 正文开始现在我们开始编码从宏观视角看自注意力机制从微观视角看自注意力机制通过矩阵运算实现自注意力机制
【路径规划】基于A*算法路径规划研究（Matlab代码实现）

欢迎来到本博客博主优势博客内容尽量做到思维缜密逻辑清晰为了方便读者座右铭行百里者半于九十本文目录如下目录 1 概述 2 运行结果 3 参考文献 4 Matlab代码实现
蒙特卡洛在发电系统中的应用（Matlab代码实现）

欢迎来到本博客博主优势博客内容尽量做到思维缜密逻辑清晰为了方便读者座右铭行百里者半于九十本文目录如下目录 1 概述 2 运行结果 3 参考文献 4 Matlab代码实现
【多源数据融合】基于Dempster-Shafer理论的信念对数相似度测量及其在多源数据融合中的应用（Matlab代码实现）

欢迎来到本博客博主优势博客内容尽量做到思维缜密逻辑清晰为了方便读者座右铭行百里者半于九十本文目录如下目录 1 概述 2 运行结果 3 参考文献 4 Matlab代码实现
问CHAT很繁琐的问题会不会有答案呢？

问CHAT 什么已有的基于极值理论的极端温度重现期主要针对极端高温事件对极端低温事件研究较少 CHAT 回复为这主要可能是由于以下几个原因 1 气候变化与全球变暖当前全球变暖和气候变化的问题备受关注这导致科研者更加关注极端高温事件
利用CHAT上传文件的操作

问CHAT autox js ui 上传框 CHAT回复上传文件的操作如果是在应用界面中的话由于Android对于文件权限的限制你可能不能直接模拟点击选择文件一般来说有两种常见的解决方案一种是使用intent来模拟发送一个文件路径
用CHAT分析高校体育智慧教学体系构建与探索研究现状

CHAT回复现阶段高校体育智慧教学体系的构建与探索研究还处于初级阶段但全球数字化转型大潮的推动下一些较为前沿的研究和实践已经开始出现 1 教学平台的建设很多高校已经开始尝试使用在线教育平台进行体育教学把传统的面对面授课模式转变为
打造完美人像，PixCake像素蛋糕助您一键修图

您是否曾经为自己的人像照片需要进行繁琐的修图而感到困扰是否曾经想要打造出完美的自拍照却不知道该如何下手现在我们为您推荐一款强大的人像处理技术修图软件 PixCake像素蛋糕 PixCake像素蛋糕是一款基于AI人像处理技术的修图软件
活动日程&直播预约｜智谱AI技术开放日 Zhipu DevDay

点击蓝字关注我们 AI TIME欢迎每一位AI爱好者的加入直播预约通道关于AI TIME AI TIME源起于2019年旨在发扬科学思辨精神邀请各界人士对人工智能理论算法和场景应用的本质问题进行探索加强思想碰撞链接全球AI学
作物叶片病害识别系统

介绍由于植物疾病的检测在农业领域中起着重要作用因为植物疾病是相当自然的现象如果在这个领域不采取适当的护理措施就会对植物产生严重影响进而影响相关产品的质量数量或产量植物疾病会引起疾病的周期性爆发导致大规模死亡这些问题需要在初
不要再苦苦寻觅了！AI 大模型面试指南（含答案）的最全总结来了！

AI 大模型技术经过2023年的狂飙 2024年必将迎来应用的落地对 IT 同学来讲这里蕴含着大量的技术机会越来越多的企业开始招聘 AI 大模型岗位本文梳理了 AI 大模型开发技术的面试之道从 AI 大模型基础面 AI 大模型进阶
回望计算机视觉会议ICCV的31年

作者原野寻踪编辑汽车人原文链接 https zhuanlan zhihu com p 670393313 点击下方卡片关注自动驾驶之心公众号 ADAS巨卷干货即可获取点击进入自动驾驶之心全栈算法技术交流群本文只做
【EI复现】基于深度强化学习的微能源网能量管理与优化策略研究（Python代码实现）

欢迎来到本博客博主优势博客内容尽量做到思维缜密逻辑清晰为了方便读者座右铭行百里者半于九十本文目录如下目录 1 概述 2 运行结果 2 1 有无策略奖励 2 2 训练结果1
3D点云检测神技 | UFO来了！让PointPillars、PV-RCNN统统涨点！

作者 AI驾驶员编辑智驾实验室点击下方卡片关注自动驾驶之心公众号 ADAS巨卷干货即可获取点击进入自动驾驶之心 3D目标检测技术交流群本文只做学术分享如有侵权联系删文在这篇论文中提出了一个关于在3D点云中检测未
基于节点电价的电网对电动汽车接纳能力评估模型研究（Matlab代码实现）

欢迎来到本博客博主优势博客内容尽量做到思维缜密逻辑清晰为了方便读者座右铭行百里者半于九十本文目录如下目录 1 概述 2 运行结果 3 参考文献 4 Matlab代码数据
考虑光伏出力利用率的电动汽车充电站能量调度策略研究（Matlab代码实现）

欢迎来到本博客博主优势博客内容尽量做到思维缜密逻辑清晰为了方便读者座右铭行百里者半于九十本文目录如下目录 1 概述 2 运行结果 3 参考文献 4 Matlab代码数据
OpenAI GPT-3 API：如何扩展 TL;DR 输出的长度？

我想使用 OpenAI 的 TLDR 从 2 3 页的文章中生成 3 6 句话的摘要我已经粘贴了文章文本但输出似乎只停留在 1 到 2 句话之间用于获取给定提示的 3 句话摘要的选项您可以通过多种方式告诉 OpenAI API 您需

随机推荐

软件测试/测试开发丨venv 环境管理学习笔记

点此获取更多相关资料本文为霍格沃兹测试开发学社学员学习笔记分享原文链接 https ceshiren com t topic 27070 venv 环境管理 venv 虚拟环境虚拟环境是什么单独隔离的开发环境各个环境之间互不干扰
[CocosCreator 踩坑记录] 无法保存场景Failed to update asset db

问题描述无法保存场景并出现以下报错 Failed to update asset db assets scences messages Error EISDIR illegal operation on a directory open
Vue3描述列表（Descriptions）

整体功能效果与 ant design vue 保持高度一致包含两种组件 Descriptions 和 DescriptionsItem 必须搭配使用效果如下图在线预览 APIs Descriptions 参数说明类型默认值必传
解决4G网络移动打不开网站，WiFi可以正常访问

一解决4G网络移动打不开网站 WiFi可以打开1 把域名放进http ping chinaz com 看看解析IP延迟是否过高2 询问WiFi能打开网站 4G网络打不开网站的人是不是本地网络出问题或者只有移动4g 其他运营商是不是都能访
esxi 无盘服务器,用ipxe网络启动打造无盘ESXi系统

一源码与链接几个相关链接相关源码二编译一个带 iSCSI 和 COMBOOT 功能的 iPXE 固件这个参考 ipxe 官网或 iPXE 编译增加功能与自定义脚本进行编译在我的源码 netboot tftp 中有编译好可用的
MySQL高级篇（逻辑架构、存储引擎、用户与权限管理、索引优化、慢查询日志、主从复制等）

MySQL高级 1 MySQL逻辑架构 1 1 概览 1 1 1 连接层 1 1 2 服务层 1 1 3 引擎层 1 1 4 存储层 1 2 查看SQL的执行周期 1 3 查询流程 1 4 SQL执行顺序 2 MySQL存储引擎 2 1 查
百分百全开源的ERP项目，太赞了

大家好我是小编南风吹每天推荐一个小工具源码装满你的收藏夹让你轻松节省开发效率实现不加班不熬夜不掉头发今天小编推荐一款基于SpringBoot框架和SaaS模式的ERP 目前专注进销存财务生产功能主要模块有零售管理采购管
MySQL的字段属性，以及存储引擎和字符集

目录 1 字段属性 1 1 zerofill 填充0 1 2 primary key 主键 1 3 auto increment 1 4 not null 1 5 foreign key 外键 1 6 comment 1 7 default
5.类和对象的创建

文章目录 1 面向过程和面向对象的理解 2 类和对象的理解 3 类和对象的创建 1 面向过程和面向对象的理解 1 二者都是一种思想面向对象是相对于面向过程而言的面向过程强调的是功能行为以函数为最小单位考虑怎么做面向对象将功能封
用Python手撸一个神经网络

单隐藏层神经网络的实现用Python实现用于分类任务的简单神经网络神经网络简述编程弯路从矩阵视角看神经网络反向传播及其实现效果测试用神经网络解决更复杂的分类任务结语用Python实现用于分类任务的简单神经网络一年前接触
分类算法概述

摘要分类是数据挖掘机器学习和模式识别中一个重要的研究领域通过对当前数据挖掘中具有代表性的优秀分类算法进行分析和比较总结出了各种算法的特性为使用者选择算法或研究者改进算法提供了依据 1 概述分类是一种重要的数据挖掘技术分类的目的
MIUI解BL锁失败

最后解决办法是换USB 2 0接口分析问题或许可能是软件兼容性不好 USB3 0影响读取设备信息导致无法解锁
基于战争策略算法优化的BP神经网络（预测应用） - 附代码

基于战争策略算法优化的BP神经网络预测应用附代码文章目录基于战争策略算法优化的BP神经网络预测应用附代码 1 数据介绍 2 战争策略优化BP神经网络 2 1 BP神经网络参数设置 2 2 战争策略算法应用 4 测试结果 5 Ma
运算放大器的应用之：T形电阻网络公式的三种推导方法

上面公式怎么推导推导1 根据KCL KVL定律当Vi单独作用时当VREF单独作用时根据叠加定理得推导2 利用戴维宁定理推导如下图所示在A B处把电路断开然后利用戴维宁定理得到如下等效电压及等效电阻把输出电路替换成戴维宁
实现快速排序

原理找出一个数字然后从该数列的右边找一个数比该数字大的第一个数填入该数的位置中去然后又从左往右找第一个数大于或等于该数字的数然后填入上一个数的位置中去也就是上一次找比该数字大的第一个数的位置中去直到i和j 相遇就停止循环再排
追尾事故降发生：超低功耗滴滴桔视ADAS落地实践

桔妹导读道路交通事故每年都给人类带来巨大的生命和财产损失滴滴作为交通领域的深度参与者不断地探索降低交通事故的方法本文重点介绍车载视觉团队是如何在滴滴的场景下在桔视设备上使用超低功耗的桔视ADAS 高级辅助驾驶系统技术降低交通
计算机系统大作业

摘要本文对hello c在Linux下的生命周期进行了分析通过一些Linux平台的工具如gcc objdump edb gdb readelf对程序代码的预处理编译汇编链接反汇编的过程进行了分析对比通过hello在she
我曾经喜欢夏天

我小时候在农村长大夏末初秋时节在农村院子里躺在凉席上听大人讲他们一天的收获和明天的计划夜风吹来树叶沙沙作响夜空中繁星点点偶尔飞过一两只飞鸟发出清脆的声音那些夜里我要么抱着一个井里冰镇过的大西瓜大块朵颐要么啃着一根自家地
Linux yum提示Loaded plugins 错误的解决办法

在Linux中使用yum时出现错误信息 Loaded plugins fastestmirror langpacks Existing lock var run yum pid another copy is running as pid
GPT3动口，RT-1动手，智能机器人开卷；代码开源！

机器学习 ML 研究的多个子领域例如计算机视觉和自然语言处理的最新重大进展是通过一种共享的通用方法实现的该方法利用大型多样化的数据集和能够有效吸收所有数据的表达模型尽管已经有各种尝试将这种方法应于机器人技术但机器人尚未利用高性能

GPT3动口，RT-1动手，智能机器人开卷； 代码开源！

GPT3动口，RT-1动手，智能机器人开卷； 代码开源！ 的相关文章

随机推荐

热门标签

GPT3动口，RT-1动手，智能机器人开卷；代码开源！

GPT3动口，RT-1动手，智能机器人开卷；代码开源！的相关文章