干货!一种适用性、可拓展性强的离线强化学习方法

2023-11-13

点击蓝字

d6bf68341f30feff42cb0e00c2270f06.png

关注我们

AI TIME欢迎每一位AI爱好者的加入!

近年来,离线强化学习算法(Offline Reinforcement Learning)由于其不与环境交互,仅从数据集中学习策略,而得到越来越多的关注。与离线策略强化学习(Off-Policy Reinforcement Learning)不同,在离线场景下需要处理值函数估计中的外推误差,从而导致传统的Off-Policy方法无法直接用于离线场景。本篇论文从理论上分析了影响外推误差的因素,并提出了一种适用性及扩展性非常强的离线强化学习方法ICQ,从根本上克服了值函数中外推误差的影响。除此之外,本文基于ICQ提出了第一个多智能体离线强化学习算法,并在标准单智能体离线强化学习任务D4RL和离线多智能体任务StarCraft II上达到了优异的性能。该论文被NeurIPS 2021(Spotlight)被接收。

本期AI TIME PhD直播间,我们邀请到清华大学自动化系在读博士生——杨以钦,为我们带来报告分享《一种适用性、可拓展性强的离线强化学习方法》。

84dce9f9af5095016458fb48fe3c2769.png

杨以钦:

清华大学自动化系在读三年级博士生。现导师是赵千川教授。博士期间的研究方向是离线强化学习的任务泛化性研究。杨以钦已在AAMAS、NeurIPS和ICLR上发表论文3篇。本篇论文发现了一种适应性和拓展性强的离线强化学习方法,并被评为Spotlight。

01

 背   景 

深度强化学习作为实现智能自主决策的核心途径之一,在许多领域已经取得了巨大的成功。深度强化学习方法的巨大成功很大一部分归功于在仿真环境中大量的探索和试错,只有收集到足够的交互经验,智能体才能利用其对环境的知识来改进和提升其策略性能。然而,目前深度学习在真实场景中的应用非常有限,阻碍深度强化学习落地的主要原因之一是其与真实环境进行大量交互的做法并不实际,真实场景往往具有高昂的交互成本。

4fe495e85278a748a733ac64c0838096.png

图1 强化学习范式分类:在线策略强化学习、

离线策略强化学习和离线强化学习

为了应对强化学习在真实场景中策略可迁移的挑战,离线强化学习已经逐渐成为国际强化学习领域关注的焦点之一。许多真实应用场景会提供已有的数据集供算法学习。虽然采样数据的策略质量可能良莠不齐,但也从一定程度上反映了问题的基本结构,理论上可以通过学习得到与采样才略性能类似或者更优的策略。然而,经典强化学习算法,例如离线策略强化学习,并未很好地利用这一点。如图1所示,与离线策略强化学习不同,离线强化学习在给定一个固定的数据集后,策略学习的过程中不与环境进行任务交互。这种学习模式避免了与环境交互的成本,同时利用了真实场景中宝贵的专家经验数据。

02

 外推误差理论分析

ca1c97e2ee12c62d13f218d0e26e679f.png

8b42508a3f5da622055e8a72e5b192ac.png

03

 基于隐约束的离线强化学习方法 

基于隐约束的策略学习方法在D4RL任务中得到了初步的认证,该类算法不仅有良好的理论基础,同时具有非常简洁的策略表达形式。如下式所示,基于隐约束的策略学习方法不仅仅最大化自己的利益,还会约束当前策略趋近于数据集中的策略:

d202bed6659bebb97740fb53f48a600f.png

通过求解上述的优化问题,可以得到策略最优解的形式如下:

6fd20492d54125751fc49a63afd6f8ff.png

其中是拉格朗日系数,是配分函数。

通过采用KL散度约束,替换上述公式中的行为策略表达式,将以迭代的方式将在线交互的强化学习算法转换为监督学习样式的强化学习算法,从而能有效提取数据集中的策略。基于计算复杂度而言,基于隐约束的策略学习方法在形式上与策略梯度算法相似,因此其计算复杂度理论结果清楚,对于复杂的优化问题有着良好而且稳定的性能。

d8cf66d53d90e89638bcd10e8f24ea83.png

图 2 离线数据初始策略生成方法。

左图为估计值函数时完全使用行为策略产生的数据,右图为BCQ方法,

其在估计值函数时只考虑一部分簇内的动作

然而,目前的研究人员对于在隐约束策略学习中的值函数估计问题方法尚不明确,无法找到不同值函数估计方法对性能带来不同的影响的根本原因。以批量约束Q学习算法BCQ为例,该方法通过不考虑不熟悉的动作来达到缓解分布漂移问题的目的,然而,只考虑在一簇相似数据中估计值函数会对算法的性能带来损失。因此,在策略评估上,课题组提出了基于隐约束的离线策略评估算法ICQ,利用隐约束策略的最优解得到所优化的策略相对行为策略的重要性程度,从而对目标值函数重新加权。具体而言,标准的策略评估方法如下所示:

cc5c62ad28664e11367648018be51d68.png

基于隐约束策略的最优解,我们对目标值函数重新加权,并命名为ICQ:

50d25d9e46c42969aa108c47f4ec417f.png

如图2所示,整个策略评估和学习过程全部都在数据集内进行,不会造成任何数据泄露,从而在根本上避免了外推误差问题。我们给出ICQ的理论分析如下:

定理2:ICQ操作符从理论上可以证明收敛到一簇稳定解:

bd4c6685ab14d1ffd450cbbe49985798.png

我们在离线强化学习任务D4RL上进行了测试,如表1所示。

表1 ICQ在标准单智能体离线强化学习任务D4RL上的性能表现

e74dd265f8cbf2b7655e4b21f5e41154.png

04

 多智能体离线强化学习方法

我们基于ICQ算法和值函数分解假设,提出了多智能体离线强化学习方法ICQ-MA。

具体地,基于值函数分解假设,ICQ-MA的策略提升形式可以分解为:

a65f96a09ac0019115a354f0ad338e23.png

在值函数估计方面,我们采用多步估计方法来平衡估计中的偏差与方差:

1350271f938cb96e6d05166b357e7751.png

我们将ICQ拓展至了多智能体任务中测试其适用性,并在离线多智能体任务StarCraftII上测试,如图3所示。

b5851c1de8f05f11fbf7bf48c6d79e46.png

图3 ICQ在多智能体离线强化学习任务StarCraft II上的性能表现

实验结果表明,无论是在单智能体连续控制任务中还是多智能体离散控制任务中,使用基于隐约束的策略评估方法,相比其他state-of-the-art的离线强化学习方法,ICQ可以取得最高的长期累积奖赏,这验证了ICQ的有效性。

论文链接:

https://proceedings.neurips.cc/paper/2021/hash/550a141f12de6341fba65b0ad0433500-Abstract.html

论文题目:

MTrajRec: Map-Constrained Trajectory Recovery via Seq2Seq Multi-task 

点击“阅读原文”,即可观看本场回放

整理:江璐鑫

审核:杨以钦

往期精彩文章推荐

c0a3cf522356fe864db9bb059a3eaaa9.png

记得关注我们呀!每天都有新知识!

 关于AI TIME 

AI TIME源起于2019年,旨在发扬科学思辨精神,邀请各界人士对人工智能理论、算法和场景应用的本质问题进行探索,加强思想碰撞,链接全球AI学者、行业专家和爱好者,希望以辩论的形式,探讨人工智能和人类未来之间的矛盾,探索人工智能领域的未来。

迄今为止,AI TIME已经邀请了550多位海内外讲者,举办了逾300场活动,超120万人次观看。

b6e54f4b82998a3bebf086c3893d5883.png

我知道你

在看

~

895dfc3cdc305460347e3a5f2f816bd4.gif

点击 阅读原文 查看回放!

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

干货!一种适用性、可拓展性强的离线强化学习方法 的相关文章

随机推荐

  • 数字SOC设计之低功耗设计入门(六)——门级电路低功耗设计优化

    三 门级电路低功耗设计优化 1 门级电路的功耗优化综述 门级电路的功耗优化 Gate Level Power Optimization 简称GLPO 是从已经映射的门级网表开始 对设计进行功耗的优化以满足功耗的约束 同时设计保持其性能 即满
  • 【STM32篇】驱动MXL90614红外测温模块

    本次实验使用的测温模块型号GY 906 DCC模块 测距为10cm左右 一 简介 MLX90614 是一款红外非接触温度计 TO 39 金属封装里同时集成了红外感应热电堆探测器芯片和信处理专用集成芯片 由于集成了低噪声放大器 17 位模数转
  • 文件读/写操作 import pickle

    文件写 开 文件变量 open 文件路径文件名 web 存 pickle dump 待写入的变量 文件变量 关 文件变量 close 文件读 开 文件变量 open 文件路径文件名 rb 取 放内容的变量 pickle load 文件变量
  • 小程序 -- 分包

    来源 1 什么是分包 分包指的是把一个完整的小程序项目 按照需求划分为不同的子包 在构建时打包成不同的分包 用户在使用时按需进行加载 2 分包的好处 对小程序进行分包的好处主要有以下两点 可以优化小程序首次启动的下载时间 在多团队共同开发时
  • 二叉树之层次遍历(js)

    二叉树之层次遍历 输入一棵二叉树 你的任务是从上到下 从左到右的顺序输出各个结点的值 每个结点都是按照从根节点到它移动序列给出 L表示左 R表示右 在输入中 每个结点的左右括号之间没有空格 相邻节点之间用一个空格隔开 输入 11 LL 7
  • GameFi 大爆发?五款令人期待的链游

    大家好 我是晴天defi 在今年 有许多游戏公司陆续推出自家的IP大作 像是任天堂出的宝可梦 阿尔宙斯 Sony 的地平线 西域禁地 Techland 的垂死之光 2 就连那位喜欢虐待玩家的宫崎英高 也跟着推出他的全新虐待新作 艾二登 法环
  • Qt使用QGraphicsView实现滑动窗体效果 .

    源码已上传至CSDN http download csdn net source 2808505 QGraphicsView用来显示一个滚动视图区的QGraphicsScene内容 QGraphicsScene提供了QGraphicsIte
  • 深入理解mongodb和hbase区别

    最近公司想要做数据分析 之前我们公司用的是免费的growing IO 他们分析仅限于界面跳转的转化率 不能详细地分析业务数据 我研究了一个需要埋点的产品 搞明白他们是在每个接口的调用埋点 将用户对接口的调用行为记录下来 进行分析 由于接口众
  •  Linux下读写文件操作

    Linux下读写文件操作 include
  • Error: Could not create the Java Virtual Machine. Error: A fatal exception h.....

    我处理的问题的方法 换成8解决的
  • Python地理数据处理 十七:植被物候提取和分析(Savitzky-Golay)

    Savitzky Golay滤波 1 引子 2 Savitzky Golay滤波提取物候信息 1 引子 import numpy as np import matplotlib pyplot as plt from scipy signal
  • LeetCode0752-打开转盘锁

    LeetCode0752 打开转盘锁 题目 你有一个带有四个圆形拨轮的转盘锁 每个拨轮都有10个数字 0 1 2 3 4 5 6 7 8 9 每个拨轮可以自由旋转 例如把 9 变为 0 0 变为 9 每次旋转都只能旋转一个拨轮的一位数字 锁
  • 2.Spark运行模式

    1 Spark运行模式概述 Local 多用于本地测试 如在IDEA PyCharm Visual StudioCode中写程序测试等 Standalone Standalone是Spark自带的一个资源调度框架 它支持完全分布式 Yarn
  • postman单个请求批量发送

    第一部 抓取单个请求选择一个请求 copy as cURL bash 第二步 复制到postman 并保存 第三步 单个请求批量发送 点击Runner i第四步 选择刚才的请求 设置发送次数Iterations 点击run 成功
  • Java 常用API

    Java 常用API JFC Java类库 是系统提供的已实现的标准类的集合 是Java编程的API Application Program Interface 可帮助开发者方便 快捷地进行软件开发 Java按其不同的功能分成不同的包 常用
  • [极客大挑战 2019]LoveSQL 1

    提示 文章写完后 目录可以自动生成 如何生成可参考右边的帮助文档 极客大挑战 2019 LoveSQL 1 题目 一 做题步骤 1 万能密码尝试 2 测试注入列数 3 测试注入点 4 查询数据库 5 查询表名 6 查询列名 字段 7 查询数
  • 【猿人学WEB题目专解】猿人学第15题

    据说 看我文章时 关注 点赞 收藏 的 帅哥美女们 心情都会不自觉的好起来 前言 作者简介 大家好我是 user from future 意思是 来自未来的用户 寓意着未来的自己一定很棒 个人主页 点我直达 在这里肯定能找到你想要的 专栏介
  • TCP和UDP的最完整的区别

    欢迎访问个人网站 这里排版舒服点 TCP和UDP的最完整的区别 码到城攻TCP和UDP的最完整的区别https www codecomeon com posts 7 TCP UDP TCP与UDP基本区别 1 基于连接与无连接 2 TCP要
  • redis 由浅入深 之进阶(发布与订阅、事务、连接和Reids服务器)

    Redis发布与订阅 Redis 发布订阅 pub sub 是一种消息通信模式 发送者 pub 发送消息 订阅者 sub 接收消息 Redis 客户端可以订阅任意数量的频道 下图展示了频道 channel1 以及订阅这个频道的三个客户端 c
  • 干货!一种适用性、可拓展性强的离线强化学习方法

    点击蓝字 关注我们 AI TIME欢迎每一位AI爱好者的加入 近年来 离线强化学习算法 Offline Reinforcement Learning 由于其不与环境交互 仅从数据集中学习策略 而得到越来越多的关注 与离线策略强化学习 Off