干货！一种适用性、可拓展性强的离线强化学习方法

2023-11-13

点击蓝字

关注我们

AI TIME欢迎每一位AI爱好者的加入！

近年来，离线强化学习算法（Offline Reinforcement Learning）由于其不与环境交互，仅从数据集中学习策略，而得到越来越多的关注。与离线策略强化学习（Off-Policy Reinforcement Learning）不同，在离线场景下需要处理值函数估计中的外推误差，从而导致传统的Off-Policy方法无法直接用于离线场景。本篇论文从理论上分析了影响外推误差的因素，并提出了一种适用性及扩展性非常强的离线强化学习方法ICQ，从根本上克服了值函数中外推误差的影响。除此之外，本文基于ICQ提出了第一个多智能体离线强化学习算法，并在标准单智能体离线强化学习任务D4RL和离线多智能体任务StarCraft II上达到了优异的性能。该论文被NeurIPS 2021（Spotlight）被接收。

本期AI TIME PhD直播间，我们邀请到清华大学自动化系在读博士生——杨以钦，为我们带来报告分享《一种适用性、可拓展性强的离线强化学习方法》。

杨以钦：

清华大学自动化系在读三年级博士生。现导师是赵千川教授。博士期间的研究方向是离线强化学习的任务泛化性研究。杨以钦已在AAMAS、NeurIPS和ICLR上发表论文3篇。本篇论文发现了一种适应性和拓展性强的离线强化学习方法，并被评为Spotlight。

背景

深度强化学习作为实现智能自主决策的核心途径之一，在许多领域已经取得了巨大的成功。深度强化学习方法的巨大成功很大一部分归功于在仿真环境中大量的探索和试错，只有收集到足够的交互经验，智能体才能利用其对环境的知识来改进和提升其策略性能。然而，目前深度学习在真实场景中的应用非常有限，阻碍深度强化学习落地的主要原因之一是其与真实环境进行大量交互的做法并不实际，真实场景往往具有高昂的交互成本。

图1 强化学习范式分类：在线策略强化学习、

离线策略强化学习和离线强化学习

为了应对强化学习在真实场景中策略可迁移的挑战，离线强化学习已经逐渐成为国际强化学习领域关注的焦点之一。许多真实应用场景会提供已有的数据集供算法学习。虽然采样数据的策略质量可能良莠不齐，但也从一定程度上反映了问题的基本结构，理论上可以通过学习得到与采样才略性能类似或者更优的策略。然而，经典强化学习算法，例如离线策略强化学习，并未很好地利用这一点。如图1所示，与离线策略强化学习不同，离线强化学习在给定一个固定的数据集后，策略学习的过程中不与环境进行任务交互。这种学习模式避免了与环境交互的成本，同时利用了真实场景中宝贵的专家经验数据。

外推误差理论分析

基于隐约束的离线强化学习方法

基于隐约束的策略学习方法在D4RL任务中得到了初步的认证，该类算法不仅有良好的理论基础，同时具有非常简洁的策略表达形式。如下式所示，基于隐约束的策略学习方法不仅仅最大化自己的利益，还会约束当前策略趋近于数据集中的策略：

通过求解上述的优化问题，可以得到策略最优解的形式如下：

其中是拉格朗日系数，是配分函数。

通过采用KL散度约束，替换上述公式中的行为策略表达式，将以迭代的方式将在线交互的强化学习算法转换为监督学习样式的强化学习算法，从而能有效提取数据集中的策略。基于计算复杂度而言，基于隐约束的策略学习方法在形式上与策略梯度算法相似，因此其计算复杂度理论结果清楚，对于复杂的优化问题有着良好而且稳定的性能。

图 2 离线数据初始策略生成方法。

左图为估计值函数时完全使用行为策略产生的数据，右图为BCQ方法，

其在估计值函数时只考虑一部分簇内的动作

然而，目前的研究人员对于在隐约束策略学习中的值函数估计问题方法尚不明确，无法找到不同值函数估计方法对性能带来不同的影响的根本原因。以批量约束Q学习算法BCQ为例，该方法通过不考虑不熟悉的动作来达到缓解分布漂移问题的目的，然而，只考虑在一簇相似数据中估计值函数会对算法的性能带来损失。因此，在策略评估上，课题组提出了基于隐约束的离线策略评估算法ICQ，利用隐约束策略的最优解得到所优化的策略相对行为策略的重要性程度，从而对目标值函数重新加权。具体而言，标准的策略评估方法如下所示：

基于隐约束策略的最优解，我们对目标值函数重新加权，并命名为ICQ：

如图2所示，整个策略评估和学习过程全部都在数据集内进行，不会造成任何数据泄露，从而在根本上避免了外推误差问题。我们给出ICQ的理论分析如下：

定理2：ICQ操作符从理论上可以证明收敛到一簇稳定解：

我们在离线强化学习任务D4RL上进行了测试，如表1所示。

表1 ICQ在标准单智能体离线强化学习任务D4RL上的性能表现

多智能体离线强化学习方法

我们基于ICQ算法和值函数分解假设，提出了多智能体离线强化学习方法ICQ-MA。

具体地，基于值函数分解假设，ICQ-MA的策略提升形式可以分解为：

在值函数估计方面，我们采用多步估计方法来平衡估计中的偏差与方差：

我们将ICQ拓展至了多智能体任务中测试其适用性，并在离线多智能体任务StarCraftII上测试，如图3所示。

图3 ICQ在多智能体离线强化学习任务StarCraft II上的性能表现

实验结果表明，无论是在单智能体连续控制任务中还是多智能体离散控制任务中，使用基于隐约束的策略评估方法，相比其他state-of-the-art的离线强化学习方法，ICQ可以取得最高的长期累积奖赏，这验证了ICQ的有效性。

提

醒

论文链接：

https://proceedings.neurips.cc/paper/2021/hash/550a141f12de6341fba65b0ad0433500-Abstract.html

论文题目：

MTrajRec: Map-Constrained Trajectory Recovery via Seq2Seq Multi-task

点击“阅读原文”，即可观看本场回放

整理：江璐鑫

审核：杨以钦

往期精彩文章推荐

记得关注我们呀！每天都有新知识！

关于AI TIME

AI TIME源起于2019年，旨在发扬科学思辨精神，邀请各界人士对人工智能理论、算法和场景应用的本质问题进行探索，加强思想碰撞，链接全球AI学者、行业专家和爱好者，希望以辩论的形式，探讨人工智能和人类未来之间的矛盾，探索人工智能领域的未来。

迄今为止，AI TIME已经邀请了550多位海内外讲者，举办了逾300场活动，超120万人次观看。

我知道你

在看

哦

点击 阅读原文 查看回放！

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

干货！一种适用性、可拓展性强的离线强化学习方法的相关文章

性能大减80%，英伟达芯片在华“遇冷”，我方霸气回应：不强求

中国这么大一块市场谁看了不眼馋在科技实力大于一切的今天高端芯片的重要性不言而喻作为半导体产业发展过程中不可或缺的一环芯片技术也一直是我国技术发展的一大心病在美西方等国的联手压制下我国芯片技术发展处处受阻至今也未能在高端芯片
【卡尔曼滤波】具有梯度流的一类系统的扩散映射卡尔曼滤波器研究（Matlab代码实现）

欢迎来到本博客博主优势博客内容尽量做到思维缜密逻辑清晰为了方便读者座右铭行百里者半于九十本文目录如下目录 1 概述 2 运行结果 3 参考文献 4 Matlab代码数据文章
强烈推荐收藏！LlamaIndex 官方发布高清大图，纵览高级 RAG技术

近日 Llamaindex 官方博客重磅发布了一篇博文 A Cheat Sheet and Some Recipes For Building Advanced RAG 通过一张图给开发者总结了当下主流的高级RAG技术帮助应对复杂的生产场
机器学习算法实战案例：BiLSTM实现多变量多步光伏预测

文章目录 1 数据处理 1 1 导入库文件 1 2 导入数据集 1 3 缺失值分析 2 构造训练数据
机器学习算法实战案例：LSTM实现多变量多步负荷预测

文章目录 1 数据处理 1 1 数据集简介 1 2 数据集处理 2 模型训练与预测 2
华为OD机试2024年最新题库（Java）

我是一名软件开发培训机构老师我的学生已经有上百人通过了华为OD机试学生们每次考完试会把题目拿出来一起交流分享重要 2024年1月 5月考的都是OD统一考试 C卷题库已经整理好了命中率95 以上这个专栏使用 Java 解法问
机器学习算法实战案例：Informer实现多变量负荷预测

文章目录机器学习算法实战案例系列答疑技术交流 1 实验数据集 2 如何运行自己的数据集 3 报错分析机器学习算法实战案例系
2023最新pytorch安装（超详细版）

前言一判断是否有Nvidia 英伟达显卡二 CPU版 2 1 安装Anaconda 2 2 创建虚拟环境 2 3安装pytorch 2 4 验证pytorch是否安装成功三 GPU版 3 1 安装Anaconda 3 2 创建虚拟环
【自适应滤波】一种接近最佳的自适应滤波器，用于突发系统变化研究（Matlab代码实现）

欢迎来到本博客博主优势博客内容尽量做到思维缜密逻辑清晰为了方便读者座右铭行百里者半于九十本文目录如下目录 1 概述 2 运行结果 3 参考文献 4 Matlab代码及文章
『力扣刷题本』:逆波兰表达式求值

大家好久不昂最近 1 个多月罗根一直在备考期末文章发的很少现在已经放寒假啦学习自然也不能拉下毕竟 4 月份就要去参加蓝桥杯了先给自己定个小目标日更 2 篇咳咳下面马上开始讲题一题目给你一个字符串数组 tokens 表
CorelDRAW2024官方中文版重磅发布更新

35年专注于矢量设计始于1988年并不断推陈出新致力为全球设计工作者提供更高效的设计工具 CorelDRAW 滋养并见证了一代设计师的成长在最短的时间内交付作品 CorelDRAW的智能高效会让你一见钟情 CorelDRAW 全称 Co
考虑光伏出力利用率的电动汽车充电站能量调度策略研究（Matlab代码实现）

欢迎来到本博客博主优势博客内容尽量做到思维缜密逻辑清晰为了方便读者座右铭行百里者半于九十本文目录如下目录 1 概述 2 运行结果 3 参考文献 4 Matlab代码数据
【一种新的Burton-Miller型奇异边界方法（BM-SBM）】用于声学设计灵敏度分析，2D和3D声学设计灵敏度分析的奇异边界方法研究（Matlab代码实现）

欢迎来到本博客博主优势博客内容尽量做到思维缜密逻辑清晰为了方便读者座右铭行百里者半于九十本文目录如下目录 1 概述 2 运行结果 2 1 2D 2 2 3D
用栈实现队列（OJ中报错的处理）

用栈实现队列 ERROR AddressSanitizer myQueueFree函数中栈的释放处现了问题没有调用StackDestory而是直接free了这个是栈初始化时 capacity与malloc申请的空间大小没有匹配请你仅使
2024年华为OD机试真题-虚拟游戏理财-Python-OD统一考试（C卷）

题目描述在一款虚拟游戏中生活你必须进行投资以增强在虚拟游戏中的资产以免被淘汰出局现有一家Bank 它提供有若干理财产品m 风险及投资回报不同你有N 元进行投资能接受的总风险值为X 你要在可接受范围内选择最优的投资方式获得最大回报
基于节点电价的电网对电动汽车接纳能力评估模型研究（Matlab代码实现）

欢迎来到本博客博主优势博客内容尽量做到思维缜密逻辑清晰为了方便读者座右铭行百里者半于九十本文目录如下目录 1 概述 2 运行结果 3 参考文献 4 Matlab代码数据
考虑光伏出力利用率的电动汽车充电站能量调度策略研究（Matlab代码实现）

欢迎来到本博客博主优势博客内容尽量做到思维缜密逻辑清晰为了方便读者座右铭行百里者半于九十本文目录如下目录 1 概述 2 运行结果 3 参考文献 4 Matlab代码数据
考虑光伏出力利用率的电动汽车充电站能量调度策略研究（Matlab代码实现）

欢迎来到本博客博主优势博客内容尽量做到思维缜密逻辑清晰为了方便读者座右铭行百里者半于九十本文目录如下目录 1 概述 2 运行结果 3 参考文献 4 Matlab代码数据
高精度运算合集，加减乘除，快速幂，详细代码，OJ链接

文章目录零前言一加法高精度加法步骤 P1601 A B 二减法高精度减法步骤
2023下半年软考「单独划线」合格标准公布

中国计算机技术职业资格网发布了关于2023年度下半年计算机软件资格考试单独划线地区合格标准的通告 2023下半年软考单独划线地区合格标准各科目均为42分 01 官方通告关于2023年度下半年计算机软件资格考试单独划线地区合格标准的通告

随机推荐

数字SOC设计之低功耗设计入门（六）——门级电路低功耗设计优化

三门级电路低功耗设计优化 1 门级电路的功耗优化综述门级电路的功耗优化 Gate Level Power Optimization 简称GLPO 是从已经映射的门级网表开始对设计进行功耗的优化以满足功耗的约束同时设计保持其性能即满
【STM32篇】驱动MXL90614红外测温模块

本次实验使用的测温模块型号GY 906 DCC模块测距为10cm左右一简介 MLX90614 是一款红外非接触温度计 TO 39 金属封装里同时集成了红外感应热电堆探测器芯片和信处理专用集成芯片由于集成了低噪声放大器 17 位模数转
文件读/写操作 import pickle

文件写开文件变量 open 文件路径文件名 web 存 pickle dump 待写入的变量文件变量关文件变量 close 文件读开文件变量 open 文件路径文件名 rb 取放内容的变量 pickle load 文件变量
小程序 -- 分包

来源 1 什么是分包分包指的是把一个完整的小程序项目按照需求划分为不同的子包在构建时打包成不同的分包用户在使用时按需进行加载 2 分包的好处对小程序进行分包的好处主要有以下两点可以优化小程序首次启动的下载时间在多团队共同开发时
二叉树之层次遍历（js）

二叉树之层次遍历输入一棵二叉树你的任务是从上到下从左到右的顺序输出各个结点的值每个结点都是按照从根节点到它移动序列给出 L表示左 R表示右在输入中每个结点的左右括号之间没有空格相邻节点之间用一个空格隔开输入 11 LL 7
GameFi 大爆发？五款令人期待的链游

大家好我是晴天defi 在今年有许多游戏公司陆续推出自家的IP大作像是任天堂出的宝可梦阿尔宙斯 Sony 的地平线西域禁地 Techland 的垂死之光 2 就连那位喜欢虐待玩家的宫崎英高也跟着推出他的全新虐待新作艾二登法环
Qt使用QGraphicsView实现滑动窗体效果 .

源码已上传至CSDN http download csdn net source 2808505 QGraphicsView用来显示一个滚动视图区的QGraphicsScene内容 QGraphicsScene提供了QGraphicsIte
深入理解mongodb和hbase区别

最近公司想要做数据分析之前我们公司用的是免费的growing IO 他们分析仅限于界面跳转的转化率不能详细地分析业务数据我研究了一个需要埋点的产品搞明白他们是在每个接口的调用埋点将用户对接口的调用行为记录下来进行分析由于接口众
Linux下读写文件操作

Linux下读写文件操作 include
Error: Could not create the Java Virtual Machine. Error: A fatal exception h.....

我处理的问题的方法换成8解决的
Python地理数据处理十七：植被物候提取和分析（Savitzky-Golay）

Savitzky Golay滤波 1 引子 2 Savitzky Golay滤波提取物候信息 1 引子 import numpy as np import matplotlib pyplot as plt from scipy signal
LeetCode0752-打开转盘锁

LeetCode0752 打开转盘锁题目你有一个带有四个圆形拨轮的转盘锁每个拨轮都有10个数字 0 1 2 3 4 5 6 7 8 9 每个拨轮可以自由旋转例如把 9 变为 0 0 变为 9 每次旋转都只能旋转一个拨轮的一位数字锁
2.Spark运行模式

1 Spark运行模式概述 Local 多用于本地测试如在IDEA PyCharm Visual StudioCode中写程序测试等 Standalone Standalone是Spark自带的一个资源调度框架它支持完全分布式 Yarn
postman单个请求批量发送

第一部抓取单个请求选择一个请求 copy as cURL bash 第二步复制到postman 并保存第三步单个请求批量发送点击Runner i第四步选择刚才的请求设置发送次数Iterations 点击run 成功
Java 常用API

Java 常用API JFC Java类库是系统提供的已实现的标准类的集合是Java编程的API Application Program Interface 可帮助开发者方便快捷地进行软件开发 Java按其不同的功能分成不同的包常用
[极客大挑战 2019]LoveSQL 1

提示文章写完后目录可以自动生成如何生成可参考右边的帮助文档极客大挑战 2019 LoveSQL 1 题目一做题步骤 1 万能密码尝试 2 测试注入列数 3 测试注入点 4 查询数据库 5 查询表名 6 查询列名字段 7 查询数
【猿人学WEB题目专解】猿人学第15题

据说看我文章时关注点赞收藏的帅哥美女们心情都会不自觉的好起来前言作者简介大家好我是 user from future 意思是来自未来的用户寓意着未来的自己一定很棒个人主页点我直达在这里肯定能找到你想要的专栏介
TCP和UDP的最完整的区别

欢迎访问个人网站这里排版舒服点 TCP和UDP的最完整的区别码到城攻TCP和UDP的最完整的区别https www codecomeon com posts 7 TCP UDP TCP与UDP基本区别 1 基于连接与无连接 2 TCP要
redis 由浅入深之进阶(发布与订阅、事务、连接和Reids服务器)

Redis发布与订阅 Redis 发布订阅 pub sub 是一种消息通信模式发送者 pub 发送消息订阅者 sub 接收消息 Redis 客户端可以订阅任意数量的频道下图展示了频道 channel1 以及订阅这个频道的三个客户端 c
干货！一种适用性、可拓展性强的离线强化学习方法

点击蓝字关注我们 AI TIME欢迎每一位AI爱好者的加入近年来离线强化学习算法 Offline Reinforcement Learning 由于其不与环境交互仅从数据集中学习策略而得到越来越多的关注与离线策略强化学习 Off

干货！一种适用性、可拓展性强的离线强化学习方法

干货！一种适用性、可拓展性强的离线强化学习方法 的相关文章

随机推荐

热门标签

干货！一种适用性、可拓展性强的离线强化学习方法的相关文章