《强化学习周刊》第26期:UCL& UC Berkeley发表深度强化学习中的泛化研究综述、JHU推出基于强化学习的人工决策模型...

2023-05-16

No.26

智源社区

强化学习组

 习

8cd07dd48dc71c19ad592c20eeffdbb2.png

研究

观点

资源

活动

关于周刊

强化学习作为人工智能领域研究热点之一,其研究进展与成果也引发了众多关注。为帮助研究与工程人员了解该领域的相关进展和资讯,智源社区结合领域内容,撰写为第26期《强化学习周刊》。本期周刊整理了强化学习领域相关的最新论文推荐和新工具、数据集等,以飨诸位。

周刊采用社区协作的模式产生,欢迎感兴趣的朋友们参与我们的工作,一起来推动强化学习社群的分享、学习和交流活动。可以扫描文末的二维码加入强化学习社区群。

本期贡献者:李明、刘青、小胖、陈元

83222534119f783fb82887f98079b364.png

40b9b30d2cb7055399a121da93edff35.png

be8923fc787c2766685c5c33930876cf.png

f00bdc4f03f2b88908cd0e6f9d9d0b4e.png

5a757dbb5d46973382454b533ab71de4.png

论文推荐

强化学习近年来取得了令人瞩目的成就,其应用于各个领域的研究也取得较大的进步,比如目标条件强化学习、基人工决策模型强化学习、深度强化学习在恶意软件中的应用、无模型风险敏感强化学习、迁移强化学习、基于模型的强化学习、元强化学习相关的理论及其最新应用等。

本次推荐了14篇强化学习领域的相关论文,主要涉及于基于长期目标条件强化学习的后续特征标志、基于独立协作 AI 队友的人工决策模型强化学习、基于深度强化学习增强 NOP 指令的插入以混淆恶意软件、低精确度强化学习、基于模型的强化学习的有效调度、直接和间接强化学习、稀有扩散动力学的强化学习、强化学习配置交互、基于缓冲图签名的实时视频流事件元强化学习等。

标题:Successor Feature Landmarks for Long-Horizon Goal-Conditioned Reinforcement Learning(基于长期目标条件强化学习的后续特征标志)了解详情

简介:在现实世界中动作通常需要智能体了解复杂环境,并应用这种理解来实现广泛的目标。其被称为目标条件强化学习(GCRL)的问题对于长期目标来说尤为具有挑战性。现有的方法通过使用基于图的规划算法来增强目标条件策略来解决此问题。然而,其很难扩展到大型、高维的状态空间,并假设能够访问有效收集训练数据的探索机制。本文引入后续特征标志(SFL)用于探索大型高维环境的框架,以获得能够胜任任何目标的策略。SFL利用后续特征(SF)捕捉过渡动态的能力,通过估计状态新颖性来推动探索,并通过将状态空间抽象为非参数的基于地标的图形来实现高级规划。本文应用SF直接计算地标间遍历的目标条件策略,使用该策略执行计划,在探索的状态空间边缘“前沿”地标。在MiniGrid和ViZDoom上的实验表明,SFL能够有效地探索大型高维状态空间,并在长期GCRL任务上优于最先进的基线。

论文地址:https://arxiv.org/pdf/2111.09858.pdf

标题:JHU | Reinforcement Learning on Human Decision Models for Uniquely Collaborative AI Teammates(基于独立协作 AI 队友的人工决策模型强化学习)了解详情

简介:2021年约翰·霍普金斯大学应用物理实验室举行了一次内部挑战,以开发能够在协作纸牌游戏Hanabi中表现出色的人工智能(AI)智能体。对智能体进行评估,看他们是否有能力与以前从未遇到过的人类玩家一起玩。该研究详细介绍了通过实现16.5的人类游戏平均分数而赢得挑战的智能体的开发,其表现优于目前最先进的人类机器人Hanabi分数。获胜代理的开发包括观察作者在 Hanabi 中的决策并对其进行准确建模,然后用作者的行为克隆进行训练。该智能体通过模仿人类决策发现了一种与人类互补的游戏风格,然后探索类人策略的变化,导致更高的模拟人机分数。本文详细研究了这个与人类兼容的 Hanabi 队友的设计和实施,以及人类互补策略的存在和影响,以及探索它们如何在人机团队中更成功地应用人工智能。

论文地址:https://arxiv.org/pdf/2111.09800.pdf

标题:Enhancing the Insertion of NOP Instructions to Obfuscate Malware via Deep Reinforcement Learning(基于深度强化学习增强 NOP 指令的插入以混淆恶意软件)了解详情

简介:目前,针对恶意软件检测和分类问题的最新研究主要集中在由机器学习支持的系统的设计、实施和部署上,因为其能够推广到以前从未见过的恶意软件家族和多态突变。然而,机器学习模型,特别是深度神经网络,对精心设计的输入缺乏鲁棒性(对抗性示例)。本文研究了最先进的浅卷积神经网络恶意软件分类器对死代码插入技术的脆弱性。提出了一个由双Q网络支持的通用框架,以诱导恶意软件家族的错误分类。该框架通过卷积神经网络训练agent,以选择代码序列中的最佳位置来插入死代码指令,从而使机器学习分类器错误标记生成的可执行文件。实验表明,该方法显著地降低了分类器的分类精度,使其达到56.53%,而对于属于Kelihos_ver3、Simda和Kelihos_ver1家族的样本,其漏检率为100%。此外,与随机代理相比,错误标记恶意软件所需的平均指令数减少了33%。

论文地址:https://arxiv.org/pdf/2111.09626.pdf

标题:Meta-Reinforcement Learning via Buffering Graph Signatures for Live Video Streaming Events(基于缓冲图签名的实时视频流事件元强化学习)了解详情

简介:本文提出了元学习模型,以适应参与直播视频流事件的观众之间的网络容量预测。并提出了 MELANIE 模型,将事件表述为马尔可夫决策过程,对强化学习任务执行元学习。通过将新事件视为一项任务,设计了演员-评论家学习方案来计算估计观众高带宽连接的最佳策略。为确保在事件期间快速适应观众之间的新连接或变化,本文基于观众连接的回报/吞吐量的Kullback-Leibler差异实现了优先级重播内存缓冲区。此外,通过采用与模型无关的元学习框架从过去的事件中生成全局模型。由于观众很少参与几个事件,故挑战在于如何解释不同事件的低结构相似性。为了解决这个问题,设计了图形签名缓冲区来计算几个流事件的结构相似性,并相应地调整全局模型的训练。在实时视频流事件的三个真实世界数据集上评估链接权重预测任务的建议模型。研究结果表明了该模型与最先进的策略相比,平均相对增益为 25%。

论文地址:https://arxiv.org/pdf/2111.09412.pdf

标题: AdaRL: What, Where, and How to Adapt in Transfer Reinforcement Learning (AdaRL:在迁移强化学习中适应什么、在哪里和如何适应)了解详情

简介: 强化学习(RL)中的大多数方法都是数据缺少的,并且特定于固定的环境。本文提出了原则性的自适应RL框架AdaRL,它能够可靠地适应跨域的变化。具体地说,其为系统中变量之间的结构关系构建了一个生成环境模型,并以一种紧凑的方式嵌入了变化,这为定位变化是什么、在哪里以及如何适应变化提供了一个清晰的、可解释的图像。基于环境模型,描述了一个最小的表示集,包括领域特定的因素和领域共享状态表示,足以实现可靠和低成本的迁移。此外,研究表明,通过显式地利用紧凑的表示来编码更改,可以只使用少量样本来调整策略,而无需在目标域中进一步优化策略。通过一系列实验来说明AdaRL的有效性,这些实验允许Cartpole和Atari游戏的不同组件发生变化。

论文地址:https://arxiv.org/abs/2107.02729

标题: Embracing the Dark Knowledge: Domain Generalization Using Regularized  Knowledge Distillation (拥抱黑暗知识:使用正则化知识蒸馏的领域概括)了解详情

简介: 虽然卷积神经网络在不同的任务中有着广泛的应用,但在缺乏足够的、有代表性的数据的情况下,其泛化能力的不足是阻碍其实际应用的难题之一。本文提出了一种简单、有效、即插即用的领域综合知识提取(KDDG)训练策略,该策略建立在以梯度滤波器作为正则化项的知识提取框架之上。我们发现,教师网络中的“丰富的暗知识”以及提出的梯度滤波器都可以降低学习映射的难度,从而进一步提高模型的泛化能力。此外,还进行了大量的实验,表明该框架能够显著提高深度神经网络在图像分类、分割、强化学习等不同任务中的泛化能力。最后,通过采用两个指标来分析所提出的方法,以便更好地了解本文提出的方法如何有利于深层神经网络的泛化能力。

论文地址:https://arxiv.org/abs/2107.02629

标题:Low-Precision Reinforcement Learning(低精确度强化学习)了解详情

简介:在监督学习中,低精度训练已成为减少计算时间、内存占用和能耗的常用方法。相比之下,这种有希望的方法在强化学习(RL)社区中没有得到类似的广泛采用,部分原因是RL代理的训练可能非常困难——即使是完全精确的训练。本文考虑连续控制与先进的SAC代理,并证明。本文提出了一组六个修改,都很容易实现,使底层代理保持不变,但显著提高了其数值稳定性。改进后的SAC代理在匹配全精度奖励的同时具有较低的内存和计算要求,从而证明了低精度RL的可行性。

论文地址:https://arxiv.org/pdf/2102.13565.pdf

标题:On Effective Scheduling of Model-based Reinforcement Learning(基于模型的强化学习的有效调度)了解详情

简介:基于模型的强化学习因其优越的样本效率而受到广泛关注。尽管迄今为止它取得了令人印象深刻的成功,但仍不清楚如何适当地调度重要的超参数以实现足够的性能,例如Dyna风格的基于模型的算法中用于策略优化的真实数据比率。本文首先从理论上分析了真实数据在政策培训中的作用,这表明逐渐增加真实数据的比例会产生更好的绩效。受分析的启发,本文提出了一个名为AutoMBPO的框架,用于在基于模型的策略优化(MBPO)算法的训练中自动调度实际数据比率以及其他超参数,这是一个基于模型的方法的典型运行案例。在多个连续控制任务上,使用AutoMBPO调度的超参数训练的MBPO实例可以显著超过原始实例,并且AutoMBPO发现的实际数据比率调度与我们的理论分析一致。

论文地址:https://www.researchgate.net/publication/356282251_On_Effective_Scheduling_of_Model-based_Reinforcement_Learning

标题:Is Learning World Model Always Beneficial For Reinforcement Learning? (学习世界模式是否总是有利于强化学习?)了解详情

简介:该文在基于模型的强化学习(MBRL)中提出了一个假设:RL代理可以通过学习与学习世界模型交互并利用环境的不完美信息来更快地学习解决任务。文章开发了两种不同的架构来评估这一假设。实验表明,访问此类信息的策略在toy基准上优于独立策略。研究结果表明,这是一项很有希望的收入,用于研究不依赖于推广的高效MBRL算法。

论文地址:https://www.researchgate.net/publication/351711093_Is_Learning_World_Model_Always_Beneficial_For_Reinforcement_Learning

标题:Direct and indirect reinforcement learning(直接和间接强化学习)了解详情

简介:强化学习(RL)算法已成功应用于一系列具有挑战性的顺序决策和控制任务。本文根据如何寻求马尔可夫决策过程问题的最优策略,将RL分为直接RL和间接RL。前者通过使用梯度下降法直接最大化目标函数来求解最优策略,其中目标函数通常是对未来累积回报的期望。后者通过求解Bellman方程间接地找到最优策略,这是Bellman最优性原理的充分必要条件。文章研究了直接RL和间接RL的策略梯度(PG)形式,并证明它们都可以导出行动者-批评家体系结构,并且可以统一为具有近似值函数和稳态分布的PG,揭示了直接RL和间接RL的等价性。文章采用Gridworld任务来验证不同形式PG的影响,并在实验上指出它们的差异和关系。最后,文章使用直接分类法和间接分类法以及其他分类法对当前主流的RL算法进行分类,包括基于值和基于策略、基于模型和无模型。

论文地址:https://www.researchgate.net/publication/352043243_Direct_and_indirect_reinforcement_learning

标题:Input addition and deletion in reinforcement: towards protean learning  (强化中的输入添加和删除:走向多变的学习)了解详情

简介:强化学习 (RL) 智能体通常被认为是自适应决策程序,处理称为“状态”、“动作”和“奖励”的输入/输出数据流。当前关于 RL 对变化的适应性的大多数研究都是在假设流签名(即输入和输出的数量和类型)在整个智能体生命周期中保持不变前提下进行的。本文放宽了这一假设,并认为签名变化定义了一种称为 Protean Learning (PL) 的新学习情况。当它们发生时,传统的 RL智能体变得不确定,因此它们需要重新开始学习。本文首先构建了一个面向流的形式主义来正确定义 PL 和签名更改。然后,在理想化的 PL 情况下运行实验,其中在学习过程中发生输入添加和删除。结果表明,一个简单的面向 PL 的方法可以很好地适应这些参数变化,并且比重新启动过程更有效。

论文地址:https://link.springer.com/content/pdf/10.1007/s10458-021-09534-6.pdf

标题:Learning offline: memory replay in biological and artificial reinforcement learning(离线学习:生物和人工强化学习中的记忆重放)了解详情

简介:学习在环境中行动以最大化奖励是大脑的关键功能之一。这个过程通常在强化学习的框架内被概念化,强化学习作为优化决策的一种方式在机器学习和人工智能 (AI) 中也越来越突出。生物强化学习和机器强化学习的一个共同方面是重新激活以前经历过的情节,称为重放。重放对于生物神经网络中的记忆巩固很重要,并且是稳定深度神经网络学习的关键。本文回顾了有关重放在神经科学和人工智能领域中功能作用的最新进展。互补的进展表明重放可能如何支持学习过程,包括泛化和持续学习,提供跨领域转移知识的机会,以促进对生物和人工学习和记忆的理解。

论文地址:https://www.sciencedirect.com/science/article/pii/S0166223621001442

标题:Reinforcement learning of rare diffusive dynamics(稀有扩散动力学的强化学习)了解详情

简介:本文提出了一种使用强化学习直接探测稀有分子动力学轨迹的方法。文中考虑在有限时间内配置空间的区域之间的过渡的轨迹,例如与反应事件研究相关的轨迹;以及在长时间限制内表现出时间积分量的罕见波动的轨迹,例如在大偏差函数的计算中所涉及的那些轨迹。在这两种情况下,强化学习技术都用于优化附加力,以最小化条件轨迹集合和驱动轨迹集合之间的 Kullback-Leibler 散度。在优化的附加力下,系统将罕见的波动演变为典型的波动,从而对其在原始轨迹系综中的似然性进行变分估计。建议使用值函数的低方差梯度来增加最佳力的收敛。本文开发的使用这些梯度的方法可以有效和准确地估计各种模型系统的最佳力和罕见事件的可能性。

论文地址:https://aip.scitation.org/doi/pdf/10.1063/5.0057323

标题:Reinforcement Learning Configuration Interaction(强化学习配置交互)了解详情

简介:选择配置相互作用 (sCI) 方法利用全配置相互作用 (FCI) 波函数的稀疏性,在不牺牲精度的情况下产生显著的计算节省和波函数压缩。尽管最近 sCI 方法取得了进展,但重要决定因素的选择仍然是一个悬而未决的问题。本文探索了利用强化学习方法解决 sCI 问题的可能性。通过将配置交互问题映射到顺序决策过程,智能体即时学习要包含哪些决定因素以及要忽略哪些决定因素,从而产生接近 FCI 精度的压缩波函数。本文使用强化学习配置交互的方法为 sCI 武器库添加了另一种武器,并突出了强化学习方法如何潜在地帮助解决电子结构理论中的挑战性问题。

论文地址:https://pubs.acs.org/doi/pdf/10.1021/acs.jctc.1c00010

c17f669da4552915ca75c51753a515f2.png

e3fc8baff8d91f5b9c904dca2728bf41.png

36e9c934f27ed1c49ee2316a5e718107.png

63e89ea8967515f69fa776c79fc8fb19.png

f92fd0f4ff72975c6b69fb926652132a.png

综述

UCL& UC Berkeley | 深度强化学习中的泛化研究综述了解详情

简介:深度强化学习 (DRL) 中的泛化研究旨在产生 RL 算法,其策略可以很好地泛化到部署时新的未知情况,避免过度拟合其训练环境。如果要在现实世界的场景中部署强化学习算法,解决这个问题至关重要,在现实世界中,环境将是多样的、动态的和不可预测的。本综述是对这一新兴领域的概述。通过提供了一个统一的格式和术语来讨论不同的泛化问题,在已有研究的基础上。继续对现有的泛化基准以及解决泛化问题的方法进行分类。最后,对该领域的现状进行了批判性讨论,包括对未来研究的建议。本文认为对基准设计采用纯程序性内容生成方法不利于推广,其建议快速在线适应和解决RL特定问题,并在未充分探索的问题环境中建立基准,如离线RL概括和奖励函数变化。

论文地址:

https://arxiv.org/pdf/2111.09794.pdf

72ab512d6f0a9f4e7cccc1a889d985d8.png

如果你正在从事或关注 强化学习研究、实现与应用,欢迎加入“智源社区-强化学习-交流群”。在这里,你可以:

  • 学习前沿知识、求解疑难困惑

  • 分享经验心得、展示风貌才华

  • 参与专属活动、结识研究伙伴

扫描下方二维码,加入强化学习兴趣群。

6290bd9fd0fb3c33ebc938e68e85796d.png

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

《强化学习周刊》第26期:UCL& UC Berkeley发表深度强化学习中的泛化研究综述、JHU推出基于强化学习的人工决策模型... 的相关文章

  • 百度笔试题2

    一 xff0c 简答题 30分 1 xff0c 当前计算机系统一般会采用层次结构存储数据 xff0c 请介绍下典型计算机存储系统一般分为哪几个层次 xff0c 为什么采用分层存储数据能有效提高程序的执行效率 xff1f xff08 10分
  • 2014华为机试题目

    1 输入摸一个数 xff0c 然后将其倒过来相加 xff0c 如果和不是回文串 xff0c 那么将和再采取同样的操作 xff0c 在判断得到的是否为回文串 xff0c 这样往返7次 xff0c 如果其中有一次是回文就直接打出来 xff0c
  • 2014小米,百度,pptv,去哪儿笔试题目回忆

    今天一共笔试了这四家 xff0c 真累啊 xff0c 上午10点小米 xff0c 下午2点百度 xff0c 下午3点PPTV xff0c 下午5点去哪儿 xff0c 今天右手太酸了 xff0c 打的都话了50左右 xff0c 如果没面试通知
  • 质数因子

    功能 输入一个正整数 xff0c 按照从小到大的顺序输出它的所有质数的因子 xff08 如180的质数因子为2 2 3 3 5 xff09 思路 xff1a 传统的思维是从2到n遍历一遍 xff08 稍微优化一下可以到根号n xff09 x
  • OVS于DVS

    撰写时间 xff1a 2022 2 28 分布式虚拟交换机 xff08 DVS 注意 xff1a DVS是二层交换机 DVS特点 xff1a 1 集中管理 xff1a 通过统一的Portal页面进行集中管理 xff0c 简化用户配置 2 基
  • 如何同时使用maven-replacer-plugin和maven-assembly-plugin插件

    页面css和js缓存是前端常见的问题 xff0c maven有专门的插件maven assembly plugin可以处理 参考https blog csdn net weixin 34336292 article details 9197
  • Ubuntu上两台服务器利用nfs实现共享文件夹

    碰到的一个问题是 xff0c 一台服务器A放不下所有的数据 xff0c 部分数据只能放到另一台服务器B上 xff0c 那么就涉及到如何把服务器B上的数据共享给服务器A xff0c 使得A可以看到B上的内容 xff0c 需要用的是nfs文件共
  • Unbuntu16.04 虚拟机 安装win7以及文件共享

    KVM虚拟机的模版导出 xff0c 通常都是直接用qemu img命令可以将默认的raw格式或者qcow2格式的磁盘文件压缩后导出 xff0c 指令如下 xff1a 将默认raw格式的磁盘 xff0c 简单压缩转换成qcow2格式 qemu
  • 报错:RuntimeError: cuDNN error: CUDNN_STATUS_NOT_INITIALIZED

    一般显存溢出报out of memory之类 xff0c 修改了代码中batch size大小 xff08 忘记自己已经配置过默认参数 xff09 未解决 所以便认为是cuda配置问题 xff0c 多方检查确认cuda cudnn配置无误
  • js delete删除key

    var a 61 a a 61 1 a b 61 2 delete a 34 a 34 console log a b 2 delete a b console log a js 的delete可以根据key删除对象中的元素
  • 2014跌跌撞撞--伴我成长

    2014跌跌撞撞 伴我成长 上眼皮是正月 xff0c 下眼皮是腊月 xff0c 一转眼一年就过去了 没有轰轰烈烈 xff0c 也不是平淡无奇 xff0c 或许应该说是跌跌撞撞地走过来 叶子不断地从生命之树飘落 xff0c 不知不觉中岁月已在
  • stm32f103rb升级到stm32f103rc时代码移植注意事项

    1 由于stm32f103RC RD RE系列单片机芯片级的bug xff0c 代码中用到重映射相关函数的地方 xff0c 在其后面添加 HAL AFIO REMAP SWJ NOJTAG 语句 xff0c 如下所示 xff1a HAL A
  • OpenFlow所面临的挑战与创新方案

    1 OpenFlow控制面的挑战 2 OpenFlow转发面的挑战 3 芯片厂商的犹豫 一 OpenFlow控制面的挑战 OpenFlow在控制面存在以下不足 xff1a 1 master和slavecontroller的选举机制不够成熟
  • apt-get软件管理工具(软件安装、重装、卸载)

    apt get软件管理工具 下面讲解 xff0c linux系统下如何进行软件的管理 xff0c 包括软件的索引安装 更新 卸载删除 本地存储介中软件的安装 系统升级等操作 更多优质文章 xff0c 请访问博主个人网站 xff1a www
  • Ubuntu 系统下如何安装pip3工具

    一 导读 Ubuntu 系统内置了 Python2 和 Python3 两个版本的开发环境 xff0c 却没有内置相应的 pip3 管理工具 xff0c 本文将介绍如何在Ubuntu下如何快速安装 pip3 工具 xff0c 并升级到最新可
  • 包编译卡住的终极解决办法

    在数据库开发过程中 xff0c 经常遇到一个很烦躁的现象 xff1a 刚修改好的包一编译就卡死了 xff0c PL SQL变成一片空白 xff0c 又不忍心关闭 xff0c 这可是耗死多少脑细胞才写出来的 xff01 xff01 xff01
  • 正则表达式3,\A,\Z,\b,\B,\d,\D,\s,\S,\w.\W,re.compile

    1701H1 穆晨 180201 第114天总结 我爱学习 xff0c 学习使我快乐 A匹配输入字符串的开始位置 Z匹配输入字符串的结束位置 xff08 脱字符 xff09 匹配输入字符串的开始位置 xff0c 如果设置了re MULTIL
  • L1正则为什么更容易获得稀疏解

    L1和L2正则常被用来解决过拟合问题 而L1正则也常被用来进行特征选择 xff0c 主要原因在于L1正则化会使得较多的参数为0 xff0c 从而产生稀疏解 xff0c 将0对应的特征遗弃 xff0c 进而用来选择特征 但为什么L1正则会产生
  • VQA在CLEVR上的简单实现

    前言 Visual Question Answering是多模态学习的一个领域 xff0c 模型通过结合图像与问题 xff0c 推理出正确的答案 xff0c 由于问题问的是图像中出现物品的方位 xff0c 大小 xff0c 形状等等 xff
  • 对比学习损失篇,从L-softmax到AM-softmax到circle-loss到PCCL

    前言 对比学习是一种比较学习 xff0c 其主要目的为让模型学习到不同类别之间的特征 xff0c 其被广泛应用于人脸识别 xff0c 文本检索 xff0c 图像分类等领域 对比学习的主要思想是增大不同类别间的距离 xff0c 缩小相同类别间

随机推荐