现代博弈论与多智能体强化学习系统

2023-10-27

在这里插入图片描述

如今,大多数人工智能(AI)系统都是基于处理任务的单个代理,或者在对抗模型的情况下,是一些相互竞争以改善系统整体行为的代理。然而,现实世界中的许多认知问题是大群人建立的知识的结果。以自动驾驶汽车场景为例,任何座席的决策都是场景中许多其他座席行为的结果。金融市场或经济中的许多情景也是大型实体之间协调行动的结果。我们如何模仿人工智能(AI)代理中的行为?

多智能体强化学习(MARL)是深度学习学科,侧重于包含多个代理的模型,这些代理通过动态地与其环境交互来学习。在单一代理强化学习场景中,环境状态仅由于代理的动作而改变,在MARL场景中,环境受到所有代理的操作。从这个角度来看,我们是否将MARL环境视为元组{X1-A1,X2-A2 … .Xn-An},其中Xm是任何给定的代理,Am是任何给定的动作,然后环境的新状态是由A1xA2x … .An定义的一组连接动作的结果。换句话说,MARL场景的复杂性随着环境中代理的数量而增加。
在这里插入图片描述

MARL场景的另一个复杂性增加与代理的行为有关。 在许多情况下,MARL模型中的代理可以协同,竞争或表现出中立行为。 为了处理这些复杂性,MARL技术借鉴了博弈论中的一些想法,这对于具有多个参与者的模型环境非常有用。 具体来说,大多数MARL场景可以使用以下游戏模型之一来表示:
在这里插入图片描述

·静态游戏:静态游戏是指所有玩家同时做出决策(或选择策略)的游戏,而不了解其他玩家正在选择的策略。即使可以在不同的时间点做出决定,游戏也是同步的,因为每个玩家都没有关于他人决定的信息;因此,就好像决定是同时做出的。

·舞台游戏:舞台游戏是在静态游戏的某个阶段出现的游戏。换句话说,游戏规则取决于具体阶段。囚徒困境是舞台游戏的典型例子

·重复游戏:当玩家通过多次玩类似的舞台游戏(例如囚徒的困境)进行互动时,游戏被称为重复游戏。与曾经玩过一次的游戏不同,重复游戏允许策略取决于过去的动作,从而允许声誉效果和报应。

大多数MARL场景可以建模为静态,阶段或重复游戏。游戏理论中的新领域,例如平均场比赛在MARL场景中变得非常有价值(更多关于未来的帖子)。

MARL Algorithms and Game Theory

最近,我们看到研究实验室中生成的MARL算法数量激增。 跟上所有的研究是非常困难的,但在这里我们也可以使用一些博弈论的想法。 我见过了解MARL空间的最佳分类法之一是将代理人的行为分为完全合作,完全竞争或混合。 以下是使用该分类标准对MARL空间的快速分类。
在这里插入图片描述

在该级别,我们可以添加另一个有趣的分类标准,该标准基于MARL系统中的代理需要执行的任务类型。 例如,在某些MARL环境中,代理商会在完全隔离其他代理商的情况下做出决策,而在其他情况下,代理商会与合作伙伴或竞争对手进行协调。在这里插入图片描述

MARL代理商面临的挑战

MARL模型为深度学习任务提供了切实的好处,因为它们是现实世界中许多认知活动的壁橱代表。但是,在实施此类模型时需要考虑很多挑战。在没有尝试提供详尽的列表的情况下,在考虑实施MARL模型时,任何数据科学家都应该首先考虑三个挑战:

1.维度的诅咒:深度学习系统的着名挑战在MARL模型中尤为重要。随着代理/玩家数量的增加,许多适用于某些游戏环境的MARL策略都会失败。

2.培训:在MARL情景中,协调大量代理人的培训是另一场噩梦。通常,MARL模型使用一些培训政策协调机制来最小化培训任务的影响。

3.歧义:MARL模型非常容易受到代理歧义情形的影响。想象一下多人游戏,其中两个代理在环境中占据完全相同的位置。为了应对这些挑战,每个代理商的政策都需要考虑其他代理商采取的行动。

MARL模型被称为未来十年最相关的深度学习学科。当这些模型处理更复杂的场景时,我们可能会看到更多来自博弈论的想法成为MARL场景的基础。

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

现代博弈论与多智能体强化学习系统 的相关文章

  • DoubleDQN的理论基础及其代码实现【Pytorch + Pendulum-v0】

    Double DQN 理论基础 普通的 DQN 算法通常会导致对值的过高估计 overestimation 传统 DQN 优化的 TD 误差目标为 r max
  • 基于策略的强化学习(一)

    基于策略的强化学习 基于策略的强化学习解决的问题 策略目标函数 基于策略的强化学习解决的问题 解决行为空间连续 观测受限 随机策略的强化学习等问题 策略目标函数 在基于策略的强化学习中 策略 pi 可以被描述为一个包含参数 theta
  • Python入门教程完整版(懂中文就能学会)

    今天给大家带来了干货 Python入门教程完整版 完整版啊 完整版 言归正传 小编该给大家介绍一下这套教程了 希望每个小伙伴都沉迷学习 无法自拔 本套教程学习时间15天 1 3天内容 为Linux基础命令 4 13天内容 为Python基础
  • 使用NLP预测电影类型 - 多标签分类

    Introduction 上周 我对这篇关于构建多标签图像分类模型的精彩文章很感兴趣 我的数据科学家开始探索将这个想法转化为自然语言处理 NLP 问题的可能性 那篇文章展示了计算机视觉技术来预测电影的类型 所以我必须找到一种方法将该问题陈述
  • 强化学习算法实现自动炒股

    强化学习算法自动炒股 本文利用强化学习算法 PG 来对股票市场的指数进行交易研究 感兴趣的朋友可以在这个基础上导入其他市场的数据 添加 observation 的维度 本文仅使用了 当天收盘价 和 与前一天收盘价的差值 两个维度 操作 ac
  • 离线强化学习(Offline RL)系列7: (状态处理) OfflineRL中的状态空间的数据增强(7种增强方案)

    Arxiv原文 S4RL Surprisingly Simple Self Supervision for Offline Reinforcement Learning in Robotics 本文是由多伦多大学 斯坦福大学和Nvidia三
  • Win10下安装mujuco

    1 背景 安装mujuco之前玩的环境都是些简单的 易处理的环境 就是下面这种 第一张图是移动下面的方块保持杆子立起来环境 第二张图是小车爬山环境 第三张图是给杆子施加力使得杆子保持立起来环境 从图也可以看出 是比较简单的环境 而mujuc
  • Pandas 中DataFrame的groupby()计数、groupby()取样及reset_index()的使用

    什么是groupby 以下为对DataFrame对象按A进行分组操作 图片来源 内容 目的 DataFrame对象按照指定列 LNG LAT 分组计数 并将分组计数结果 包括指定列及计数值 写入csv文件中 过程 代码一 import pa
  • 【华为诺亚方舟实验室】2022届毕业生招聘--决策(强化学习)推理方向

    深度强化学习实验室 官网 http www neurondance com 论坛 http deeprl neurondance com 来源 华为诺亚方舟实验室官微 诺亚方舟实验室 Noah s Ark Lab 是华为公司从事人工智能基础
  • 利用强化学习进行股票操作实战(四)

    本次实战代码仍是在之前基础上进行了一些修改 之前只在一支股票上进行训练 这次我将模型放在多支股票上训练 并在多支股票上进行了测试 对于多支股票的训练策略 没有参考过别人的训练方案 做这个的比较少 我按自己的理解去训练 每一轮训练 都将每支股
  • 华为出品Python入门教程:从零基础入门到精通,这一篇就够了

    前言 本文罗列了了python零基础入门到精通的详细教程 内容均以知识目录的形式展开 01 python由来与发展介绍 02 项目开发流程 第一章 markdown编辑器 01 markdown基本语法 02 Typora简介与安装 03
  • 走进强化学习

    一 什么是强化学习 强化学习是机器学习里面的一个分支 是一个智能体通过不断的与环境产生互动而不断改进它的行为 从而积累最大奖励的一个决策过程 智能体在完成某项任务时 首先通过动作A与周围环境进行交互 在动作A和环境的作用下 智能体会产生新的
  • 【数据预处理】Pandas缺失的数据处理

    目录 缺少数据基础 何时 为何 数据丢失 被视为 缺失 的值 日期时间 插入缺失数据 缺少数据的计算 Sum Prod of Empties Nans GroupBy中的NA值 清理 填写缺失数据 填充缺失值 fillna 用PandasO
  • 强化学习入门《Easy RL》

    什么是强化学习 强化学习关注的是智能体 Agent 在复杂的环境 Environment 中如何最大化获得的奖励 Reward 智能体和环境两部分组成了强化学习 在强化学习过程中 智能体与环境一直在交互 智能体在环境中获取某个状态后 它会利
  • CARLA平台+Q-learning的尝试(gym-carla)

    接触强化学习大概有半年了 也了解了一些算法 一些简单的算法在gym框架也实现了 那么结合仿真平台Carla该怎么用呢 由于比较熟悉gym框架 就偷个懒先从这个开始写代码 项目地址 https github com cjy1992 gym c
  • 强化学习笔记(1)-同策回合更新算法

    在我上一篇博客文章https blog csdn net gzroy article details 119509552中对21点的策略进行了研究 采用蒙特卡洛的方式来进行多次的模拟 通过对比不同策略的收益来找到最佳的策略 主要是通过概率的
  • 论文笔记:STMARL: A Spatio-Temporal Multi-AgentReinforcement Learning Approach for Cooperative Traffic

    0 abstract 智能交通灯控制系统的开发对于智能交通管理至关重要 虽然已经做出了一些努力以孤立的形式来优化单个红绿灯的使用 但相关研究在很大程度上忽略了多路口红绿灯的使用受到空间影响的事实 以及历史交通状态的时间依赖性 为此 在本文中
  • 强化学习实践三 :编写通用的格子世界环境类

    gym里内置了许多好玩经典的环境用于训练一个更加智能的个体 不过这些环境类绝大多数不能用来实践前五讲的视频内容 主要是由于这些环境类的观测空间的某个维度是连续变量而不是离散变量 这是前五讲内容还未涉及到的知识 为了配合解释David Sil
  • 2022年2月份谷哥学术资源分享下载列表 20/20

    资源名称 下载地址 关键词 项目反应理论与经典测验理论之比较 pdf https download csdn net download tysonchiu 79246540 技术文档 响应面方法在优化微生物培养基中的应用 pdf https
  • Pytorch中常用的损失函数

    Pytorch中常用的损失函数 回归 nn L1Loss nn MSELoss 分类 nn CrossEntropyLoss 回归 nn L1Loss 平均绝对误差 也称L1范数损失 计算预测值与真实值之间的误差绝对值 L 1 L o s

随机推荐

  • vscode里面配置Git默认终端

    文章目录 前言 一 为什么VsCode的终端默认文件选择项里面会没有Git的终端配置 二 配置默认Git终端 1 打开settings json文件 2 将配置找到 小编亲测 3 找到Git路径 4 结果 总结 废话很多 看完就对能行 前言
  • OpenCV-Python绑定如何工作及如何扩展新模块到Python

    OpenCV Python绑定如何工作及如何扩展新模块到Python 1 OpenCV Python 绑定的基本版本 2 如何将OpenCV的新模块扩展到 Python 参考 这篇博客将介绍 OpenCV Python 绑定是如何生成的以及
  • 127.0.0.1拒绝了我们的连接请求

    问题描述 浏览器打不开127 0 0 1 显示拒绝连接 试着ping了一下 需要指明一点 1是ipv6的地址 但正常localhost应该指向127 0 0 1 使用Windows自带的网络诊断工具 出现了 127 0 0 1未设置为接受端
  • 【毕业设计】便携式STM32的红外信号分析仪 - 单片机 物联网 嵌入式

    文章目录 0 前言 1 简介 2 主要器件 3 实现效果 4 设计原理 5 部分核心代码 5 最后 0 前言 这两年开始毕业设计和毕业答辩的要求和难度不断提升 传统的毕设题目缺少创新和亮点 往往达不到毕业答辩的要求 这两年不断有学弟学妹告诉
  • C#开发之——GetType方法(6.5)

    一 概述 C 中GetType方法用于获取当前实例的类型 返回值为System Type类型 C 中GetType方法不含有任何参数 是非静态方法 使用任何对象都能直接调用该方法 二 实例 创建字符串类型的变量 整数类型的变量以及Stude
  • 傻瓜式3分钟理解:工厂模式(简单工厂+工厂方法+抽象工厂)

    一 给我一句话概括 简单工厂 工厂类中 根据条件决定一个接口由哪个具体产品类来实现 工厂方法 创建多个工厂类 各个工厂类中 都对应一个获得接口A实例的方法 用户决定使用哪个工厂 抽象工厂 对工厂方法进行扩展 各个工厂类中 再增加一个获得接口
  • 移位运算

    div class markdown views div
  • python中dict数据转DataFrame,pandas实现类似sql查询语句

    目的 将一组dict字典数据转为pandas的DataFrame格式 然后用pandas实现类似sql语句中select from xxx where condition的功能 一 python中将dict格式数据转为DataFrame格式
  • 4.4.2 中文标点符号验证

    英文标点符号比较多 如 逗号 点号 问号 冒号 分号 单引号 感叹号 双引号 连接号 破折号 省略号 小括号 中括号 大括号 顿号 书名号等 以下正则表达式能够验证英文标点符号 2 64 正则表达式 64 解释 匹配 符号 2 匹配破折号
  • Java 添加背景图片

    import java awt import javax swing public class TestBackgroundColor extends JFrame public static void main String args T
  • IF语句例题(一)

    石头剪刀布 需求 1 从控制台输入要出的拳 石头 1 剪刀 2 布 3 2 电脑随机出拳 先假定电脑会出石头 完成代码功能 3 比较正负 解题 首先我们先会议一些input函数 在input函数中内部都是字符串 所以说要把字符串变成整数 p
  • k8s安全管理:认证、授权、准入控制概述

    概述信息 k8s对我们整个系统的认证 授权 访问控制做了精密的设置 对于k8s集群来说 apiserver是整个集群访问控制的唯一入口 我们在k8s集群之上部署应用程序的时候 也可以通过宿主机的NodePort暴露的端口访问里面的程序 用户
  • linux备份工具

    这本阿里P8撰写的算法笔记 再次推荐给大家 身边不少朋友学完这本书最后加入大厂 Github 疯传 史上最强悍 阿里大佬 LeetCode刷题手册 开放下载了 经常备份计算机上的数据是个好的做法 它可以手动完成 也可以设置成自动执行 许多备
  • Java____西财大图书管理系统 代码实现

    西财大图书管理项目代码 book类 1 book 2 bookist operation类 1 AddOperation 2 BorrowOperation 3 DisplayOperation 4 FindOperation 5 Remo
  • 信号与系统matlab心得体会,实验五 Matlab在信号与系统分析中的应用

    实验五Matlab在信号与系统分析中的应用 08电子 3 班E08610308 陈建能 一 实验目的 1 学会用MATLAB进行Laplace正 反变换及Z正 反变换 2 掌握利用MATLAB画出系统的幅频响应 相频响应的方法 3 掌握利用
  • 【C语言】N 阶矩阵的转置

    非主对角线元素的调换 只需要将蓝色虚线左边的元素进行调换 include
  • u盘装系统

    1 用ultraiso将ios写入u盘 2 U盘插入电脑 3 开机狂按某键进入 boot启动页面 4 选择该u盘 enter回车确认安装
  • ag-grid表格基本使用方法-React版本

    AG表格基本用法及Api 在要使用的项目中 首次使用需要引入相关组件包 注 项目中所有组件都是封装之后的 引入方式如下 import Table from pkg common table 引入完成后 在view层需要用到表格的地方直接放入
  • Vue3的filter过滤器代替方法

    Vue3的过滤器代替方法 前言 一 使用步骤 1 vue2的filter 2 vue3的computed 总结 前言 最近博主从vue2转到vue3 惊奇的发现vue2里面的filter在vue3中不再支持 官方建议用计算属性或方法代替过滤
  • 现代博弈论与多智能体强化学习系统

    如今 大多数人工智能 AI 系统都是基于处理任务的单个代理 或者在对抗模型的情况下 是一些相互竞争以改善系统整体行为的代理 然而 现实世界中的许多认知问题是大群人建立的知识的结果 以自动驾驶汽车场景为例 任何座席的决策都是场景中许多其他座席