多智能体强化学习与博弈论-博弈论基础2

2023-11-02

多智能体强化学习与博弈论-博弈论基础2

Repeated Games(重复博弈)

之前我们介绍了一些单次博弈的例子,除了单次博弈外,重复博弈也是经常在我们生活中出现的。在重复博弈中智能体有机会在单次的博弈中占到对手的便宜,但是由于考虑到后来还有博弈,可能其它的智能体会采取对自己更为不利的策略,智能体为了有更好的长期收益,所以决定智能体策略的选择会更加复杂。

在重复博弈的过程中不仅要考虑当前这次的博弈,还需要考虑以后的博弈收益。对于以后的博弈,需要给定一个折扣,距离现在的时间越长,折扣越大。折扣可以使用 δ t \delta^t δt来表示。

在重复博弈中有很多的策略,其中的一种策略为grim trigger strategy。以重复的囚徒困境为例。当另一个人选择C的时候,这个囚徒也选择C。一旦另一个人选择一次D,这个囚徒就在接下来的博弈中每次都选择D(C代表合作,D代表不合作)。

在这里插入图片描述

假设两个player中player1采取的是grim trigger strategy.

若player2一直选择C,则他的收益为:

u 2 ( h ) = ∑ t = 0 ∞ δ t u ( a 2 t ) = ∑ t = 0 ∞ δ t 2 = 2 / ( 1 − δ ) u_{2}(h)=\sum_{t=0}^{\infty} \delta^{t} u\left(a_{2}^{t}\right)=\sum_{t=0}^{\infty} \delta^{t} 2=2 /(1-\delta) u2(h)=t=0δtu(a2t)=t=0δt2=2/(1δ)

若player2在某一回合选择了D,然后就一直继续选D(Starting D earlier would have a better utility),则他的收益为:

u 2 ( h ) ′ = ∑ t = 0 ∞ δ t u ( a 2 t ) = 3 + δ + δ 2 … = 2 + 1 1 − δ = 3 − 2 δ 1 − δ u_{2}(h)^{\prime}=\sum_{t=0}^{\infty} \delta^{t} u\left(a_{2}^{t}\right)=3+\delta+\delta^{2} \ldots=2+\frac{1}{1-\delta}=\frac{3-2 \delta}{1-\delta} u2(h)=t=0δtu(a2t)=3+δ+δ2=2+1δ1=1δ32δ

3 − 2 δ 1 − δ < = 2 / ( 1 − δ ) \frac{3-2 \delta}{1-\delta}<=2 /(1-\delta) 1δ32δ<=2/(1δ)时,Grim trigger strategy是一个纳什均衡。

另一个重复博弈中的策略为limited punishment。当另一个人选择了D之后,这个人选择几次D之后继续变回C。

另一个重复博弈中的策略为Tit-for-tat strategy(以牙还牙策略)。另一个人选C这个人就选C,另一个人选D这个人就选D。

Extensive Form Games

  • Strategic form games -> model one-shot games in which each player chooses his action once and for all simultaneously.

  • Extensive form games -> multi-agent sequential decision making.

假设有这么一个博弈

在这里插入图片描述

在这里插入图片描述

从表格中我们可以看到两个纳什均衡(In, A)和(Out, F)。但是实际上(1,2)这个纳什均衡的存在不合理,因为Entrant先做决策,他选择In后,Incumbent肯定会选择A因为选A比F的收益大。(1,2)这个纳什均衡存在是由于Entrant不合理的惧怕选择了In之后别人选择F。

在Extensive Form Games中需要保证子博弈完美纳什均衡,对于有限的博弈,可以使用逆向归纳法来寻找纳什均衡。

在这里插入图片描述

以上面这个博弈为例,首先我们从最后面往上推,player1会选择左边的策略,接着player2(player1上面那个)会选择左边的策略。另一个player2反推的话会选择左边的策略。最上面的player1会选择右边的那个策略,因此我们可以得到唯一的纳什均衡(3,2)这个点。

Potential Games(势博弈)

定义:A strategic form game is a potential game (such as ordinal potential game or exact potential game) if there exists a function Φ : S→ R such that$ Φ(s_i,s_{−i})$ gives information about$ u_i(s_i,s_{−i})$ for each i ∈ I.Φ is referred to as the potential function.
在这里插入图片描述
在这里插入图片描述

Theorem: 每个有限序数势博弈至少有一个纯策略纳什均衡。

Theorem:A game G is an exact potential game if and only if for all finite simple closed paths, γ, I (γ) = 0. Moreover, it is sufficient to check simple closed paths of length 4.

在这里插入图片描述

在这三个中Matching pennies就不是势博弈,其它两个都是。

举一个简单的势博弈的例子:

在这里插入图片描述

参考:

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

多智能体强化学习与博弈论-博弈论基础2 的相关文章

随机推荐

  • 播放声音

    声音类型 load 上料 switchs 换装 changes 换程 private enum Sound load switchs changes SoundPlayer sp new SoundPlayer
  • 在.NET中杀死Word,Excel等进程

    下面的方法可以直接调用 private void KillProcess string processName System Diagnostics Process myproc new System Diagnostics Process
  • 【Learning RAW-to-sRGB Mappings with Inaccurately Aligned Supervision通过不准确对齐的监督学习 RAW 到 sRGB 的映射】

    摘要 学习 RAW 到 sRGB 映射近年来引起了越来越多的关注 其中训练输入的原始图像以模仿另一台相机捕获的目标 sRGB 图像 然而 严重的颜色不一致使得生成输入原始和目标 sRGB 图像的良好对齐训练对非常具有挑战性 虽然使用不准确对
  • 解决java解析XML文件时的“伪属性名称”问题

    解决java解析XML文件时的 伪属性名称 问题 一定是xml文件写错了格式
  • apk部分手机安装失败_安卓手机安装软件失败的4种常见原因和解决办法

    安卓手机安装软件是普通人都会做的事情 不过这也是有可能会出现问题的 比如安卓手机安装软件失败了 这要怎么解决 安卓手机安装软件失败是一些新手用户可能会遇到的问题 虽然有很多方面的原因 不过大体上分为软件和硬件2种情况 下面就整理一些解决方法
  • Unity初学者对物体移动的总结

    Unity小白笔记文章 请大家多多指教 关于Unity3D控制物体移动的常用方法 首先控制物体移动即控制物体的空间坐标变化 在这里首先我们要知道Input输入事件 一般大家先想到的都是按一个按键去控制物体移动 Unity里也给我们提供了这种
  • Web前端之如何描述自己做过的项目

    在面试时 经过寒暄后 一般面试官会让介绍项目经验 常见的问法是 说下你最近的 或最拿得 出手的 一个项目 根据我们的面试经验 发现有不少候选人对此没准备 说起来磕磕巴巴 甚至有人说出项目经验从时间 段或技术等方面和简历上的不匹配 这样就会造
  • Unity 弓箭射靶游戏实践

    一 实现思路 根据之前的飞碟工厂进行改变 在射出弓箭手上没有弓箭之后重新生成新的弓箭 并将射出的弓箭在一定时间后进行回收 在右下角通过小窗口展示靶子的情况 射中不同的环数给予不同得分 二 主要涉及技术 物理引擎的使用 游戏对象的生产与回收
  • 关于autorelease pool一个较好的理解

    如果你能够真正的理解autorelease 那么你才是理解了Objective c的内存管理 Autorelease实际上只是把对release的调用延迟了 对于每一个Autorelease 系统只是把该Object放入了当前的Autore
  • 第二十三章 模块代码编写基础

    模块的创建 python中的所有 py文件都能做为模块 模块文件名 模块的命名应该遵循一般变量名的命名规则 模块的使用 import语句 import语句直接列出一个或多个需要加载的模块的名称 以逗号分隔 因为它用一个名称引用整个模块 im
  • Docker配置本地镜像与容器的存储位置

    使用find命令找到大于指定大小的文件 find type f size 10G 排除某个目录 find path media xww type f size 10G 修改Docker本地镜像与容器的存储位置的方法 方法一 软链接 默认情况
  • Qt程序crash信息的捕捉与跟踪(qt-mingw)

    在用qt编写程序时经常会遇到崩溃问题 如果抓取不到crash堆栈信息就会对崩溃问题束手无策 只能对其进行复现 推断 目录 一般解决crash问题时有如下步骤 如何执行以上3步骤 下面我详细介绍如何操作 步骤1 步骤2 步骤3 网友评论 一般
  • js取消默认事件和事件绑定

    1 默认事件 浏览器本事具备的一些功能 如鼠标右键菜单 a标签跳转页面 如果要阻止这些默认行为 可以用return false w3c中定义了ev preventDefault 这个不兼容IE11以下
  • Java 内存可见性与volatile

    在多核系统中 处理器一般有一层或者多层的缓存 这些的缓存通过加速数据访问 因为数据距离处理器更近 和降低共享内存在总线上的通讯 因为本地缓存能够满足许多内存操作 来提高CPU性能 如图 处理器的多层缓存模型 JVM需要实现跨平台的支持 它需
  • Acwing-1112. 迷宫

    include
  • [JavaScript][异步]Promise 构造函数是同步执行还是异步执行,那么 then 方法呢

    JavaScript 异步 Promise 构造函数是同步执行还是异步执行 那么 then 方法呢 const promise new Promise resolve reject gt console log 1 resolve cons
  • MATLAB查看变量的类型

    MATLAB查看变量的类型 gt gt a 100 a 100 gt gt class a ans double gt gt single a ans single 100 gt gt class ans ans single class
  • ubuntu 下 Android系统编译开 发 环境搭建

    官方的搭建android 系统源码 开发环境教程 https source android com source building 这个网址如果打不开 需要翻墙操作 Ubuntu JDK安装配置的详细步骤 Ubuntu JDK安装配置1 下
  • Prophet模型中plot_components四种主要成分含义

    Prophet模型中plot components四种主要成分含义 在Prophet模型中 plot components函数可以对时间序列数据的不同成分进行可视化分析 从而为使用者提供一定的参考依据 其中有四个主要成分 含义如下 tren
  • 多智能体强化学习与博弈论-博弈论基础2

    多智能体强化学习与博弈论 博弈论基础2 Repeated Games 重复博弈 之前我们介绍了一些单次博弈的例子 除了单次博弈外 重复博弈也是经常在我们生活中出现的 在重复博弈中智能体有机会在单次的博弈中占到对手的便宜 但是由于考虑到后来还