多星分布式任务分配中的博弈自组织

2023-05-16

多星分布式任务分配中的博弈自组织

Game theoretic self-organization in multi-satellite distributed task allocation
论文复现见 [论文复现]多星分布式任务分配中的博弈自组织 -CSDN博客

摘要 本文将多卫星系统中的自组织任务分配描述为一个势博弈,并通过博弈学习提出了一种分布式任务分配算法(DT2A)。我们证明了博弈的每个纳什均衡构成了一个任务覆盖,该任务覆盖使执行任务的数量最大化。此外,我们还证明了所提出的DT2A在有限时间内以概率1收敛到接近最优的分配。数值实验证明了该算法对偶然干扰的鲁棒性,并揭示了存储器长度对求解效率改进的积极影响。在小规模和大规模场景中的比较实验突出了所提出的方法相对于分布式或集中式的现有典型方法的优越性。

1 引言

  受航空航天探索日益增长的需求以及网络技术的成熟推动,航天工业正面临着一场范式的架构变革,从单一的单个大型航天器到分布式卫星系统,其中包括多个协同工作的空间元素[1-4]。一个典型的例子是地球观测星座[5],其中一组可能是异构的传感平台在不同的轨道上运行,拍摄感兴趣区域的照片。一方面,这种架构带来了显著的优势,包括更高的重访频率、更大的表面覆盖率、更好的灵活性以及对环境变化的更大适应性[6]。另一方面,一系列新的挑战以及深远的好处,尤其是任务分配和任务规划,其中需要协调的智能自治来最大化系统级性能[2]。此外,还必须考虑许多限制因素,例如卫星平台特性、客户要求、有限的通信机会以及外部干扰,如云层遮挡物体。
  尽管为单个系统设计的集中式方法具有高解精度和方便实现的优点,但出于可扩展性和鲁棒性的考虑,它们不一定适用于分布式场景[8,9]。因此,迫切需要使用自适应和自组织机制的新方法,其中合作行为有望从自治行为体之间的局部交互中产生,系统级性能不再严重依赖于任何单个组件的功能。为此,已经提出并研究了一系列分布式方法,包括隐式协调[10]、基于拍卖的算法[11,12]和生物启发的自组织[13,14]。然而,由于缺乏坚实的理论支持,如果没有中心领导者的帮助,很难保证高质量的解决方案。
  幸运的是,博弈论为解决多智能体系统中的分布式协调和优化问题提供了一个强有力的工具,它涉及理性决策者之间的冲突与合作研究[15,16]。与传统方法相比,博弈论在问题建模和算法设计方面具有无可比拟的优势,尤其是在势博弈的框架内[17,18]。更重要的是,通过纳什均衡的概念和详细的学习规则,可以从局部交互中保证令人满意的集体行为甚至最优解。沿着这条路线,已经研究了一系列分布式决策问题,包括顶点覆盖[19-21]、集合k覆盖[22,23]以及资源或任务分配[24-26]。
  相比之下,将分布式卫星合作与博弈中非常相关的学习分支明确联系起来的研究相对较少[27,28]。为了解决分布式成像卫星应急任务的动态调度问题,Wang等人提出了一种基于任务合并策略的动态调度方法,但他们没有解决单个任务之间的耦合问题[29]。郑等人专注于分散场景下的多卫星机载任务分配。提出了两种博弈论谈判机制,分别称为烟雾信号博弈和基于广播的博弈。尽管不再需要信息中心与其他每一个代理交换信息,但对本地公用事业的评估仍取决于通过对等通信或广播积累的该组的完整知识[30]。此外,作者没有详细完整的描述,只提供了他们方法的粗略概述,这阻碍了其性能评估和实际应用。
  针对多卫星任务分配中的自组织问题,本文从竞争博弈论的角度提出了一种完全分布式的协调方法,其中每个单独的卫星被视为一个自主参与者,其目标是最大化其自身的效用,仅依赖于邻域中的局部信息。具体而言,论文的贡献有四个方面。首先,通过将任务分配问题表述为无约束优化,并将全局目标分配到每个卫星,我们将其重构为一个势博弈,并证明它们的等价性。其次,我们提供了一种以分布式方式实现的协调算法,其中每个卫星仅与邻居交互,并根据基于有限贪婪和有限内存的随机规则进行更新。第三,我们证明了我们的算法以概率1收敛于纳什均衡的约定,该约定对应于在降低系统级成本的同时最大化执行任务数量的近似最优分配。最后,通过密集的数值实验,我们证明了所提出的方法优于现有的典型方法。特别是,我们发现,增加存储器长度有助于提高解决方案的效率,但代价是协调时间更长,偶然的通信错误有时会对协调结果产生积极影响。据作者所知,这是首次尝试从势博弈论角度解决分布式卫星任务分配问题,并仅通过局部协调为解决方案效率提高提供了有效途径。
  论文的其余部分组织如下。第二节给出了分布式卫星任务分配的问题公式和博弈模型。在第3节中,我们通过博弈论中的随机学习开发了分布式任务分配算法(DT2A),并对其收敛性进行了理论分析。第4节通过数值实验对我们的算法进行了评估,并与典型的基准算法进行了比较。最后一节提供了一些结论性意见,并简要描述了未来的工作。

2 问题描述

  在本节中,我们给出了多卫星任务分配的公式,并借助势博弈构建了博弈论模型。表1总结了本文中使用的主要符号和符号的含义。
表1

符号定义
S / s i S/s_i S/si卫星的集合/第 i i i 个卫星
R / r j R/r_j R/rj客户端请求集合/第 j j j 个请求
n n n卫星数量
m m m客户端请求数量
A i f A_i^f Aif s i s_i si 的可行任务集合
A i / a i A_i/a_i Ai/ai s i s_i si 的可行分配集合 / s i s_i si的一个可行分配
n i n_i ni a i a_i ai 中的任务数量
A / a A/a A/a分配解集空间/一个分配解集
N \mathbb{N} N a a a 中正在执行的任务数量
Ω i \Omega_i Ωi s i s_i si 的邻居集合
f ( a i ) f(a_i) f(ai) s i s_i si 执行 a i a_i ai 的全部工作成本
c i ( r i j ) c_i(r_{ij}) ci(rij) s i s_i si 执行任务 r i j r_{ij} rij 的观测成本
F ( a ) F(a) F(a)联合分配 a a a 的全局目标
T 0 ( a ) T_0(a) T0(a) a a a 中的未分配任务集合
a ∗ a^* a全局目标 F F F 取最小值的点
U i U_i Ui i i i 个个体 s i s_i si 的局部效用
ϕ \phi ϕ势函数
U i ( a ) \mathcal{U}_i(a) Ui(a) s i s_i si 的可行的一组未分配任务
M i t M_i^t Mit t t t 代时 s i s_i si 的存储器向量
B i t / R i t B_i^t/R_i^t Bit/Rit s i s_i si t t t 时的最优响应 / 遗憾值
R i t ∗ / j ∗ R_i^{t*}/j^* Rit/j s i s_i si 的邻居在 t t t 时的最大遗憾值

2.1 多卫星任务分配

  考虑一个由一组卫星组成的地球观测星座 S = { s i ∣ i ∈ N } S=\{s_i|i\in N\} S={siiN},每个 s i s_i si 通过它的环绕飞行轨道 o i o_i oi、观测类别(例如光学或雷达)、摆动范围、存储容量以及执行两个相邻任务之间的最短时间间隔来定义。定义客户端请求集合 R = { r j ∣ j ∈ M } R=\{r_j|j\in M\} R={rjjM} M = { 1 , 2 , ⋯   , m } M=\{1,2,\cdots,m\} M={1,2,,m},每一个 r j r_j rj 是一个与观测类型、需要观测的网格区和最小存储需求相关联的元任务。
  对每个 s i s_i si,定义其可行任务集 A i f A_i^f Aif,该任务集由位于它的关注领域内可分别完成的任务组成。出于执行效率的考虑,一系列给定的 s i s_i si 的可行任务被看作一个特别的任务序列,该序列按与 s i s_i si 相遇的时间顺序执行。如图1所示, { r 2 , r 3 , r 4 } \{r_2,r_3,r_4\} {r2,r3,r4} 表示对于 s i s_i si 的任务序列为 r 4 → r 2 → r 3 r_4\rightarrow r_2\rightarrow r_3 r4r2r3。当对应的任务序列 r i 1 → r i 2 → ⋯ → r i n i r_{i1}\rightarrow r_{i2}\rightarrow\cdots\rightarrow r_{in_i} ri1ri2rini 没有超出工作约束时, s i s_i si 的一个可行任务 a i a_i ai 定义为 A i f A_i^f Aif 的子集,可行分配集定义为 A i A_i Ai。对应地,分配解集{profile}空间定义为 A = ∏ i = 1 n A i A=\prod_{i=1}^nA_i A=i=1nAi,其中 a = { a 1 , a 2 , ⋯   , a n } ∈ A a=\{a_1,a_2,\cdots,a_n\}\in A a={a1,a2,,an}A 是所有卫星的可行分配的组合。为了简化理论分析,我们假设 A i f A_i^f Aif 的每个子集由 s i s_i si 的一个可行分配组成。因此 A A A 的基数为 2 ϵ 2^\epsilon 2ϵ ϵ = ∑ i ∈ N ∣ A i f ∣ \epsilon=\sum_{i\in N}|A_i^f| ϵ=iNAif。对每个 a ∈ A a\in A aA,定义 N ( a ) = ∣ ⋃ i ∈ N a i ∣ \mathbb{N}(a)=\left|\bigcup_{i\in N}a_i\right| N(a)= iNai 为正在执行的任务数量。当最大数量的任务正在处理时,一个分配解集 a a a 是一个任务覆盖,也就是说,
N ( a ) = max ⁡ a ~ ∈ A N ( a ~ ) \mathbb{N}(a)=\max_{\tilde{a}\in A}\mathbb{N}(\tilde{a}) N(a)=a~AmaxN(a~)
对于分布式协调,假设两个卫星可以通过星间链路交换信息当且仅当它们有相同的可行任务。在这种情况下, s i s_i si 的邻居定义为 Ω i = { s j ∣ A i f ∩ A j f ≠ ∅ } \Omega_i=\{s_j|A_i^f\cap A_j^f\neq\varnothing\} Ωi={sjAifAjf=},且 s i ∉ Ω i s_i\notin\Omega_i si/Ωi
  (略)

2.2 等效性分析

  对于 a ∈ A a\in A aA,将未分配任务定义为集合 T 0 ( a ) = { r j ∣ b j ( a ) = 0 , j ∈ M } T_0(a)=\{r_j|b_j(a)=0,j\in M\} T0(a)={rjbj(a)=0,jM}。借此证明 F ( a ) F(a) F(a) 的最优解与最优任务覆盖等价。

定理1: 如果 ∀ j ∈ M , ω j > max ⁡ i ∈ N f ( A i f ) \forall j \in M,\omega_j>\max_{i\in N}f(A_i^f) jM,ωj>maxiNf(Aif),式(2)的最优解一定是使得全局代价最小化的最优任务覆盖。
证明: 假设 a ∗ a^* a 是式(2)的最优解但不是一个任务覆盖。此时一定存在至少一个元任务 r k r_k rk 没有分配给任何一个个体。此时可以构造另一个分配解集 a ^ ≠ a ∗ \hat{a}\neq a^* a^=a,这一解集中把 r k r_k rk 分配给了 s i s_i si,并且 r k ∈ A i f r_k\in A_i^f rkAif。将除了 s i s_i si 以外的任务分配记作 a − i = ( a 1 , ⋯   , a i − 1 , a i + 1 , ⋯   , a n ) a_{-i}=(a_1,\cdots,a_{i-1},a_{i+1},\cdots,a_n) ai=(a1,,ai1,ai+1,,an),并记 a ^ = ( a ^ i , a − i ∗ ) \hat{a}=(\hat{a}_i,a_{-i}^*) a^=(a^i,ai),其中 a ^ i = { a i ∗ , r k } \hat{a}_i=\{a_i^*,r_k\} a^i={ai,rk}。由式(1)(2)得
F ( a ∗ ) − F ( a ^ ) = ∑ j ∈ N [ f ( a j ∗ ) − f ( a ^ j ) ] + ∑ j ∈ T 0 ( a ∗ ) ω j − ∑ j ∈ T 0 ( a ^ ) ω j = ω k − f ( a ^ i ) + f ( a i ∗ ) = 0 \begin{aligned} F(a^*)-F(\hat{a}) =& \sum_{j\in N}[f(a_j^*)-f(\hat{a}_j)] +\sum_{j\in T_0(a^*)}\omega_j - \sum_{j\in T_0(\hat{a})}\omega_j \\ =& \omega_k - f(\hat{a}_i) + f(a_i^*) \\ =& 0 \end{aligned} F(a)F(a^)===jN[f(aj)f(a^j)]+jT0(a)ωjjT0(a^)ωjωkf(a^i)+f(ai)0
因为 ω k > max ⁡ i ∈ N f ( A i f ) ≥ f ( a ^ i ) \omega_k>\max_{i\in N}f(A_i^f)\geq f(\hat{a}_i) ωk>maxiNf(Aif)f(a^i)。这表明一个没有覆盖所有任务的分配一定不是式(2)的最优解。进一步,由于 f ( a ∗ ) f(a^*) f(a) 是所有 a ∈ A a\in A aA 中的最小值,很明显 a ∗ a^* a 是最优的任务覆盖。证毕。 □ \Box
**注1:**需要强调的是,尽管对于 s i s_i si,每个 A ⊆ \mathcal{A}\subseteq A 都有效的假设不正确,但 ω j > ∑ i = 1 n f i ( A i f ) , ∀ j ∈ M \omega_j>\sum_{i=1}^nf_i(A_i^f),\forall j\in M ωj>i=1nfi(Aif),jM,等效性依然满足,通过 F ( a ) < F ( b ) F(a)<F(b) F(a)<F(b),if N ( a ) > N ( b ) , ∀ a , b ∈ A \mathbb{N}(a)>\mathbb{N}(b),\forall a,b\in A N(a)>N(b),a,bA 来保证。

2.3 网络化势博弈

  为了在多卫星任务分配中实现自组织,我们考虑了一个网络博弈 G = ( S , { A i } , { U i } ) G=(S,\{A_i\},\{U_i\}) G=(S,{Ai},{Ui}),并将每个 S i ∈ S S_i\in S SiS 看作一个自主的理性参与者。从博弈论的角度来看, s i s_i si 的一个可行的任务分配 a i ∈ A i a_i\in A_i aiAi 被定义为一个行为,而每个分配解集 a ∈ A a\in A aA 称作行为组合。为了最大化局部效用 U i U_i Ui,每个参与者 s i s_i si 只根据 Ω i \Omega_i Ωi 中的邻居信息迭代地从行为集 A i A_i Ai 中选择它的行为。
  对于基于竞争博弈论的分布式协调和优化,纳什均衡、势博弈和共识的概念发挥着重要作用,这些概念通过以下定义得以阐明。
定义1(纳什均衡)(略)
定义2(共识)(略)
定义3(势博弈)(略)
  通过使用美好生活效应将系统目标分解到每个个体上,我们建立下面的势博弈。
定理2: 当势函数 ϕ ( a ) \phi(a) ϕ(a) 和局部效用函数 U i ( a ) U_i(a) Ui(a) 选为
ϕ ( a ) = − F ( a ) U i ( a ) = − f ( a i ) − ∑ k ∈ U i ( a ) ω k \begin{aligned} \phi(a) &= -F(a) \\ U_i(a) &= -f(a_i)-\sum_{k\in\mathcal{U}_i(a)}\omega_k \end{aligned} ϕ(a)Ui(a)=F(a)=f(ai)kUi(a)ωk
时,任务分配博弈 G = ( S , A i , U i ) G=(S,{A_i},{U_i}) G=(S,Ai,Ui) 是一个势博弈,其中 U i ( a ) = A i f ∩ T 0 ( a ) \mathcal{U}_i(a)=A_i^f\cap T_0(a) Ui(a)=AifT0(a) s i s_i si 的可执行但未分配任务的子集。
证明: 根据式(2)把 ϕ ( a ) \phi(a) ϕ(a) 分为无关的两个部分
ϕ ( a ) = − [ f ( a i ) + ∑ k ∈ U i ( a ) ω k ] − [ ∑ j ≠ i n f ( a j ) + ∑ k ∉ A i f ( 1 − b k ) ω k ] \phi(a) = -\left[f(a_i)+\sum_{k\in\mathcal{U}_i(a)}\omega_k\right] -\left[\sum_{j\neq i}^nf(a_j)+\sum_{k\notin A_i^f}(1-b_k)\omega_k\right] ϕ(a)= f(ai)+kUi(a)ωk j=inf(aj)+k/Aif(1bk)ωk
因此当个体 s i s_i si 将其策略从 a a a 中的 a i a_i ai 单方面切换到 a ~ \tilde{a} a~ 中的 a ~ i \tilde{a}_i a~i 时, ϕ ( a ) \phi(a) ϕ(a) 的变化为
ϕ ( a ~ ) − ϕ ( a ) = [ f ( a i ) + ∑ k ∈ U i ( a ) ω k ] − [ f ( a ~ i ) + ∑ k ∈ U i ( a ~ ) ω k ] = U i ( a ~ ) − U i ( a ) \begin{aligned} \phi(\tilde{a})-\phi(a) =& \left[f(a_i) + \sum_{k\in\mathcal{U}_i(a)}\omega_k\right] -\left[f(\tilde{a}_i) + \sum_{k\in\mathcal{U}_i(\tilde{a})}\omega_k\right] \\ =& U_i(\tilde{a})-U_i(a) \end{aligned} ϕ(a~)ϕ(a)== f(ai)+kUi(a)ωk f(a~i)+kUi(a~)ωk Ui(a~)Ui(a)
根据定义,这一定是一个势博弈。 □ \Box
  通过利用势博弈的优势,势函数的最优解一定是一个纳什均衡,分布式任务分配问题可以近似成得到并尽可能调整纳什均衡直到达到全局最优解。注意到由于 ω j \omega_j ωj 可以设置为任意大的数,所以并不需要全局信息来满足定理1.

定理3: 对于任务分配博弈 G = ( S , { A i } , { U i } ) G=(S,\{A_i\},\{U_i\}) G=(S,{Ai},{Ui}),每个纳什均衡解 a ∈ A a\in A aA 一定是一个没有重复分配任务的任务覆盖。
证明: 这一可行性可以根据定理1简单地展示。对任意一个非任务覆盖的纳什均衡 a a a 至少有一个个体 s i s_i si 有单独改变自己行为的动力,即添加一个未覆盖任务 r j r_j rj 得到 a ~ i = { a i , r j } \tilde{a}_i=\{a_i,r_j\} a~i={ai,rj},其中 r j ∈ A i f r_j\in A_i^f rjAif。因为 U i ( a ) − U i ( a ~ i , a − i ) < 0 U_i(a)-U_i(\tilde{a}_i,a_{-i})<0 Ui(a)Ui(a~i,ai)<0,其中 a − i a_{-i} ai 表示 a a a 中除了 s i s_i si 以外的所有分配,这与 a a a 是一个纳什均衡的假设冲突,证明了 a a a 一定是一个任务覆盖。同样的道理,由于一个个体可以通过单独删除一个重复的任务来降低自己的效用函数,所以每个任务一定只分配给了一个卫星。证毕。 □ \Box

3. 算法设计

  本节提出了一个从势博弈中学习的多卫星分布式任务分配的自组织机制,并借助共识展示了其收敛性。

3.1 分布式任务分配算法(DT2A)

  为了能在求解效率和收敛速度之间取得平衡,我们引入了随机性,为每个参与者建立一个长度为 l l l 的存储器。特别地,将第 t t t 代的存储器向量定义为 M i t = ( v 1 , v 2 , ⋯   , v l ) , v j ∈ A i M_i^t=(v1,v2,\cdots,v_l),v_j\in A_i Mit=(v1,v2,,vl),vjAi,存储器解集定义为 M t = { M 1 t , M 2 t , ⋯   , M n t } M^t=\{M_1^t,M_2^t,\cdots,M_n^t\} Mt={M1t,M2t,,Mnt}。对地面发来的请求集合 R R R,我们假设一个广播机制,所有卫星都能收到完整的任务集合。基于这一假设,每个 s i s_i si 计算其可行任务集 A i f A_i^f Aif 并获得可行分配集 A i A_i Ai
  开始分布式任务分配前,每个卫星初始化时在 A i A_i Ai 中随机选择 a i t = 1 a_i^{t=1} ait=1 M i t = 1 M_i^{t=1} Mit=1。然后同步执行主协调步骤。在每个迭代步 t t t 时,每个参与者只与其在 Ω i \Omega_i Ωi 中的邻居交换行为信息 a i t a_i^t ait。根据式(6)中的局部效用 U i t U_i^t Uit,最优响应 B i t B_i^t Bit 和遗憾值 R i t R_i^t Rit 通过下式计算
B i t = arg max ⁡ a ~ i t ∈ A i U i ( a ~ i t , a − i t ) R i t = U i ( B i t , a − i t ) − U i ( a i t , a − i t ) \begin{aligned} & B_i^t=\argmax_{\tilde{a}_i^t\in A_i} U_i(\tilde{a}_i^t,a_{-i}^t) \\ & R_i^t=U_i(B_i^t,a_{-i}^t)-U_i(a_i^t,a_{-i}^t) \end{aligned} Bit=a~itAiargmaxUi(a~it,ait)Rit=Ui(Bit,ait)Ui(ait,ait)
Ω i \Omega_i Ωi 中的最大遗憾值定义为 R i t ∗ = max ⁡ j ∈ Ω i R j t R_i^{t*}=\max_{j\in\Omega_i}R_j^t Rit=maxjΩiRjt,其ID号定义为 j ∗ = min ⁡ ( arg max ⁡ j ∈ Ω i R j t ) j^*=\min(\argmax_{j\in\Omega_i}R_j^t) j=min(argmaxjΩiRjt)。当同时满足以下两个条件时,参与者 s i s_i si 定义为“创新者”:
(1) 其在 Ω i \Omega_i Ωi 中有最大正遗憾值,即
R i t > 0 , R i t ≥ R j t , ∀ s j ∈ Ω i R_i^t>0,R_i^t\ge R_j^t,\forall s_j\in\Omega_i Rit>0,RitRjt,sjΩi
(2) 任意满足 j < i j<i j<i 的邻居 s j ∈ Ω i s_j\in\Omega_i sjΩi 有更小的遗憾值,即
∀ j < i , R j t < R i t \forall j<i,R_j^t<R_i^t j<i,Rjt<Rit
否则, s i s_i si 定义为普通参与者。对于一个创新者,将其受限的最优响应定义为 β i t = B i t \beta_i^t=B_i^t βit=Bit,普通参与者为 β i t = a i t \beta_i^t=a_i^t βit=ait。很明显在任意邻居集 Ω i \Omega_i Ωi 中最少有一个创新者。
  与确定性机制相反,一个 DT2A 中的参与者在有限存储器向量中使用随机协调策略。首先, s i s_i si 通过丢弃存储器中最早的数据来更新 M i t M_i^t Mit,并记录 β i t \beta_i^t βit 来计算 M i t + 1 = ( v 2 , v 3 , ⋯   , v l , β i t ) M_i^{t+1}=(v_2,v_3,\cdots,v_l,\beta_i^t) Mit+1=(v2,v3,,vl,βit) ,其次,随机地选择 M i t + 1 M_i^{t+1} Mit+1 中的一个行为来生成 a i t + 1 a_i^{t+1} ait+1,算法进入下一次迭代。持续这一步骤直到收敛。

3.2 收敛性分析

  在给出关于收敛性的主要结论之前,我们首先介绍对推理链至关重要的两个声明。
声明1: 关于DT2A中的随机机制,一个共识是稳定的。
证明: 假设 h t = ( a t + 1 − l , a t + 2 − l , ⋯   , a t ) h^t=(a^{t+1-l},a^{t+2-l},\cdots,a^t) ht=(at+1l,at+2l,,at) 是一个共识,其中每个元素 a τ , t + 1 − l ≤ τ ≤ t a^\tau,t+1-l\le\tau\le t aτ,t+1lτt 是同一个纳什均衡 a a a。对每个个体 s i ∈ S s_i\in S siS,更新后的存储器向量 M i t + 1 M_i^{t+1} Mit+1 仅由构成同一个纳什均衡点 a a a a i t a_i^t ait 组成,那么一定有 ∀ τ > t , a τ ≡ a \forall\tau>t,a^\tau\equiv a τ>t,aτa。证毕。
声明2: 考虑一个有限长度的随机过程。如果事件 E \mathbb{E} E 在每个时刻 t t t 发生的概率为 p t ( E ) > 0 p^t(\mathbb{E})>0 pt(E)>0,那么 E \mathbb{E} E 发生的概率为1。
证明: 因为 E \mathbb{E} E 永不发生的概率为
p 0 ( E ) = lim ⁡ t → ∞ ∏ t = 1 ( 1 − p t ( E ) ) = 0 p_0(\mathbb{E})=\lim_{t\rightarrow\infty}\prod_{t=1}(1-p^t(\mathbb{E}))=0 p0(E)=tlimt=1(1pt(E))=0
所以 E \mathbb{E} E 发生的概率为 p 1 = 1 − p 0 ( E ) = 1 p_1=1-p_0(\mathbb{E})=1 p1=1p0(E)=1
  从以上事实出发,我们在下面的定理中给出自组织的解决方案。
定理4: 一个给定的多卫星分布式任务分配问题,DT2A算法可以在任意初始分配解集 a 1 a^1 a1 和任意初始存储器解集 M 1 M^1 M1 出发,经过有限次迭代后收敛到一个共识。
证明: 首先考虑从 a t a^t at a t + 1 a^{t+1} at+1 的协调过程,并证明 DT2A 从任意 a t a^t at 和任意 m t m^t mt 出发以概率1达到纳什均衡。
(1) 当 l = 1 l=1 l=1 时,一个参与者通过确定性地采取唯一的行为来更新其自身行为,也就是在存储器中导致 a i t + 1 = β i t a_i^{t+1}=\beta_i^t ait+1=βit 的限制最优响应。已知在任意一个邻居区内最多只有一个使 a i t + 1 = β i t = B i t a_i^{t+1}=\beta_i^t=B_i^t ait+1=βit=Bit 的创新者,其余都是保持当前行为 a i t + 1 = β i t = a i t a_i^{t+1}=\beta_i^t=a_i^t ait+1=βit=ait 的普通个体。已知 ϕ \phi ϕ 在每次迭代中都单调增加,因为
ϕ ( a t + 1 ) − ϕ ( a t ) \phi(a^{t+1})-\phi(a^t) ϕ(at+1)ϕ(at)
(略)
证毕。

4. 仿真和结结果比较

5.总结

  针对多卫星系统的自组织任务分配,我们从博弈论的角度解决了这一问题,并通过博弈论中的学习提出了DT2A,其中每个卫星都被视为一个自主个体,试图仅依靠本地信息来最大化自己的收益。遵循精彩的生活效用{wonderful life utility},我们将系统级目标分解为个体个体的局部效用,并证明最终博弈是一个势博弈。为了以分布式方式导出接近最优的解,DT2A遵循同步迭代,其中每个卫星与邻居交换信息,并通过遵守有限贪婪和有限记忆的随机规则来更新其分配。借助于约定的概念,我们证明了从任何分配配置文件中,DT2A以有限步数收敛到纳什均衡,纳什均衡必须是构成任务覆盖的分配配置文件。
  通过密集的数值实验,我们表明,内存长度在分配效率和协调时间之间提供了有效的折衷,其中,在多次迭代后,大l通常可以获得更好的近似最优解,而小l在更短的时间内产生更昂贵的结果。此外,还证明了DT2A对诸如客户端请求改变或通信断开之类的随机干扰具有鲁棒性。特别是,对于仅在有限时间间隔内发生的偶然通信错误,我们的算法的解决效率实际上可以得到提高,而不是降低。最后,在小规模和大规模场景中进行了对比实验,结果证明了DT2A的优越性。特别是,随着l的增加,可以获得接近或甚至优于典型集中式算法的高效结果。我们未来的工作将集中在分布式卫星任务规划上,该规划包含了更多的约束及其现实应用。

利益冲突声明

  作者声明,他们没有已知的相互竞争的财务利益或个人关系可能会影响本文所报道的工作。

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

多星分布式任务分配中的博弈自组织 的相关文章

  • 2022年6月TIOBE编程语言排名:Python、C、Java

    2022年6月TIOBE编程语言排名 xff1a Python C Java 6 月榜单中TIOBE 官方用 C 43 43 即将超越 Java 为标题凸显出了最大的变化 xff0c 早在2021年 xff0c Python 在人工智能这条
  • neo4j desktop 重装几次之后,数据库出现感叹号

    问题 xff1a neo4j desktop 重装几次之后 xff0c 数据库出现感叹号 xff0c 而且出现了以前的数据库 xff0c 且无法删除 截图如下 xff1a 原因 xff1a 上次卸载不彻底 xff0c 存在系统缓存文件 新软
  • latex 编译 bib文件 的操作步骤

    本人使用的编辑软件 xff0c Texworks xff08 live自带的编辑工具 xff09 1 编译 tex文件 xff08 确保无报错 xff09 生成pdf 2 编译 bib文件 xff08 确保无报错 xff09 3 编译 te
  • 解决电脑能上网不能登陆QQ-已测试并解决

    方法1 现在常用的一种方法 xff1a 先连接手机热点 xff0c 然后等登录上后突然断开 xff0c 重新连回自己的网络 方法2 https blog csdn net qq 41862220 article details 109686
  • HTML页面中文字增多,字号会突然变大

    DIV中的文字超过一定数量之后 xff0c 在浏览器上显示突然变大 xff0c 与CSS设定的字号大小严重不符合 解决办法 xff1a 父级DIV添加CSS属性 height 100 或者 随便设置一个高度 这个问题很奇怪 xff0c 之前
  • C++分割字符串

    Python有自带的字符串分割函数 xff0c 但是C 43 43 却没有 xff0c 于是参考网上各种C 43 43 分割字符串的资源 xff0c 将其整理如下 方法1 xff1a include lt string h gt inclu
  • angular6解析模板字符串,$compile服务在angular6中的实现方法

    angular6解析动态字符串模板 依赖 xff1a Compiler服务viewContanierRef服务 步骤 xff1a 创建指令 xff0c 并通过指令接受字符串接受字符串 xff0c 并通过此字符串动态创建组件及模块compil
  • “JSON parse error: Unexpected character (‘1‘ (code 49))的解决方式

    现在是 xff1a 2022年4月30日22 29 49 大家好 xff0c 我是雄雄 刚刚在调用接口的时候 xff0c 出现了个错误 xff1a span class token punctuation span span class t
  • springboot实现用户统一认证、管理-前端实现

    大家好 xff0c 我是雄雄 xff0c 欢迎关注微信公众号 xff1a 雄雄的小课堂 前言 现在是 xff1a 2022年6月2日15 43 51 上篇文章讲述了springboot中实现用户统一认证的具体内容 xff0c 主要从后端角度
  • Settings 添加一级菜单

    Settings添加一级菜单 xff1a 1 一级菜单项的实现是Activity 例如MySettings java xff0c 此类文件直接继承的是Activity xff0c 添加比较简单 xff08 1 xff09 在清单文件中添加如
  • Use JsonReader.setLenient(true) to accept malformed JSON at line 1 column 4171 异常的解决方法

    在做本地json文件的解析时遇到了这个问题 原代码为 64 RequestMapping value 61 34 readJson1 34 public String readJson1 String cityJsonCode json解析
  • Visual Studio 中 Tab 转换为空格的设置

    在 Visual Studio 中写代码时 xff0c 按 Tab 键 xff0c 会自动进行缩进 有时希望实现按 Tab 键 xff0c 出现多个空格的效果 Visual Studio 提供了这样的功能 xff0c 具体设置方法为 xff
  • 剑指offer—03

    剑指 Offer 03 数组中重复的数字 找出数组中重复的数字 在一个长度为 n 的数组 nums 里的所有数字都在 0 xff5e n 1 的范围内 数组中某些数字是重复的 xff0c 但不知道有几个数字重复了 xff0c 也不知道每个数
  • JSONArray.remove(index)失败原因分析

    集合在执行remove方法的时候 xff0c 有两种执行方式 xff0c 第一种移除对象remove xff08 object xff09 xff0c 另一种根据下标移除remove xff08 intIndex xff09 错误案例 Li
  • 【批处理bat】暂停功能命令

    一 目的 对暂停功能做修改 二 功能 2 1屏蔽 pause gt nul 在原本的pause上使用右尖括号写入nul即可不显示任何内容 2 2修改 echo press anykey to continue XD 在pause前利用ech
  • AOSP的编译及刷机

    简介 众所周知 xff0c Android是开源的 xff0c AOSP xff08 Android Open Source Project xff09 为Android开源项目的缩写 作为一名Android开发 xff0c 掌握Andro
  • Linux常用命令记录(du、find、grep、hadoop/hdfs、sed、tar、tr)

    Linux常用命令 查询格式 语句1 语句2 语句3 xff1a 对语句1的输出结果进行语句2的判定 xff0c 然后对输出结果进行语句3的判定 如 xff1a cat a txt head 10 wc l 39 cat a txt 39
  • 虚拟机运行出现蓝屏的现象如何解决

    前两天给大家分享了如何在电脑上安装虚拟机 xff0c 听到有部分小朋友私信跟我反馈说 xff0c 自己本身电脑可以安装vm虚拟机但是他安装过后一运行就立马进入蓝屏修复界面 所以今天想跟大家分享一下遇见这种情况如何解决 xff08 本文以华硕
  • 小白也能学懂——子网划分(2)

    我前天讲了一下子网划分 xff0c 昨天比较忙碌就忘记写剩下的内容了 xff0c 今天吃过饭 xff0c 想给他补上 xff0c 主要还是细分一下子网划分的作用 xff0c 以及如果进行计算 xff0c 本章还不是算难 xff0c 但是计算
  • 三分钟告诉你什么是三层交换机!

    昨天上周我们讲了单臂路由和跨交换机传输 xff0c 今天想说一下三层交换机 xff0c 对了还有个小实验 xff0c 收到反馈说我每次都是在图里标注代码不够清晰 xff0c 所以接下来会在实际中把代码贴出来供大家复制使用 目录 一 三层交换

随机推荐

  • 链路聚合(二层链路和三层链路)

    昨天主要介绍了三层交换机 xff0c 今天顺其自然就讲到了链路聚合 xff0c 因为是交换机中一个比较重要的技术 xff0c 下面我们开始 目录 一 单臂路由和三层交换的复习 二 端口绑定技术 三 链路聚合 端口聚合 端口绑定实现的条件 四
  • 静态路由(也许是目前最全的)

    今天在公司 xff0c 新来了个实习生 xff0c 突然问道静态路由的问题 xff0c 他跟我讲他不会设置 然后我就很尴尬 xff0c 因为这个毕竟是基础知识嘛 所以今天整理了一下静态路由的知识 xff0c 跟大家分享一下 目录 一 路由器
  • C# 读取Json文件--代码示例

    1 C 读取Json文件 JsonConvert SerializeObject str object to string JsonConvert DeserializeObject obj string to json 2 Json文件创
  • 网络地址转换协议——NAT(恐怕是最全的版本)

    前天我说第二天要跟大家讲一下NAT的 xff0c 结果放假有些懒 xff0c 所以就放在今天更新 xff0c 希望大家不要凶我 xff0c 哈哈哈 目录 一 什么是NAT 1 NAT简介 2 NAT作用 3 NAT内网地址的范围 4 主要应
  • linux日志文件详解

    目录 一 日志文件的分类二 日志文件位置三 常见日志文件1 分析日志文件2 内核及系统日志 四 日志消息等级五 日志文件分析1 用户日志2 程序日志 六 日志分析注意事项 一 日志文件的分类 日志文件是用于记录Linux系统中各种运行消息的
  • 虚拟化与docker基础

    文章目录 一 虚拟化1 虚拟化概述2 虚拟化的功能3 虚拟化的三种模式4 容器与虚拟化 二 Docker1 容器概述2 Docker概述3 Docker的设计宗旨4 容器与虚拟机的区别5 容器在内核中支持两种重要的技术6 Docker核心概
  • Docker容器网络模式与数据管理

    文章目录 一 Docker容器操作1 容器创建2 查看容器的运行状态3 启动容器4 创建并开启容器5 终止容器运行6 容器的进入7 复制文件到容器中 宿主机中8 容器的导出与导入9 删除容器 二 Docker网络1 Docker网络实现原理
  • docker镜像的创建与dockerfile

    文章目录 一 docker镜像的创建1 创建镜像的方法2 基于现有镜像创建3 基于本地模板创建4 基于dockerfile创建 二 Dockerfile1 概述2 Dockerfile结构3 Dockerfile镜像结构的分层4 Docke
  • matlab中值滤波实现

    中值滤波是一种典型的非线性滤波 xff0c 是基于排序统计理论的一种能够有效抑制噪声的非线性信号处理技术 xff0c 基本思想是用像素点邻域灰度值的中值来代替该像素点的灰度值 xff0c 让周围的像素值接近真实的值从而消除孤立的噪声点 该方
  • 程序员的情人节

    今天是一个好的节日 xff0c 七夕呀 xff01 程序是最好的女朋友 xff0c 它是不会骗你的 它偶尔会发些小的情绪 只是你没有懂它
  • stm32-Hardfault及内存溢出的查找方法

    STM32内存结构 1 要点 1 1 两种存储类型 RAM 和 Flash RAM可读可写 xff0c 在STM32的内存结构上 xff0c RAM地址段分布 0x2000 0000 0x2000 0000 43 RAM size Flas
  • raylib部分源代码功能解读

    官网 https www raylib com https github com raysan5 raylib 我根据自己的需求裁剪了多余功能后的代码 xff1a https gitee com xd15zhn raylib https g
  • 无量纲处理、量纲变换与实时仿真理论

    基本原理 万有引力公式 d 2 r
  • 局域网windows平台下时间同步

    最近单位出现很多应为系统时间不统一造成的问题 xff0c 如 客户机时间与服务器时间不同步 xff0c 而客户机使用软件是读取本机时间上传服务器 xff0c 这样就会造成排序错误 每次开机修改很繁琐 我就想到了在局域网内假设时间服务器的想法
  • 水下潜航器的建模与控制

    线性系统理论大作业 待完成 题目 水下潜器模型 xff0c 可能是潜艇或者鱼雷等对象 一个主推进螺旋桨 xff0c 前后两对水平陀翼 xff0c 后面一对垂直陀翼 潜器前进过程中 xff0c 通过调节助推进螺旋桨推力 xff0c 以及三对陀
  • 演化博弈、复制动态方程与仿真

    本文只整理和总结一下我的理解 xff0c 文末列出了可供参考的更详细完整的资料 建议先看参考资料 1 xff08 博弈论公开课 xff09 的博弈论课程 xff0c 可以直接从第11讲开始看 参考链接 2 是关于演化博弈非常经典的一本书 参
  • 演化博弈方法用于多智能体系统最优资源分配

    演化博弈方法用于多智能体系统最优资源分配 Evolutionary game theoretic approach for optimal resource allocation in multi agent systems 论文复现见 论
  • [论文复现]演化博弈方法用于多智能体系统最优资源分配

    原文 演化博弈方法用于多智能体系统最优资源分配 CSDN博客 https ieeexplore ieee org document 8243778 问题描述 有2种资源分配给6个个体 xff0c 2种资源的总量分别为 y 1 61 545
  • 基于博弈学习的分布式卫星任务规划

    基于博弈学习的分布式卫星任务规划 Distributed Satellite Mission Planning via Learning in Games 摘要 对地观测卫星群的任务规划是一个复杂的问题 xff0c 它提出了重大的理论和技术
  • 多星分布式任务分配中的博弈自组织

    多星分布式任务分配中的博弈自组织 Game theoretic self organization in multi satellite distributed task allocation 论文复现见 论文复现 多星分布式任务分配中的博