-
摘要: 基于深度神经网络(Deep neutral networks, DNN)的分类方法因缺乏可解释性, 导致在金融、医疗、法律等关键领域难以获得完全信任, 极大限制了其应用. 现有多数研究主要关注单模态数据的可解释性, 多模态数据的可解释性方面仍存在挑战. 为解决这一问题, 提出一种基于视觉属性的多模态可解释图像分类方法, 该方法将可见光和深度图等不同视觉模态提取的属性融入模型的训练过程, 不仅能通过视觉属性和决策树对已有的神经网络黑盒模型进行解释, 而且能在训练过程中进一步提升模型解释信息的能力. 引入可解释性通常会造成模型精度的降低, 该方法在保持模型具有良好可解释性的同时, 仍具有较高的分类精度, 在NYUDv2、SUN RGB-D和RGB-NIR三个数据集上, 相比于单模态可解释方法, 该模型准确率明显提升, 并达到与多模态不可解释模型相媲美的性能.Abstract: The classification methods based on deep neutral networks (DNN) lack interpretability, which makes it difficult to gain complete trust in key fields such as finance, medical treatment, and law, greatly limiting their applications. Most existing research mainly focuses on the interpretability of uni-modal data, while there are still challenges in the interpretability of multimodal data. To address this issue, a multimodal interpretable image classification method based on visual attributes is proposed. This method incorporates attributes extracted from different visual modalities such as visible light and depth maps into the training process of the model. It not only interpret the existing black box model of neural networks through visual attributes and decision trees, but also further enhances the model's ability to interpret information during the training process. Introducing interpretability often leads to a decrease in model accuracy. This method maintains good interpretability while still maintaining high classification accuracy. Compared to uni-modal interpretable methods, the accuracy of this model is significantly improved on the NYUDv2, SUN RGB-D, and RGB-NIR datasets, and it achieves performance comparable to multi-modal uninterpretable models.
-
Key words:
- Interpretability /
- visual attributes /
- multimodal fusion /
- decision tree /
- image classification
-
强化学习是一类重要的控制与决策方法, 其基本思路是智能体通过与环境交互来学习如何在给定情境下做出最佳决策. 强化学习基于试错学习的概念, 智能体通过执行动作并观察结果来优化其行为, 目标是最大化长期奖励[1]. 近年来, 强化学习解决复杂决策问题的能力不断突破, 已经在机器人、自动驾驶、推荐系统[2]、博弈等领域取得显著成就. 例如, DeepMind发布的人工智能围棋程序AlphaGo[3]和AlphaGo Zero[4], 将强化学习、监督学习和蒙特卡洛树搜索结合起来, 成功学会了超越人类围棋冠军的对弈策略, 并发现了一些新的围棋策略和走法; 在机器人控制领域, 利用分层强化学习方法训练的机器狗守门员Mini Cheetah[5], 能够对快速飞行的足球进行精准拦截; 在博弈领域, DeepMind开发的DeepNash智能体[6]能够从零开始学习西洋陆军棋Stratego并成功达到人类专家水平, 这是一个行动和结果之间没有明显联系的不完全信息博弈问题; 在数学领域, DeepMind推出AlphaTensor智能体[7], 专注于寻找矩阵乘法的更高效算法, 该方法在多种不同大小的矩阵乘法任务中成功超越了现有的最佳算法.
在交通调度、自动驾驶、智能电网、工业控制等现实场景中, 常常存在多个实体同时参与决策过程, 这类由多个具有一定自主感知和决策能力的实体构成的系统称为多智能体系统. 通过独立个体之间的通信、协作或竞争, 多智能体系统能够实现远超单一个体的复杂行为, 有望解决单智能体方法难以处理的大规模复杂问题. 为此, 多智能体强化学习扩展了传统的强化学习范式, 允许多个智能体共同在环境中学习和决策, 期望通过个体局部交互涌现出复杂的全局行为或智能. 在多智能体强化学习中, 智能体根据对环境的观测采取行动, 并根据其行动的结果获得奖励或惩罚. 然而, 与单智能体强化学习不同, 多智能体系统中每个智能体的学习和决策过程不仅受到环境的影响, 还受到其他智能体行为的影响. 因此, 在多智能体环境中, 任何一个智能体的最优策略可能都依赖于其他智能体的策略. 这种相互依赖性增加了学习过程的复杂性, 因为智能体必须考虑到其他智能体的潜在行动和策略变化.
近年来, 多智能体强化学习快速发展, 相关研究可分为两条密切相关的脉络. 一部分研究从控制理论和优化方法的角度, 面向多智能体协同控制问题, 设计有效的多智能体强化学习控制算法, 在多种控制目标下实现系统稳定与性能优化; 另一部分研究从人工智能和机器学习的角度, 面向不确定环境中的序列决策问题, 研究多智能体强化学习决策方法, 在未知环境中学习高效的多智能体协调合作或对抗博弈策略. 这两类方法从不同的角度研究多智能体控制与决策问题, 有其各自的优势与特点. 本文对多智能体强化学习控制与决策领域的问题、挑战与方法进行分析与探讨, 以期为后续相关研究提供有价值的参考. 首先, 在多智能体强化学习控制方面, 从多智能体博弈和多智能体协同两个角度, 介绍强化学习算法在各类博弈与协同控制问题中的应用; 继而, 在多智能体强化学习决策方面, 从问题的视角出发, 针对性地分析多智能体强化学习所面临的难题与挑战, 系统性地综述相应解决方案和研究进展; 最后, 介绍多智能体强化学习控制与决策方法在几类现实领域的应用研究, 并对未来可能的探索方向进行总结与展望.
1. 多智能体强化学习控制
强化学习控制作为一种新兴的控制方法, 在智能系统和控制理论领域引起了广泛关注. 多智能体强化学习控制将强化学习技术与多智能体系统的控制问题相结合, 以解决多智能体系统中的竞争与协同问题. 一方面, 多智能体博弈理论被引入强化学习框架中, 用于建模智能体之间的竞争、合作和博弈关系. 在这种情况下, 智能体需要通过学习和优化策略来应对对手的行为, 从而最大化自身收益. 另一方面, 多智能体协同控制成为研究的重点, 通过强化学习技术实现智能体之间的协同合作, 共同完成任务或达成共同目标. 在这个过程中, 智能体需要学习如何有效地分配资源、协调行动和互相协助, 以达到整体系统性能的最优化. 综合而言, 多智能体强化学习控制既涉及到智能体之间的竞争与合作关系的建模和优化, 又探索了智能体如何在协同作战中实现更高效的决策和行动. 这一领域的研究不仅推动了智能系统的发展, 也为解决实际应用中的复杂多智能体系统问题提供了新的思路和方法. 本节将从多智能体博弈和多智能体协同两个方面介绍强化学习控制的相关工作, 本节框架结构关系如图1所示.
无论是多智能体博弈还是多智能体协同, 都需要依赖智能体间的数据传输. 多智能体图论是研究多个智能体之间相互作用和通信的一种重要方法. 在此框架下, 智能体3表示为图的节点, 节点间的相互作用则通过图的边来描述. 这种方法在许多领域都有广泛的应用, 包括分布式控制、协作机器人、通信网络、社交网络等. 以单领航者协同一致性为例, 本文中有向图由$ {\cal{G}}=({\cal{V}},\; \Lambda,\; {\cal{A}}) $表示, $ {\cal{V}}=\{p_{1},\;\cdots, p_{N}\} $表示节点集合; $ \Lambda(p_{i},\;p_{j})\;\in\;{\cal{V}}\times{\cal{V}} $表示边集; $ {\cal{A}}=[a_{ij}]_{N\times N} $ 表示系统间的邻接矩阵. 当节点$ p_{i} $能接收到节点$ p_{j} $的信息时, 令邻接矩阵元素$ a_{ij}> 0 $, 那么智能体$ j $ 就称为智能体$ i $的邻居智能体, 而$ j \in P_{i}=\{p_{j}|(p_{j},\;p_{i}) \in \Lambda\} $ 则称为智能体$ i $ 的邻居集合; 否则, $ a_{ij}=0 $. 定义跟随矩阵为$ {\cal{A}}_{0}=\text{diag}\{a_{10},\;\cdots, a_{N0}\} $, 其中若智能体$ i $ 可以接收领航者的信息, 则$ a_{i0}=1 $; 否则$ a_{i0}=0 $. 定义度矩阵为$ {\cal{D}}=\text{diag}\{d_{1},\;\cdots, d_{N}\} $, 其中$ d_{i}=\sum_{j\in P_{i}}a_{ij} $, 进一步将拉普拉斯矩阵定义为$ {\cal{L}}={\cal{D}}-{\cal{A}} $. 对于无领航者协同一致性, 多智能体子系统间则不存在跟随矩阵. 此外, 多领航者协同一致性相关图论知识可见文献[8], 在此不详细赘述.
1.1 多智能体博弈
博弈理论在多智能体系统中的应用十分广泛. 按照智能体间的相互作用关系, 可分为零和博弈与非零和博弈. 在零和博弈中, 各参与方的利益完全对立, 一方的收益等于另一方的损失, 在如此竞争对抗的环境下, 智能体需要通过精心设计的策略来最大化自身利益, 同时限制对手的收益; 而在非零和博弈中, 参与方的利益不一定完全对立, 因此需要更多地考虑合作与竞争的平衡. 此外, 与零和、非零和博弈不同的是, Stackelberg博弈作为一种序贯博弈模型, 领导者在做出决策后会影响到跟随者的决策, 这种模型常应用于多智能体系统中的领导跟随一致性问题, 其中领导者的行动对跟随者具有示范作用, 而跟随者则会根据领导者的决策做出相应的反应. 综合利用这些博弈理论, 可以帮助多智能体系统实现资源分配的优化、协作策略以及竞争策略的制定, 从而提高系统的效率和控制性能.
1.1.1 零和博弈
基于强化学习控制的多智能体零和博弈模型是控制理论中的一个重要研究领域, 其涉及到多个智能体之间如何通过博弈策略来最大化自身利益. 在这一模型中, 每个智能体都追求最大化自身的收益, 但智能体之间的决策相互影响, 形成一个总收益为零的局面, 即一方的收益等于另一方的损失. 通过强化学习控制方法, 智能体可以根据环境的反馈信息和对手的行为来动态调整自身的策略, 以适应不断变化的博弈局面. 这种学习和适应能力使得智能体能够更好地理解对手的行为模式, 从而制定出更加智能化的决策策略, 提高自身在多智能体零和博弈中的竞争优势.
特别地, 在强化学习控制研究中, 两人零和博弈与鲁棒$ H_{\infty} $控制问题联系密切[9−16]. $ H_{\infty} $控制问题针对系统存在外部干扰情形, 通常可将控制器视为一个最小化某一特定性能指标的博弈者, 而将未知的外部干扰或内部的不确定性看作一个最大化性能指标的另一博弈者. 此外, 根据参与博弈的玩家数量, 零和博弈可分为两人零和博弈和多人零和博弈.
两人零和博弈捕捉了两个玩家的行为, 两个玩家之间存在直接的竞争关系, 即一方的收益增加意味着另一方的收益减少. 典型的例子包括常见的博弈游戏, 如囚徒困境、石头−剪刀−布等. 对于连续时间线性系统, 双人零和博弈的求解依赖于广义博弈代数黎卡提方程的求解. 例如, 在文献[13]中, 线性动态可由下列微分方程描述:
$$ \begin{align} \left\{\begin{aligned} \dot x&=Ax+Bu+Dd\\ y&=Cx \end{aligned}\right. \end{align} $$ (1) 其中, $ x $为系统状态; $ u $与$ d $代表两个控制输入(也可看作两个玩家); $ y $为输出; $ A $, $ B $, $ C $ 和$ D $ 为常数矩阵. 定义系统性能指标为
$$ \begin{align} {\cal{J}}(x(0),\;u,\;d)=\int^{\infty}_{0}r(x,\;u,\;d)\text{d}\tau \end{align} $$ (2) 其中, $ r(x,\;u,\;d)=Q(x)+u^{\mathrm{T}}Ru-\gamma^{2}||d||^{2} $, $ Q(x)\ge 0 $, $ x(0) $表示系统初始时刻的状态值, $ R $为对称的正定矩阵, 即$ R=R^\mathrm{T}\ge 0 $, $ \gamma\ge\gamma^{*}\ge0 $, $ \gamma^{*} $代表使系统稳定的$ \gamma $的最小值.
根据上述性能指标(2), 系统(1)的最优控制问题等价于最小化最优值函数$ V^{*} $, 即
$$ \begin{align} V^{*}(x(0))=\mathop{\min_{u}}\mathop{\max_{d}}{\cal{J}}(x(0),\;u,\;d) \end{align} $$ 并且针对最小化控制策略$ u $与最大化控制策略$ d $, 使得性能指标函数$ {\cal{J}} $满足纳什均衡, 即
$$ \begin{align} {\cal{J}}^{*}(u^{*},\;d)\leq{\cal{J}}^{*}(u^{*},\;d^{*})\leq{\cal{J}}^{*}(u,\;d^{*}) \end{align} $$ 式中, $ u^{*} $和$ d^{*} $代表最优控制输入.
通过引入线性最优控制理论, 最优反馈控制输入可以表示为
$$ \begin{split} u^{*}(x)&=-\eta^{-1}B^\mathrm{T}S^{*}x=-K^{*}x\\ d^{*}(x)&=\gamma^{-1}D^\mathrm{T}S^{*}x=L^{*}x \end{split} $$ 其中, $ \eta>0 $, $ K^{*}=\eta^{-1}B^\mathrm{T}S^{*} $, $ L^{*}=\gamma^{-1}D^\mathrm{T}S^{*} $, $ S^{*} $为下列黎卡提方程的解
$$ \begin{split} A^\mathrm{T}S^{*}+\;&S^{*}A+Q-\eta^{-1}S^{*}BB^\mathrm{T}S^{*}\;+\\ &\gamma^{-1}S^{*}DD^\mathrm{T}S^{*}=0 \end{split} $$ (3) 对于非线性系统, 黎卡提方程将变成哈密顿−雅可比−埃萨克斯(Hamilton-Jacobi-Isaacs, HJI)方程[11, 14−15]. 例如, 对于一类连续时间仿射非线性系统, Vamvoudakis等[15]提出一种在线自适应动态规划法, 求解已知连续动态非线性系统的双人零和博弈问题. 其系统动态描述为如下形式:
$$ \begin{align} \dot x=f(x)+g(x)u(x)+k(x)d(x) \end{align} $$ (4) 其中, $ x $为状态, $ f(x) $, $ g(x) $, $ k(x) $为非线性系统动态, $ u(x) $与$ d(x) $表示两种控制输入或其中一种控制输入为外部扰动. 为实现上述系统的最优控制, 作者采用如下性能指标:
$$ \begin{align} {\cal{J}}(x(0),\;u,\;d)=\int^{\infty}_{0}r(x,\;u,\;d)\text{d}t \end{align} $$ (5) 因此, 值函数可以定义为如下形式:
$$ \begin{align} V(x(t),\;u,\;d)=\int^{\infty}_{t}(Q(x)+u^\mathrm{T}Ru-\gamma^{2}||d||^{2})\text{d}\tau \end{align} $$ 根据所定义的性能指标(5), 实现系统(4)的最优控制等价于最小化最优值函数$ V^{*} $, 即
$$ \begin{split} V^{*}(x(0))=\;&\mathop{\min_{u}}\mathop{\max}_{d}{\cal{J}}(x(0),\;u,\;d)=\\ &\mathop{\min_{u}}\mathop{\max}_{d}\int^{\infty}_{0}(Q(x)+u^\mathrm{T}Ru-\gamma^{2}||d||^{2})\text{d}\tau \end{split} $$ 并且针对输入控制对$ (u,\;d) $, 使得性能指标函数$ {\cal{J}} $满足纳什均衡.
通过运用最优性原理, 可得最优控制输入$ u^{*}(x) $与$ d^{*}(x) $
$$ \begin{align} u^{*}(x)&=-\frac{1}{2}R^{-1}g^\mathrm{T}(x)\nabla V^{*} \end{align} $$ (6) $$ \begin{align} d^{*}(x)&=\frac{1}{2\gamma^{2}}k^\mathrm{T}(x)\nabla V^{*} \end{align} $$ (7) 其中, $ \nabla V^{*}=\frac{\partial V^{*}}{\partial x} $, $ V^{*}(x) $为如下HJI方程[17]的解:
$$ \begin{split} H(x,\;\nabla &V^{*\mathrm{T}}(x),\;u^{*},\;d^{*})=Q(x)+\nabla V^{*\mathrm{T}}(x)f(x)\;-\\ &\frac{1}{4}\nabla V^{*\mathrm{T}}(x)g(x)R^{-1}g^\mathrm{T}(x)\nabla V^{*}(x)\;+\\ &\frac{1}{4\gamma^{2}}\nabla V^{*\mathrm{T}}(x)k(x)k^\mathrm{T}(x)\nabla V^{*}(x)=0\\[-1pt] \end{split} $$ (8) 可见, 上述HJI方程为非线性多维偏微分方程, 利用常规的方法求解非常困难. 于是, 基于强化学习的方法应运而生. 下面介绍两类典型求解HJI方程的算法: 策略迭代[18]和值迭代[10].
在策略迭代算法中, 采用如下策略评价机制计算值函数$ V^{(i)}(x) $:
$$ \begin{split} r(x,&\;u^{(i)},\;d^{(i)}) +[\nabla V^{(i)}(x)]^\mathrm{T}[f(x)\;+\\ & g(x)u^{(i)}+k(x)d^{(i)}]=0 \end{split} $$ (9) 然后, 基于$ V^{(i)}(x) $, 使用如下同步方法进行策略改进:
$$ \begin{align} u^{(i+1)}(x) = & -\frac{1}{2}R^{-1}g^\mathrm{T}(x)\nabla V^{(i)}(x) \end{align} $$ (10) $$ \begin{align} d^{(i+1)}(x) = \frac{1}{2\gamma^{2}}k^\mathrm{T}(x)\nabla V^{(i)}(x) \qquad \end{align} $$ (11) 理论上, 上述策略迭代算法(9) ~ (11)等价于牛顿迭代法[18], 进而利用Kantorovtich定理证明收敛性. 在算法中, 将非线性HJI方程转化为一系列线性方程 (9)进行求解, 求解方程变得更加简便可行, 但在执行策略评价时依赖于系统动态模型$ f(x), g(x) $, $ k(x) $, 为了减小对系统模型的依赖, 借助Vrabie等[10]提出的积分强化学习机制, Wu等[9]提出采用如下策略评价方法:
$$ \begin{split} V^{(i)}(x(t))=\;&\int^{t+T}_{t}r(x,\;u^{(i)},\;d^{(i)})\text{d}\tau\;+\\ &V^{(i)}(x(t+T)) \end{split} $$ (12) 由式(12)可知, 策略评价不需要系统动态模型, 而是通过采集数据$ x(t) $和$ x(t+T) $隐式地包涵了系统动态演化过程. 基于式(12), 进一步给出了脱策(Off-policy)学习方法[11], 可以使用任意行为控制策略产生数据用于策略评价, 从而有效克服不充分激励问题, 提高数据利用率. 在值迭代算法[10]中, 采用如下方式进行值函数更新:
$$ \begin{split} V^{(i+1)}(x(t))=\;&\int^{t+T}_{t}r(x,\;u^{(i)},\;d^{(i)})\text{d}\tau\;+\\ &V^{(i)}(x(t+T)) \end{split} $$ (13) 值迭代算法的优点在于对初始控制策略要求低, 容易实现, 不足在于收敛速度较策略迭代慢.
此外, 还有一种基于Actor-Critic结构[15]的在线强化学习方法可求得上述HJI方程的解. 其核心思想是利用神经网络近似值函数
$$ \begin{align} V^{*}(x)=W^{*\mathrm{T}}\varphi(x)+\epsilon(x) \end{align} $$ 其中, $ W^{*} $为神经网络的理想权值, $ \varphi(x) $表示激活函数, $ \epsilon(x) $为近似误差. 然而, 神经网络的理想权值难以直接获取, 往往采用其估计权值$ \hat W_c $进行估计, 即
$$ \begin{align} \hat V(x)=\hat W_{c}^\mathrm{T}\varphi(x) \end{align} $$ (14) 从而最优控制输入(6)和(7)可改写为
$$ \begin{align} \hat u(x)&=-\frac{1}{2}R^{-1}g^\mathrm{T}(x)\nabla\varphi\hat W_{c} \end{align} $$ (15) $$ \begin{align} \hat d(x)&=\frac{1}{2\gamma^{2}}k^\mathrm{T}(x)\nabla\varphi\hat W_{c}\quad\; \end{align} $$ (16) 其中, $ \nabla\varphi=\frac{\partial\varphi(x)}{\partial x} $. 由此, $ \hat V(x) $可认为是Critic网络, $ \hat u(x) $和$ \hat d(x) $则为Actor网络. 在式(14) ~ (16)中, Critic网络和Actor网络共享神经网络权值$ \hat W_c $, 这意味着只需要更新$ \hat W_c $, Critic网络和Actor网络将会同步进行更新, 但根据式(15)和式(16)可知, 这种机制需要部分系统动态模型信息, 即: $ g(x) $和$ k(x) $. 当然, 在$ g(x) $ 和$ k(x) $未知的情况下, 可以增加两个新的Actor 网络独立近似$ u^{*}(x) $和$ d^{*}(x) $, 这样就可以得到完全无模型的强化学习控制方法[12]. 对于多人零和博弈[19−22], 意味着有三个或更多的参与者参与博弈, 每个参与者的利益与损失之和仍然为零, 并且每个参与者的行为将影响其他参与者的收益情况. 对于多智能体系统的零和博弈问题而言, 文献[23]中研究了受外部扰动的单领航者多智能体线性系统的分布式最优跟踪控制问题, 利用微分博弈的概念将分布式控制问题转化为多人零和微分图形博弈问题. 具体考虑由下列微分方程描述的多智能体系统:
$$ \begin{align} \left\{\begin{aligned} \dot x_{i}&=f_{i}(x_{i})+g_{i}(x_{i})u_{i}(x_{i})+k_{i}(x_{i})d_{i}(x_{i})\\ \dot x_{0}&=f_{0}(x_{0}) \end{aligned}\right. \end{align} $$ (17) 其中, $ x_{i} $表示第$ i $个跟随者的系统状态, $ x_{0} $为领航者的系统状态, $ f_{i}(x_{i}) $, $ g_{i}(x_{i}) $, $ k_{i}(x_{i}) $代表第$ i $个非线性系统动态, $ u_{i} $和$ d_{i} $分别为控制和外部扰动输入, $ x_{0} $表示领航者的系统状态. 其领航−跟随一致性误差可以表示为
$$ \begin{align} e_{i}=\sum_{j\in P_{i}}a_{ij}(x_{i}-x_{j})+a_{i0}(x_{i}-x_{0}) \end{align} $$ (18) 其中, $ x_{j} $代表第$ j $个跟随者智能体的状态.
为了实现对系统(17)的最优跟踪鲁棒控制, 针对智能体$ i $设计如下局部性能指标函数:
$$ \begin{split} {\cal{J}}_{i}(e_{i}(0),&\;u_{i},\;u_{-i},\;d_{i},\;d_{-i})=\\ &\frac{1}{2}\int^{\infty}_{0}(e^\mathrm{T}_{i}Q_{ii}e_{i}+u^\mathrm{T}_{i}R_{ii}u_{i}+\sum_{j\in P_{i}}u^\mathrm{T}_{j}R_{ij}u_{j}\;-\\ &\gamma^{2}d^\mathrm{T}_{i}T_{ii}d_{i}-\gamma^{2}\sum_{j\in P_{i}}d^\mathrm{T}_{j}T_{ij}d_{j})\text{d}t \\[-1pt]\end{split} $$ (19) 其中, $ u_{-i} $为智能体$ i $所有的邻居控制器集合, $ d_{-i} $为智能体$ i $所有的邻居扰动输入集合, $ Q_{ii}>0 $, $ R_{ii}> 0 $, $ R_{ij}\ge 0 $, $ T_{ii}>0 $, $ T_{ij}\ge 0 $. 进一步, 将值函数定义为
$$ \begin{split} V_{i}(e_{i}(0),&\;u_{i},\;u_{-i},\;d_{i},\;d_{-i})=\\ &\frac{1}{2}\int^{\infty}_{t}(e^\mathrm{T}_{i}Q_{ii}e_{i}+u^\mathrm{T}_{i}R_{ii}u_{i}+\sum_{j\in P_{i}}u^\mathrm{T}_{j}R_{ij}u_{j}\;-\\ &\gamma^{2}d^\mathrm{T}_{i}T_{ii}d_{i}-\gamma^{2}\sum_{j\in P_{i}}d^\mathrm{T}_{j}T_{ij}d_{j})\text{d}t \\[-1pt]\end{split} $$ (20) 考虑系统(17), 设计合适的鲁棒控制策略, 使得系统实现下列控制目标:
1)当$ d_{i}(t)=0 $时, 通过设计$ u_{i} $, 使得对于任意的智能体$ i $, 有$ ||x_{i}(t)-x_{0}(t)||\rightarrow 0 $;
2)当$ d_{i}(t)\neq0 $, 满足下列有界$ L_{2} $增益同步条件:
$$ \begin{split} \int^T_{0}&||z_{i}(t)||^{2}\text{d}t=\int^T_{0}(e^\mathrm{T}_{i}Q_{ii}e_{i}+u^\mathrm{T}_{i}R_{ii}u_{i}\;+\\ &\sum_{j\in P_{i}}u^\mathrm{T}_{j}R_{ij}u_{j})\text{d}t\leq\\ &\gamma^{2}\int^T_{0}(d^\mathrm{T}_{i}T_{ii}d_{i}+\sum_{j\in P_{i}}d^\mathrm{T}_{j}T_{ij}d_{j})\text{d}t+\beta(e_{i}(0)) \end{split} $$ 其中, $ z_{i}(t)=[e_{i}\; u_{i}\; u_{-i}] $, 有界函数$ \beta $满足$ \beta(0)=0 $.
进一步, 上述多智能体系统的最优鲁棒跟踪控制问题可转化为如下多人零和微分博弈问题, 即
$$ \begin{align} V_{i}(e_{i}(0))=\mathop{\min_{u_{i}}}\mathop{\max_{d_{i}}}{\cal{J}}_{i}(e_{i}(0),\;u_{i},\;u_{-i},\;d_{i},\;d_{-i}) \end{align} $$ 基于值函数(20), 借助Leibniz公式[23]和最优性原理可得出最优控制输入$ u^{*}(x) $以及最优扰动输入$ d^{*}(x) $. 进而, 多人零和微分博弈问题将转化为求解一组耦合HJI方程, 具体的求解过程可见文献[20].
Jiao等[23]提出一种在线的策略迭代方法求解由多智能体$ H_{\infty} $控制问题转换的耦合HJI方程, 实现多智能体系统的领航−跟随一致性. Chen等[24]将输出反馈同步问题通过鲁棒输出调节和强化学习进行建模, 通过零和博弈描述智能体之间的相互作用, 提出一种输出反馈策略学习算法, 利用输入−输出系统数据来实现异构多智能体系统的分布式鲁棒最优同步. 而对于受外部干扰的离散时间多智能体系统, Zhang等[25]考虑了自身和局部邻居扰动信息的影响, 将优化问题转化为具有控制策略和干扰策略的零和博弈问题, 并且提出一种基于策略梯度的数据驱动迭代算法用以求解HJI方程. An等[26]针对一类离散分数阶多智能体系统, 分别提出针对状态反馈和输出反馈的零和博弈$ Q $学习算法. Ma等[27]对存在执行器故障的二阶多智能体展开研究, 基于零和微分博弈方法提出一种容错控制策略, 从而保障系统的稳定性以及性能的最优性. 考虑到多智能体系统遭受服务器拒绝攻击问题, Wu等[28]基于多人混合零和博弈策略, 构造一种基于神经网络的强化学习方案, 得到了多人混合零和博弈方案的纳什均衡解, 提出了具有记忆事件触发机制的协同自适应控制方法.
1.1.2 非零和博弈
在非零和博弈中, 多智能体之间的利益并不完全对立, 而是存在一定程度的合作. 基于强化学习控制的多智能体非零和博弈模型关注于如何通过协作来实现共赢, 最大化各个智能体的收益. 在这种模型中, 智能体之间可能会形成稳定的合作关系, 共同制定出有效的策略以应对环境的变化. 通过强化学习控制方法, 智能体可以学习并优化合作策略, 以最大化整体系统的收益.
在具有多个控制输入的连续时间非线性系统的最优控制问题中, 可以将系统控制器之间的相互协作看作是一个非零和博弈[29−31], 其中每个控制器都追求自身的最大化利益或自身的最小化代价, 这意味着系统的总收益不一定为零. 以下列非线性仿射系统为例, 探究如何利用强化学习的方法求解具有多输入系统的最优控制问题:
$$ \begin{align} \dot x=f(x)+\sum^{N}_{i=1}g_{i}(x)u_{i}(x) \end{align} $$ (21) 其中, $ x $表示系统状态, $ u_{i} $表示第$ i $个控制输入, $ f(x) $和$ g_{i}(x) $为非线性函数, $ N $代表控制输入的个数.
为了实现系统(21)的最优控制问题, 针对第$ i $个控制输入, 设计以下的性能指标函数
$$ {\cal{J}}_{i}(x_{0},\;u_{1},\;\cdots,\;u_{N})=\int^{\infty}_{0}(x^\mathrm{T}Q_{i}x+\sum^{N}_{i=1}u^\mathrm{T}_{i}R_{ii}u_{i})\text{d}\tau $$ 此外, 将值函数$ V_{i}(x(t)) $设计为
$$ \begin{align} V_{i}(x)=\int^{\infty}_{t}(x^\mathrm{T}Qx+\sum^{N}_{i=1}u^\mathrm{T}_{i}R_{ii}u_{i})\text{d}\tau \end{align} $$ (22) 其中, $ R_{ii}>0 $.
考虑系统(21), 通过为$ N $个控制器设计最优控制策略, 使得
$$ \begin{split} \begin{aligned} V_{i}(x)=\;&V^{*}_{i}(x)=\\ &\mathop{\min_{u_{1},\;\cdots,\;u_{N}}}\left\{\int^{\infty}_{t}(x^\mathrm{T}Q_{i}x+\sum^{N}_{i=1}u^\mathrm{T}_{i}R_{ii}u_{i})\text{d}\tau\right\} \end{aligned} \end{split} $$ 其中, $ V^{*}_{i}(x) $为最优值函数. 同时使性能指标函数$ {\cal{J}}_{i} $达到纳什均衡, 即
$$ \begin{split} {\cal{J}}_{i}(&u^{*}_{1},\;\cdots,\;u^{*}_{i},\;\cdots,\;u^{*}_{N})\leq\\ &{\cal{J}}_{i}(u^{*}_{1},\;\cdots,\;u_{i},\;\cdots,\;u^{*}_{N}) \end{split} $$ (23) 其中, $ (u^{*}_{1},\;\cdots,\;u_{i},\;\cdots,\;u^{*}_{N}) $为最优控制输入.
基于值函数(22), 通过借助最优性原理, 可得最优控制输入的表达形式为
$$ \begin{align} u^{*}_{i}=-\frac{1}{2}R^{-1}_{ii}g^\mathrm{T}_{i}(x)\nabla V^{*}_{i}(x) \end{align} $$ 其中, $ \nabla V^{*}_{i}=\frac{\partial V^{*}_{i}}{\partial x }$, $ V^{*}_{i}(x) $为如下HJI方程的解:
$$ \begin{split} &{\cal{H}}_{i}(x,\;u^{*}_{1},\;\cdots,\;u^{*}_{N},\;\nabla V^{*}_{i})=\\ &\; \; \; \; \; \; \nabla V^{*\mathrm{T}}_{j}\left(f(x)-\frac{1}{2}\sum^{N}_{j=1}g_{j}(x)R^{-1}_{jj}g^\mathrm{T}_{j}(x)\nabla V^{*\mathrm{T}}_{j}\right)+ \\ &\; \; \; \; \; \; \frac{1}{4}\sum^{N}_{j=1}\nabla V^{*\mathrm{T}}_{j}g_{j}(x)R^{-\mathrm{T}}_{jj}R_{jj}R^{-1}_{jj}g^\mathrm{T}_{j}(x)\nabla V_{j}\;+\\ &\; \; \; \; \; \; x^\mathrm{T}Q_{i}x =0 \\[-1pt]\end{split} $$ (24) 于是, 带有N个输入的非线性最优控制问题由非零和博弈问题的求解转化为求解上述耦合的HJI方程, 具体的求解过程可以参考文献[32−35].
然而, 在多智能体系统中, 往往将每个智能体当作玩家, 通过针对每个智能体设计最优控制策略来求解其非零和博弈问题. 以领航−跟随多智能体一致性为例, 考虑具有以下系统动态的多智能体系统:
$$ \begin{align} \left\{\begin{aligned} \dot x_{i}&=f_{i}(x_{i})+g_{i}(x_{i})u_{i}(x_{i})\\ \dot x_{0}&=f_{0}(x_{0}) \end{aligned}\right. \end{align} $$ (25) 其中, 各变量定义同系统(17), 误差定义同式(18).
为了实现对系统(25)最优一致性控制, 针对智能体$ i $设计如下的性能指标函数:
$$ \begin{split} {\cal{J}}_{i}(e_{i}(0),\;u_{i},\;u_{-i})=\;&\frac{1}{2}\int^{\infty}_{0}(e^\mathrm{T}_{i}Q_{ii}e_{i}+u^\mathrm{T}_{i}R_{ii}u_{i}\;+\\ &\sum_{j\in P_{i}}u^\mathrm{T}_{j}R_{ij}u_{j})\text{d}\tau\\[-1pt] \end{split} $$ (26) 进一步, 将其值函数定义为
$$ \begin{split} V_{i}(e_{i}(0),\;u_{i},\;u_{-i})=\;&\frac{1}{2}\int^{\infty}_{t}(e^\mathrm{T}_{i}Q_{ii}e_{i}+u^\mathrm{T}_{i}R_{ii}u_{i}\;+\\ &\sum_{j\in P_{i}}u^\mathrm{T}_{j}R_{ij}u_{j})\text{d}\tau\\[-1pt] \end{split} $$ (27) 由上可知, 多智能体的零和博弈与非零和博弈不同之处在于, 非零和博弈只需要考虑智能体之间的合作关系, 无需与扰动输入互相竞争.
考虑系统(25), 设计合适的控制策略, 使系统实现对于任意的智能体$ i $, 有$ ||x_{i}(t)-x_{0}(t)||\rightarrow 0 $, 同时使系统性能指标最小化.
进一步, 上述多智能体系统的最优一致性控制问题可转化为如下多人非零和微分博弈问题, 即
$$ \begin{align} V_{i}(e_{i}(0))=\mathop{\min_{u_{i}}}{\cal{J}}_{i}(e_{i}(0),\;u_{i},\;u_{-i}) \end{align} $$ 基于值函数(27), 借助Leibniz公式和最优性原理可得出最优控制输入$ u^{*}(x) $. 进而, 多人零和微分博弈问题可以转化为求解一组耦合HJI方程.
然而不同于连续系统, 对于离散形式下多智能体的最优一致性控制[36], 将其性能指标定义为
$$ \begin{align} {\cal{J}}_{i}&(e_{i}(k),\;u_{i}(k),\;u_{-i}(k))=\sum^{\infty}_{l=0}U_{i}(e_{i}(l),\;u_{i}(l),\;u_{-i}(l)) \end{align} $$ 其中, $ U_{i}(e_{i}(l),\;u_{i}(l),\;u_{-i}(l))\;=\;e^\mathrm{T}_{l}Q_{i}e_{i}(l)+u^\mathrm{T}_{i}(l)\times R_{ii}u_{i}(l)\;+$ $\sum_{j\in P_{i}}u^\mathrm{T}_{i}(l)R_{ij}u_{i}(l) $表示成本函数. 这代表着从当前时刻到无穷时刻区间, 每个时刻下成本函数的累积. 固定智能体$ i $与其邻居的控制策略对$ (u_{i},\;u_{-i}) $, 定义智能体$ i $的值函数为
$$ \begin{align} V_{i}(e_{i}(k))=\sum^{\infty}_{l=k}U_{i}(e_{i}(l),\;u_{i}(e_{i}(l)),\;u_{-i}(e_{-i}(l))) \end{align} $$ 进一步, 上述值函数可以等价写成离散形式的贝尔曼方程
$$ \begin{split} V_{i}(e_{i}(k)) =\;&U_{i}(e_{i}(k),\;u_{i}(e_{i}(k)),\\ & u_{-i}(e_{-i}(k)))+V_{i}(e_{i}(k+1)) \end{split} $$ 其中, $ e_{-i}(k)=\{e_{j}(k):\; j\in P_{i}\} $表示智能体$ i $邻居的跟踪误差. 根据上述形式, 可得智能体$ i $的哈密顿方程为
$$ \begin{split} {\cal{H}}_{i}(e_{i}(k),\;&u_{i}(e_{i}(k)),\;V_{i})=V_{i}(e_{i}(k+1))-V_{i}(e_{i}(k))\;+\\ &U_{i}(e_{i}(k),\;u_{i}(e_{i}(k)),\;u_{-i}(e_{-i}(k))) \end{split} $$ 根据贝尔曼最优性原理, 智能体$ i $的最优值函数满足下列耦合的哈密顿−雅可比−贝尔曼(Hamilton-Jacobi-Bellman, HJB)方程:
$$ \begin{split} V^{*}_{i}(e_{i}(k)) =&\mathop{\min_{u_{i}(k)}}[U_{i}(e_{i}(k),u_{i}(e_{i}(k)),\nonumber\\& u^{*}_{-i}(e_{-i}(k)))+V^{*}_{i}(e_{i}(k+1))]\\[-3pt]\end{split} $$ (28) 于是, 多智能体的最优分布式一致性问题就由多人非零和博弈问题转化为求解上述HJB方程, 具体的解决方法可参考文献[36−37].
此外, Vamvoudakis等[38]对于具有连续动态的多智能体非零和图博弈问题, 提出仅依赖于局部信息的在线策略迭代方法, 并证明了策略迭代方法的收敛性. 对于多智能体非零和微分博弈的分类同步问题, Yang等[39]同样将其转化为求解HJB方程问题, 提出仅使用系统数据的策略迭代算法, 从而保证了性能指标的局部最优性. Odekunle等[40]针对多人非零和博弈的输出调节问题, 利用强化学习算法近似了调节方程以及耦合代数黎卡提方程的解. Wang等[41]将具有外部干扰的多智能体分布式一致性控制问题建模为多重博弈问题, 其将分布式一致性问题描述为多个单智能体间的非零和博弈, 其中每个智能体被视为一个玩家, 专注于优化自身的局部性能指标函数使得整个系统实现纳什均衡; 另外, 对于每个智能体自身的鲁棒控制问题可视为控制器和外部扰动的双人零和博弈. 对于部分未知网络化系统的非零和博弈问题, Su等[42]设计了一种基于模糊逻辑模型的辨识器, 重构了未知的系统动态. 此外, 将一种单Critic网络设计用于近似值函数和控制策略, 在求解出近似的纳什均衡解的同时, 减少了系统的计算负担.
1.1.3 Stackelberg博弈
上述零和博弈与非零和博弈均可归类为纳什博弈类型, 主要解决同步决策问题, 即所有玩家在博弈游戏中同时做出决策. 而对于顺序决策问题, 则可建模为Stackelberg-纳什博弈, 其在智能电网[43]、能源感知分配[44]、电车充电[45]等领域均有广泛应用. 在Stackelberg 博弈中, 通常包括两类主要参与者, 先做出决策的领航者和根据领航者决策做出最优响应的跟随者. 多智能体Stackelberg博弈模型是多智能体系统中的重要研究领域, 旨在探究如何通过领航者的指导来影响跟随者的决策, 从而最大化整体系统的收益. 通过强化学习控制方法, 领航者可以学习并优化其决策策略, 以达到最大化整体系统收益的目的. 与此同时, 跟随者也需要根据领航者的指示调整自身行为, 以实现整体系统的协调与一致. 基于强化学习控制的多智能体Stackelberg博弈模型旨在研究领航者和跟随者之间的合作与竞争关系, 并通过博弈策略实现整体系统性能的最优化.
首先, 本节针对一类多输入非线性系统的Stackelberg博弈模型[46]展开讨论, 其具有下列的系统动态:
$$ \begin{align} \dot x=f(x)+g_{0}(x)u_{0}(t)+\sum^{N}_{i=1}g_{i}(x)u_{i}(t) \end{align} $$ (29) 其中, $ x$为系统动态, $ u_{0}\in{\cal{U}}_{0} $表示领航者控制输入, $ u_{i}\in{\cal{U}}_{i} $表示跟随者控制输入, $ i\in{\cal{F}}=\{1,\;\cdots, N\} $为跟随者集合, $ f(x) $ 代表非线性函数, $ g_{0}(x) $和$ g_{i}(x) $为控制输入矩阵.
为了实现系统的最优控制, 针对每个控制输入设计其性能指标为
$$ \begin{align} {\cal{J}}_{j}(x(0),\;u_{0},\;u)=\int^{\infty}_{0}r_{j}(x,\;u_{0},\;u)\text{d}\tau \end{align} $$ 其中, $ j\in\{0,\;1,\;\cdots,\;N\} $, $ u= u(u_{0}) = \{u_{i}(u_{0})|i\in{\cal{F}}\} $, $ u_{i}(u_{0}) $表示基于领航者控制策略$ u_{0} $的第 $ i $个跟随者做出的控制策略, $ r_{0}(x,\;u_{0},\;u)=||x||^{2}_{Q_{0}}+||u_{0}\;+ \sum^{N}_{i=1}C_{i}u_{i}||^{2}_{R_{0}} $, $ r_{i}(x,\;u_{0},\;u)=||x||^{2}_{Q_{i}} + ||u_{i} + D_{i}u_{i}||^{2}_{R_{i}} $, $ C_{i} $表示跟随者$ i $与领航者的耦合系数, $ D_{i} $表示领航者与跟随者$ i $的耦合系数, $ Q_{0}=Q^\mathrm{T}_{0}>0 $, $ Q_{i}=Q^\mathrm{T}_{i}> 0 $, $ R_{0}=R^\mathrm{T}_{0}>0 $, $ R_{i}=R^\mathrm{T}_{i}>0 $. 此外, 将每个控制输入的值函数定义为
$$ \begin{align} V_{j}(x)= V_{j}(x,\;u_{0},\;u)=\int^{\infty}_{t}r_{j}(x,\;u_{0},\;u)\text{d}\tau \end{align} $$ (30) 考虑系统(29), 在保证系统稳定的情况下, 设计每个参与者的控制策略使得性能指标最小化, 且使得性能指标函数$ {\cal{J}}_{j} $实现Stackelberg纳什均衡, 即如果存在一个从领导者策略空间到跟随者最优响应策略空间的映射$ {\cal{P}}_{i}:{\cal{U}}_{0}\rightarrow {\cal{U}}_{i},\;i\in{\cal{F}} $, 且其他所有跟随者选择了控制策略$ {\cal{P}}_{-i}(u_{0})=\{{\cal{P}}_{\iota}|\iota\in{\cal{F}},\;\iota\neq i\} $, 使得对于任意固定的$ u_{0}\in{\cal{U}}_{0} $, 则下列关系成立:
$$ \begin{split} {\cal{J}}_{i}&(x(0),\;u_{0},\;{\cal{P}}_{i}(u_{0}),\;{\cal{P}}_{-i}(u_{0}))\leq\\ &{\cal{J}}_{i}(x(0),\;u_{0},\;u_{i}(u_{0}),\;{\cal{P}}_{-i}(u_{0})) \end{split} $$ 并且如果存在策略$ \bar u_{0}\in{\cal{U}}_{0} $满足
$$ \begin{split} {\cal{J}}_{0}&(x_{0},\;\bar u_{0},\;{\cal{P}}_{i}(\bar u_{0}),\;{\cal{P}}_{-i}(\bar u_{0}))\leq\\ &{\cal{J}}_{0}(x_{0},\;u_{0},\;{\cal{P}}_{i}(u_{0}),\;{\cal{P}}_{-i}(u_{0})) \end{split} $$ 那么, 策略集$ \{\bar u_{0},\;\bar u_{1},\;\cdots,\;\bar u_{N}\} \in{\cal{U}}_{0}\times {\cal{U}}_{1}\times\cdots \times {\cal{U}}_{N} $即为Stackelberg均衡策略集, 其中, $ \bar u_{i}={\cal{P}}_{i}(\bar u_{0}) $.
通过使用值函数(30)对状态$ x $求偏导, 可得系统哈密顿方程
$$ \begin{split} {\cal{H}}_{j}&(x,\;\nabla V_{j}(x),\;u_{0},\;u)=r_{j}(x,\;u_{0},\;u)\;+\\ &\nabla V^\mathrm{T}_{j}(x)\left(f(x)+\sum^{N}_{\kappa=0}g_{\kappa}(x)u_{\kappa}\right) \end{split} $$ (31) 其中, $ \nabla V_{j}=\frac{\partial V_{j}}{\partial x} $. 根据最优值函数以及一阶最优性条件, 可得领航者与跟随者的最优控制输入
$$ \begin{split} u^{*}_{0}&=\frac{1}{2}M^{-1}\left(\sum^{N}_{i=1}g_{i}(x)D_{i}-g_{0}(x)\right)^\mathrm{T}\nabla V^{*}_{0}(x)\;+\\ &\; \; \; \; \; \frac{1}{2}P^{-1}\sum^{N}_{i=1}C_{i}R^{-1}_{i}g^\mathrm{T}_{i}(x)\nabla V^{*}_{i}(x)\\[-1pt] \end{split} $$ (32) $$ \begin{align} u^{*}_{i}&({u^{*}_{0}})=-D_{i}u^{*}_{0}-\frac{1}{2}R^{-1}_{i}g^\mathrm{T}_{i}(x)\nabla V^{*}_{i}(x) \end{align} $$ (33) 其中, $ P=I_{m}-\sum^{N}_{i=1}C_{i}D_{i} $, $ M=P^\mathrm{T}R_{0}P $. 将式(32)和式(33)代入式(31), 可得下列HJ方程:
$$ \begin{split} {\cal{H}}_{j}&(x,\;\nabla V^{*}_{j}(x),\;u^{*}_{0},\;u^{*})=r_{j}(x,\;u^{*}_{0},\;u^{*})\;+\\ &\nabla V^{*\mathrm{T}}_{j}(x)\left(f(x)+\sum^{N}_{\kappa=0}g_{\kappa}(x)u^{*}_{\kappa}\right)=0 \end{split} $$ (34) 因此, 关于具有多输入非线性系统的Stackelberg博弈问题就转化为解上述耦合的哈密顿−雅可比(Hamilton-Jacobi, HJ)方程问题, 详细的解决方法可参考文献[46].
考虑具有有向通信拓扑图结构的无领航−跟随多智能体系统[47], 其所有智能体的系统动态可由下列线性微分方程表示:
$$ \begin{align} \dot x_{i}=Ax_{i}+B_{i}u_{i} \end{align} $$ (35) 其中, $ A $与$ B_{i} $表示常数矩阵, $ x_{i} $表示智能体$ i $的系统状态, $ u_{i} $表示智能体$ i $的系统输入. 假设智能体1为主要智能体, 其余$N-1 $个为次要智能体. 主要智能体优先做出决策占主导地位; 次要智能体之后再做出决策. 此外, 值得注意的是, 主要智能体需要具备预测次要智能体可能响应的能力, 而只有一部分次要智能体能够观察到主要智能体的策略.
定义对于智能体$ i $的无领航−跟随一致性误差及其一阶时间导数为
$$ \begin{align} e_{i}&=\sum_{j\in P_{i}}a_{ij}(x_{i}-x_{j}) \end{align} $$ (36) $$ \begin{align} \dot e_{i}&=Ae_{i}+d_{i}B_{i}u_{i}-\sum_{j\in P_{i}}a_{ij}B_{j}u_{j} \end{align} $$ (37) 接下来, 根据智能体在决策过程中的地位针对性地设计主要智能体性能指标为
$$ \begin{align} J_{1}(e_{1}(0),\;u_{1},\;u_{-1})=\int^{\infty}_{0}r_{1}(e_{1},\;u_{1},\;u_{-1})\text{d}\tau \end{align} $$ $ r_{1}(e_{1},\;u_{1},\;u_{-1})=||e_{1}||^{2}_{Q_1}+||u_{1}+\sum^{N}_{\kappa=2}b_{\kappa}u_{\kappa}||^{2}_{R_{1}} $. 因为次要智能体能够观察到主要智能体的行为, 所以将次要智能体性能指标设计为
$$ \begin{align} {\cal{J}}_{i}(e_{i},\;u_{i},\;u_{-i})=\int^{\infty}_{0}r_{i}(e_{i},\;u_{i},\;u_{-i})\text{d}\tau \end{align} $$ 其中, $ i\in{\cal{Y}}=\{2,\;\cdots,\;N\} $, $ r_{i}(e_{i},\;u_{i},\;u_{-i})=||e_{i}||^{2}_{Q_i}+ ||u_{i}+ \beta_{i}u_{1}||^{2}_{R_{i}} $, $ \beta_{i}\ge 0 $, 如果第$ i $个次要智能体能够观察到主要智能体的策略, $ \beta_{i}>0 $; 否则$ \beta_{i}=0 $. 这意味着当主要智能体$ 1 $为智能体$ i $的邻居智能体, 即$ 1\in P_{i} $, 相应地, 主要智能体与跟随智能体对应的值函数为
$$ \begin{align} V_{1}(x)= V_{1}(x,\;u_{1},\;u_{-1})&=\int^{\infty}_{t}r_{1}(x,\;u_{1},\;u_{-1})\text{d}\tau \end{align} $$ (38) $$ \begin{align} V_{i}(x)= V_{i}(x,\;u_{i},\;u_{-i})&=\int^{\infty}_{t}r_{i}(x,\;u_{i},\;u_{-i})\text{d}\tau \end{align} $$ (39) 考虑系统(35), 通过设计合适的控制策略$ \{u^{*}_{1}, u^{*}_{2},\;\cdots,\;u^{*}_{N}\} $使得所有智能体的状态达到一致, 即$ \lim\nolimits_{t\rightarrow \infty}||x_{i}(t)-x_{j}(t)||=0 $, 同时使性能指标达到Stackelberg纳什均衡.
基于式(38)和式(39), 可得各智能体的哈密顿函数为
$$ \begin{split} {\cal{H}}_{i}&(e_{i},\;\nabla V^\mathrm{T}_{i},\;u_{i},\;u_{-i})=r_{i}(e_{i},\;u_{i},\;u_{-i})\;+\\ &\nabla V^\mathrm{T}_{i}(Ae_{i}+d_{i}B_{i}u_{i}-\sum_{j\in P_{i}}a_{ij}B_{j}u_{j}) \end{split} $$ (40) 其中, $ \nabla V_{i}=\frac{\partial V_{i}}{\partial e_{i}} $. 类似于式(32)和式(33), 可得主要、次要智能体的最优策略为
$$ \begin{align} &u^{*}_{1}=Z_{1}\sum^{N}_{j=2}\alpha_{j}d_{j}R^{-1}_{j}B^\mathrm{T}_{j}\nabla V^{*}_{j}-Z_{2}R^{-1}_{1}B^\mathrm{T}_{1}\nabla V^{*}_{1} \end{align} $$ (41) $$ \begin{align} &u^{*}_{i}({u^{*}_{1}})=-\beta_{i}u^{*}_{1}-\frac{1}{2}d_{i}R^{-1}_{i}B^\mathrm{T}_{i}\nabla V^{*}_{i}(x)\qquad \end{align} $$ (42) 其中, $ Z_{1}=\frac{1}{2(1-\sum^{N}_{j=2}\alpha_{j}\beta_{j})} $, $ Z_{2}=\frac{d_{1}+\sum_{j\in P_{1}}e_{1j}\beta_{j}}{2(1-\sum^{N}_{j=2}\alpha_{j}\beta_{j})^{2}} $, 通过选择合适的$ \alpha_{j} $, 可以确保$ 1-\sum^{N}_{j=2}\alpha_{j}\beta_{j}\neq 0 $. 将式(41)和式(42)代入式(40), 可得下列方程:
$$ \begin{split} {\cal{H}}_{i}&(e_{i},\;\nabla V^{*\mathrm{T}}_{i},\;u^{*}_{i},\;u^{*}_{-i})=r_{i}(e_{i},\;u^{*}_{i},\;u^{*}_{-i})\;+\\ &\nabla V^{*\mathrm{T}}_{i}\left(Ae_{i}+d_{i}B_{i}u^{*}_{i}-\sum_{j\in P_{i}}a_{ij}B_{j}u^{*}_{j}\right)=0 \end{split} $$ (43) 于是, 顺序决策下的多智能体系统分层同步问题就转换为求解上述方程. Lin等[46]针对一类多人Stackelberg博弈问题提出一种基于事件触发的鲁棒自适应动态规划算法, 利用在线策略迭代方法得到耦合HJ方程的解. 此外, Li等[47]提出一种基于积分强化学习的两层值迭代算法, 在不依赖于系统动态的情况下解决线性多智能体系统的最优同步问题. 通过为系统状态观测器构建辅助输入, Yan等[48]将原系统与观测器输入的先后作用关系建模为两人Stackelberg博弈, 利用积分强化学习与自适应评判学习算法达到Stackelberg纳什均衡的同时, 智能体间的一致性误差也实现了渐进收敛.
1.2 多智能体协同
不同于多智能体博弈, 多智能体协同控制则不需要考虑智能体间的竞争行为, 其通过多个智能体互相协调与合作, 共同完成某个复杂任务或目标. 强化学习可以为智能体提供自主学习和自适应调节的能力, 使得协同控制策略能够在动态和复杂的环境中不断优化. 通过将强化学习与协同控制相结合, 多智能体系统可以在不确定和不断变化的环境中实现高效合作. 强化学习算法使得智能体能够在不断试错的过程中学习最佳的协同策略, 并通过相互作用实现系统的全局优化. 这一融合特点显著扩展了多智能体协同控制的应用领域, 如集群机器人编队、智能交通管理和分布式传感器网络等, 使得这些领域中的智能体能够通过不断学习和调整, 更好地完成任务并提升整体系统的性能.
多智能体强化学习协同控制的研究面临着多样化的挑战和应用需求. 本节立足于不同协同任务、不同系统动态、不同系统性能要求和系统模型依赖程度等四个因素, 对多智能体强化学习控制的研究成果进行归纳, 其整体框架如图2所示.
1.2.1 不同协同任务
典型的协同控制任务包括领航−跟随一致性控制、编队控制、包含控制等, 其在实际系统中有着广泛的应用. 例如, 在地球观测或天文探测任务中, 多个卫星需要保持相同的姿态, 以确保观测设备能够同步对准目标. 而在集群机器人编队中, 多个机器人需要协同合作完成复杂的任务, 如搜索救援或环境监测, 这要求智能体之间能够相互协调, 保持编队形态以应对不同场景. 因此, 针对不同协同任务的特点和需求, 多智能体强化学习控制需要设计相应的算法和策略, 以实现智能体之间的有效协同.
多智能体系统中的领航−跟随一致性控制是一种常见的协同控制策略, 用于指导多个智能体以一致的方式行动. 在这种控制策略下, 领航者通常负责制定整体行动方向和目标, 跟随者则调整自身行为以与领航者保持一致, 以实现整个系统的协调运行. Li等[49]针对一类状态不可观测的多智能体系统提出一种基于强化学习方法的分布式输出反馈最优控制策略, 仅利用各智能体的输出顺利地实现了领航−跟随一致性. 而针对系统存在输入受限与外部干扰的情况, Zhang等[50]提出一种基于强化学习的在线策略迭代方法, 利用Actor-Critic网络得出分布式最优一致性控制问题的近似解. 对于领航跟随二部一致性问题, Li等[51]通过一种新的坐标转换方法将其化为传统的多智能体一致性跟踪问题, 提出基于数据的强化学习算法获得了领航−跟随双边一致性问题的最优控制策略. 当系统面临间歇性的状态受限问题时, Luo等[52]提出一种新颖的切换函数以及改进型的坐标转换方式, 将受限的状态转换为非受限的表达形式, 在反步控制的框架下得到了近似的最优控制器.
多智能体系统的编队控制是指在多个智能体之间实现一定形态排列或规定动作模式的控制策略. 这种控制策略通常用于集群机器人、自动驾驶车辆、飞行器编队等多智能体系统中, 使智能体之间保持一定的空间关系和运动规律, 以实现协同任务的完成和系统性能的提升. Yu等[53]针对一类分布式高阶多智能体系统的时变编队控制问题提出一种自适应最优控制策略, 借助自适应动态规划的方法获得HJB方程的近似解, 其中神经网络用于近似值函数. 对于一类时变编队的低阶多智能体系统, 在文献[54]中, Lan等设计了以一种基于神经网络状态观测器以及简易强化学习算法的自适应最优控制策略. 对于多智能体编队控制中的通信保留与碰撞避免问题, Wang等[55]基于图论知识, 设计了一种虚拟分布式最优控制器, 其中Actor-Critic网络应用于强化学习算法的在线实现.
多智能体系统的包含控制是指通过调节系统中各个智能体的行为, 使得整个系统中的一部分或全部智能体都受到一定范围内的“包含”, 从而达到一致性或稳定性的目标. 这种控制策略的主要目的是在多智能体系统中实现一定的集中性控制, 通过调节系统中智能体之间的相互作用, 达到约束或限制智能体运动的目的. Cheng等[56]针对具有多个活跃领导者以及执行器饱和的四旋翼小队, 设计了一种基于历史数据的离线强化学习算法的自适应最优控制策略, 顺利地实现了包含控制任务. 对于一类线性多智能体系统的最优鲁棒包含控制问题, Zuo等[57]设计了一种基于模型的离线策略迭代算法. 此外, 由于只有部分智能体才能获取领航者的状态信息, 导致难以针对其余未能直接与领航者存在通讯连接的跟随者设计分布式最优控制器. Wang等[58]为每个跟随者设计了一个无模型的分布式自适应观测器, 以取代最优控制器中的领航者状态, 降低多智能体系统分布式控制设计的复杂度.
1.2.2 不同系统动态
在多智能体系统的控制中, 系统动态特性的多样性带来诸多挑战. 根据不同系统的动态特性, 可以从连续时间、离散时间、线性系统和非线性系统的角度进行描述和优化. 多智能体强化学习控制需要具备强适应性和高稳定性, 以应对这些系统的快速变化和不确定性. 例如, 连续时间系统的动态特性通常表现为平滑和连续的变化. 在无人机编队中, 风速和气流等外部环境因素的变化频繁, 要求智能体能够实时调整飞行姿态以保持编队的稳定性. 与此不同, 离散时间系统则在特定时间间隔内更新状态. 例如在智能电网中, 电力负载的变化较为缓慢, 但仍需智能体在每个时间步内灵活调整, 以适应电网运行状态的变化.
对于一类具有输入饱和的线性多智能体系统, Qin等[59]提出一种基于数据的离线策略强化学习算法用于学习最优控制策略, 其损失函数中的控制输入项为非二次型形式. 对于使用离散时间刻画的线性多智能体系统, Mu等[60]提出一种基于Q学习的强化学习算法, 利用系统产生的数据实现一致性控制. 面对更为复杂的非线性系统动态模型, Bai等[61]提出一种分布式多梯度递归强化学习策略, 实现了多智能体的一致性控制目标, 其中多梯度递归方法用于神经网络学习率的整定. 当非线性多智能体间各子系统存在动态异构的情况时, Sun等[62]建立了一种带有折扣因子的分布式性能指标, 将多智能体的协同控制问题转化为利用强化学习方法求解HJB方程的问题. 另外, 在外部环境发生变化时, 原有的通信拓扑结构可能不再适用, 需要进行切换以适应新的环境条件[63−66]. Qin等[67]考虑了线性异构多智能体系统在固定和动态通信拓扑结构下的输出包含控制问题, 提出一种在线的异策略强化学习算法用以求解带折扣因子的代数黎卡提方程.
1.2.3 不同性能要求
不同系统对性能要求的差异将会影响多智能体强化学习控制的设计. 在一些安全关键型系统中, 系统性能需要具备高度鲁棒性和安全性. 因为随着工业系统变得愈加复杂化和大规模化, 执行器故障的发生在所难免[68−71]. 然而, 一旦故障产生, 系统性能必然会受到一定程度的下降, 甚至完全失效. 因此, Zhang等[72]针对一类遭遇执行器故障的非线性多智能体系统, 提出基于自适应动态规划的最优容错一致性控制策略. 通过建立一个局部的故障观测器, 每个智能体的潜在故障可以得到有效估计. 对于更严重的情况——系统执行器遭受外部攻击, Xu等[73]提出一种基于数据的协同学习算法, 建立了弹性预测器为遭受攻击下的跟随者提供领导者的状态估计. 通过分别使用在线和离线的方法求解代数黎卡提方程, 得出基于强化学习的最优弹性动态输出反馈控制策略.
此外, 在一些对控制精度要求较高的系统, 如自动驾驶汽车、高速列车控制系统等, 其收敛时间和收敛精度需要受到严格的限制. 这些系统需要在极短的时间内做出准确的响应, 以确保精确性和效率性. 通过将有限时间和固定时间稳定性理论与强化学习控制相结合, Zhang等[74]和Wang等[75]分别对多智能体最优一致性控制问题展开研究, 得到系统收敛时间的上界. 值得注意的是, 与文献[74]相比较, 文献[75]中得出的系统收敛时间上界不受系统初始状态的影响. 针对一类非线性多智能体系统的编队控制问题, Zhang等[76]基于模糊强化学习方法提出一种预设时间的自适应最优控制策略, 其独特之处在于设计的性能指标函数同时包含预设时间编队误差变量与控制输入损失. 在事先设定的时间常数内, 系统实现了最优控制性能以及编队误差收敛到可确定的范围内.
对于一些高度集成的系统, 由于带宽与计算能力有限, 无法承受复杂外部环境下庞大的信息交互. 在这些系统中, 信息传输和处理的速度受到限制, 因此需要设计轻量级的控制算法, 并在资源有限的情况下实现系统的高效运行. 为了减少系统的通信负担同时平衡系统的控制消耗, 许多研究人员将研究兴趣投向于基于事件触发机制设计强化学习控制策略[77−81]. Peng等[77]针对一类离散线性多智能体系统的领航跟随一致性控制问题, 提出基于事件触发的强化学习最优控制策略. 其中, 控制器与Actor-Critic网络的估计权重仅在触发时刻更新, 有效地降低了信息的传递次数, 缓解了系统的通信负担.
1.2.4 系统模型依赖程度
对系统模型依赖程度的差异性直接决定了控制策略的复杂性与实现路径, 是影响多智能体强化学习控制效果的重要因素. 具体而言, 在某些情况下, 系统模型可能是已知且准确的, 这样可以直接利用模型进行强化学习算法的训练和优化. 然而, 在另一些情况下, 系统模型可能难以获取或不完全可靠, 这时需要采用模型无关的强化学习方法, 例如基于策略的方法或模型无关的价值函数方法, 来实现智能体之间的协同控制. 因此, 针对不同的系统模型依赖程度, 多智能体强化学习控制需要灵活选择合适的方法和策略, 以实现系统的协同控制目标. 对于模型完全已知的多智能体系统最优包含控制问题, Xiao等[82]提出一种基于模型的在线强化学习算法, 采用一种单Critic网络方法获得耦合HJ方程的解. 而对于系统动态部分未知的多智能体图形博弈问题, Xiong等[83]为了最小化性能指标提出一种基于模型的策略迭代算法与基于数据的异策略积分强化学习算法. 针对具有完全未知动态多智能体系统的最优协同问题, Zhang等[84]在集中式训练分散式执行的框架下提出一种异策略的强化学习控制算法用于近似HJ方程的解. 在训练过程中, 所有来自智能体的信息投入于集中化的Critic网络, Actor网络则采用一种参数共享机制. 在执行过程中, 基于每个智能体的观察, 其控制动作由训练好的执行网络给出. 针对多智能体的最优同步问题, Li等[85]仅使用可测量的系统数据提出一种异策略的强化学习算法. 这种完全不依赖于系统模型的方法, 借助积分强化学习得出了异策略的贝尔曼方程. 针对每个智能体, 应用一种行为策略去收集数据, 不断地去学习离线贝尔曼方程的解. Wang等[86]设计了一种基于神经网络的无模型异策略强化学习方法, 解决一类非线性连续时间多智能体系统的全局协同一致性控制问题. 通过使用行为策略产生的数据集与规范化的梯度下降法, 得出Actor和Critic网络权重的自适应率. 为了实现一类未知多智能体系统的无穷时域最优一致性, Ming等[87]设计了一种在线自适应强化学习方法. 通过使用Identifier-Actor-Critic三种不同的神经网络并行学习去近似HJB方程的解, 其中新提出的Identifier网络用于识别未知的系统模型.
2. 多智能体强化学习决策
本节聚焦多智能体强化学习决策, 这类方法使用马尔科夫决策过程来建模不确定环境中的序列决策问题, 通过在环境中进行交互式学习以优化策略的长期回报[88]. 近年来, 多智能体深度强化学习充分利用各类深度神经网络的强大拟合与泛化能力, 虽然在一定程度上牺牲了可解释性, 但能够处理高维状态和动作空间, 特别适合于复杂未知环境中的决策任务. 本节首先介绍多智能体决策问题的描述与建模方法, 并引入多智能体强化学习的三类主要训练架构. 随后, 从环境复杂性挑战、计算复杂性挑战、信用分配挑战、对抗博弈挑战四个方面, 分别阐述多智能体强化学习所面临的问题和现有的解决方法. 本节内容安排如图3所示.
2.1 决策问题描述与建模
本小节将分别介绍三类决策模型: 马尔科夫决策过程、马尔科夫博弈、部分可观马尔科夫博弈, 为后续的多智能体强化学习决策方法奠定基础. 马尔科夫决策过程是建模单智能体序列决策问题的基本框架, 通过状态、动作和奖励的概念来形式化决策过程; 马尔科夫博弈模型是马尔科夫决策过程在多智能体系统中的扩展, 智能体分别拥有各自的状态空间、动作空间和奖励函数, 环境状态变化受到多智能体联合策略影响; 部分可观马尔科夫博弈模型是马尔科夫博弈的进一步扩展, 智能体仅能获得对环境的不完全观测, 进一步增加了决策过程的复杂性.
2.1.1 马尔科夫决策过程
马尔科夫决策过程(Markov decision process, MDP)[89−90]建立了不确定性环境下的序列决策模型, 表示为五元组: $ \langle S,\; A,\; R,\; P,\; \gamma \rangle $. 其中, $ S $ 表示状态空间, 状态是对环境的描述; $ A $ 表示动作空间, 包含智能体可以采取的所有可能动作; 状态转移概率 $ P(s' \mid s,\; a) $ 表示智能体在状态 $ s $ 下采取动作 $ a $ 后, 环境转移到新状态 $ s' $ 的概率; 奖励函数 $ R(s,\; a,\; s') $ 定义了当环境从状态 $ s $ 通过动作 $ a $ 转移到状态 $ s' $ 时, 智能体所获得的即时奖励; $ \gamma \in [0,\;1] $表示折扣因子, 用于权衡即时奖励和未来奖励的相对重要性. 策略 $ \pi(a \mid s) $定义了在某状态$ s $采取某动作$ a $的概率. 决策者的目标是找到最大化未来累积奖励的最优策略$ \pi^{\ast} $.
在MDP中, 使用价值函数和动作价值函数来评估在给定策略下处于某状态或采取某行动的期望回报. 回报 $ G_t $ 是从时间步 $ t $ 开始的累积折扣奖励:
$$ \begin{align} G_t = r_{t} + \gamma r_{t+1} + \gamma^2 r_{t+2} + \cdots = \sum_{k=0}^{\infty} \gamma^k r_{t+k} \end{align} $$ (44) 状态价值函数 $ V^{\pi}(s) $ 表示从状态 $ s $ 开始, 遵循策略 $ \pi $ 所能获得的期望折扣回报:
$$ \begin{split} V^{\pi}(s)=\; & {\rm{E}}_{\pi}[G_t \mid S_t = s] =\\ & {\rm{E}}_{\pi}\left[\sum_{k=0}^{\infty} \gamma^k r_{t+k} \mid S_t = s\right] \end{split} $$ (45) 状态−动作价值函数$ Q^{\pi}(s,\; a) $ 表示在状态 $ s $ 下采取动作 $ a $后, 遵循策略 $ \pi $ 行动所能获得的期望折扣回报:
$$ \begin{split} Q^{\pi}(s,\; a)=\; & {\rm{E}}_{\pi}[G_t \mid S_t = s,\; A_t = a] \\ & {\rm{E}}_{\pi}\left[\sum_{k=0}^{\infty} \gamma^k r_{t+k} \mid S_t = s,\; A_t = a\right] \end{split} $$ (46) 在MDP的基础上, 强化学习方法大致可分为两类: 基于值函数的强化学习方法[91−92]致力于实现对价值函数的准确估计, 并根据最优价值函数选取动作; 基于策略的强化学习方法[93−95]则直接学习一个优化价值函数的参数化策略, 由策略函数输出动作或动作概率.
2.1.2 马尔科夫博弈
如果环境中存在多个决策者(智能体), 标准马尔科夫决策过程可扩展为马尔科夫博弈模型(Markov games, MG)[96], 表示为一个六元组$ \langle S,\; {\cal{A}},\; P,\; \{R^i\},\; {\cal{N}},\; \gamma \rangle $. 其中, $ {\cal{A}} = A^1 \times A^2 \times \cdots \times A^N $表示所有智能体的联合动作空间; 状态转移概率 $ P(s' \mid s,\; a^1,\; \cdots,\; a^N) $ 描述在状态 $ s $ 下所有智能体选择动作 $ a^1,\; \cdots,\; a^N $ 时, 环境转移到新状态 $ s' $ 的概率; $ {\cal{N}} $ 表示智能体集合; 每个智能体$ i $都有各自的奖励函数$ R^i(s,\; a^1,\; \cdots,\; a^N,\; s') $, 定义了当环境从状态 $ s $ 通过所有智能体的联合动作 $ a^1,\; \cdots,\; a^N $ 转移到状态 $ s' $ 时, 智能体$ i $所获得的即时奖励. 智能体$ i $的目标是优化其策略$ \pi^i $, 使其未来累积奖励最大化. 此时, 智能体获得的奖励不仅取决于环境和其自身策略, 还取决于其他智能体的策略. 智能体$ i $的价值函数表示为
$$ \begin{align} V^{\pi^i,\;{\boldsymbol{\pi}}^{-i}}(s) = {\rm{E}}_{{\boldsymbol{\pi}}} \left[\sum_{k=0}^{\infty} \gamma^k r^{i}_{t+k} \mid S_t = s\right] \end{align} $$ (47) 其中, $ {\boldsymbol{\pi}}$表示联合策略, $ {\boldsymbol{\pi}}^{-i} $表示除智能体$ i $以外其他智能体的联合策略.
在求解马尔科夫博弈问题时, 通常希望寻找纳什均衡点, 即没有任何一个智能体能够通过单方面改变自己的策略来增加期望回报. 如果对于所有的智能体 $ i $ 和所有可能的策略 $ \pi^i $, 有
$$ \begin{align} V^{\pi^{i*},\; {\boldsymbol{\pi}}^{-i*}}(s) \geq V^{\pi^i,\; {\boldsymbol{\pi}}^{-i*}}(s),\; \quad \forall s \in S \end{align} $$ (48) 那么联合策略$ {\boldsymbol{\pi}}^* = (\pi^{1*},\; \pi^{2*},\; \cdots,\; \pi^{N*}) $ 是一个纳什均衡策略. 这表明在任何状态 $ s $ 下, 如果其他智能体的策略 $ {\boldsymbol{\pi}}^{-i*} $不变, 智能体 $ i $ 不可能通过偏离策略$ \pi^{i*} $来获得更高的期望回报. 在纳什均衡点, 每个智能体的策略都是对其他智能体策略的最佳响应.
2.1.3 部分可观马尔科夫博弈
部分可观马尔科夫博弈(Partially observable Markov games, POMG)[97]考虑了在许多现实场景中智能体不能完全观察到整个环境状态的情况, 是对马尔科夫博弈的进一步扩展. 在这种情况下, 每个智能体只能接收到一个与环境状态有关的局部观测, 这增加了决策过程中的不确定性, 使智能体必须基于有限的信息进行决策. 部分可观马尔科夫博弈可以描述为一个元组 $ \langle S,\; {\cal{A}},\; P,\; \{R^i\},\; {\cal{O}}, \; \{Z^i\}, {\cal{N}},\; \gamma \rangle $, 其中, $ S $、$ {\cal{A}} $、$ P $、$ \{R^i\} $、$ {\cal{N}} $、$ \gamma $ 的定义与马尔科夫博弈相同; $ {\cal{O}} $ 表示观测空间, 是环境状态的一个子集, 对于完全可观测环境有$ {\cal{O}} \equiv S $; $ \{Z^i\} $ 表示观测函数, $ Z^i(o^i \mid s,\; a^i) $ 定义了在执行动作 $ a^i $ 并达到状态 $ s $ 后智能体 $ i $ 接收到观测 $ o^i $ 的概率. 部分可观马尔科夫博弈的一般架构如图4所示.
在POMG中, 由于状态信息的不完全性, 智能体通常需要维护一个关于当前环境状态的信念, 称为信念状态[98]. 信念状态$ b(s) $是一个概率分布, 用于描述智能体处于各个状态的概率. 根据智能体的观测历史和动作历史序列和初始信念状态, 后续任意时刻的信念状态可以根据贝叶斯规则计算. 基于信念状态, 可以将部分可观MDP转化为信念MDP, 使用信念状态$ b $替代环境状态$ s $. 设$ B^i $表示智能体$ i $的信念空间, 则策略 $ \pi^i $ 依赖于信念状态, $ \pi^i : B^i \rightarrow A^i $.
2.2 多智能体强化学习的一般架构
本小节分别介绍多智能体强化学习的三类训练架构: 分散式架构、中心式架构、中心式训练−分散式执行架构.
2.2.1 分散式架构
分散式架构, 即分散式训练−分散式执行(Distributed training with decentralized execution, DTDE), 系统中的每个智能体独立地进行学习和决策. 在训练阶段, 每个智能体只能访问自己的局部观测, 并基于这些观测信息和奖励自行更新其策略或价值函数, 不与其他智能体共享参数和策略. 在分散式架构下, 策略的状态空间及动作空间维度不会随智能体数量增加而增长, 标准深度强化学习算法训练可以直接套用. 此外, 这类方法不需要全局信息, 对计算及通信资源没有特殊要求, 在灵活性和通用性方面具有优势. 例如, Tampuu等[99]基于分散式架构对单智能体DQN (Deep Q-network)算法[100]进行扩展, 在一些视频游戏环境中研究了不同奖励设置下多智能体的合作与竞争行为; Chen等[101]在一个无通信的多机器人场景中使用单智能体算法分散式地学习避障策略, 相比规划方法实现性能与效率的改进.
DTDE架构的主要挑战是环境非平稳性. 如果每个智能体独立地学习, 对于系统中任一智能体而言, 其他智能体也成为环境的一部分, 状态转移概率不再仅仅取决于环境本身, 也取决于其他智能体的策略[102]. 如果智能体的策略随时间不断变化, 将会导致环境的非平稳性, 这限制了单智能体方法在复杂多智能体问题中的直接应用. 此外, 对于DQN、DDPG[103]等依赖经验回放的强化学习方法, 这种非平稳性会导致智能体在过去采集的经验样本很快过时, 并对学习产生负面影响[104].
2.2.2 中心式架构
中心式架构, 即中心式训练−中心式执行(Centralized training with centralized execution, CTCE). 基于CTCE的方法学习一个完全中心式的策略, 将多智能体的联合状态空间映射至联合动作空间. 这相当于将多个智能体看作一个“超级智能体”, 使多智能体问题转化为单智能体问题, 不再存在环境非平稳性问题, 可以直接应用单智能体深度强化学习方法求解. 中心式的训练基于全局状态信息, 智能体的观测和经验完全共享, 有助于学习协作策略.
中心式架构所面临的主要挑战是“维度灾难”, 随着智能体数量的增加, 多智能体联合状态空间与联合动作空间都呈指数级增长. 对于高维动作空间问题, Gupta等[104]采用一种动作空间分解方法, 对于由$ n $个智能体组成的系统, 可以将中心式策略分解为$ n $个子策略, 每个子策略都将联合状态空间映射到一个智能体的局部动作空间. 对于局部动作空间维度为$ |{\cal{A}}| $的同构多智能体系统, 联合动作空间维度可从$ |{\cal{A}}|^n $ 减少到 $ n|{\cal{A}}| $. 即使如此, 联合状态空间的维度灾难仍然不可忽视. 此外, CTCE方法假设全局状态随时可以获取, 在训练和执行过程中依赖全局状态信息进行学习与决策. 然而, 在大多数现实场景中该假设很难满足, 在智能体之间进行不受限制的即时通信是不可能的, 这制约了CTCE架构的实际应用.
2.2.3 中心式训练−分散式执行架构
中心式训练−分散式执行架构(Centralized training with decentralized execution, CTDE)[105]继承并改进了上述两类方法, 在策略学习过程和实际应用中使用不同的范式. 在训练阶段, 智能体进行数据交换和访问全局信息相对容易, 因此采取中心式方案, 允许智能体访问包括其他智能体状态和动作在内的全局信息, 基于全局信息对各个智能体的局部策略进行评价和改进. 在实际部署阶段, 智能体之间的通信资源可能十分有限, 难以获取全局状态, 因此智能体仅依赖自身的局部观测信息, 通过各自的策略函数独立地选择动作. CTDE架构结合了分散式和中心式架构的优点. 一方面, 在训练阶段, 全局信息的引入在一定程度上缓解了环境非平稳性问题, 有助于促进智能体之间的交互和协作; 另一方面, 相比CTCE架构, 基于局部观测的分散式策略能够缓解维度灾难的影响, 增强系统的可扩展性, 且放宽了对全局信息和通信能力的要求. 在CTDE架构下, 有两种主要的实现思路, 分别是基于Actor-Critic[106−107]的方法, 以及基于值函数分解[108]的方法.
第1类方法将CTDE思想与强化学习中的Actor-Critic架构相结合. 在标准的Actor-Critic架构中, 使用Critic网络学习价值函数, 对当前策略进行评估; 使用Actor网络学习策略函数, 并根据Critic网络的估计调整策略参数. 基于CTDE思想, 该架构可以自然地扩展到多智能体系统中, 即中心式Critic−分散式Actor架构. 中心式Critic网络的输入包含全局信息, 分散式Actor网络的输入仅有局部观测. 在学习阶段, 使用全局信息训练中心式Critic网络, 通过Critic网络的输出改进各智能体的Actor网络; 在执行阶段, 智能体仅依赖自己的策略独立作出决策. Lowe等[109]提出的多智能体深度确定性策略梯度(Multi-agent deep deterministic policy gradient, MADDPG)算法是这类方法的一个典型. 在MADDPG中, 每个智能体 $ i $使用自己的策略 $ \pi^i $最大化其未来累积折扣奖励, 即
$$ \begin{align} J(\pi^i) = {\rm{E}}_{s,\; {\boldsymbol{a}} \sim {\boldsymbol{\pi}} } [R^i(s,\; {\boldsymbol{a}})] \end{align} $$ (49) 其中, $ {\boldsymbol{a}} = (a^1,\; \cdots ,\; a^N) $ 是所有智能体的联合动作, $ R^i(s,\; {\boldsymbol{a}}) $ 是智能体 $ i $ 在状态 $ s $ 和联合动作 $ {\boldsymbol{a}} $ 下获得的即时奖励. 智能体 $ i $ 的目标是最大化 $ J(\pi^i) $. 在中心式训练阶段, 采用策略梯度方法更新智能体的Actor网络, 即
$$ \begin{align} \nabla_{\theta^i} J(\pi^i) = {\rm{E}}_{s,\; {\boldsymbol{a}} \sim {\boldsymbol{\pi}} } \left[\nabla_{\theta^i} \log \pi^i(a^i|o^i) Q^{\pi^i}(s,\; {\boldsymbol{a}})\right] \end{align} $$ (50) 其中, $ Q^{\pi^i}(s,\; {\boldsymbol{a}}) $ 表示中心式Critic网络, 用于评估Actor网络输出决策的质量. Critic网络的输入包含全局信息, 其更新目标计算如下:
$$ \begin{align} y = r^i + \gamma Q^{\pi^i}(s',\; {\boldsymbol{a}}')|_{a^{j\prime}=\pi^{j} (o^j)} \end{align} $$ (51) 其中, $ s' $ 是下一个状态, $ a^{j\prime} = \pi^j(o^j) $ 是智能体 $ j $ 在观察 $ o^j $ 下根据其策略 $ \pi^j $ 选择的动作, Critic网络的损失函数为
$$ \begin{align} L(\phi^i) = {\rm{E}}_{s,\; {\boldsymbol{a}},\; r,\; s'} \left[(Q^{\phi^i}(s,\; {\boldsymbol{a}}) - y)^2\right] \end{align} $$ (52) Critic网络仅在训练阶段发挥作用. 在分散式执行阶段, 每个智能体$ i $根据各自的Actor网络$ \pi^i(o^i) $的输出进行决策, 其输入仅包含自身局部观测, 无需全局信息.
第2类CTDE方法采用价值函数分解, 通过将多智能体联合价值函数分解为各个智能体的局部价值函数来简化多智能体学习过程. Sunehag等[108]面向多智能体合作问题提出值分解网络(Value decomposition network, VDN), 假设联合奖励是各智能体奖励之和, 从而将联合动作价值函数表示为局部动作价值函数之和. 考虑两个智能体, 若联合奖励函数 $ r(s,\; {\boldsymbol{a}}) $ 可以加性分解为 $ r_1(o^1,\; a^1) + r_2(o^2, a^2) $, 那么动作价值函数可以分解为
$$ \begin{align} Q^\pi(s,\; {\boldsymbol{a}}) = {Q}^1(s,\; {\boldsymbol{a}}) + {Q}^2(s,\; {\boldsymbol{a}}) \end{align} $$ (53) 在联合价值函数的训练过程中, VDN还引入了通信机制以共享局部观测信息. 在执行阶段, 由于局部价值函数的输入仅包含局部观测, 因此可以在无通信的情况下进行分布式决策. 在这种分解机制之下, 神经网络能够自动学习不同智能体的价值函数, 更准确地估计智能体的实际贡献, 并提升联合策略的性能.
目前, CTDE架构已经成为多智能体强化学习的主流训练架构, 但CTDE本身并不能彻底解决多智能体学习过程中存在的诸多挑战. 此外, CTDE架构对于训练过程中的信息共享和数据交换要求较高, 限制了其应用范畴. 在后续内容中, 本文将从几个不同方面对多智能体强化学习所面临的挑战进行分析, 并讨论相应的解决方案.
2.3 环境复杂性挑战
在多智能体系统中, 环境复杂性主要源于多个智能体的互动、环境的动态变化以及任务的多样性. 这些因素共同作用, 使得环境呈现出高度非平稳性和不确定性. 环境复杂性不仅影响算法的设计和实现, 而且也是决定多智能体系统性能的关键因素. 本小节将从环境的非平稳性、局部可观测性以及角色与任务的多样性这三个角度, 详细探讨这些挑战如何影响多智能体强化学习, 并介绍相应的解决方案.
2.3.1 环境非平稳性
在单智能体强化学习问题中, 环境的状态转移概率仅与当前状态和智能体选择的动作有关. 对智能体而言, 其外部环境模型是稳定的, 只要确定状态和动作, 就能确定状态转移概率. 虽然环境可能包含随机性, 但学习问题是平稳的. 然而, 对于多智能体系统, 环境的状态转移概率与所有智能体的策略相关, 而这些智能体在学习过程中不断更新自己的策略. 从单个智能体的角度看, 其他智能体也构成环境的一部分, 状态转移概率受到联合策略的影响而变化, 环境呈现出非平稳性, 即
$$ \begin{align} P(s' \mid s,\; a,\; {\boldsymbol{\pi}}_m ) \neq P(s' \mid s,\; a,\; {\boldsymbol{\pi}}_n ) \end{align} $$ (54) 其中, $ {\boldsymbol{\pi}}_m $, $ {\boldsymbol{\pi}}_n $表示不同的多智能体联合策略.
环境非平稳性使强化学习算法面临“移动目标”问题[110]. 马尔科夫决策过程中, 通常使用状态值函数$ V $或状态−动作值函数$ Q $作为决策或策略评估的依据, 而深度强化学习方法使用深度神经网络逼近价值函数. 由式(45)和式(46)可知, 价值函数表示策略的未来期望回报, 而期望回报与环境状态转移函数$ P $有关. 如果$ P $发生变化, 真实价值函数也将发生变化, 使学习算法在尝试逼近价值函数时的目标不断变化, 难以收敛. 此外, 环境非平稳性使策略梯度方法面临高方差问题: 智能体的奖励函数实际上是$ R(s,\;a^1,\; \cdots ,\; a^N) $, 奖励取决于所有智能体的动作, 因此仅以智能体自身动作为条件的奖励$ R(s,\;a^i) $具有很高的随机性, 并进一步导致较高的梯度方差. Lowe等[109]证明: 在特定的多智能体设置中, 算法在正确的梯度方向上执行策略改进的概率随智能体数量的增加呈指数级下降.
目前, 中心式训练方法广泛应用于处理环境非平稳性. 以MADDPG、MAAC[111]、MAPPO[112]为代表的一系列方法通过中心式训练的Critic网络估计价值函数, 以应对非平稳性问题. 在训练阶段, Critic网络可以访问有关其他智能体的附加信息, 其输入包括全局状态$ s $和所有智能体的动作$ a^1,\; \cdots , a^N $. 如果每个智能体都充分了解其他智能体的行为, 那么对单个智能体而言, 环境是平稳的. 对任意联合策略$ {\boldsymbol{\pi}} $, 下式均成立:
$$ \begin{align} P(s' \mid s,\; a^1,\; \cdots ,\; a^N ) = P(s' \mid s,\; a^1,\; \cdots ,\; a^N,\; {\boldsymbol{\pi}} ) \end{align} $$ (55) 因此, 基于这些额外知识的Critic网络更有可能对当前状态和策略作出准确的评价. 在此基础上, Iqbal等[111]考虑系统中不同智能体之间的相互影响应有轻重缓急之分, 在Critic网络的设计中引入注意力机制[113−114], 使得每个智能体的Critic在评估动作的价值时, 能够自适应地调整对其他智能体状态和动作的“注意力”, 并主要关注那些对当前决策至关重要的信息.
相较完全中心式方法, CTDE架构显著放宽了对全局信息的需求, 允许智能体在实际执行阶段完全基于局部观测进行决策. 然而, 在一些现实问题中, 要求智能体共享彼此的观测和策略可能难以实现, 必须采取分布式学习方法. Tan[115]将表格式Q学习[91]算法应用于多智能体问题, 并对比了完全独立Q学习和几种基于共享信息的变体, 其结果表明独立Q学习是有效的, 但引入共享信息有助于提升学习效果. Sen等[116]在一个双人合作任务中应用独立Q学习, 通过实验表明智能体可以在不共享信息且不知道对方存在的情况下学会自主协作. 尽管如此, 完全分散式的学习很难彻底解决环境非平稳性问题, Sen等[116]强调在这种情况下需要仔细微调超参数, 否则很有可能影响系统的收敛性. Matignon等[117]指出这类完全分散式方法的成功可能与良好的探索机制有关. 在深度强化学习领域, 独立Q学习等方法面临更多挑战: 一方面, 高维的状态−动作空间严重影响探索的效率; 另一方面, 深度Q学习等方法使用经验回放技术[100]提高样本效率, 而在多智能体系统中, 由于其他智能体的策略更新影响环境模型, 经验回放缓冲区中的样本会很快过时, 并干扰学习进程. Foerster等[118]认为独立Q学习忽略了环境中其他智能体策略随时间变化的事实, 导致Q函数的非平稳性, 如果考虑其他智能体的策略并用于模型输入, Q函数就是平稳的. 这与MADDPG的出发点相同, 但该工作并未使用真实的策略信息, 而是在经验回放中引入一种“指纹”机制, 这足以使模型能够区分经验回放缓冲区中来自不同阶段的样本, 在保证分散式学习的前提下缓解环境非平稳性问题.
此外, MADDPG是一种确定性策略梯度方法[94], 在价值函数的训练过程中, 算法需要根据当前策略产生下一个状态−联合动作对$ (s',\;{\boldsymbol{a}}') $, 并根据$ Q(s',\;{\boldsymbol{a}}') $更新对$ Q(s,\;{\boldsymbol{a}}) $的估计. 因此, 这类方法对于全局信息的要求较为苛刻, 不仅需要已知全局状态和联合动作, 还需要访问其他智能体的策略. 对于一般的非合作或竞争场景, 要求智能体共享彼此的观测和策略是不合理的. MADDPG的一种变体[109]放宽了对其他智能体策略信息的需求, 通过监督学习方式, 根据观测得到的动作信息训练近似策略网络, 用于推断其他智能体的策略. 类似地, Raileanu等[119]考虑一个存在多种任务的双人博弈场景, 每个智能体拥有各自的任务. 该工作基于“推己及人”的思想设计一种意图推断机制, 根据自身策略和对手的行为, 逆向推测对方的任务, 从而降低系统的不确定性, 并提升最终策略的性能.
2.3.2 局部可观测性
局部可观测性是引起环境复杂性的另一个重要原因. 在多数现实场景中, 系统中的每个智能体只能观察到环境的一部分信息, 由于环境变化并不取决于单一智能体的局部观测, 智能体作出合理决策的难度显著提高. 在深度强化学习领域, 处理局部可观测性的常用方式是使用完整的历史观测序列代替单一时刻的局部观测作为决策依据. 这一思路与信念MDP[120]有异曲同工之处: 信念MDP基于历史观测−动作序列和贝叶斯规则维护一个信念状态, 作为对真实状态的估计; 在深度强化学习中, 可以利用循环神经网络[121−122]直接处理序列数据, 实现对历史信息的“记忆”. Hausknecht等[123]将长短期记忆网络[121]引入DQN算法中, 在不完全观测的情况下实现更好的泛化性. 对于多智能体系统, 值分解网络[108]引入智能体的局部观测历史$ h $, 使用$ {Q}(h,\; a) $作为$ {Q}(s,\; a) $的近似, 使用如下的价值函数分解方案:
$$ \begin{split} Q^\pi(s,\; {\boldsymbol{a}}) =\;& {Q}^1(s,\; {\boldsymbol{a}}) + {Q}^2(s,\; {\boldsymbol{a}})\approx \\ & {Q}^1(h^1,\; a^1) + {Q}^2(h^2,\; a^2) \end{split} $$ (56) 这允许分散式的局部价值函数以局部观测信息作为输入, 同时利用循环神经网络“记忆”历史信息, 缓解局部可观测性带来的负面影响. 此外, 在部分可观测性等因素的影响下, 智能体在环境探索过程中收到的负面反馈可能是环境随机性或其他智能体导致的, 不一定反映当前动作的质量. 对此, 滞后Q学习[124]通过使用两个不同的学习率来更新Q值: 当观察到的回报不小于当前的Q值估计时, 使用正常的学习率, 否则使用较小的学习率. 这样的设置有助于避免因环境随机性或策略探索而导致Q值迅速下降, 使得学习过程更加稳健. Omidshafiei等[125]将DRQN与滞后Q学习相结合, 实现部分可观测条件下的分散式学习与决策.
缓解局部可观测挑战的另一类方法是引入通信, 允许智能体之间交换信息, 以弥补自身观测的不足. 最直观的方法是直接共享原始观测数据[108], 也有一些方法通过共享神经网络参数[126]或共享隐藏层输出[127−128]实现隐式通信. 共享高维的观测或策略数据在实际应用中十分困难, 对此, 一些工作在智能体之间引入显式通信, 并由智能体在交互过程中自主学习通信的编码与解码[129−130]. Sheng等[130]和Foerster等[131]提出RIAL和DIAL两种通信学习算法. RIAL结合DRQN与独立Q学习, 智能体既需要选择一个与环境交互的动作, 也需要选择一个通信动作, 并将其传递给其他智能体. DIAL将一个智能体的通信输出直接连接到另一个智能体的价值网络输入, 梯度信号可以在不同智能体之间流动, 使智能体能够通过梯度反向传播给予彼此有关其通信行动的反馈. Peng等[132]提出多智能体双向协调网络, 用于连接各独立智能体的策略和价值函数, 显著增强了不同智能体之间的交流, 使多智能体学习如何作为一个团队来协调行动. 除了在智能体之间传递局部观测信息外, 也可以传递意图, 如吴俊锋等[133]提出一种两阶段意图共享方法, 智能体在决策前与其他智能体进行通信, 互相交流意图信息, 从而促进智能体之间的协作. 在现实情况下资源有限, 必须提高通信效率, 减少通信开销. 对此, Mao等[134]通过引入一种自适应门控机制, 修剪不必要的通信以保存智能体间必要的信息流; Kim等[135]考虑一个通信带宽有限且智能体共享通信渠道的实际场景, 研究高效的通信调度策略. Das等[136]提出TarMAC, 有选择性地向特定对象发送消息, 以提高通信的效率和效果. Niu等[137]基于类似思路, 引入图注意力框架学习通信策略, 以更有效地处理何时通信和通信对象, 以及如何高效处理信息的问题.
2.3.3 角色与任务多样性
多智能体环境复杂性的另一个方面体现为角色和任务的多样性. 不同的智能体可能具有不同的能力或属性, 并承担不同的角色, 每个角色又可能对应着特定的行为模式和任务目标. 一方面, 在多智能体系统中引入分工和协作的机制有望提升系统的适应性和效率; 另一方面, 角色与任务多样性增加了学习过程的复杂性. Lhaksmana等[138]设计了一种角色建模方法, 不同的角色对应于不同的行为模式, 并使智能体通过角色之间的切换产生不同的行为. Wang等[139]探讨了如何在多智能体强化学习中利用角色概念优化智能体协作, 并提出一种基于角色引导的框架, 使智能体可以根据环境和任务需求, 自主地形成和适应不同的角色. 这些角色并非预先定义, 而是随着学习过程动态演化, 确保了系统的灵活性和适应性. 进一步, Wang等[140]在角色学习的基础上引入任务分解机制, 通过将复杂任务分解为多个子任务, 并为每个子任务分配特定角色的智能体, 算法可以更有效地管理多智能体之间的交互和协作. Hu等[141]基于智能体的行为模式, 使用对比学习方法生成角色编码, 并在值分解架构的混合网络中引入角色信息, 实现更好的联合价值函数估计. 此外, 另一些方法[142−143]主要关注如何表达和理解环境中其他实体的相互关系, 利用这些信息提升策略的可解释性, 并促进智能体间的合作和协调.
2.4 计算复杂性挑战
相比单智能体系统, 多智能体系统的状态−动作空间维度显著增高, 这造成两方面挑战. 首先, 强化学习通过试错寻找最优策略, 高效的策略探索十分关键. 在多智能体系统中, 高维的状态−动作空间导致策略探索困难、样本效率低下, 使深度强化学习面临的策略探索问题进一步加剧, 在奖励较稀疏的场景中尤为严重. 其次, 许多先进的多智能体强化学习算法都基于中心式训练架构, 将多智能体联合动作作为价值函数估计的条件. 随着参与的智能体数量增加, 状态和行动空间的维度呈指数级增长, 这导致维度灾难问题, 使得学习过程需要处理的数据量和计算量急剧上升, 严重影响算法的效率和实用性. 本小节将分别从样本效率和可扩展性两个角度, 阐述缓解计算复杂性挑战的方法.
2.4.1 样本效率
强化学习的样本效率直接影响策略质量和收敛速度. 在多智能体系统中, 由于环境动态性和维度灾难, 动作与状态之间的关系十分复杂, 使充分探索环境和策略所需的样本数量大幅增加. 在探索不充分的情况下, 策略非常容易收敛到局部最优, 甚至无法收敛. 对此, 一种思路是利用先验知识将问题简化或降维. Wang等[144]引入“动作语义”概念, 根据动作是否直接影响其他智能体将动作空间拆解成两部分, 并将不同类型的观测信息与不同的动作相关联. 通过使用特定的观测信息估计特定动作的价值, 该方法减少了不相关信息带来的噪声, 简化学习问题并提高样本效率. 另一类思路是直接改进价值函数的学习机制, 通过减少估计偏差来提高效率. 例如Ackermann等[145]借鉴单智能体领域中的“双重学习”[146]技术, 提出双重中心式Critic网络以减少价值函数的过高估计偏差; Pan等[147]通过基于正则化的价值函数更新方法来纠正这一问题.
有效的策略探索对提高样本效率和策略性能至关重要. 在多智能体系统中, 简单的随机探索方法可能不足以应对复杂高维的策略空间, 导致学习效率低下, 容易收敛到次优策略. Liu等[148]在策略优化目标中加入一个最大熵目标, 鼓励智能体探索潜在的具有更高长期回报的策略, 增加策略探索的广度和深度. Na等[149]使用一种称为“情节记忆”的机制, 通过专门记录给定状态−动作对的所能产生的最高回报, 有效提高样本效率. Mahajan等[150]引入额外的潜变量用于增强多智能体联合探索. 该方法在智能体价值网络中引入一个以潜变量为条件的参数层, 不同的潜变量对应不同的行为模式, 使多智能体以协调的方式探索环境. Liu等[151]提出一种协作式多智能体探索机制, 在学习过程中为所有智能体引入额外的共享目标, 并训练智能体通过协作实现目标, 以促进对不同策略的高效探索. Chen等[152]引入一种内在动机奖励机制, 基于多智能体联合状态和策略的新颖性给予额外奖励, 鼓励对未知状态和策略的高效探索.
2.4.2 可扩展性
为了应对环境非平稳性, MADDPG等方法使用中心式Critic网络, 其输入依赖于所有智能体的动作, 这导致输入空间维度随智能体数量呈指数增长. MAAC方法对此稍作改进: 每个智能体的Critic网络仅以局部观测作为输入, 所有的Critic网络通过一个共享的多头注意力结构共享信息, 这使得输入空间维度随智能体数量线性增长, 在一定程度上提高了可扩展性. 进一步, Hao等[153]提出一种多智能体置换机制, 利用信息的置换不变性和置换等变性简化状态空间, 从而提高样本效率, 增强可扩展性.
平均场方法是简化多智能体问题的另一类有效手段. 当智能体的数量增加时, 智能体之间的复杂交互行为可能变得难以处理. 对此, Yang等[154]利用平均场表示智能体群体或者邻近智能体对单个智能体的平均影响, 从而简化智能体之间的相互作用. 对于智能体$ k $, 原价值函数可以用平均场价值函数近似:
$$ \begin{align} Q^{k}(s,\;a) \approx Q^{k}_{\text{MF}}(s,\;a^{k},\;\bar{a}^{k}) \end{align} $$ (57) 其中, $ \bar{a}^{k} $表示平均动作, 即$ \bar{a}^{k} = \frac{1}{N^{k}}\sum_{j \in N(k)}a^{j} $. 这种方法将复杂的多智能体相互作用问题转化为更简单的两个实体间的交互问题, 单个智能体学习其最优策略是基于整体多智能体团队的动态行为; 同时, 整体的行为也会随着各个智能体的策略更新而不断调整优化. 这能够显著降低模型复杂度, 提高学习效率. 然而, 平均场方法基于置换不变性假设, 要求多智能体必须是同构的, Ganapathi等[155]放宽了该限制, 引入多类型智能体, 使不同类型的智能体具有不同的任务或目标. Mondal等[156]同样考虑类似的多类别异构多智能体问题, 进一步从理论上证明这类系统可以通过平均场方法近似, 并提出相应的可收敛至近似最优策略的自然策略梯度算法.
2.5 信用分配挑战
信用分配[157]是合作式多智能体强化学习所面临的重要挑战. 在多智能体系统中, 环境受到所有智能体的共同影响, 因此每个智能体的动作不仅影响其自身的即时奖励, 还会影响其他智能体的奖励, 环境反馈的奖励是所有智能体行为的复合结果. 如果多个智能体具有共同的合作目标, 就难以区分每个智能体对环境奖励的具体贡献. 一个具有较差策略的智能体可能会因为其他智能体的良好行为从环境中接收到奖励, 并错误地认为当前策略是较好的, 造成“惰性智能体”现象, 阻碍了联合策略的优化. 因此, 如何公正地将环境奖励分配给各个参与的智能体, 使得它们能够根据自己行为的实际效果进行学习和调整, 成为一个关键问题.
值分解方法[108]能够有效处理信用分配问题. 值分解方法不依赖于中心式训练的Critic网络, 每个智能体都有各自的局部价值函数, 并以局部观测历史序列作为输入. 虽然最终的联合价值函数仍然采取中心式训练, 但这种分解机制提供了更高的灵活性, 使价值网络能够更准确地估计智能体的实际贡献, 实现较好的信用分配. 如式(53)所示, 标准的值函数分解方法[108]直接使用固定的加和形式, 这限制了模型对复杂问题的表达能力. 针对这一问题, 可将加和形式改为函数形式, 联合状态−动作价值函数$ Q^{{\mathrm{tot}}} $改由下式计算:
$$ \begin{array}{*{20}{l}} Q^{{\mathrm{tot}}}(s,\; {\boldsymbol{a}}) = f(Q^1(h^1,\; a^1),\; \cdots,\; Q^N(h^N,\; a^N),\; s) \end{array} $$ (58) 其中, $ h $表示局部观测历史, $ {\boldsymbol{a}}=(a^1,\;\cdots ,\;a^N) $表示联合动作空间. 式(58)通过引入更复杂的结构来克服VDN线性加和的限制, 从而更好地处理多智能体间的复杂交互作用. Rashid等[158]提出QMIX算法, 使用一个混合网络来表示分解关系$ f $. 混合网络以各个智能体局部价值网络的输出作为输入, 并输出对联合状态−动作价值的估计. 为了在实际执行阶段实现分散式决策, 由联合价值函数和局部价值函数产生的最优策略必须保持一致, 即满足局部−全局一致性条件:
$$ \begin{split} &\arg \max\limits_{{\boldsymbol{a}}} Q^{{\mathrm{tot}}}(s,\; {\boldsymbol{a}}) =\\ &\quad \left(\arg \max\limits_{a^1} Q^1(h^1,\; a^1),\; \cdots ,\; \arg \max\limits_{a^N} Q^N(h^N,\; a^N)\right) \end{split} $$ (59) QMIX通过单调性约束来满足上述条件, 即
$$ \begin{split} &Q^{{\mathrm{tot}}}(s,\; {\boldsymbol{a}}) \geq Q^{{\mathrm{tot}}}(s,\; {\boldsymbol{a}}') \\&\qquad \text{若} \;\, Q^i(s,\; a^i) \geq Q^i(s,\; a^i{'}),\; \quad \forall i \end{split} $$ (60) 为确保混合网络满足单调性约束, QMIX使用超网络控制混合网络的权重和偏置, 通过绝对值激活函数保证混合网络的权重非负. 类似地, Zhou等[159]使用在中心式的Critic网络中引入基于全局状态的超网络, 实现基于策略梯度的隐式信用分配. 在VDN和QMIX基础上产生了一系列改进方法, 以提高算法对复杂价值函数的表征能力. Rashid等[160]提出加权QMIX方法, 在损失函数中引入权重, 从而提高对最优联合策略估计的准确性. Yang等[161]利用多头注意力机制近似联合价值函数, 以明确地建模各智能体对联合策略的影响. Son等[162]在中心式训练过程中直接学习真实的全局价值函数$ Q^{{\mathrm{tot}}} $, 用全局价值函数引导另一个合成价值函数$ Q^{{\mathrm{tot}} \prime} $的学习, 并使两者具有相同的最优联合动作; 同时, 通过使$ Q^{{\mathrm{tot}} \prime} $满足单调性条件实现分散式决策.
上述值分解方法均属于隐式信用分配, 依赖于准确的价值函数估计. 另一类是显式信用分配方法, 在奖励分配和价值函数更新中引入额外机制, 以更明确地实现良好信用分配. Foerster等[163]提出反事实多智能体策略梯度(Counterfactual multi-agent policy gradient, COMA)算法, 借鉴差异奖励[164]的思想, 引入“反事实基准”评估智能体动作的实际贡献. 其主要思想是: 在评价某个智能体的动作时, 固定其他智能体的行为, 并观察改变当前智能体动作所带来的影响. 如果当前动作比特定基线更好, 那么就认为智能体的当前动作对团队有积极贡献. 在COMA中, 通过中心式Critic网络估计价值函数, 并使用平均回报作为反事实基线, 更准确地估计智能体策略的真实性能. Wang等[165]使用经典的合作博弈理论中的沙普利值[166]来计算每个智能体的边际贡献, 并据此分配奖励. 边际贡献用于描述当一个参与者加入一个已存在的团队时, 对该团队总体表现所做出的额外贡献. 该方法提出沙普利Q值用于分配全局奖励, 从而更准确地反映每个智能体的贡献. Li等[167]将反事实基线与沙普利值相结合, 进一步提高复杂任务上的算法表现. 徐诚等[168]提出一种基于卡尔曼滤波的奖励估计方法, 通过多智能体团队奖励估计各个智能体的局部奖励, 以实现更好的信用分配, 促进多智能体协作. Chen等[169]进一步考虑一种稀疏奖励场景, 其中智能体仅在回合结束时才能收到奖励, 并提出一种结合沙普利值的时空注意力机制, 实现更低的方差和更快的收敛速度.
2.6 对抗博弈挑战
前文所讨论的方法多数针对合作式多智能体场景, 主要关注如何促进不同个体之间的协调, 共同完成目标或击败竞争对手. 而在完全竞争式任务中, 不同智能体的目标是冲突的, 每个智能体各自优化自己的累积奖励, 对方策略会对己方策略产生显著影响. 在对抗博弈场景下, 智能体不仅需要应对由于对手策略变化带来的非平稳性, 同时要避免对特定策略的过度拟合.
解决这类问题的一类方法是基于博弈论求解纳什均衡策略. Minimax Q-learning方法[170]是解决二人零和随机博弈问题的经典方法. 对于任一智能体, 该方法假设对手采取对自己最不利的策略, 并在这一前提下优化自己的策略. 由于Minimax Q-learning采用表格式学习, 后续研究通过函数逼近器将Minimax Q-learning中的Q表扩展为Q函数, 以处理具有更高维状态空间的任务, 如Zhang等[171]采用线性函数逼近器来拟合Q函数并推导其对应的有限采样界. Fan等[172]则采用深度神经网络去逼近Q函数, 并对其有限采样误差界给出完整的推导.
在围棋、扑克等场景中, 参与者的决策有先后之分, 这类问题称为扩展式博弈. 对此, Heinrich等[173]提出虚拟自博弈方法, 结合虚拟博弈[174]思想, 基于强化学习方法来求解扩展式博弈下的纳什均衡策略: 在每步学习迭代中, 每个智能体利用强化学习算法针对敌方的平均策略求取最优响应, 并以监督学习的方式用所求最优响应来更新自身的平均策略. 在两人零和博弈中, 智能体的平均策略可收敛到纳什均衡. 进一步, Heinrich等[175]将神经网络融合到虚拟自博弈算法中, 提出神经虚拟自博弈算法, 能够在无需先验知识的条件下, 近似现实世界中更复杂博弈任务的纳什均衡策略. 针对神经虚拟自博弈的一系列变体算法也相继提出, 如异步神经虚拟自博弈和蒙特卡洛神经虚拟自博弈[176]等, 以进一步提升算法学习纳什均衡策略的收敛速度和稳定性.
在面对部分可观测的博弈问题时, 一种更具通用性的框架是策略空间响应预言机(Policy space response oracle, PSRO)[177], 其基于经验博弈论的思想, 维护一个策略种群, 以及与策略种群对应的元采样策略, 以进行元博弈分析, 并利用基于强化学习的最优响应机不断扩展策略种群, 进而扩展元博弈的规模, 再对扩展后的元博弈进行分析, 重复迭代, 直至不再有新策略产生. 由于PSRO方法在处理开放式博弈问题时的通用性和有效性, 一系列工作被提出用于从不同方面提升PSRO的性能, 例如McAleer等[178]针对大型零和非完全信息博弈, 提出一种扩展性较强的方法Pipeline-PSRO; Muller等[179]将PSRO扩展到一般和多人博弈的场景, 提出基于$ \alpha{\text{-}}{\mathrm{rank}} $的PSRO方法.
以上方法基于对手策略的显式建模, 在特定条件下具有较强的理论支持, 但不一定能获得超越均衡解的更优策略[180]. 另一类隐式对手建模方法则充分利用深度网络的表征能力, 通过观察对手信息, 学习对手策略, 从而作出有针对性的决策. He等[181]使用神经网络分别对环境状态和对手特征进行编码, 然后使用DQN进行价值函数估计, 使神经网络自动发现对手的不同策略模式. Everett等[182]引入一种切换模型, 根据不同的对手模型在相应的最优响应策略之间切换, 以适应对手策略的突变. Foerster等[183]提出一种“考虑对手学习”的学习方法(Learning with apponent-learning awareness, LOLA), 通过对手建模方法估计对手策略参数, 然后对其参数更新进行建模, 在考虑对手策略改进的前提下优化己方策略. 在一些场景中, LOLA可以通过预测对方的学习来塑造对手策略, 并使己方获得更高回报.
3. 多智能体控制与决策应用研究
基于多智能体强化学习的控制与决策方法在诸多现实场景中均有广泛应用. 本节主要讨论多智能体强化学习在机器人集群、智能交通、无人船舶控制三个领域的应用研究, 并简要列举了少数其他领域的应用实例.
3.1 机器人集群
机器人集群在工业生产、物流运输、搜索救援等许多领域都有广阔的应用前景, 在复杂未知的现实世界环境中实现多机器人协作仍然面临许多挑战. 许多研究以机器人为背景, 有针对性地改进多智能体强化学习算法, 并应用于机器人集群的控制与决策任务中. 本小节将从多机器人导航、多机器人覆盖路径规划、多机器人任务分配三个领域, 介绍相关研究进展.
1) 多机器人导航
在多机器人导航问题中, 机器人从各自的起点出发, 目的是安全到达指定的终点, 同时最小化时间或距离成本. 传统的启发式方法对传感器、在线计算能力和通信资源的要求较高, 许多研究开始使用多智能体强化学习方法训练具备自主导航和避障能力的多机器人集群. 例如, 启发式方法在寻找有效路径时往往需要实时预测其他智能体和障碍物的行为, Chen等[101]借助分散式多智能体深度强化学习方法, 将这种在线计算卸载到离线训练过程中, 提高算法的实时计算效率; Long等[184]使用分散式的强化学习方法将原始传感器测量结果直接映射到智能体的移动速度和转向命令, 在大规模多机器人场景中实现有效的避障策略; Willemsen等[185]面向多机器人系统, 引入基于学习的世界模型来提高现实世界中多智能体强化学习算法的样本效率. 对于更复杂的多无人机系统, Yue等[186]利用改进的MAAC方法[111]使无人机集群能够学习未知环境下的协同多目标跟随; Xue等[187]设计了一种基于MADDPG[109]的改进算法, 用于协调多架无人机在复杂、未知的三维环境中安全导航.
2) 多机器人覆盖路径规划
覆盖路径规划是一种特定类型的路径规划, 目标是使机器人高效地遍历整个区域, 尽可能少地重复经过同一位置, 同时优化行驶的总距离或时间. 覆盖路径规划在自动化清洁、农业、搜索和救援等场景中有广泛的应用. Mou等[188]研究无人机集群三维不规则地形覆盖问题, 该方法基于领导者−跟随者双层架构, 并在上层应用多智能体强化学习算法. Sheng等[130]针对多机器人目标搜索问题, 提出一种基于分解的多智能体强化学习算法, 通过确保满足局部−全局一致性条件实现分散式决策. Hou等[189]针对大规模搜索任务, 提出一种基于多智能体强化学习算法的分布式协同搜索方法, 可以在复杂和大规模的场景中高效运行.
3) 多机器人任务分配
多机器人任务分配的目的是高效地为多个机器人分配一系列任务, 以便优化团队整体的执行效率、减少完成时间、提高资源利用率或其他相关性能指标. Cui等[190]基于多智能体强化学习开发了一种多无人机通信网络动态资源分配算法, 使每架无人机自主选择其通信用户、功率级别和信道与地面用户进行通信. Wang等[191]将多机器人任务分配问题建模为马尔科夫决策过程, 利用图神经网络学习调度问题的特征, 并通过强化学习和模仿学习来学习多机器人调度策略. Johnson等[192]考虑实际生产环境中的机器人装配单元, 提出一种多智能体强化学习方法实现装配单元中的任务调度. 进一步, Paul等[193]引入编码器−解码器架构, 提出一种图强化学习架构用于学习任务分配策略, 并在更大规模的问题上进行验证.
3.2 智能交通
智能交通系统是未来交通的发展方向, 目的是通过使用各种感知技术和智能算法改善交通流量、减少拥堵、提高安全性和能源效率. 由于交通系统是复杂、动态的多智能体系统, 多智能体强化学习在智能交通领域具有广阔的应用前景. 本小节将从自动驾驶决策、交通信号调度、车辆协同控制三个方面, 介绍相关研究进展.
1) 自动驾驶决策
虽然许多自动驾驶算法仅针对单一车辆, 但是交通系统是一个包含多种交通参与者的多智能体系统, 自动驾驶车辆需要与行人、人类驾驶员和其他自动车辆进行交互, 环境变化不一定满足马尔科夫性. 对此, Shalev-Shwartz等[194]提出了在不满足马尔科夫性的环境中进行策略更新的方法, 将基于学习的驾驶策略和基于规则的轨迹规划方法相结合, 并引入分层机制以降低策略学习的方差, 提高复杂环境中的安全性. 进一步的研究考虑了多辆自动驾驶汽车组成的车队, 例如Yu等[195]考虑高速公路情况下自动驾驶车队的高层决策问题, 提出一种能够协调多辆自动驾驶车辆的多智能体强化学习方法, 利用协调图显式地建模车辆之间的依赖关系, 从而降低整个决策问题的计算复杂性. Liu等[196]针对车队保持问题, 提出一种基于深度Q网络和共识算法的分布式强化学习方法, 使所有车辆学会以特定的队形和相同的速度前进. Liang等[197]针对多车合作变道问题提出一种分层强化学习方法, 并引入对手建模机制在学习过程中建模其他智能体的策略, 以缓解环境非平稳性. 将策略从模拟环境转移到现实世界是一个巨大的挑战, 对此, Candela等[198]使用多智能体强化学习算法训练自动驾驶策略, 并提出一种将多智能体自动驾驶策略转移到现实世界的方法, 以弥补虚拟到现实的“鸿沟”.
2) 交通信号调度
多智能体强化学习广泛应用于解决复杂交通网络中的自适应交通信号调度问题. 其中, 每个交叉路口的信号灯可以视作一个智能体, 各个智能体通过观察交通流量、等待时间等环境因素来学习如何调整交通信号灯, 从而减少车辆拥堵. Chu等[199]提出一种完全分散式的多智能体强化学习算法, 通过提高可观察性降低每个独立智能体的策略学习难度, 并成功应用于大规模交通模拟环境中. Jiang等[200]在分布式强化学习基础上引入图分解机制, 提高大规模场景下的计算效率, 节省训练时间. 进一步, Wang等[201]引入双Q学习[146]机制减少价值估计偏差, 并使用平均场方法[154]近似多智能体之间的交互, 进一步提升了算法性能.
3) 车辆协同控制
传统的车辆控制方法通常集中在单车辆上, 但在现实道路环境中, 车辆往往需要与其他车辆协同行驶以达到更高的效率和安全性. 在多智能体强化学习中, 每辆车辆被视为一个智能体, 其目标是通过与其他车辆和环境进行交互学习, 以实现更好的协同控制. 对于智能车的巡航控制问题, Wang等[202]通过单Critic神经网络架构和存储的经验数据搭建了强化学习控制架构, 提出一种基于动态事件触发的自适应最优控制方案. 而当无人车系统遭受到服务器拒绝攻击时, Xu等[203]设计了一种基于感知的死区控制策略, 以减少相邻车辆之间的通信负载, 并采用异策略积分强化学习算法, 避免了对车辆动态模型的依赖. 由于无人机和无人车各自具有独特的优势和应用场景, 通过天−地协同控制可以实现无人机和无人车之间的信息共享和协同行动, 提高整体交通系统的效率和性能[204−207]. Zhao等[206]针对无人机与无人车的空−地协同编队问题构造了一个鲁棒最优编队控制器来抑制系统非线性、耦合和外部扰动. 其中, 一种基于数据驱动的强化学习算法被提出, 用以更新无人机和无人车的最优控制策略.
3.3 无人船舶
强化学习控制在无人船舶中的应用是近年来人工智能技术在海洋领域中的重要应用之一. 传统的无人船舶控制方法通常依赖于预先设计的控制策略, 而强化学习控制则通过不断与环境交互, 自主学习最优策略来实现船舶的智能控制和任务执行. 具体而言, 强化学习可以用于无人船舶的目标跟踪和避碰控制. 通过将目标跟踪和避碰任务建模为强化学习问题, 无人船舶可以通过学习与目标船舶的交互, 动态调整自身的航向和速度, 以实现有效的目标跟踪和避碰行为. 此外, 强化学习还可以应用于无人船舶的控制策略优化和自适应控制. 通过在线学习和迭代优化, 无人船舶可以不断改进自身的控制策略, 适应不同的环境和任务需求, 提高控制性能和鲁棒性.
Song等[208]针对具有外部扰动的非线性欠驱动无人船系统提出一种强化Q学习最优跟踪控制策略. 其中, 非线性动态由Takagi-Sugeno (T-S)模糊模型近似, 同时系统初始容许控制策略假设条件也被移除, 利用Q学习值迭代算法求解代数黎卡提方程获得最优解的存在条件. 为了实现多无人船舶系统的编队碰撞避免, Chen等[209]提出一种基于Actor-Critic学习策略的最优强化学习控制算法, 并使用预设性能控制技术保障系统的暂态与稳态性能. 对于存在执行器故障的多无人船系统一致性控制问题, Bai等[210]设计一种分布式自适应强化学习控制策略提升系统的容错能力和鲁棒性, 其中Actor与Critic网络分别用于近似效用函数与未知动态. 进一步, Chen等[211]考虑一种更为严苛的情况, 即当一队具有4自由度的欠驱动多无人船系统同时存在执行器故障、输入饱和、输入延迟、状态受限时的最优编队控制问题. 一种基于强化学习算法的有限时间滑模控制器被设计来实现领航−跟随密集编队. 此外, Weng等[212]还考虑到海−空协同编队控制问题, 针对存在异构动态情况的无人船与无人机设计一种基于事件触发的最优编队控制器, 提高了各子系统间的通信效率. 一种新的自组织Actor-Critic强化学习神经网络被用于求解HJB方程, 其神经元个数可根据系统性能进行动态调整.
3.4 其他领域应用
除上述三方面外, 多智能体强化学习在许多其他领域中具有广阔的应用前景. 在游戏博弈领域, 多智能体强化学习的应用十分广泛, 其中一项代表性工作是DeepMind训练的FTW (For the win)智能体[213], 其利用多智能体强化学习, 成功学会了多人射击游戏中的团队协作策略, 达到人类玩家水平. 在能源管理方面, 多智能体强化学习可用于电力需求响应和能源调度等任务[214−216], 以预测和管理电力需求, 优化能源的使用效率. 例如, Zhang等[216]针对电动汽车充电站的能源采购和分配问题, 使用改进的MADDPG算法[109]学习能源采购策略, 优化经济成本和用户满意度. 在资源调度方面, 一些研究利用多智能体强化学习实现资源调度和任务分配[217−219], 例如: Zhao等[217]针对大型GPU集群中分布式深度学习作业的调度问题, 提出基于多智能体强化学习的调度器; 邝祝芳等[220]针对移动边缘计算中的任务卸载问题, 提出基于深度强化学习的资源分配算法. 此外, 强化学习控制在微电网中的应用同样具有显著的优势, 能够有效提升微电网的运行效率、稳定性和经济性[221−225]. 其中, Adibi等[221]针对有损电网的二次频率同步问题提出一种基于Actor-Critic结构的在线强化学习控制方法, 能够有效地处理电阻和电感线路及负载阻抗、参数不确定性、时变负载和干扰等一系列问题, 同时解放了对系统内部动态的需求. 对于直流微电网的均流和电压调节问题, Dong等[225]设计了一种基于数据驱动的鲁棒最优一致性控制策略, 通过建立一种Q学习方法来获取近似的最优控制策略和成本函数. 针对涡轮机的控制问题[226−228], 融合强化学习可以优化控制策略达到提高发电效率、减少机械应力和延长设备寿命等目的. 例如, Xie等[228]研究了传感器和执行器故障下风力涡轮机的俯仰与转矩控制问题, 提出一种仅在增量域内近似系统模型的强化学习被动容错控制策略, 保障了系统的平稳运行.
4. 总结与展望
本文分别从智能控制与自主决策的角度综述了多智能体强化学习的研究进展. 在多智能体强化学习控制领域, 本文首先从博弈的角度出发考虑智能体间的竞争与合作的关系, 分别介绍了零和博弈、非零和博弈与Stackelberg博弈三种主要的博弈类型, 总结了典型例子与算法; 随后从多智能体协同的角度, 总结了强化学习控制方法在不同系统动态与需求下所取得的研究成果. 在多智能体强化学习决策领域, 本文从马尔科夫决策过程和马尔科夫博弈模型出发, 分别介绍了多智能体序列决策的一般建模方法; 总结了多智能体深度强化学习的三类训练架构; 针对环境复杂性、计算复杂性、信用分配和对抗博弈四个方面, 梳理了多智能体强化学习所面临的挑战, 阐述了主流解决方案和最新研究进展. 然后, 本文选择机器人集群、智能交通、无人船舶三个重要应用场景, 分别介绍了多智能体强化学习控制与决策方法的应用研究. 最后, 结合对当前研究成果的分析与思考, 本文对多智能体强化学习的未来研究方向进行了一些展望.
1) 跨越从虚拟到现实的障碍
在多智能体强化学习的应用中, 从虚拟环境到现实世界的过渡是一个重大挑战. 出于成本、时间和安全性的考虑, 绝大多数深度强化学习研究都依赖虚拟环境提供学习所需的交互数据. 尽管多智能体强化学习方法在虚拟环境中显示出强大的潜力, 但常规虚拟环境不可能完全还原现实, 真实环境所具有的高度复杂性、动态性和不确定性很难体现在计算机仿真中, 限制了算法在现实任务中的有效性. 近年来, 一些研究借助大语言模型, 构建了包含虚拟居民和可交互社会场景的环境模拟器, 如“斯坦福小镇”[229], 以及面向机器人设计的GRUtopia[230]等. “斯坦福小镇”是一个由25个智能体和房屋、商店、公园等公共场所组成的虚拟环境, 其中的智能体能够产生自发的个体和社交行为, 并在小镇中生活和工作. 同时, 人类用户也可以通过自然语言与这些计算机智能体进行互动. 未来, 这类由大语言模型驱动的虚拟环境有望成为虚拟与现实之间的桥梁, 为多智能体强化学习研究提供更加逼近现实的训练和评估平台.
另一方面, 目前的许多研究忽略了真实环境中存在的诸多约束, 例如: 虚拟环境中可以轻易获取的环境数据在现实中很难得到、分布式设备的计算和通信资源有限、智能体之间的信息传递存在延迟和干扰等[231]. 为解决这些问题, 未来研究需要关注方法的通用性和鲁棒性, 重点考虑实际资源限制和环境复杂性, 探索轻量且高效的算法, 以适应现实世界应用的需求.
2) 高效解决多目标与多任务决策
许多现实决策问题包含相互冲突的多个目标, 策略必须在多个目标之间进行权衡, 不存在绝对的最优策略. 标准单目标方法处理多目标问题时会面临如下一些问题: 奖励函数的设计高度依赖直觉, 是一个繁琐的试错过程, 奖励函数与最终结果之间的关系通常是非线性的; 在设计决策系统时, 用户对不同目标的偏好可能是未知的; 目标偏好可能会因时间、具体场景、用户需求、安全约束等因素发生变化, 有时可能需要在不同策略之间切换. 在单智能体领域, 多目标强化学习方法已有一些研究, 如文献[232−234]等; 而多智能体和多目标强化学习这一新兴交叉领域的研究较少, 相关工作如Hu等[235]针对多智能体协同决策问题, 提出一种多目标多智能体强化学习方法. 现实世界决策中的另一项挑战是多任务问题, 智能体可能会面临相关但不完全相同的多项任务. 为单个任务分别学习专门的策略十分低效, 因为智能体不仅必须为每个任务存储不同的策略, 而且在实践中智能体可能需要自行判断任务特征. 多任务强化学习的目的是使智能体学习可以在各种相关任务中共享和使用的通用技能, 以提高策略的适用性和泛化性. 在多智能体强化学习领域, 可能面临个体和团队两个层面上的多任务问题: 在个体层面, 不同智能体可能具有不同的任务, 彼此之间需要配合或分工; 在团队层面, 智能体团队作为一个整体, 可能需要学习各类不同技能, 以解决多种团队协作任务.
总之, 多目标和多任务问题是在现实世界应用强化学习决策方法所面临的重要挑战, 而这些挑战在多智能体系统中变得更加复杂. 因此, 面向多智能体强化学习, 探索高效的多目标和多任务决策方法, 是值得进一步研究的方向.
3) 提高决策安全性和可解释性
在自动驾驶、工业自动化和医疗系统等实际场景中, 安全性至关重要. 这不仅要求智能体能够学习最优策略, 同时也必须保证在学习过程中和应用策略时的安全性, 以防止可能的风险和损失[236]. 然而, 深度强化学习方法通常以最大化奖励函数为目标, 这可能使智能体忽略现实场景中的安全约束, 阻碍了其在真实世界中的应用. 在多智能体系统中, 环境非平稳性和局部可观测问题增加了学习难度, 也加剧了安全挑战. 单个智能体要在满足自身安全约束的前提下优化奖励函数, 同时还要考虑其他智能体的行为, 以确保联合动作满足安全约束.
因此, 研究考虑约束的、安全的多智能体强化学习方法, 有助于提高多智能体强化学习在现实应用中的可行性, 是未来一个重要的研究方向.
-
表 1 不同模块在NYUDv2、SUN RGB-D和RGB-NIR数据集上的Top-1准确率 (%)
Table 1 Top-1 accuracies with different components on NYUDv2, SUN RGB-D and RGB-NIR (%)
树推理 树融合 通道交换 NYUDv2 SUN RGB-D RGB-NIR RGB Deep Fusion RGB Deep Fusion RGB NIR Fusion $ \times $ $ \times $ $ \times $ 43.08 59.26 71.98 52.10 38.49 62.19 58.33 52.08 77.78 $ \times $ $ \times $ √ $ 47.74^* $ $ 59.47^* $ 72.07 $ 54.29^* $ $ 47.05^* $ 66.28 $ 62.23^* $ $ 53.76^* $ 80.43 √ $ \times $ $ \times $ 46.28 57.68 72.41 50.98 36.00 58.99 58.68 53.47 79.17 √ √ $ \times $ 61.43 61.00 74.40 59.96 51.62 66.16 71.08 66.45 84.71 √ √ √ $ 71.14^* $ $ 70.99^* $ 74.74 $ 66.76^* $ $ 66.37^* $ 68.01 $ 78.85^* $ $ 77.37^* $ 85.54 注: * 表示使用通道交换为单个模态引入其他模态数据后的准确率, 加粗表示单模态或融合后最高准确率. 表 2 不同方法在NYUDv2、SUN RGB-D和RGB-NIR数据集上的Top-1准确率 (%)
Table 2 Top-1 accuracies with different methods on NYUDv2, SUN RGB-D and RGB-NIR (%)
方法 解释性 NYUDv2 SUN RGB-D RGB-NIR RGB Deep Fusion RGB Deep Fusion RGB NIR Fusion ViT-S-16[51] $ \times $ 54.95 62.56 — 59.23 49.43 — 74.44 66.32 — ResNet-18[49] $ \times $ 65.28 65.93 — 66.04 57.85 — 78.83 75.70 — CBCL[52] $ \times $ 56.87 63.20 73.85 50.74 43.59 65.78 74.23 62.91 81.72 TMC[19] $ \times $ 60.14 62.19 74.57 60.89 52.95 66.69 72.76 68.77 84.29 TMNR[53] $ \times $ 56.61 64.50 74.10 60.60 53.53 66.30 69.50 65.26 82.20 dNDF[54] √ 61.86 65.76 — 64.78 57.30 — 78.61 72.11 — NBDT[27] √ 65.28 62.85 — 66.20 57.93 — 74.24 74.22 — HCN[20] √ 62.20 63.18 — 61.91 53.03 — 72.92 68.75 — Ours √ $ 71.14^* $ $ 70.99^* $ 74.74 $ 66.76^* $ $ 66.37^* $ 68.01 $ 78.85^* $ $ 77.37^* $ 85.54 注: * 表示使用通道交换为单个模态引入其他模态数据后的准确率, 加粗表示单模态或融合后最高准确率. 表 3 不同预训练骨干网络在NYUDv2、SUN RGB-D和RGB-NIR数据集中的Top-1准确率 (%)
Table 3 Top-1 accuracies with different pretrained backbones on NYUDv2, SUN RGB-D and RGB-NIR (%)
骨干网络 NYUDv2 SUN RGB-D RGB-NIR ResNet-18 80.90 73.50 90.15 ResNet-34 81.58 73.87 90.15 ResNet-50 81.92 73.88 90.58 ResNet-101 81.93 74.96 90.79 表 4 插入或删除不同属性在NYUDv2、SUN RGB-D和RGB-NIR数据集中的AUC
Table 4 AUC of different attributes inserted or deleted in NYUDv2, SUN RGB-D and RGB-NIR datasets
数据集 最强属性 最弱属性 随机 插入 删除 插入 删除 插入 删除 NYUDv2 0.619 0.209 0.509 0.299 0.351 0.121 SUN RGB-D 0.601 0.300 0.463 0.380 0.284 0.168 RGB-NIR 0.636 0.380 0.549 0.466 0.355 0.207 -
[1] 赵静, 裴子楠, 姜斌, 陆宁云, 赵斐, 陈树峰. 基于深度强化学习的无人机虚拟管道视觉避障. 自动化学报, 2024, 50(11): 1−14Zhao Jing, Pei Zi-Nan, Jiang Bin, Lu Ning-Yun, Zhao Fei, Chen Shu-Feng. Virtual tube visual obstacle avoidance for UAV based on deep reinforcement learning. Acta Automatica Sinica, 2024, 50(11): 1−14 [2] Miikkulainen R, Liang J, Meyerson E, Rawal A, Fink D, Francon O, et al. Evolving deep neural networks. Artificial Intelligence in the Age of Neural Networks and Brain Computing (Second edition). Amsterdam: Academic Press, 2024. 269−287 [3] Hassija V, Chamola V, Mahapatra A, Singal A, Goel D, Huang K Z, et al. Interpreting black-box models: A review on explainable artificial intelligence. Cognitive Computation, 2024, 16(1): 45−74 doi: 10.1007/s12559-023-10179-8 [4] Jung J, Lee H, Jung H, Kim H. Essential properties and explanation effectiveness of explainable artificial intelligence in healthcare: A systematic review. Heliyon, 2023, 9(5): Article No. e16110 doi: 10.1016/j.heliyon.2023.e16110 [5] Costa V G, Pedreira C E. Recent advances in decision trees: An updated survey. Artificial Intelligence Review, 2023, 56(5): 4765−4800 doi: 10.1007/s10462-022-10275-5 [6] Aksjonov A, Kyrki V. A safety-critical decision-making and control framework combining machine-learning-based and rule-based algorithms. SAE International Journal of Vehicle Dynamics, Stability, and NVH, 2023, 7(3): 287−299 [7] Kitson N K, Constantinou A C, Guo Z G, Liu Y, Chobtham K. A survey of Bayesian Network structure learning. Artificial Intelligence Review, 2023, 56(8): 8721−8814 doi: 10.1007/s10462-022-10351-w [8] Simonyan K, Vedaldi A, Zisserman A. Deep inside convolutional networks: Visualising image classification models and saliency maps. In: Proceedings of the 2nd International Conference on Learning Representations (ICLR). Banff, Canada: ICLR, 2014. 1−8Simonyan K, Vedaldi A, Zisserman A. Deep inside convolutional networks: Visualising image classification models and saliency maps. In: Proceedings of the 2nd International Conference on Learning Representations (ICLR). Banff, Canada: ICLR, 2014. 1−8 [9] Sundararajan M, Taly A, Yan Q Q. Axiomatic attribution for deep networks. In: Proceedings of the 34th International Conference on Machine Learning (ICML). Sydney, Australia: JMLR, 2017. 3319−3328 [10] Zhou B L, Khosla A, Lapedriza A, Oliva A, Torralba A. Learning deep features for discriminative localization. In: Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Las Vegas, USA: IEEE, 2016. 2921−2929 [11] Chattopadhay A, Sarkar A, Howlader P, Balasubramanian V N. Grad-CAM++: Generalized gradient-based visual explanations for deep convolutional networks. In: Proceedings of the IEEE Winter Conference on Applications of Computer Vision (WACV). Lake Tahoe, USA: IEEE, 2018. 839−847 [12] Ribeiro M T, Singh S, Guestrin C. “Why should I trust you?”: Explaining the predictions of any classifier. In: Proceedings of the 22nd ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. San Francisco, USA: Association for Computing Machinery, 2016. 1135−1144 [13] Lundberg S M, Lee S I. A unified approach to interpreting model predictions. In: Proceedings of the 31st International Conference on Neural Information Processing Systems (NIPS). Long Beach, USA: Curran Associates Inc., 2017. 4768−4777 [14] Chen C F, Li O, Tao C F, Barnett A J, Su J, Rudin C. This looks like that: Deep learning for interpretable image recognition. In: Proceedings of the 33rd International Conference on Neural Information Processing Systems (NeurIPS). Vancouver, Canada: 2019. Article No. 801Chen C F, Li O, Tao C F, Barnett A J, Su J, Rudin C. This looks like that: Deep learning for interpretable image recognition. In: Proceedings of the 33rd International Conference on Neural Information Processing Systems (NeurIPS). Vancouver, Canada: 2019. Article No. 801 [15] Nauta M, van Bree R, Seifert C. Neural prototype trees for interpretable fine-grained image recognition. In: Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). Nashville, USA: IEEE, 2021. 14928−14938 [16] Biederman I. Recognition-by-components: A theory of human image understanding. Psychological Review, 1987, 94(2): 115−147 doi: 10.1037/0033-295X.94.2.115 [17] Cohen L G, Celnik P, Pascual-Leone A, Corwell B, Faiz L, Dambrosia J, et al. Functional relevance of cross-modal plasticity in blind humans. Nature, 1997, 389(6647): 180−183 doi: 10.1038/38278 [18] Wang Y K, Huang W B, Sun F C, Xu T Y, Rong Y, Huang J Z. Deep multimodal fusion by channel exchanging. In: Proceedings of the 34th International Conference on Neural Information Processing Systems (NeurIPS). Vancouver, Canada: Curran Associates Inc., 2020. Article No. 406 [19] Han Z B, Zhang C Q, Fu H Z, Zhou J T. Trusted multi-view classification with dynamic evidential fusion. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2023, 45(2): 2551−2566 doi: 10.1109/TPAMI.2022.3171983 [20] Liu H M, Wang R P, Shan S G, Chen X L. What is a tabby? Interpretable model decisions by learning attribute-based classification criteria. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2021, 43(5): 1791−1807 doi: 10.1109/TPAMI.2019.2954501 [21] Selvaraju R R, Cogswell M, Das A, Vedantam R, Parikh D, Batra D. Grad-CAM: Visual explanations from deep networks via gradient-based localization. In: Proceedings of the IEEE International Conference on Computer Vision (ICCV). Venice, Italy: IEEE, 2017. 618−626 [22] Shrikumar A, Greenside P, Kundaje A. Learning important features through propagating activation differences. In: Proceedings of the 34th International Conference on Machine Learning (ICML). Sydney, Australia: JMLR.org, 2017. 3145−3153 [23] Zeiler M D, Fergus R. Visualizing and understanding convolutional networks. In: Proceedings of the 13th European Conference on Computer Vision (ECCV). Zurich, Switzerland: Springer, 2014. 818−833 [24] Roberts L G. Machine Perception of Three-Dimensional Solids [Ph.D. dissertation], Massachusetts Institute of Technology, USA, 1963. [25] Farhadi A, Endres I, Hoiem D, Forsyth D. Describing objects by their attributes. In: Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Miami, USA: IEEE, 2009. 1778−1785 [26] Yang H M, Zhang X Y, Yin F, Liu C L. Robust classification with convolutional prototype learning. In: Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). Salt Lake City, USA: IEEE, 2018. 3474−3482 [27] Wan A, Dunlap L, Ho D, Yin J H, Lee S, Petryk S, et al. NBDT: Neural-backed decision tree. In: Proceedings of the 9th International Conference on Learning Representations (ICLR). Austria: OpenReview.net, 2021.Wan A, Dunlap L, Ho D, Yin J H, Lee S, Petryk S, et al. NBDT: Neural-backed decision tree. In: Proceedings of the 9th International Conference on Learning Representations (ICLR). Austria: OpenReview.net, 2021. [28] Han X Y, Zhu X B, Pedrycz W, Li Z W. A three-way classification with fuzzy decision trees. Applied Soft Computing, 2023, 132: Article No. 109788 doi: 10.1016/j.asoc.2022.109788 [29] Islam S, Haque M M, Karim A N M R. A rule-based machine learning model for financial fraud detection. International Journal of Electrical and Computer Engineering (IJECE), 2024, 14(1): 759−771 doi: 10.11591/ijece.v14i1.pp759-771 [30] Hotelling H. Relations between two sets of variates. Breakthroughs in Statistics: Methodology and Distribution. New York: Springer, 1992. 162−190 [31] Zhang J W, Yu Y, Tang S H, Wu J M, Li W. Variational autoencoder with CCA for audio——Visual cross-modal retrieval. ACM Transactions on Multimedia Computing, Communications and Applications, 2023, 19(3s): Article No. 130 [32] Sapkota R, Thapaliya B, Suresh P, Ray B, Calhoun V D, Liu J Y. Multimodal imaging feature extraction with reference canonical correlation analysis underlying intelligence. In: Proceedings of the IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). Seoul, Korea: IEEE, 2024. 2071−2075 [33] Tang Q, Liang J, Zhu F Q. A comparative review on multi-modal sensors fusion based on deep learning. Signal Processing, 2023, 213: Article No. 109165 doi: 10.1016/j.sigpro.2023.109165 [34] Li X J, Ma S Q, Xu J H, Tang J J, He S F, Guo F. TranSiam: Aggregating multi-modal visual features with locality for medical image segmentation. Expert Systems With Applications, 2024, 237: Article No. 121574 doi: 10.1016/j.eswa.2023.121574 [35] Zheng X, Wang M H, Huang K, Zhu E. Global and cross-modal feature aggregation for multi-omics data classification and application on drug response prediction. Information Fusion, 2024, 102: Article No. 102077 doi: 10.1016/j.inffus.2023.102077 [36] Hou M X, Zhang Z, Liu C, Lu G M. Semantic alignment network for multi-modal emotion recognition. IEEE Transactions on Circuits and Systems for Video Technology, 2023, 33(9): 5318−5329 doi: 10.1109/TCSVT.2023.3247822 [37] Song Z Y, Wei H Y, Bai L, Yang L, Jia C Y. GraphAlign: Enhancing accurate feature alignment by graph matching for multi-modal 3D object detection. In: Proceedings of the IEEE/CVF International Conference on Computer Vision (ICCV). Paris, France: IEEE, 2023. 3335−3346 [38] Xue Z H, Marculescu R. Dynamic multimodal fusion. In: Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition Workshops (CVPR). Vancouver, Canada: IEEE, 2023. 2575−2584 [39] de Vries H, Strub F, Mary J, Larochelle H, Pietquin O, Courville A. Modulating early visual processing by language. In: Proceedings of the 31st International Conference on Neural Information Processing Systems (NIPS). Long Beach, USA: Curran Associates Inc., 2017. 6597−6607 [40] Du C Z, Teng J Y, Li T L, Liu Y C, Yuan T Y, Wang Y, et al. On uni-modal feature learning in supervised multi-modal learning. In: Proceedings of the 40th International Conference on Machine Learning (ICML). Honolulu, USA: JMLR.org, 2023. Article No. 345 [41] Dempster A P. Upper and lower probabilities induced by a multivalued mapping. The Annals of Mathematical Statistics, 1967, 38(2): 325−339 doi: 10.1214/aoms/1177698950 [42] Jϕsang A. Subjective Logic: A Formalism for Reasoning Under Uncertainty. Cham: Springer Publishing Company, 2016. 1−326 [43] Sensoy M, Kaplan L, Kandemir M. Evidential deep learning to quantify classification uncertainty. In: Proceedings of the 32nd International Conference on Neural Information Processing Systems (NIPS). Montréal, Canada: Curran Associates Inc., 2018. 3183−3193 [44] Higgins I, Matthey L, Pal A, Burgess C P, Glorot X, Botvinick M M, et al. Beta-VAE: Learning basic visual concepts with a constrained variational framework. In: Proceedings of the 5th International Conference on Learning Representations (ICLR). Toulon, France: OpenReview.net, 2017. [45] İrsoy O, Yildiz O T, Alpaydın E. Soft decision trees. In: Proceedings of the 21st International Conference on Pattern Recognition (ICPR). Tsukuba, Japan: IEEE, 2012. 1819−1822 [46] Silberman N, Hoiem D, Kohli P, Fergus R. Indoor segmentation and support inference from RGBD images. In: Proceedings of the 12th European Conference on Computer Vision (ECCV). Florence, Italy: Springer, 2012. 746−760 [47] Song S R, Lichtenberg S P, Xiao J X. SUN RGB-D: A RGB-D scene understanding benchmark suite. In: Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Boston, USA: IEEE, 2015. 567−576 [48] Brown M, Süsstrunk S. Multi-spectral SIFT for scene category recognition. In: Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Colorado Springs, USA: IEEE, 2011. 177−184 [49] He K M, Zhang X Y, Ren S Q, Sun J. Deep residual learning for image recognition. In: Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Las Vegas, USA: IEEE, 2016. 770−778 [50] Maas A L, Hannun A Y, Ng A Y. Rectifier nonlinearities improve neural network acoustic models. In: Proceedings of the 30th International Conference on Machine Learning (ICML). Atlanta, USA: JMLR, 2013. 3−8 [51] Lee S, Lee S, Song B C. Improving vision transformers to learn small-size dataset from scratch. IEEE Access, 2022, 10: 123212−123224 doi: 10.1109/ACCESS.2022.3224044 [52] Ayub A, Wagner A R. Centroid based concept learning for RGB-D indoor scene classification. In: Proceedings of the 31st British Machine Vision Conference (BMVC). Virtual Event: BMVA, 2020. 1−13Ayub A, Wagner A R. Centroid based concept learning for RGB-D indoor scene classification. In: Proceedings of the 31st British Machine Vision Conference (BMVC). Virtual Event: BMVA, 2020. 1−13 [53] Xu C, Zhang Y L, Guan Z Y, Zhao W. Trusted multi-view learning with label noise. In: Proceedings of the 33rd International Joint Conference on Artificial Intelligence (IJCAI). Jeju Island, Korea: IJCAI, 2024. 5263−5271Xu C, Zhang Y L, Guan Z Y, Zhao W. Trusted multi-view learning with label noise. In: Proceedings of the 33rd International Joint Conference on Artificial Intelligence (IJCAI). Jeju Island, Korea: IJCAI, 2024. 5263−5271 [54] Kontschieder P, Fiterau M, Criminisi A, Bulò S R. Deep neural decision forests. In: Proceedings of the IEEE International Conference on Computer Vision (ICCV). Santiago, Chile: IEEE, 2015. 1467−1475 [55] Petsiuk V, Das A, Saenko K. Rise: Randomized input sampling for explanation of black-box models. In: Proceedings of the British Machine Vision Conference (BMVC). Newcastle, UK: BMVA, 2018. 151−163 -