-
摘要: 针对持续扰动下的分布式状态耦合非线性系统, 提出一种新的多耦合分布式经济模型预测控制(Economic model predictive control, EMPC)策略. 由于耦合非线性系统的经济性能函数的非凸性和非正定性, 首先引入关于经济最优平衡点的正定辅助函数和相应的辅助优化问题. 接着, 利用辅助函数的最优值函数构造原始分布式EMPC的一类隐式收缩约束. 然后, 建立状态耦合分布式EMPC的递推可行性和闭环系统关于最优经济平衡点的输入到状态稳定性(Input-to-state stability, ISS). 最后, 以耦合的四个连续搅拌釜反应器(Continuous stirred tank reactors, CSTRs)为例, 验证本文所提策略的有效性.Abstract: This paper presents a novel multi-coupled distributed economic model predictive control (EMPC) strategy for distributed state-coupled nonlinear systems with persistent disturbances. Due to the non-convex and non-positive-definite of the economic performance functions for coupled nonlinear systems, a positive definite auxiliary function related to the optimal economic equilibrium point and the corresponding auxiliary optimization problem are introduced. Then, the optimal value function of the auxiliary function is used to formulate a class of implicit contractive constraints for the original distributed EMPC. Subsequently, the recursive feasibility of the state-coupled distributed EMPC and the input-to-state stability (ISS) of the closed-loop system with respect to the optimal economic equilibrium point are established. Finally, the effectiveness of the proposed strategy is demonstrated by a simulation example of four coupled continuous stirred tank reactors (CSTRs).
-
由于单体机器人处理复杂任务的能力通常被认为是有限的, 而群体机器人系统由于其可协作的特殊性, 能够完成更为复杂的任务[1], 因此常被应用于协同围捕的研究中, 其核心是多个个体能力有限的机器人通过协同以完成对危险目标的捕获或控制. 然而, 传统的研究对于围捕目标的位置信息往往都是先验已知的, 只需驱动相应的算法对目标实现包围即可完成任务[2-3]. 但是面对目标位置未知的污染源时, 机器人需要对所处环境进行感知, 搜索目标源所发出的场源信息, 进而完成围捕任务. 如在战场环境中用多个小型无人机对移动电台进行探测和定位, 或者用多个移动机器人对丢失的放射性污染源进行寻找. 因此, 本文主要关注在围捕目标位置信息未知的情况下, 通过机器人协同感知环境信息主动获取围捕目标位置点, 完成围捕任务的问题, 从而为最终的捕获和处置奠定基础.
针对多机器人协同感知源定位的问题, 目前已经有广泛的研究. 以多机器人为载体的集群感知研究主要有密度梯度[4]、信息熵[5-6]或贝叶斯[7-8]等基础方法. 许多研究者在基础的方法上进行了改进, Jabeen等[9]提出一种基于梯度策略和概率方法相结合的元启发式算法, 对污染源进行感知定位, 其中的梯度方法用于无人机的导航和跟踪, 而概率搜索则用于估计污染源的位置, 两种方法的结合极大地减少了无人机感知搜索源的时间与区域. 但梯度方法容易陷入局部最优解, 特别是在复杂的环境中, 可能导致机器人无法找到全局最优解, 从而影响感知与定位的准确性和效率. 因此, 一些学者使用深度强化学习方法来指导机器人的运动. 在不依赖先验地图的条件下, 让机器人与环境进行交互感知, 通过探索和利用环境反馈来学习最佳的污染源定位策略. Li等[10]提出一种基于深度强化学习的室内气味源定位方法, 该方法将气味源定位问题建模为马尔可夫决策过程, 并设计状态空间、动作空间和密集奖励来解决稀疏奖励问题, 最后通过近端策略优化(Proximal policy optimization, PPO)算法来生成机器人的最优决策. 该方法尽管在室内模拟环境中有效, 但其在室外环境或其他复杂场景下的泛化能力尚未得到充分测试, 算法在现实世界快速变化环境中的适应性和稳定性有限. Latif等[11]设计了一种全新的源搜索方法, 即粒子簇-深度Q网络(Particle cluster-deep Q-network, PC-DQN), 首次将深度强化学习(Deep reinforcement learning, DRL)技术作为源搜索方法.具体来说, 搜索过程被表述为部分可观察的马尔可夫决策过程, 然后根据置信状态(由粒子滤波器表示)转换为马尔可夫决策过程. PC-DQN利用基于密度的噪声应用空间聚类(Density-based spatial clustering of applications with noise, DBSCAN)算法提取置信状态特征, 并采用深度Q网络(Deep Q-network, DQN)算法为源搜索任务寻找最优策略, 其中还引入了迁移学习概念, 将训练有素的Q网络重用到新场景中. 然而PC-DQN方法的不足之处在于DQN算法通常需要大量的计算资源, 特别是在处理高维状态空间时, 会导致其搜索性能在实时或快速响应的应用场景中受到限制. Liao等[12] 提出一种无模型梯度自适应极值寻距控制(Gradient adaptive extremum seeking control, GA-ESC)算法, 以提高气味源定位(Odor source localization, OSL)的搜索效率和成功率. GA-ESC算法通过控制器规划OSL, 控制器估计气味羽流浓度的梯度, 并根据估计的梯度引导机器人接近气味源. 采用自适应反馈增益将估计梯度与输出控制量联系起来, 从而获得更稳定的气味场梯度. 随后, 引入了扰动幅度调整(Perturbation amplitude adjustment, PAA)策略, 以增强全局搜索能力. 但以上三种方法实验场景单一, 算法的适应性、实时性以及鲁棒性也有待提高.
在感知到围捕目标的位置信息之后, 需要采取相应的策略对目标点进行围捕, 目前已存在许多有关围捕的方法, 其中包括强化学习[13-14]、人工势场[15]和Voronoi划分[16-17]等方法. 强化学习的围捕方法能够自主学习并处理复杂的多机器人围捕任务, 同时具有长期规划的能力. Li等[18]研究了一种基于深度强化学习的多无人机协同围捕算法, 提出一种新的多无人机智能决策控制方法, 使多无人机能够在复杂环境中实现协同决策和围捕, 但该方法缺少实际的无人机应用考虑. 而利用人工势场的围捕方法则是一种基于局部信息的路径规划技术, 它通过在目标点周围构建引力势场和在障碍物周围构建斥力势场来引导机器人的运动. 这种方法简单、高效, 但存在一些局限性, 如容易陷入局部最优解或与障碍物碰撞等. 为了解决这些问题, Zhao等[19]研究了一种基于动态速度势场的协同围捕算法, 利用一种新的吸引和排斥模型, 通过引入速度信息, 使机器人倾向于选择更短且安全的路径.但是该方法的实时性和在真实环境中对多目标的处理方面还有待提高. Fu等[20]则利用人工势函数解决了为围捕者制定合作策略并为被围捕者制定边界限制的问题, 在追围捕者之间引入动态排斥力以增强其合作能力, 提升了任务处理的实时性, 但该策略在计算上较为复杂, 限制了它们在资源受限的移动机器人平台上的实时应用. 受到Voronoi图的启发, 基于Voronoi的围捕策略具有灵活性高和鲁棒性强的优点. Tian等[21]则提出了一种基于缓冲Voronoi区域的贪婪追捕策略, 使多个追击者能够在障碍物环境中完成对逃逸者的捕获, 但该方法仅适用于二维场景和单个目标的场景. 针对此问题, Cao等[22]提出了一种全向最小体积3D-Voronoi算法, 将环境扩展到了三维场景, 同时利用最小体积策略实现了对动态目标和多目标的围捕. 但上述的围捕方法都没有考虑围捕者可以感知目标发出的场信息, 并逆向搜索的围捕方案. 我们采用了6个指标对捕获的类型进行分类: 单个或多个机器人; 单个或多个目标; 动态或静态目标; 2D或3D; 是否感知场源信息以及是否有实验验证. 指标和主要相关工作见表1.
因此, 本文提出了一个新的框架, 采用变分稀疏高斯过程回归的分布式学习感知与围捕算法, 考虑障碍物的影响, 引入分离超平面的质心维诺划分算法为机器人动态规划任务区域并探索和获取环境信息, 并通过变分自由能方法来近似模型的后验分布, 完成对未知环境的感知, 同时结合粒子群优化(Particle swarm optimization, PSO)算法最终成功实现均匀围捕. 机器人是通过自主决策来完成既定任务, 总体框架如图1所示.
本文其余部分的结构如下: 第1节介绍了多机器人安全编队控制的基本理论; 第2节提出一种基于变分稀疏高斯过程回归的多机器人环境感知算法, 并通过构造Lyapunov函数证明系统的稳定性; 第3节对本文所用的围捕策略进行了介绍; 第4节给出了相应的仿真结果, 并进行了分析; 第5节通过设置无人机实验验证了算法的有效性; 结论见第6节.
1. 多机器人的安全编队控制
1.1 多机器人编队控制方法
维诺划分是一种环境区域的划分方式, 利用两个相邻点间直线的垂直平分线构成维诺区域的边界. 每个维诺区域内的点到当前生成点的距离都小于到其他生成点的距离, 因此整个区域被划分为若干个子区域, 每个机器人负责其对应维诺分区内的任务. 在环境$ \mathbf{Q} \subseteq \mathbf{R}^N $中, 设$ {\boldsymbol{E}}=\left\{{\boldsymbol{e}}_1,\; {\boldsymbol{e}}_1,\; \cdots,\; {\boldsymbol{e}}_n\right\} $ 是$ n $个机器人集合, $ {\boldsymbol{P}}=\left\{{\boldsymbol{p}}_1,\; {\boldsymbol{p}}_2,\; \cdots,\; {\boldsymbol{p}}_n\right\} $ 是机器人的位置集合, $ {V}=\left\{{V}_1,\; {V}_2,\; \cdots,\; {V}_n\right\} $为区域内的维诺区域集合. 维诺区域的定义如下:
$$ \mathcal{V}_i=\left\{{\boldsymbol{p}} \in Q\left\|{\boldsymbol{q}}-{\boldsymbol{p}}_i\right\| < \left\|{\boldsymbol{q}}-{\boldsymbol{p}}_j\right\|,\; \forall j \neq i\right\} $$ (1) 其中, $ {\boldsymbol{p}}_i $, $ {\boldsymbol{p}}_j $表示维诺区域的生成点, 即机器人的位置, $ {V}_i $代表由$ {\boldsymbol{p}}_i $划分出的维诺区域, $ i,\; j= 1,\; \cdots, n,\; $ $ {\boldsymbol{q}} $表示环境$ \mathbf{Q} $中的任意一点. $ \|\cdot\| $ 表示$ \mathbf{R}^N $ 上的欧几里得范数. 而质心维诺划分是一种特殊的维诺划分, 它的生成点与区域的质心重合. 相较于维诺划分, 它的每个区域大小较为均衡, 这有利于将每个机器人合理分布在各自的空间中. 可以通过改变密度函数改变质心的位置, 从而驱动机器人前往指定位置. 在给定密度函数$ \rho $ 时, 区域覆盖的目标函数为:
$$ J{\boldsymbol{_p}}=\sum\limits_{i=1}^n \int_{\nu_i}\left\|{\boldsymbol{q}}-{\boldsymbol{p}}_i\right\|^2 \rho({\boldsymbol{q}}) d {\boldsymbol{q}} $$ (2) 根据惯性理论, 维诺区域的质量$ M_{\nu_i} $和质心$ {\boldsymbol{C}}_{\nu_i} $可以表示为:
$$ M_{\nu_i}=\int_{\nu_i} \rho({\boldsymbol{q}}) d {\boldsymbol{q}},\; {\boldsymbol{C}}_{\nu_i}=\frac{1}{M_{\nu_i}} \int_{\nu_i} {\boldsymbol{q}} \rho({\boldsymbol{q}}) d {\boldsymbol{q}} $$ (3) 此外, 第$ i $个机器人的极转动惯量表示为:
$$ J_{\nu_{{\boldsymbol{p}}_i}}=\int_{\nu_i}\left\|{\boldsymbol{q}}-{\boldsymbol{p}}_i\right\|^2 \rho({\boldsymbol{q}}) d {\boldsymbol{q}} $$ (4) 根据平行移轴定理, 知道一个物体相对于一个轴的转动惯量及物体的质心相对于这个轴的位置, 当物体相对于轴的位置变化时就可以得到物体相对于新轴的转动惯量. 则式(4)进一步可以表示为:
$$ J_{\nu_{{\boldsymbol{p}}_i}}=J_{\nu_{{\boldsymbol{c}}_i}}+M_{\nu_i}\left\|{\boldsymbol{p}}_i-{\boldsymbol{C}}_{\nu_i}\right\|^2 $$ (5) 式中$ J_{\nu_{{\boldsymbol{c}}_i}} $ 为Voronoi区域$ \nu_i $ 围绕其质心的极转动惯量.
由上式可以推出$ J{\boldsymbol{_p}} $ 的另一种形式为:
$$ J{\boldsymbol{_p}}=\sum\limits_{i=1}^n J_{\nu_{{\boldsymbol{c}}_i}}+\sum\limits_{i=1}^n M_{\nu_i}\left\|{\boldsymbol{p}}_i-{\boldsymbol{C}}_{\nu_i}\right\|^2 $$ (6) 则$ J{\boldsymbol{_p}} $ 的导数为:
$$ \frac{\partial J{\boldsymbol{_p}}}{\partial {\boldsymbol{p}}_i}=2 M_{\nu_i}\left({\boldsymbol{p}}_i-{\boldsymbol{C}}_{\nu_i}\right) $$ (7) 控制律表达式为:
$$ {\boldsymbol{u}}_i=2 K_i M_{\nu_i}\left({\boldsymbol{p}}_i-{\boldsymbol{C}}_{\nu_i}\right) $$ (8) 其中, $ K_i $ 是一个正定增益矩阵, 一般为单位阵.
当机器人位于质心时, 系统的代价函数最小:
$$ {\boldsymbol{C}}_{\nu_i}=\arg \min J\left({\boldsymbol{p}}_1,\; \cdots,\; {\boldsymbol{p}}_n\right)=\frac{\int_{\nu_i} {\boldsymbol{q}} \rho({\boldsymbol{q}}) d {\boldsymbol{q}}}{\int_{\nu_i} \rho({\boldsymbol{q}}) d {\boldsymbol{q}}} $$ (9) 其中, $ {\boldsymbol{C}}_{\nu_i} \subseteq \mathbf{R}^N $也表示每个维诺区域$ \nu_i $的质心.
1.2 基于SVM的多机器人安全编队控制
支持向量机(Support vector machine, SVM)是一种监督学习算法, 一般用于分类和回归分析. 它的主要思想是找到一个最优的超平面来区分不同类别的数据点, 同时最大化分类边界. 文献[17]基于机器人位置等周围环境信息, 通过支持向量机来构建一个分离超平面模型, 并对质心维诺划分算法产生的Voronoi区域进行二次约束, 以保证机器人能够选择沿着安全区域移动的路径. 给定位置点$ p_i $ 和$ p_j $, 则两个机器人之间的超平面可以通过下面的线性分割器来描述:
$$ {\boldsymbol{a}}_{i j}^{\rm{T}} {\boldsymbol{p}}+b_{i j}=0 $$ (10) 其中, $ {\boldsymbol{p}} \subseteq \mathbf{R}^N $, $ {\boldsymbol{a}}_{i j} $ 为决定超平面方向的法向量; $ b_{i j} $ 为距离项, 决定了超平面与原点之间的距离. 显然, 划分超平面可被法向量$ {\boldsymbol{a}}_{i j} $ 和位移$ b_{i j} $ 确定, 记为$ \left({\boldsymbol{a}}_{i j},\; b_{i j}\right) $.
因此, 任务区域被分割为两部分: $ \mathcal{V}_{b,\; i}=\{{\boldsymbol{p}} \subseteq \mathbf{R}^N: {\boldsymbol{a}}_{i j}^{\rm{T}} {\boldsymbol{p}} < b_{i j}\},\; \mathcal{V}_{b,\; j}=\{{\boldsymbol{p}} \subseteq \mathbf{R}^N: {\boldsymbol{a}}_{i j}^{\rm{T}} {\boldsymbol{p}} > b_{i j}\} $. 为了让机器人避开路径中的障碍物, 同样采用分离超平面的方法来构造约束Voronoi区域. 设置障碍物的顶点集合为$ \mathcal{{\boldsymbol{O}}}_m=\{{\boldsymbol{o}}_1,\; {\boldsymbol{o}}_2,\; \cdots,\; {\boldsymbol{o}}_m\} $, 并通过计算机器人$ {\boldsymbol{p}}_i $ 与障碍物顶点集合$ \mathcal{{\boldsymbol{O}}}_m $ 的最佳分离超平面来分离两种不同的样本点.
机器人与障碍物之间的约束Voronoi区域可以表示为:
$$ \mathcal{V}_{{\boldsymbol{o}},\; i}=\left\{{\boldsymbol{p}} \subseteq \mathbf{R}^N: {\boldsymbol{a}}_{i {\boldsymbol{o}}}^{\rm{T}} {\boldsymbol{p}} < b_{i {\boldsymbol{o}}},\; i \in n\right\} $$ (11) 如图2所示, 在同时考虑机器人与机器人之间的分离超平面和机器人与障碍物之间的分离超平面时, Voronoi区域可以被表示为:
$$ \begin{split} \mathcal{V}_i=\;&\{{\boldsymbol{p}} \subseteq \mathbf{R}^N: {\boldsymbol{a}}_{i j}^{\rm{T}} {\boldsymbol{p}} < b_{i j},\; \forall j \neq i,\; i,\; j \in n \\ &{\boldsymbol{a}}_{i {\boldsymbol{o}}}^{\rm{T}} {\boldsymbol{p}} < b_{i {\boldsymbol{o}}}\} \end{split} $$ (12) 2. 基于变分稀疏高斯过程回归的多机器人环境感知
在面对未知环境进行多机器人协同感知与围捕任务时, 环境的不确定性和动态变化对机器人的感知能力提出了更高的要求. 为了提高机器人对环境中污染源的感知精度并有效处理大量数据, 本文采用变分稀疏高斯过程回归(Variational sparse gaussian process regression, VS-GPR)作为核心算法. 高斯过程回归是一种基于概率的非参数化方法, 能够提供关于未知区域的可靠预测和不确定性估计, 而变分稀疏高斯过程回归则是通过变分推断来近似高斯过程的后验分布, 进一步增强了其在大规模数据环境感知问题上的应用能力.
2.1 变分稀疏高斯过程回归算法
近年来, 稀疏高斯过程回归方法快速发展, 其核心思想是利用稀疏的诱导点来近似完整的高斯过程模型. 考虑到环境感知问题所需的实时性, 其需要较快的计算速度和较高的预测精度要求, 本文将基于变分稀疏高斯过程回归方法来训练模型, 并以此来指导机器人的运动.
变分自由能(Variational free energy, VFE)是一种高效的变分推断技术, 它的核心是以变分推断的方式近似后验分布. 通过最小化变分分布与真实后验分布之间的库勒贝克-莱布勒(Kullback-leibler, KL)散度来优化模型参数, 调整变分分布来减少模型对训练数据中噪声和异常值的过度适应, 而不是直接对数据进行拟合, 从而在很大程度上解决了先验近似中存在的过拟合问题, 近似后验分布会更加趋于真实后验分布. 首先, 将后验分布参数化为一组诱导点, 并以最小化变分分布与真实后验分布之间的KL散度为目标进行优化. 这一过程中, 通过调整诱导点的位置, 逐步使变分分布逼近真实后验分布, 从而降低计算复杂度. 下面是对变分稀疏高斯过程回归理论的具体介绍.
在变分稀疏高斯过程回归中引入一组诱导点来近似整个数据集, 这些诱导点用于构建一个稀疏的高斯过程, 从而减少计算复杂度. 设置诱导点集合为$ \mathbf{Z}=\{z_i\}_{i=1}^M $, 对应的函数值$ {\boldsymbol{u}}=\{u_i\}_{i=1}^N= \{{\boldsymbol{f}}(z_i)\}_{i=1}^N $. 假设在给定这些诱导点之后, 预测点与训练样本条件独立, 即:
$$ p_r\left({\boldsymbol{f_*}} | y\right)=\int p_r\left({\boldsymbol{f_*}} | {\boldsymbol{u}}\right) p_r({\boldsymbol{u}} | y) d {\boldsymbol{u}} $$ (13) 通过式(13)可以得到新的预测点的概率分布. 其中$pr({\boldsymbol{f}}*|y) $为在给定观测数据$y $的条件下, 新的预测点函数值$ {\boldsymbol{f}}* $的后验概率密度, $ p_r\left({\boldsymbol{u}}| y\right) $为诱导点函数值在给定观测数据$ y $时的后验分布. 积分号表示在$ {\boldsymbol{u}} $的全定义域上对其进行积分.
在得到新的预测点概率分布之后, 为了有效估计模型的对数似然, 通过 Jensen 不等式, 计算对数边缘似然的下界:
$$ \begin{split} \ln &p_r(y) = \ln \int p_r(y | {\boldsymbol{f}},\; {\boldsymbol{u}}) p_r({\boldsymbol{f}},\; {\boldsymbol{u}}) d {\boldsymbol{f}} d {\boldsymbol{u}}= \\ & \ln \int p_r(y | {\boldsymbol{f}},\; {\boldsymbol{u}}) p_r({\boldsymbol{f}},\; {\boldsymbol{u}}) \frac{q({\boldsymbol{f}},\; {\boldsymbol{u}})}{q({\boldsymbol{f}},\; {\boldsymbol{u}})} d {\boldsymbol{f}} d {\boldsymbol{u}} \geq\\& \int q({\boldsymbol{f}},\; {\boldsymbol{u}}) \ln \frac{p_r(y | {\boldsymbol{f}},\; {\boldsymbol{u}}) p_r({\boldsymbol{f}},\; {\boldsymbol{u}})}{q({\boldsymbol{f}},\; {\boldsymbol{u}})} d {\boldsymbol{f}} d {\boldsymbol{u}} \end{split} $$ (14) 其中$Pr(y|{\boldsymbol{f}}, {\boldsymbol{u}}) $表示在给定函数值$ f $和$ u $的条件下, 观测数据$ y $的条件概率, 这里的$ f $是原始高斯过程模型中的函数值. 式(14)的目标是找到最佳的变分分布使其尽可能接近真实的后验分布$ pr(f,u|y) $, 从而进行准确的预测和不确定性估计, $ q({\boldsymbol{f}},\; {\boldsymbol{u}}) $ 称为变分分布. 当$ q({\boldsymbol{f}},\; {\boldsymbol{u}})\;=\;p_r({\boldsymbol{f}}, \, {\boldsymbol{u}} | y) $时, 等号成立.
设定$ q({\boldsymbol{f}},\; {\boldsymbol{u}}) $ 的形式为:
$$ q({\boldsymbol{f}},\; {\boldsymbol{u}})=p_r({\boldsymbol{f}} | {\boldsymbol{u}}) \phi({\boldsymbol{u}}) $$ (15) 当$ q({\boldsymbol{f}},\; {\boldsymbol{u}}) $ 趋于$ p_r({\boldsymbol{f}},\; {\boldsymbol{u}} | {\boldsymbol{y}})时,\; \phi({\boldsymbol{u}}) \approx p_r({\boldsymbol{u}} | y) $, 同时$ p_r({\boldsymbol{f}} | {\boldsymbol{u}}) \approx p_r({\boldsymbol{f}} | {\boldsymbol{u}},\; y) $.
消去对数中分子分母的$ p_r({\boldsymbol{f}} | {\boldsymbol{u}}) $, 得到:
$$ \begin{split} &\ln p_r(y) \geq \int p_r({\boldsymbol{f}} | {\boldsymbol{u}}) \phi({\boldsymbol{u}}) \\ &\ln \frac{p_r(y | {\boldsymbol{f}}) p_r({\boldsymbol{u}})}{\phi({\boldsymbol{u}})} d {\boldsymbol{f}} d {\boldsymbol{u}}\triangleq F_V(Z,\; \phi) \end{split} $$ (16) 其中, $ F_V(Z,\; \phi) $ 为目标函数. 通过优化诱导点的位置$ \mathbf{Z} $. 以及变分分布$ \phi({\boldsymbol{u}}) $ 来最大化$ F_V(Z,\; \phi) $. 当等号成立时, $ \mathrm{ln}p_r(y)\;=\;F_V(Z,\; \phi),\; q(\boldsymbol{f},\; \boldsymbol{u})\;=\;p_r(\boldsymbol{f},\; \boldsymbol{u}|y), \phi(\boldsymbol{u})=p_r(\boldsymbol{u}|y),\; p_r(\boldsymbol{f}|\boldsymbol{u},\; y)=p_r(\boldsymbol{f}|\boldsymbol{u}) $.
进一步计算最优$ \phi({\boldsymbol{u}}) $ 的解析解:
$$ \phi({\boldsymbol{u}})=\mathcal{N}\left(\sigma^{-2} K_Z \Sigma K_{Z X} y,\; K_Z \Sigma K_Z\right) $$ (17) 其中, $ \Sigma $是在变分高斯过程中用于计算变分分布参数的一个矩阵, $ \Sigma=\left[K_Z+\sigma^{-2} K_{Z X} K_{X Z}\right]^{-1} $. 将最优$ \phi({\boldsymbol{u}}) $ 代人$ F_V(Z,\; \phi) $ 可得:
$$ F_v(Z)=\ln \left[\mathcal{N}\left(0,\; {\boldsymbol{\sigma}}^2 Q_X+I_N\right)\right]-\frac{1}{2 {\boldsymbol{\sigma}}^2} \operatorname{Tr}(\tilde{K}) $$ (18) 其中, $ K_Z $是$ \mathbf{Z} $空间的核函数矩阵, 衡量了$ \mathbf{Z} $空间中各个数据之间的相似程度. $ K_{Z X} $是$ X $和${\bf{ Z}} $空间的交叉核函数矩阵, 反映了$ X $空间(原始数据空间)中的数据点与$ \mathbf{Z} $空间的诱导点之间的相似度, $ K_{X Z} $为$ K_{Z X} $的转置. $ Q_X\,=\,K_{X Z}K_Z^{-1}K_{Z X},\; \tilde{K}\,=\, K_X- K_{X Z} K_Z^{-1} K_{Z X} $.
优化完成之后, 可利用$ \phi({\boldsymbol{u}}) $ 进行预测:
$$ p_r\left({\boldsymbol{f}}_* | y\right)=\mathcal{N}\left({\boldsymbol{m_*}},\; {\boldsymbol{\sigma_*}}^2\right) $$ (19) 计算均值与方差的解析解:
$$ {\boldsymbol{m_*}}={\boldsymbol{\sigma}}^{-2} k_{* Z} \Sigma K_{Z X} y \\ $$ (20) $$ {\boldsymbol{\sigma_*}}^2=k_*-k_{* Z} K_Z^{-1} k_{Z^*}+k_{* Z} \Sigma k_{Z^*} $$ (21) 其中, $ k_{* Z}=k\left(x_*,\; Z\right),\; k_{Z *}=k\left(Z,\; x_*\right) $.
VFE方法通过在模型中引入稀疏性, 即只保留部分数据点的信息, 来实现对于大规模数据集的有效建模和预测, 其训练时间复杂度为$ {\rm O}(N M^2) $, 预测时间复杂度为$ {\rm O}(M^2) $.
2.2 环境感知策略
本节提出一种环境感知方法, 以质心维诺划分为基本框架, 利用机器人在环境中的移动获取先验信息, 并通过更新变分稀疏高斯过程回归模型来得到预测的全局的密度函数模型, 最后引导机器人寻找未知环境中的污染源位置.
首先作出以下假设:
假设 1. 现有$ n $个机器人在有界区域$ \mathbf{Q} \subseteq \mathbf{R}^N $ 中执行环境感知任务, 其中密度函数在初始阶段是未知的.
假设 2. $ n $个机器人之间始终保持通信, 忽略通信延迟.
传统CVT算法下的多机器人控制受限于密度函数, 机器人对高密度区域具有更高的兴趣. 在未知环境下的感知任务中则需要机器人覆盖更多的区域以便寻找到污染源的位置. 在自适应采样中, 信息熵方法表现出良好的性能. 熵能够量化不确定性的高低, 较高的熵值指示了模型对环境的不确定性较大, 需要更多的信息来减少不确定性. 因此, 通过将模型误差方差的熵作为权重, 鼓励机器人探索那些信息量较少(即误差方差较大)、模型预测不确定性较高的区域, 而不是仅仅停留在已经探索过的或信息量较多的区域. 这种策略有助于机器人从全局角度进行探索, 不会过早地集中在某个局部区域, 从而能够避免机器人陷入局部最优解. 熵在信息论上定义为:
$$ H(\sigma)=\sigma^2 \ln \sigma^2 $$ (22) 其中, $ \sigma $ 表示预测模型的后验方差.
CVT算法的代价函数可以被重新表示为:
$$ J_e=\sum\limits_{i=1}^n \int_{\nu_i}[\varepsilon({\boldsymbol{q}})+H(\sigma)]\left\|{\boldsymbol{q}}-{\boldsymbol{p}}_i\right\|^2 d {\boldsymbol{q}} $$ (23) 其中, $ \varepsilon({\boldsymbol{q}}) $ 表示维诺区域中点的预测浓度值.
信息熵的引入使得机器人产生了探索和开发之间的权衡, 当机器人识别到未探索区域时, 会增加对未探索区域的权重. 因此, 信息熵的引入有助于CVT算法更快的完成感知覆盖, 同时能够降低模型的误差.
$$ \begin{split} &M_{\nu_i}=\int_{\nu_i} \rho({\boldsymbol{q}}) d {\boldsymbol{q}}+\int_{\nu_i} \sigma^2 \ln \sigma^2 d {\boldsymbol{q}} \\ &{\boldsymbol{C}}_{\nu_i}=\frac{1}{M_\rho} \int_{\nu_i} {\boldsymbol{q}} \rho({\boldsymbol{q}}) d {\boldsymbol{q}}+\frac{1}{M_{H(\sigma)}} \int_{\nu_i} {\boldsymbol{q}} \sigma^2 \ln \sigma^2 d {\boldsymbol{q}} \end{split} $$ (24) 其中, $ M_\rho=\int_{\nu_i} \rho({\boldsymbol{q}}) d {\boldsymbol{q}},\; M_{H(\sigma)}=\int_{\nu_i} \sigma^2 \ln \sigma^2 d {\boldsymbol{q}} $.
因此, 维诺区域的质心由密度质心和不确定性质两部分构成.
机器人的位置控制律可以更新为:
$$ \dot{{\boldsymbol{p}}}_i=-k_p\left({\boldsymbol{p}}_i-{\boldsymbol{C}}_{\nu_i}\right) $$ (25) 其中, $ k_p $ 表示常数, 用于调整机器人的步长, 以防止机器人移动过快.
2.3 李雅普诺夫稳定性分析
为了验证控制器的稳定性, 选择Lyapunov函数为:
$$ V=\sum\limits_{i=1}^n \int_{\nu_i} \frac{k_1}{2}\left\|{\boldsymbol{q}}-{\boldsymbol{p}}_i\right\|^2 f({\boldsymbol{q}}) d {\boldsymbol{q}} $$ (26) 其中, $ f({\boldsymbol{q}})=\varepsilon({\boldsymbol{q}})+H(\sigma) $, $ k_1 $为正常数.
对其求导可得:
$$ \dot{V}=\sum\limits_{i=1}^n \int_{\nu_i} k_1\left({\boldsymbol{q}}-{\boldsymbol{p}}_i\right)^{\rm{T}} f({\boldsymbol{q}}) d {\boldsymbol{q}} \dot{{\boldsymbol{p}}}_i $$ (27) 将$ \dot{{\boldsymbol{p}}}_i $ 代入控制器, 则$ \dot{V} $ 变为:
$$ \begin{split} \dot{V} =\;& \sum\limits_{i=1}^n \int_{V_i} k_1\left({\boldsymbol{q}}-{\boldsymbol{p}}_i\right)^{\rm{T}} f({\boldsymbol{q}}) d {\boldsymbol{q}}\left[k_p\left({\boldsymbol{C}}_{V_i}-{\boldsymbol{p}}_i\right)\right]= \\ & \sum\limits_{i=1}^n-k_1 M_{\nu_i}\left({\boldsymbol{C}}_{V_i}-{\boldsymbol{P}}_i\right)^{\rm{T}} k_p\left({\boldsymbol{C}}_{V_i}-{\boldsymbol{p}}_i\right) =\\ & -k_1 k_p \sum\limits_{i=1}^n M_{\nu_i}\left\|{\boldsymbol{C}}_{\nu_i}-{\boldsymbol{p}}_i\right\|^2 < 0\\[-1pt] \end{split} $$ (28) 已知$ k_1 $ 和$ k_p $ 为正值, $ M_{\nu_i} $为正值, 那么$ \dot{V} \leq 0 $.
由于$ \dot{V} \leq 0 $, 根据$ \mathrm{LaSalle} $的不变性原理, 可以得出系统收敛于$ \Omega $中的最大不变性集.
3. 基于CVT的多机器人围捕策略设计
3.1 多无人机围捕问题描述
考虑一个有界的凸任务区域$ \mathbf{Q} $, 其中存在$ n $个围捕机器人, 位置可以表示为$ x_p^i \in \mathbf{Q},\; i=1,\; \cdots,\; n $和$ m $ 个待围捕位置$ x_0^j \in \mathbf{Q},\; j=1,\; \cdots,\; m $. 为了保证围捕的效果, 设定每个机器人具有相同动力学模型, 则围捕机器人的运动可以被描述为:
$$ \dot{{\boldsymbol{x}}}_p={\boldsymbol{u}}_p^i,\; {\boldsymbol{x}}_p^i(0)={\boldsymbol{x}}_p^{i,\; 0},\; i \in\{1,\; \cdots,\; n\} $$ (29) 其中, $ {\boldsymbol{x}}_p^{i,\; 0} $表示第$ i $个围捕机器人的起始位置. 机器人的控制输入被表述为$ {\boldsymbol{u}}_p^i $.
假设 1. 由于机器人本身的性能限制, 设定围捕者的最大速度为$ v_{\max } $, 即:
$$ \left\|{\boldsymbol{u}}_p^i(t)\right\|_2 \leq v_{\max },\; \forall t \geq 0 $$ (30) 假设2. 当围捕机器人的位置和待围捕位置点的距离小于$ r_d $时, 即可判定围捕成功. $ n $个围捕机器人$ x_p^i $和待围捕位置点$ x_0^j $之间的最小距离可以表示为$ r_d $时, 即可判定围捕成功. $ n $个围捕机器人$ x_p^i $和待围捕位置点$ x_0^j $之间的最小距离可以表示为:
$$ d_{\text {min }}(t)=\min _i\|{\boldsymbol{x}}_p^i(t)-{\boldsymbol{x}}_0^j(t)\|_2 $$ (31) 当任务区域中的每个机器人都满足$ d_{\min }(t) < r_d $ 时, 即可说明系统的围捕任务完成.
3.2 基于PSO算法的围捕点均匀分配策略
在感知到污染源的位置后, 需要机器人前往合适的围捕点进行围捕. 而机器人前往哪个围捕点是未知的, 需要根据机器人和污染源之间的距离来为不同机器人动态分配围捕点. 针对此问题, 本文基于平均围捕距离最小化原则, 采用粒子群算法为所有机器人分配合适的围捕点, 以实现对污染源的全方位围捕. 假设$ n $个机器人参与围捕任务, 则围捕点的数量为$ n $. 这些均匀分布的围捕点分配受以下约束:
$$ \left\{\begin{aligned} &\alpha=\frac{2 \pi}{n} \\ &\left(x-x_c^2\right)+\left(y-y_c^2\right)=R^2 \\ &\left\|{\boldsymbol{x}}_p^i-{\boldsymbol{x}}_o^j\right\| \leq r_d \end{aligned}\right. $$ (32) 其中, $ \left(x_c,\; y_c\right) $ 表示污染源的中心位置, $ \alpha $为两个围捕点之间的角度差, $ x,\; y $代表二维空间的坐标变量. 对目标形成均匀围捕后$ n $个围捕机器人是处于同一个圆周上的, $ R $代表$ n $个围捕机器人所形成的圆的半径.
如图3所示为5个围捕机器人对单污染源的围捕点分配. 绿色点表示围捕机器人的位置, 蓝色点表示变分稀疏高斯过程回归估计的污染源位置, 黑色圆圈表示机器人的最小围捕范围. 定义粒子群算法需要优化的目标函数为:
$$ J_{d x}=\min \sum\limits_{i=1}^n \sum\limits_{j=1}^s \int_{\varrho}\left\|{\boldsymbol{x}}_p^i-{\boldsymbol{x}}_o^j\right\|^2 d x $$ (33) 此目标函数同时适用于单污染源和多污染源的情况, 其中$ i $为机器人数量, $ j $为被围捕的污染源数量. 粒子群算法用来确定围捕点归属于哪个机器人, 该目标函数能够确保所有围捕机器人的总行驶路程最短.
PSO算法通过模拟粒子在解空间中的运动来搜索最优解. 每个粒子根据自身的历史经验和整个群体的信息, 通过调整速度和位置来更新自己的位置. 最后PSO算法能够逐步收敛到最优解, 从而实现高效的围捕点分配. 利用PSO算法进行围捕点分配的步骤如下:
步骤 1. 确定围捕点位置, 机器人的初始数量和任务分配的约束条件.
步骤 2. 随机初始化一群粒子, 每个粒子代表一种任务分配方案, 其中每个粒子包含了围捕机器人到围捕点的映射关系.
步骤 3. 根据每个粒子所代表的任务分配方案来计算目标函数(适应度函数)的值.
步骤 4. 根据粒子群优化算法的原理, 更新每个粒子的速度和位置. 速度更新考虑了粒子自身的历史最佳位置和全局最佳位置, 以及随机因素的影响, 而位置更新则根据新的速度进行调整.
步骤 5. 重复执行步骤3和步骤4, 直到满足停止条件. 通常情况下, 停止条件可以是达到最大迭代次数或者适应度达到某个预定阈值.
步骤 6. 在迭代结束后, 从所有粒子中选择具有最优适应度的粒子所代表的任务分配方案作为最终结果.
多机器人环境感知与围捕算法的伪代码如算法1所示:
算法1 多机器人环境感知与围捕算法
输入. $ n $ 个机器人的初始位置信息$ \left\{{\boldsymbol{p}}_i\right\}_{i=1,\; 2 \cdots n} $, 任务区域$ \mathbf{Q} \subseteq \mathbf{R}^N $, 任务切换阈值$ T $, 最大迭代次数$ t $, 围捕机器人和待围捕点的最小距离$ r_d $, 围捕者的最大速度$ v_{\max} $.
过程.
1: while编队迭代次数最大迭代次数$ t $ do
2: for $ i=1,\; \cdots,\; n $ do
3: 获取每个机器人的位置信息$ {\boldsymbol{p}}_i $
4: 计算每个机器人与任意区域点的距离$ \|{\boldsymbol{q}}- $ ${\boldsymbol{p}}_i\| $
5: 基于SVM方法构造每个机器人的约束维诺区域$ \nu_i $
6: if 机器人检测的围捕点所在位置的密度值小于任务切换阈值$ \mathrm{T} $ then
7: 获取机器人位置点的环境先验信息
8: 计算变分稀疏高斯过程回归模型, 得到预测场的后验分布
9: 驱动机器人前往该质心位置$ {\boldsymbol{p}}_i={\boldsymbol{C}}_{\nu_i} $
10: else
11: 计算不同围捕机器人和预测污染源之间的距离$ \|{\boldsymbol{x}}_p^i(t)-{\boldsymbol{x}}_0^j(t)\|_2 $
12: 基于PSO算法优化目标函数$ J_{d s} $
13: 为不同机器人分配最优围捕点$ {\boldsymbol{x}}_0 $
14: if $ \|{\boldsymbol{x}}_p^i(t)-{\boldsymbol{x}}_0^j(t)\|_2 < r_d $ then
15: 围捕任务完成
16: else
17: 驱动机器人前往围捕点位置$ {\boldsymbol{x}}_p^J={\boldsymbol{x}}_o^j $
18: end if
19: end if
20: end for
21: 综合历史信息得到已探索点集$ X=\left\{{\boldsymbol{x}}_n\right\}_{n=1}^N $
22: end while
4. 仿真分析
4.1 单个污染源的围捕算法对比
本节将对本文中提出的VS-GPR算法和之前工作中的基于3D-Voronoi的全方位最小体积(Omni-directional minimum volume, ODMV)围捕算法进行对比. 通过仿真结果评估两种方法在污染源围捕效果方面的表现.
4.1.1 VS-GPR算法仿真环境及参数设置
对于VS-GPR算法详见第2节, 本小节主要描述仿真环境及参数设置. VS-GPR算法继承了高斯过程回归方法的优点, 同时引入变分稀疏, 以变分推断来近似真实后验分布, 降低了计算复杂度, 同时拥有较快的计算速度和较高的预测精度. 对算法的仿真考虑了只存在一个污染源的有界环境, 该环境范围为7 m$ \times $7 m$ \times $7 m, 围捕机器人的数量为5个, 障碍物的数量设置为3个. 围捕点的数量与机器人数量相等. 设定污染源的位置为(5.0 m, 4.5 m, 4.0 m), 如图4为高斯分布污染源的切片图, 因此定义真实的环境场密度函数为:
$$ \rho_{x y z}=5 e^{-0.1*\left[(x-5)^2+(y-4.5)^2+(z-4)^2\right]} $$ (34) 为了更加方便的观察围捕机器人的运动轨迹, 在该仿真中并未显示维诺区域. 表2为实验参数设置表, 设置了任务切换阈值、障碍物的尺寸及坐标位置、围捕机器人的速度等.
表 2 仿真参数设置Table 2 Simulation parameter settings参数 参数值 任务切换阈值 4.5 障碍物的二维坐标(m) (5.0, 1.5)(1.2, 3.5)(4.0, 5.0) 障碍物尺寸 0.5 m$\times$0.5 m$\times$3.0 m UAV最大速度 0.3 m/s 机器人和待围捕点最小距离 0.5 m 本次仿真的目标是让5个围捕机器人先感知未知环境的信息, 预测出待围捕污染源的位置, 最终完成对污染源的均匀围捕. 其中, 任务中每个围捕机器人都需要避开路径中的障碍物. VS-GPR算法的仿真结果如图5所示, 其中图5(a), (b)和(c)中用不同颜色的曲线代表不同围捕机器人的运动轨迹, 黄色球体代表污染源, 3个黑色柱体表示环境中的障碍物.
由仿真结果可以看到, 5个机器人在编队过程中都能够避开障碍物, 编队的安全性得到保证. 图5(d)说明在编队过程中, 基于SVM的分离超平面方法能够保证任意机器人与障碍物不发生碰撞. 从图5(e)可以看出, 随着迭代次数的增加, 机器人与目标点位置间的位置误差不断减小, 最终完成收敛. 需要注意的是, 目标点在环境感知阶段被设定为维诺质心, 而在编队围捕阶段被设定为围捕点. 图5(f)则表明随着5个机器人在任务区域内的移动, 感知的环境模型越来越准确.
4.1.2 基于3D-Voronoi的全方位最小体积围捕算法
ODMV算法是在我们之前的工作中提出了另一种用于实现三维空间内多机器人围捕的算法, 见文献[22].该算法将三维任务空间中的目标点限制在对应的3D-Voronoi区域内, 并最小化其3D-Voronoi区域, 随着机器人围捕任务的进行, 目标点所在的3D-Voronoi区域的体积逐渐缩小, 最终完成围捕. 该算法对单污染源的仿真结果如图6所示. 两篇文章的均匀围捕策略不同, ODMV算法通过约束包围角实现均匀围捕, 本文方法通过PSO实现均匀围捕.两种方法对单污染源的围捕效果的仿真对比结果如表3所示, 可以看到在空间范围大小、源的数量、机器人数量、以及机器人移动速度都相同的条件下, VS-GPR算法在完成任务时的迭代次数和时间都要优于ODMV算法, 本文所提方法的搜索效率更高.
表 3 单污染源下两种围捕方法对比Table 3 Comparison of two capture methods围捕方法 ODMV围捕 VS-GPR围捕 运行时间(s) 197.62 102.67 迭代次数 180 70 4.2 多污染源的围捕
在更加复杂的场景中, 有多个污染源的存在. 假设在有界的环境中, 分别进行了6个机器人对2个至5个污染源的围捕仿真, 每个机器人的最大速度相同, 其余参数与4.1节相同. 在该仿真中, 机器人需要通过在环境内的移动来更新预测场模型, 并准确预测出污染源的位置, 然后由机器人分别对污染源进行围捕.
多个污染源的位置分别设定在(2.0 m, 5.0 m, 3.5 m), (5.0 m, 3.0 m, 5.5 m), (4.0 m, 5.0 m, 3.5 m), (3.0 m, 4.0 m, 3.5 m)和(5.0 m, 1.5 m, 5.0 m). 污染源的数量根据仿真需要增减. 文中例举了2个污染源和4个污染源时的仿真结果, 其密度函数为复合高斯分布, 分别如式(35), 式(36)所示.围捕过程分别如图7和图8所示, 结果表明该算法能够成功实现多个机器人对多个污染源的有效围捕, 同时保证机器人的安全性.图7(f)和图8(f)说明通过VS-GPR所建立的模型具有较高的精度. 而图8(c)显示了场景中存在4个污染源时每个污染源依次分配到了1个、1个、1个和3个围捕机器人.将VS-GPR方法与GPR算法的多机器人围捕多污染源方法进行比较, 结果如表4所示.
表 4 多机器人围捕多污染源用时对比Table 4 Comparison of time consumption for multi-robot capture multi-pollution source污染源数量 GPR耗时(s) VS-GPR耗时(s) 2个 278.63 102.67 3个 319.37 113.41 4个 345.56 118.32 5个 352.17 118.84 $$ \begin{split} \rho_{x y}=\;&5 e^{-0.1*{[(x-2)^2+(y-5)^2+(z-3.5)^2]}} \;+\\ &10 e^{-0.1 *{[(x-5)^2+(y-3)^2+(z-5.5)^2]}} \end{split} $$ (35) $$ \begin{split} \rho_{x y}=\;&5 e^{-0.1*{[(x-2)^2+(y-5)^2+(z-3.5)^2]}} \;+\\ &10 e^{-0.1 *{[(x-5)^2+(y-3)^2+(z-5.5)^2]}}\; +\\ &5 e^{-0.1*{[(x-4)^2+(y-5)^2+(z-3.5)^2]}} \;+\\ &5 e^{-0.1*{[(x-3)^2+(y-4)^2+(z-3.5)^2]}} \end{split} $$ (36) 可以看出VS-GPR算法在围捕2个至4个污染源的迭代总耗时分别增长了10.46$ \% $和4.32$ \% $. 而增加至5个污染源时迭代时间并未明显增加, 这是因为受到了空间范围及机器人数量的约束. VS-GPR算法的平均单次迭代时间为2.05s, 而GPR围捕的时间为5.57s. 根据以上仿真结果的分析可以得出, 本文所提多机器人围捕策略能够在减少迭代时间的同时, 保证较高的模型预测精度, 最后完成对污染源的围捕. 值得注意的是, 为了清楚的展示每个机器人围捕的过程的轨迹, 仿真中设置了较为密集的迭代次数, 即无人机步长较小, 这使得轨迹更为平滑, 所以迭代的总时长相对实验时长会更长.
4.3 动态污染源的围捕分析
在动态目标仿真环境中, 设定了5个围捕机器人对1个动态目标源的围捕, 在整个仿真过程中, 目标源并没有采取逃逸策略, 只做直线运动. 仿真中动态目标源的起始位置和终点位置坐标分别是(10, 45, 50)和(50, 45, 50), 目标源的移动路线用虚线表示, 仿真结果如图9所示. 图9(d)中的最终捕获结果与图5(c)的捕获效果相似. 通过仿真结果可以观察到, 在VS-GPR策略下, 多机器人编队能够捕获目标.
5. Crazyflie无人机围捕实验
室内实验环境长, 宽, 高分别为6 m$ \times $6 m$ \times $3 m, 如图10(a)所示. 红色的圆圈分别被标记为室内运动捕获相机、Crazyflies微型无人机. 该区域上方均匀安装了8个定位红外摄像头, 可用于跟踪多达6个不同的目标. 对于捕获实验, 选择了4个Crazyflie无人机, 如图10(b)所示. 每个Crazyflie无人机的轴距为92 mm, 重量约为30 g, 适合在狭小的室内空间进行实验. 在图10(a)中, Optitrack运动捕捉摄像头与4架Crazyflie无人机一起显示. 在每个Crazyflie无人机上安装了3$ \sim $4个反光球, 可以反射Optitrack摄像头发出的红外光, 便于系统获取无人机的位置.
多无人机控制系统的结构如图11所示. Optitrack运动捕捉系统用于跟踪无人机的实时位置. 然后, 通过机器人操作系统(Robot operating system, ROS)将捕获的位置传输到地面控制站(Ground control station, GCS). GCS使用VS-GPR算法计算下一步的目标位置, 并向Crazyflie无人机发送命令. 这使得我们能够控制多架无人机对目标进行追逐和捕获.
实验在障碍物环境下存在两种不同的场景, 如图12(a), (b)所示分别是对单目标源和多目标源的围捕(多目标源为两个), 实验中的目标源均为光源. 单源情况下无人机初始位置位于左下角, 目标光源位于右上角(0.9 m, 0.9 m, 1.1 m)处; 多源情况下无人机初始位置不变, 新增一个位于左上角(2.7 m, 0.2 m, 0.5 m)处的光源. 实验中使用的无人机数量为4架, 无人机的速度为1.1 m/s. 为了避免因无人机距离太近时产生的湍流造成的碰撞, 每架无人机之间的安全距离设置为0.3 m. 在实验开始时, 每架无人机都已知环境地图, 其中包括目标的位置和障碍物.
5.1 多障碍物环境下对单目标源进行围捕
在单目标源、多障碍物环境中, 构建了3个圆柱形障碍物以及一个目标光源. 光源灯泡悬挂在实验场景右上角(0.9 m, 0.9 m, 1.1 m)的位置, 利用4个Crazyflie无人机对目标源进行围捕实验. 为了避免干扰OptiTrack系统对无人机的跟踪, 在中间障碍物的表面覆盖了绿色网状材料. 无人机与障碍物之间的安全距离设置为0.3 m, 实验最终目的是将目标光源围在由4个Crazyflie无人机组成的圆形区域内. 在这种环境下的捕获过程部分状态如图13所示. 从图13(d)的最终分布可以观察到, 在17s时无人机编队对目标光源进行了均匀围捕.
5.2 多障碍物环境下对多目标源进行围捕
在单目标源的基础上增加了一个目标光源, 新增光源位置在左上角(2.7 m, 0.2 m, 0.5 m)处, 形成多目标源、多障碍物环境. 由于无人机数量有限, 利用4个Crazyflie无人机进行实验, 每个目标源分配2个无人机进行围捕. 围捕过程如图14所示, 从图14(d)中的最终分布可以观察到, 在18s时无人机编队完成了对2个目标源的有效围捕. 由于实验场地的限制, 无人机仅需要经过5次左右的迭代就到达光源位置, 所以实验中的总迭代用时相对仿真较少.
通过实验过程可以观察到, 在VS-GPR策略下, 多无人机编队能够捕获目标. 这个结论可以扩展到更多数量无人机的围捕实验.
6. 结论
针对在未知环境中多机器人环境感知和目标源围捕效率不足的问题, 结合VS-GPR方法和改进的CVT算法, 提出了一种基于变分稀疏高斯过程回归的多机器人协同感知与围捕方法.首先利用SVM方法动态规划多机器人任务区域, 避免机器人与障碍物之间的碰撞, 其次利用VS-GPR算法有效提高了多机器人在未知场源下的感知效率, 并利用粒子群优化算法对目标实现全方位均匀围捕. 在Matlab仿真环境与实验室真实场景下对所提出协同感知与围捕算法进行了验证, 具体结论如下:
1) 算法通过SVM的分离超平面方法保证多机器人编队避障的同时实现较高的围捕效率, 并且通过PSO算法完成对目标源的均匀围捕.
2) 在单污染源围捕中, 将本文所提VS-GPR算法与ODMV围捕算法进行了对比, 本文方法搜索效率更高、围捕效果更好, 具有显著的性能提升.
3) 在多污染源围捕中, VS-GPR算法在2个至5个污染源的仿真环境下进行了比较, 本文方法在完成围捕的迭代时间上并没有表现出显著的增加, 并且每个污染源都分配有围捕机器人, 该算法较好的适应了多污染源的情况.
4) 在动态源围捕方面, 本文所提出的方法展现了良好的围捕能力, 实现了对直线运动污染源围捕的仿真.
本文在多机器人协同感知与围捕方面进行探索研究, 所研究的污染源特征是呈高斯分布的, 未来将在此基础上进行烟羽扩散场源的感知, 及增加围捕机器人与目标源的博弈策略研究.
-
-
[1] Liu M, Shi Y, Liu X. Distributed MPC of aggregated heterogeneous thermostatically controlled loads in smart grid. IEEE Transactions on Industrial Electronics, 2016, 63(2): 1120−1129 doi: 10.1109/TIE.2015.2492946 [2] Chilin D, Liu J, Chen X, Christofides P. Fault detection and isolation and fault tolerant control of a catalytic alkylation of benzene process. Chemical Engineering Science, 2012, 78: 155−166 doi: 10.1016/j.ces.2012.05.015 [3] Zhang A, Yin X, Liu S, Zeng J, Liu J. Distributed economic model predictive control of wastewater treatment plants. Chemical Engineering Research and Design, 2019, 141: 144−155 doi: 10.1016/j.cherd.2018.10.039 [4] Leirens S, Zamora C, Negenborn R, De S. Coordination in urban water supply networks using distributed model predictive control. In: Proceedings of the 29th American Control Conference. Baltimore, Maryland, USA: IEEE, 2010. 3957−3962 [5] Ma S, Zou Y, Li S. Distributed model predictive control with priority coordination for limited supply multi-zone HVAC systems. Journal of Process Control, 2022, 117: 157−168 doi: 10.1016/j.jprocont.2022.07.013 [6] Kang Y, Wang T, Li P, Xu Z, Zhao Y. Compound event-triggered distributed MPC for coupled nonlinear systems. IEEE Transactions on Cybernetics, 2023, 53(9): 5572−5584 doi: 10.1109/TCYB.2022.3159343 [7] Wang T, Kang Y, Li P, Zhao Y, Tang H. Rolling self-triggered distributed MPC for dynamically coupled nonlinear systems. Automatica, 2024, 160: Article No. 111444 doi: 10.1016/j.automatica.2023.111444 [8] Ma A, Liu K, Zhang Q, Xia Y. Distributed MPC for linear discrete-time systems with disturbances and coupled states. Systems and Control Letters, 2020, 135: Article No. 104578 doi: 10.1016/j.sysconle.2019.104578 [9] Farina M, Scattolini R. Distributed predictive control: A non-cooperative algorithm with neighbor-to-neighbor communication for linear systems. Automatica, 2012, 48(6): 1088−1096 doi: 10.1016/j.automatica.2012.03.020 [10] Liu C, Li H, Shi Y, Xu D. Distributed event-triggered model predictive control of coupled nonlinear systems. SIAM Journal on Control and Optimization, 2020, 58(2): 714−734 doi: 10.1137/18M1176671 [11] Riverso S, Farina M, Ferrari G. Plug-and-play decentralized model predictive control for linear systems. IEEE Transactions on Automatic Control, 2013, 58(10): 2608−2614 doi: 10.1109/TAC.2013.2254641 [12] Long Y, Liu S, Xie L, Johansson K. Distributed nonlinear model predictive control based on contraction theory. International Journal of Robust and Nonlinear Control, 2018, 28(2): 492−503 doi: 10.1002/rnc.3881 [13] Gao Y, Dai L, Xia Y, Liu Y. Distributed model predictive control for consensus of nonlinear second-order multi-agent systems. International Journal of Robust and Nonlinear Control, 2017, 27(5): 830−842 doi: 10.1002/rnc.3603 [14] Wang Q, Duan Z, Lv Y, Wang Q, Chen G. Distributed model predictive control for linear-quadratic performance and consensus state optimization of multiagent systems. IEEE Transactions on Cybernetics, 2021, 51(6): 2905−2915 doi: 10.1109/TCYB.2020.3001347 [15] Müller M, Reble M, Allgöwer F. Cooperative control of dynamically decoupled systems via distributed model predictive control. International Journal of Robust and Nonlinear Control, 2012, 22(12): 1376−1397 doi: 10.1002/rnc.2826 [16] Dai L, Cao Q, Xia Y, Gao Y. Distributed MPC for formation of multi-agent systems with collision avoidance and obstacle avoidance. Journal of the Franklin Institute, 2017, 354(4): 2068−2085 doi: 10.1016/j.jfranklin.2016.12.021 [17] Chen X, Heidarinejad M, Liu J, Christofides P. Distributed economic MPC: Application to a nonlinear chemical process network. Journal of Process Control, 2012, 22: 689−699 doi: 10.1016/j.jprocont.2012.01.016 [18] Jia Y, Dong Z Y, Sun C, Chen G. Distributed economic model predictive control for a wind-photovoltaic-battery microgrid power system. IEEE Transactions on Sustainable Energy, 2020, 11(2): 1089−1099 doi: 10.1109/TSTE.2019.2919499 [19] Albalawi F, Durand H, Christofides P. Distributed economic model predictive control with safeness-index based constraints for nonlinear systems. Systems and Control Letters, 2017, 110: 21−28 doi: 10.1016/j.sysconle.2017.10.002 [20] Huang M, Zheng Y, Li S. Distributed economic model predictive control for an industrial fluid catalytic cracking unit ensuring safe operation. Control Engineering Practice, 2022, 126: Article No. 105263 doi: 10.1016/j.conengprac.2022.105263 [21] Jia Y, Meng K, Wu K, Sun C, Dong Z. Optimal load frequency control for networked power systems based on distributed economic MPC. IEEE Transactions on Systems, Man, and Cybernetics: Systems, 2021, 51(4): 2123−2133 doi: 10.1109/TSMC.2020.3019444 [22] Bian Y, Du C, Hu M, Li S, Liu H, Li C. Fuel economy optimization for platooning vehicle swarms via distributed economic model predictive control. IEEE Transactions on Automation Science and Engineering, 2022, 19(4): 2711−2723 doi: 10.1109/TASE.2021.3128920 [23] Köhler P, Müller M, Allgöwer F. A distributed economic MPC framework for cooperative control under conflicting objectives. Automatica, 2018, 96: 368−379 doi: 10.1016/j.automatica.2018.07.001 [24] Luo J, He D, Zhu W, Du H. Multiobjective platooning of connected and automated vehicles using distributed economic model predictive control. IEEE Transactions on Intelligent Transportation Systems, 2022, 23(10): 19121−19135 doi: 10.1109/TITS.2022.3170977 [25] He D, Qiu T, Luo R. Fuel efficiency-oriented platooning control of connected nonlinear vehicles: A distributed economic MPC approach. Asian Journal of Control, 2020, 22(4): 1628−1638 doi: 10.1002/asjc.2049 [26] Li A, Sun J. Stability of nonlinear system under distributed Lyapunov-based economic model predictive control with time-delay. ISA Transactions, 2020, 99: 148−153 doi: 10.1016/j.isatra.2019.10.004 [27] Dai L, Qiang Z, Sun Z, Zhou T, Xia Y. Distributed economic MPC for dynamically coupled linear systems with uncertainties. IEEE Transactions on Cybernetics, 2022, 52(6): 5301−5310 doi: 10.1109/TCYB.2020.3030021 [28] 何德峰. 约束非线性系统稳定经济模型预测控制. 自动化学报, 2016, 42(11): 1680−1690He De-Feng. Stabilizing economic model predictive control of constrained nonlinear systems. Acta Automatica Sinica, 2016, 42(11): 1680−1690 [29] Ellis M, Durand H, Christofides P. A tutorial review of economic model predictive control methods. Journal of Process Control, 2014, 24(8): 1156−1178 doi: 10.1016/j.jprocont.2014.03.010 [30] Zhou T, Dai L, Li Q, Xia Y. Distributed economic MPC for dynamically coupled systems with stochastic disturbances. IEEE Transactions on Circuits and Systems, 2023, 70(12): 5442−5455 doi: 10.1109/TCSI.2023.3321682 [31] Dai L, Zhou T, Qiang Z, Sun Z, Xia Y. Distributed economic MPC for dynamically coupled linear systems: A Lyapunov-based approach. IEEE Transactions on Systems, Man, and Cybernetics: Systems, 2023, 53(3): 1408−1419 doi: 10.1109/TSMC.2022.3201701 [32] Darivianakis G, Eichler A, Lygeros J. Distributed model predictive control for linear systems with adaptive terminal sets. IEEE Transactions on Automatic Control, 2020, 65(137): 1044−1056 [33] Angeli D, Amrit R, Rawlings J. On average performance and stability of economic model predictive control. IEEE Transactions on Automatic Control, 2012, 57(7): 1615−1626 doi: 10.1109/TAC.2011.2179349 [34] 何德峰, 韩平, 王青松. 有界扰动下约束非线性系统鲁棒经济模型预测控制. 自动化学报, 2022, 48(2): 572−581He De-Feng, Han Ping, Wang Qing-Song. Robust economic MPC of constrained nonlinear systems with bounded disturbances. Acta Automatica Sinica, 2022, 48(2): 572−581 [35] Yin X, Qin Y, Liu J, Huang B. Data-driven moving horizon state estimation of nonlinear processes using Koopman operator. Chemical Engineering Research and Design, 2023, 200: 481−492 doi: 10.1016/j.cherd.2023.10.033 -