当期目录
2025年 第51卷 第4期
2025, 51(4): 705-726.
doi: 10.16383/j.aas.c240396
cstr: 32138.14.j.aas.c240396
摘要:
作为多智能体对抗博弈问题的重要分支, 追逃博弈(Pursuit-evasion, PE)问题在控制和机器人领域得到广泛应用, 受到众多研究者的密切关注. 追逃博弈问题主要聚焦于追逐者和逃跑者双方为实现各自目标而展开的动态博弈: 追逐者试图在最短时间内抓到逃跑者, 逃跑者的目标则是避免被捕获. 本文概述追逃博弈问题的相关研究进展, 从空间环境、信息获取等五个方面介绍追逃博弈问题的各类设定; 简述理论求解、数值求解等四种当下主流的追逃博弈问题求解方法. 通过对现有研究的总结和分析, 给出几点研究建议, 对未来追逃博弈问题的发展具有一定指导意义.
作为多智能体对抗博弈问题的重要分支, 追逃博弈(Pursuit-evasion, PE)问题在控制和机器人领域得到广泛应用, 受到众多研究者的密切关注. 追逃博弈问题主要聚焦于追逐者和逃跑者双方为实现各自目标而展开的动态博弈: 追逐者试图在最短时间内抓到逃跑者, 逃跑者的目标则是避免被捕获. 本文概述追逃博弈问题的相关研究进展, 从空间环境、信息获取等五个方面介绍追逃博弈问题的各类设定; 简述理论求解、数值求解等四种当下主流的追逃博弈问题求解方法. 通过对现有研究的总结和分析, 给出几点研究建议, 对未来追逃博弈问题的发展具有一定指导意义.
2025, 51(4): 727-743.
doi: 10.16383/j.aas.c240499
cstr: 32138.14.j.aas.c240499
摘要:
协同制导是飞行器集群遂行协同任务中最关键的环节之一, 也是飞行器制导控制领域近年来最重要的研究方向之一. 协同制导经历了从简单约束到复杂约束、单一任务到复杂任务的发展过程. 首先, 从协同制导的发展历程和任务级别角度进行分类, 将现有协同制导方法概括为打击时间/角度约束下的协同制导、编队构型约束下的协同制导、角色和任务互补下的协同制导、博弈对抗条件下的协同制导等四类协同制导方法; 其次, 总结国内外学者对相关领域理论成果的最新进展, 从研究方法层面综述相关成果的优缺点和适用范围; 最后, 对协同制导领域的技术挑战与难点进行深入分析, 并对协同制导技术的未来发展进行前瞻性展望.
协同制导是飞行器集群遂行协同任务中最关键的环节之一, 也是飞行器制导控制领域近年来最重要的研究方向之一. 协同制导经历了从简单约束到复杂约束、单一任务到复杂任务的发展过程. 首先, 从协同制导的发展历程和任务级别角度进行分类, 将现有协同制导方法概括为打击时间/角度约束下的协同制导、编队构型约束下的协同制导、角色和任务互补下的协同制导、博弈对抗条件下的协同制导等四类协同制导方法; 其次, 总结国内外学者对相关领域理论成果的最新进展, 从研究方法层面综述相关成果的优缺点和适用范围; 最后, 对协同制导领域的技术挑战与难点进行深入分析, 并对协同制导技术的未来发展进行前瞻性展望.
2025, 51(4): 744-761.
doi: 10.16383/j.aas.c240334
cstr: 32138.14.j.aas.c240334
摘要:
随着无人系统技术的快速发展, 海上无人系统跨域集群凭借其诸多优点已成为当前无人系统领域研究热点. 具体来说, 海上无人系统跨域集群是指空中、水面、水下无人平台, 通过跨域任务规划与信息交互实现高效集群协作, 对提升复杂海洋环境下无人平台应对能力至关重要. 目前, 海上无人系统跨域集群理论体系还不完善, 相关研究正面临诸多亟待解决的难题. 为此, 首先梳理跨域集群相关概念及其发展现状, 分析其面临的挑战与关键问题; 进而, 从控制理论和通信技术相结合的角度出发, 简述跨域集群任务规划、组网传输、协同控制等关键技术的研究进展; 最后, 结合实际发展情况和未来发展趋势, 对海上无人系统跨域集群未来值得深入研究的方向进行总结与展望.
随着无人系统技术的快速发展, 海上无人系统跨域集群凭借其诸多优点已成为当前无人系统领域研究热点. 具体来说, 海上无人系统跨域集群是指空中、水面、水下无人平台, 通过跨域任务规划与信息交互实现高效集群协作, 对提升复杂海洋环境下无人平台应对能力至关重要. 目前, 海上无人系统跨域集群理论体系还不完善, 相关研究正面临诸多亟待解决的难题. 为此, 首先梳理跨域集群相关概念及其发展现状, 分析其面临的挑战与关键问题; 进而, 从控制理论和通信技术相结合的角度出发, 简述跨域集群任务规划、组网传输、协同控制等关键技术的研究进展; 最后, 结合实际发展情况和未来发展趋势, 对海上无人系统跨域集群未来值得深入研究的方向进行总结与展望.
2025, 51(4): 762-777.
doi: 10.16383/j.aas.c240456
cstr: 32138.14.j.aas.c240456
摘要:
自主无人系统是一类具有自主感知和决策能力的智能系统, 在国防安全、航空航天、高性能机器人等方面有着广泛的应用. 近年来, 基于Transformer架构的各类大模型快速革新, 极大地推动了自主无人系统的发展. 目前, 自主无人系统正迎来一场以“具身智能”为核心的新一代技术革命. 大模型需要借助无人系统的物理实体来实现“具身化”, 无人系统可以利用大模型技术来实现“智能化”. 本文阐述具身智能自主无人系统的发展现状, 详细探讨包含大模型驱动的多模态感知、面向具身任务的推理与决策、基于动态交互的机器人学习与控制、三维场景具身模拟器等具身智能领域的关键技术. 最后, 指出目前具身智能无人系统所面临的挑战, 并展望未来的研究方向.
自主无人系统是一类具有自主感知和决策能力的智能系统, 在国防安全、航空航天、高性能机器人等方面有着广泛的应用. 近年来, 基于Transformer架构的各类大模型快速革新, 极大地推动了自主无人系统的发展. 目前, 自主无人系统正迎来一场以“具身智能”为核心的新一代技术革命. 大模型需要借助无人系统的物理实体来实现“具身化”, 无人系统可以利用大模型技术来实现“智能化”. 本文阐述具身智能自主无人系统的发展现状, 详细探讨包含大模型驱动的多模态感知、面向具身任务的推理与决策、基于动态交互的机器人学习与控制、三维场景具身模拟器等具身智能领域的关键技术. 最后, 指出目前具身智能无人系统所面临的挑战, 并展望未来的研究方向.
2025, 51(4): 778-791.
doi: 10.16383/j.aas.c240406
cstr: 32138.14.j.aas.c240406
摘要:
针对未知环境下的多机器人环境感知和围捕问题, 提出一种基于变分稀疏高斯过程回归的分布式感知与围捕算法. 考虑到传统高斯过程回归不适合处理大量数据的问题, 在这项工作中, 首先考虑障碍物的影响, 以引入分离超平面的质心维诺划分算法为机器人动态规划任务区域; 其次, 利用多机器人在任务区域中的移动探索获取环境信息, 并通过变分自由方法来近似模型的后验分布, 完成对未知环境的感知; 最后, 基于粒子群优算法为围捕机器人动态分配围捕点, 实现多机器人的全方位均匀围捕. 通过仿真实验证明, 该算法能够适用于单源、多源以及动态源的围捕, 且能够在保证多机器人编队安全性的同时, 实现较高的迭代速度, 最终成功实现均匀围捕.
针对未知环境下的多机器人环境感知和围捕问题, 提出一种基于变分稀疏高斯过程回归的分布式感知与围捕算法. 考虑到传统高斯过程回归不适合处理大量数据的问题, 在这项工作中, 首先考虑障碍物的影响, 以引入分离超平面的质心维诺划分算法为机器人动态规划任务区域; 其次, 利用多机器人在任务区域中的移动探索获取环境信息, 并通过变分自由方法来近似模型的后验分布, 完成对未知环境的感知; 最后, 基于粒子群优算法为围捕机器人动态分配围捕点, 实现多机器人的全方位均匀围捕. 通过仿真实验证明, 该算法能够适用于单源、多源以及动态源的围捕, 且能够在保证多机器人编队安全性的同时, 实现较高的迭代速度, 最终成功实现均匀围捕.
2025, 51(4): 792-803.
doi: 10.16383/j.aas.c240354
cstr: 32138.14.j.aas.c240354
摘要:
针对非线性多智能体系统, 提出基于混合双端事件触发机制的模糊跟踪控制策略. 首先, 相比于现存状态触发机制, 构建一种灵活可调的阈值设计方法以满足系统实时性需求; 其次, 改进的状态触发机制将状态估计信号作为触发信号, 可有效降低现存机制的保守性并提高阈值设计的灵活性; 随后, 针对控制器−执行器环节和传感器−控制器环节, 设计混合双端事件触发机制来同时缓解双信道的通讯负担. 此外, 为解决未知不可测状态的问题, 构造一种仅基于相对输出信息的状态观测器. 最后, 在闭环系统内, 所有信号都是半全局一致最终有界稳定的, 并用一个实际的仿真例子证明了提出控制策略的可行性.
针对非线性多智能体系统, 提出基于混合双端事件触发机制的模糊跟踪控制策略. 首先, 相比于现存状态触发机制, 构建一种灵活可调的阈值设计方法以满足系统实时性需求; 其次, 改进的状态触发机制将状态估计信号作为触发信号, 可有效降低现存机制的保守性并提高阈值设计的灵活性; 随后, 针对控制器−执行器环节和传感器−控制器环节, 设计混合双端事件触发机制来同时缓解双信道的通讯负担. 此外, 为解决未知不可测状态的问题, 构造一种仅基于相对输出信息的状态观测器. 最后, 在闭环系统内, 所有信号都是半全局一致最终有界稳定的, 并用一个实际的仿真例子证明了提出控制策略的可行性.
2025, 51(4): 804-812.
doi: 10.16383/j.aas.c240423
cstr: 32138.14.j.aas.c240423
摘要:
研究异构不确定二阶非线性多智能体系统事件触发状态趋同控制问题. 首先, 为每个智能体设计参数观测器, 用以估计不确定参数, 这些观测器可渐近估计不确定参数. 其次, 为每个跟随智能体设计分布式参数观测器, 渐近估计领导智能体不确定参数, 每个智能体利用邻居智能体触发时刻的采样值估计其邻居智能体的状态. 基于估计的参数和邻居状态, 提出完全不依赖智能体间连续信息传输的事件触发趋同算法. 同时, 证明在所给算法的作用下, 多智能体系统能够达到状态趋同且不存在芝诺现象. 最后, 给出一个多单摆系统, 用以验证事件触发趋同算法. 仿真实验结果表明, 跟随智能体的位置和速度可以渐近跟踪领导智能体的位置和速度, 并且整个多智能体系统平均每秒触发8.825次. 对比仿真实验显示, 所提出的事件触发趋同算法可有效减少事件触发次数.
研究异构不确定二阶非线性多智能体系统事件触发状态趋同控制问题. 首先, 为每个智能体设计参数观测器, 用以估计不确定参数, 这些观测器可渐近估计不确定参数. 其次, 为每个跟随智能体设计分布式参数观测器, 渐近估计领导智能体不确定参数, 每个智能体利用邻居智能体触发时刻的采样值估计其邻居智能体的状态. 基于估计的参数和邻居状态, 提出完全不依赖智能体间连续信息传输的事件触发趋同算法. 同时, 证明在所给算法的作用下, 多智能体系统能够达到状态趋同且不存在芝诺现象. 最后, 给出一个多单摆系统, 用以验证事件触发趋同算法. 仿真实验结果表明, 跟随智能体的位置和速度可以渐近跟踪领导智能体的位置和速度, 并且整个多智能体系统平均每秒触发8.825次. 对比仿真实验显示, 所提出的事件触发趋同算法可有效减少事件触发次数.
2025, 51(4): 813-823.
doi: 10.16383/j.aas.c240494
cstr: 32138.14.j.aas.c240494
摘要:
考虑了量化通信下多智能体系统的协同最优输出调节问题. 为降低通信负担, 利用取整量化器将智能体之间传输的浮点数数据转化为整数, 从而减少通信信道中传输数据的比特数. 通过将量化器引入编码−解码方案中, 设计分布式量化观测器, 保证在量化通信下, 每个跟随者对外部系统状态的估计误差渐近收敛至零. 在此基础上, 在多智能体系统动态未知的情况下, 提出基于自适应动态规划的数据驱动算法, 在线学习次优控制策略, 解决协同最优输出调节问题, 保证每个跟随者的输出信号渐近跟踪参考信号, 并抑制由外部系统产生的干扰信号. 最后, 在智能车联网自适应巡航控制系统上进行仿真实验并验证了所提方法的有效性. 结果表明与精确通信相比, 量化通信下比特数降低了58.33%.
考虑了量化通信下多智能体系统的协同最优输出调节问题. 为降低通信负担, 利用取整量化器将智能体之间传输的浮点数数据转化为整数, 从而减少通信信道中传输数据的比特数. 通过将量化器引入编码−解码方案中, 设计分布式量化观测器, 保证在量化通信下, 每个跟随者对外部系统状态的估计误差渐近收敛至零. 在此基础上, 在多智能体系统动态未知的情况下, 提出基于自适应动态规划的数据驱动算法, 在线学习次优控制策略, 解决协同最优输出调节问题, 保证每个跟随者的输出信号渐近跟踪参考信号, 并抑制由外部系统产生的干扰信号. 最后, 在智能车联网自适应巡航控制系统上进行仿真实验并验证了所提方法的有效性. 结果表明与精确通信相比, 量化通信下比特数降低了58.33%.
2025, 51(4): 824-834.
doi: 10.16383/j.aas.c240453
cstr: 32138.14.j.aas.c240453
摘要:
多无人艇(Multiple unmanned surface vehicles, Multi-USVs)协同导航对于实现高效的海上作业至关重要, 而如何在开放未知海域处理多艇之间复杂的协作关系、实现多艇自主协同决策是当前亟待解决的难题. 近年来, 多智能体强化学习(Multi-agent reinforcement learning, MARL)在解决复杂的多体决策问题上展现出巨大的潜力, 被广泛应用于多无人艇协同导航任务中. 然而, 这种基于数据驱动的方法通常存在探索效率低、探索与利用难平衡、易陷入局部最优等问题. 因此, 在集中训练和分散执行(Centralized training and decentralized execution, CTDE)框架的基础上, 考虑从优势函数输入端注入扰动量来提升优势函数的泛化能力, 提出一种新的基于优势函数输入扰动的多智能体近端策略优化(Noise-advantage multi-agent proximal policy optimization, NA-MAPPO)方法, 从而提升多无人艇协同策略的探索效率. 实验结果表明, 与现有的基准算法相比, 所提方法能够有效提升多无人艇协同导航任务的成功率, 缩短策略的训练时间以及任务的完成时间, 从而提升多无人艇协同探索效率, 避免策略陷入局部最优.
多无人艇(Multiple unmanned surface vehicles, Multi-USVs)协同导航对于实现高效的海上作业至关重要, 而如何在开放未知海域处理多艇之间复杂的协作关系、实现多艇自主协同决策是当前亟待解决的难题. 近年来, 多智能体强化学习(Multi-agent reinforcement learning, MARL)在解决复杂的多体决策问题上展现出巨大的潜力, 被广泛应用于多无人艇协同导航任务中. 然而, 这种基于数据驱动的方法通常存在探索效率低、探索与利用难平衡、易陷入局部最优等问题. 因此, 在集中训练和分散执行(Centralized training and decentralized execution, CTDE)框架的基础上, 考虑从优势函数输入端注入扰动量来提升优势函数的泛化能力, 提出一种新的基于优势函数输入扰动的多智能体近端策略优化(Noise-advantage multi-agent proximal policy optimization, NA-MAPPO)方法, 从而提升多无人艇协同策略的探索效率. 实验结果表明, 与现有的基准算法相比, 所提方法能够有效提升多无人艇协同导航任务的成功率, 缩短策略的训练时间以及任务的完成时间, 从而提升多无人艇协同探索效率, 避免策略陷入局部最优.
2025, 51(4): 835-856.
doi: 10.16383/j.aas.c240414
cstr: 32138.14.j.aas.c240414
摘要:
研究分布式在线复合优化场景中的几种反馈延迟, 包括梯度反馈、单点Bandit反馈和两点Bandit反馈. 其中, 每个智能体的局部目标函数由一个强凸光滑函数与一个凸的非光滑正则项组成. 在分布式场景下, 研究每个智能体具有不同时变延迟的场景. 基于近端梯度下降算法, 分别设计这三种延迟反馈的分布式在线复合优化算法, 并且对动态遗憾上界进行分析. 分析结果表示, 延迟梯度反馈和延迟两点Bandit反馈的动态遗憾上界阶数在期望意义下相同, 而延迟单点Bandit反馈的动态遗憾上界稍差于前两者. 这表明, 存在延迟时, 两点Bandit反馈可以在期望意义下达到与梯度反馈相同阶数的动态遗憾上界, 且在步长选择合适的情况下, 三种反馈类型的平均延迟在动态遗憾上具有相同的阶数. 最后通过仿真实验验证了算法的性能和理论分析结果.
研究分布式在线复合优化场景中的几种反馈延迟, 包括梯度反馈、单点Bandit反馈和两点Bandit反馈. 其中, 每个智能体的局部目标函数由一个强凸光滑函数与一个凸的非光滑正则项组成. 在分布式场景下, 研究每个智能体具有不同时变延迟的场景. 基于近端梯度下降算法, 分别设计这三种延迟反馈的分布式在线复合优化算法, 并且对动态遗憾上界进行分析. 分析结果表示, 延迟梯度反馈和延迟两点Bandit反馈的动态遗憾上界阶数在期望意义下相同, 而延迟单点Bandit反馈的动态遗憾上界稍差于前两者. 这表明, 存在延迟时, 两点Bandit反馈可以在期望意义下达到与梯度反馈相同阶数的动态遗憾上界, 且在步长选择合适的情况下, 三种反馈类型的平均延迟在动态遗憾上具有相同的阶数. 最后通过仿真实验验证了算法的性能和理论分析结果.
2025, 51(4): 857-874.
doi: 10.16383/j.aas.c240289
cstr: 32138.14.j.aas.c240289
摘要:
本文研究了多智能体时变网络上基于Bandit反馈的分布式在线鞍点问题, 其中每个智能体通过本地计算和局部信息交流去协作最小化全局损失函数. 在Bandit反馈下, 包括梯度在内的损失函数信息是不可用的, 每个智能体仅能获得和使用在某决策或其附近产生的函数值. 为此, 结合单点梯度估计方法和预测映射技术, 提出一种非欧几里得意义上的分布式在线Bandit鞍点优化算法. 以动态鞍点遗憾作为性能指标, 对于一般的凸−凹损失函数, 建立了遗憾上界并在某些预设条件下确保所提算法的次线性收敛. 此外, 考虑到在迭代优化中计算优化子程序的精确解通常较为困难, 进一步扩展一种基于近似计算方法的算法变种, 并严格分析精确度设置对扩展算法遗憾上界的影响. 最后, 通过一个目标跟踪案例对算法的有效性和先进性进行仿真验证.
本文研究了多智能体时变网络上基于Bandit反馈的分布式在线鞍点问题, 其中每个智能体通过本地计算和局部信息交流去协作最小化全局损失函数. 在Bandit反馈下, 包括梯度在内的损失函数信息是不可用的, 每个智能体仅能获得和使用在某决策或其附近产生的函数值. 为此, 结合单点梯度估计方法和预测映射技术, 提出一种非欧几里得意义上的分布式在线Bandit鞍点优化算法. 以动态鞍点遗憾作为性能指标, 对于一般的凸−凹损失函数, 建立了遗憾上界并在某些预设条件下确保所提算法的次线性收敛. 此外, 考虑到在迭代优化中计算优化子程序的精确解通常较为困难, 进一步扩展一种基于近似计算方法的算法变种, 并严格分析精确度设置对扩展算法遗憾上界的影响. 最后, 通过一个目标跟踪案例对算法的有效性和先进性进行仿真验证.
2025, 51(4): 875-889.
doi: 10.16383/j.aas.c240258
cstr: 32138.14.j.aas.c240258
摘要:
在两团队零和马尔科夫博弈中, 一组玩家通过合作与另一组玩家进行对抗. 由于对手行为的不确定性和复杂的团队内部合作关系, 在高采样成本的任务中快速识别优势的分布式策略仍然具有挑战性. 鉴于此, 提出一种熵引导的极小极大值分解(Entropy-guided minimax factorization, EGMF)强化学习方法, 在线学习队内合作和队间对抗的策略. 首先, 提出基于极小极大值分解的多智能体执行器−评估器框架, 在高采样成本的、不限动作空间的任务中, 提升优化效率和博弈性能; 其次, 引入最大熵使智能体可以更充分地探索状态空间, 避免在线学习过程收敛到局部最优; 此外, 策略在时间域累加的熵值用于评估策略的熵, 并将其与分解的个体独立Q函数结合用于策略改进; 最后, 在多种博弈仿真场景和一个实体机器人任务平台上进行方法验证, 并与其他基线方法进行比较. 结果显示EGMF可以在更少样本下学到更具有对抗性能的两团队博弈策略.
在两团队零和马尔科夫博弈中, 一组玩家通过合作与另一组玩家进行对抗. 由于对手行为的不确定性和复杂的团队内部合作关系, 在高采样成本的任务中快速识别优势的分布式策略仍然具有挑战性. 鉴于此, 提出一种熵引导的极小极大值分解(Entropy-guided minimax factorization, EGMF)强化学习方法, 在线学习队内合作和队间对抗的策略. 首先, 提出基于极小极大值分解的多智能体执行器−评估器框架, 在高采样成本的、不限动作空间的任务中, 提升优化效率和博弈性能; 其次, 引入最大熵使智能体可以更充分地探索状态空间, 避免在线学习过程收敛到局部最优; 此外, 策略在时间域累加的熵值用于评估策略的熵, 并将其与分解的个体独立Q函数结合用于策略改进; 最后, 在多种博弈仿真场景和一个实体机器人任务平台上进行方法验证, 并与其他基线方法进行比较. 结果显示EGMF可以在更少样本下学到更具有对抗性能的两团队博弈策略.
2025, 51(4): 890-902.
doi: 10.16383/j.aas.c240458
cstr: 32138.14.j.aas.c240458
摘要:
针对多机器人系统在战场、灾难现场等复杂未知环境下的区域搜索问题, 提出一种基于分层仿生神经网络的多机器人协同区域搜索算法. 首先将仿生神经网络(Bio-inspired neural network, BNN) 和不同分辨率下的区域栅格地图结合, 构建分层仿生神经网络信息模型, 其中包括区域搜索神经网络信息模型(Area search neural network information model, AS-BNN)和区域覆盖神经网络信息模型(Area coverage neural network information model, AC-BNN). 机器人在任务区域内实时探测到的环境信息将转换为AS-BNN和AC-BNN中神经元的动态活性值. 其次, 在分层仿生神经网络信息模型基础上引入分布式模型预测控制(Distributed model predictive control, DMPC)框架, 并设计多机器人分层协同决策机制. 当机器人处于正常搜索状态时, 基于AS-BNN进行搜索路径滚动优化决策; 当机器人陷入局部最优状态时, 则启用AC-BNN引导机器人快速找到新的未搜索区域. 最后, 在复杂未知环境下进行多机器人区域搜索仿真实验, 并与该领域内的3种算法进行比较. 仿真结果验证了所提算法能够在复杂未知环境下引导多机器人系统高效地完成区域搜索任务.
针对多机器人系统在战场、灾难现场等复杂未知环境下的区域搜索问题, 提出一种基于分层仿生神经网络的多机器人协同区域搜索算法. 首先将仿生神经网络(Bio-inspired neural network, BNN) 和不同分辨率下的区域栅格地图结合, 构建分层仿生神经网络信息模型, 其中包括区域搜索神经网络信息模型(Area search neural network information model, AS-BNN)和区域覆盖神经网络信息模型(Area coverage neural network information model, AC-BNN). 机器人在任务区域内实时探测到的环境信息将转换为AS-BNN和AC-BNN中神经元的动态活性值. 其次, 在分层仿生神经网络信息模型基础上引入分布式模型预测控制(Distributed model predictive control, DMPC)框架, 并设计多机器人分层协同决策机制. 当机器人处于正常搜索状态时, 基于AS-BNN进行搜索路径滚动优化决策; 当机器人陷入局部最优状态时, 则启用AC-BNN引导机器人快速找到新的未搜索区域. 最后, 在复杂未知环境下进行多机器人区域搜索仿真实验, 并与该领域内的3种算法进行比较. 仿真结果验证了所提算法能够在复杂未知环境下引导多机器人系统高效地完成区域搜索任务.