2025, 51(3): 485-488.
doi: 10.16383/j.aas.c202501
cstr: 32138.14.j.aas.c202501
2025, 51(3): 489-509.
doi: 10.16383/j.aas.c240508
cstr: 32138.14.j.aas.c240508
摘要:
多智能体协同应用广泛, 并被列为新一代人工智能(Artificial intelligence, AI)基础理论亟待突破的重要内容之一, 对其开展研究具有鲜明的科学价值和工程意义. 随着人工智能技术的进步, 传统的单一控制视角下的多智能体协同已无法满足执行大规模复杂任务的需求, 融合博弈与控制的多智能体协同应运而生. 在这一框架下, 多智能体协同具有更高的灵活性、适应性和扩展性, 为多智能体系统的发展带来更多可能性. 鉴于此, 首先从协同角度入手, 回顾多智能体协同控制与估计领域的进展. 接着, 围绕博弈与控制的融合, 介绍博弈框架的基本概念, 重点讨论在微分博弈下多智能体协同问题的建模与分析, 并简要总结如何应用强化学习算法求解博弈均衡. 选取多机器人导航和电动汽车充电调度这两个典型的多智能体协同场景, 介绍博弈与控制融合的思想如何用于解决相关领域的难点问题. 最后, 对博弈与控制融合框架下的多智能体协同进行总结和展望.
多智能体协同应用广泛, 并被列为新一代人工智能(Artificial intelligence, AI)基础理论亟待突破的重要内容之一, 对其开展研究具有鲜明的科学价值和工程意义. 随着人工智能技术的进步, 传统的单一控制视角下的多智能体协同已无法满足执行大规模复杂任务的需求, 融合博弈与控制的多智能体协同应运而生. 在这一框架下, 多智能体协同具有更高的灵活性、适应性和扩展性, 为多智能体系统的发展带来更多可能性. 鉴于此, 首先从协同角度入手, 回顾多智能体协同控制与估计领域的进展. 接着, 围绕博弈与控制的融合, 介绍博弈框架的基本概念, 重点讨论在微分博弈下多智能体协同问题的建模与分析, 并简要总结如何应用强化学习算法求解博弈均衡. 选取多机器人导航和电动汽车充电调度这两个典型的多智能体协同场景, 介绍博弈与控制融合的思想如何用于解决相关领域的难点问题. 最后, 对博弈与控制融合框架下的多智能体协同进行总结和展望.
2025, 51(3): 510-539.
doi: 10.16383/j.aas.c240392
cstr: 32138.14.j.aas.c240392
摘要:
强化学习作为一类重要的人工智能方法, 广泛应用于解决复杂的控制和决策问题, 其在众多领域的应用已展示出巨大潜力. 近年来, 强化学习从单智能体决策逐渐扩展到多智能体协作与博弈, 形成多智能体强化学习这一研究热点. 多智能体系统由多个具有自主感知和决策能力的实体组成, 有望解决传统单智能体方法难以应对的大规模复杂问题. 多智能体强化学习不仅需要考虑环境的动态性, 还需要应对其他智能体策略的不确定性, 从而增加学习和决策过程的复杂度. 为此, 梳理多智能体强化学习在控制与决策领域的研究, 分析其面临的主要问题与挑战, 从控制理论与自主决策两个层次综述现有的研究成果与进展, 并对未来的研究方向进行展望. 通过分析, 期望为未来多智能体强化学习的研究提供有价值的参考和启示.
强化学习作为一类重要的人工智能方法, 广泛应用于解决复杂的控制和决策问题, 其在众多领域的应用已展示出巨大潜力. 近年来, 强化学习从单智能体决策逐渐扩展到多智能体协作与博弈, 形成多智能体强化学习这一研究热点. 多智能体系统由多个具有自主感知和决策能力的实体组成, 有望解决传统单智能体方法难以应对的大规模复杂问题. 多智能体强化学习不仅需要考虑环境的动态性, 还需要应对其他智能体策略的不确定性, 从而增加学习和决策过程的复杂度. 为此, 梳理多智能体强化学习在控制与决策领域的研究, 分析其面临的主要问题与挑战, 从控制理论与自主决策两个层次综述现有的研究成果与进展, 并对未来的研究方向进行展望. 通过分析, 期望为未来多智能体强化学习的研究提供有价值的参考和启示.
2025, 51(3): 540-558.
doi: 10.16383/j.aas.c240478
cstr: 32138.14.j.aas.c240478
摘要:
多智能体强化学习(Multi-agent reinforcement learning, MARL)作为博弈论、控制论和多智能体学习的交叉研究领域, 是多智能体系统(Multi-agent systems, MASs)研究中的前沿方向, 赋予智能体在动态多维的复杂环境中通过交互和决策完成多样化任务的能力. 多智能体强化学习正在向应用对象开放化、应用问题具身化、应用场景复杂化的方向发展, 并逐渐成为解决现实世界中博弈决策问题的最有效工具. 本文对基于多智能体强化学习的博弈进行系统性综述. 首先, 介绍多智能体强化学习的基本理论, 梳理多智能体强化学习算法与基线测试环境的发展进程. 其次, 针对合作、对抗以及混合三种多智能体强化学习任务, 从提高智能体合作效率、提升智能体对抗能力的维度来介绍多智能体强化学习的最新进展, 并结合实际应用探讨混合博弈的前沿研究方向. 最后, 对多智能体强化学习的应用前景和发展趋势进行总结与展望.
多智能体强化学习(Multi-agent reinforcement learning, MARL)作为博弈论、控制论和多智能体学习的交叉研究领域, 是多智能体系统(Multi-agent systems, MASs)研究中的前沿方向, 赋予智能体在动态多维的复杂环境中通过交互和决策完成多样化任务的能力. 多智能体强化学习正在向应用对象开放化、应用问题具身化、应用场景复杂化的方向发展, 并逐渐成为解决现实世界中博弈决策问题的最有效工具. 本文对基于多智能体强化学习的博弈进行系统性综述. 首先, 介绍多智能体强化学习的基本理论, 梳理多智能体强化学习算法与基线测试环境的发展进程. 其次, 针对合作、对抗以及混合三种多智能体强化学习任务, 从提高智能体合作效率、提升智能体对抗能力的维度来介绍多智能体强化学习的最新进展, 并结合实际应用探讨混合博弈的前沿研究方向. 最后, 对多智能体强化学习的应用前景和发展趋势进行总结与展望.
2025, 51(3): 559-569.
doi: 10.16383/j.aas.c240416
cstr: 32138.14.j.aas.c240416
摘要:
研究了高维线性时不变动力学系统构成的具有加权有向的多智能体网络拓扑变化可辨识性. 这些网络智能体动力学和内耦合矩阵均具有异构性. 分析异构内耦合矩阵对网络拓扑可辨识性的影响, 并发现网络拓扑结构的可辨识性与智能体之间的内耦合矩阵相关. 当内耦合矩阵由同构变为异构时, 网络拓扑的可辨识性可能发生变化, 既可能由可辨识变为不可辨识, 也可能由不可辨识变为可辨识. 针对一般网络结构, 提出充分和必要的条件以验证拓扑变化的可辨识性. 此外, 针对有向链状网络、有向星型网络以及有向环状网络等几种典型网络结构, 分别给出相应的可辨识性条件. 通过实际案例验证了所提条件的合理性和有效性.
研究了高维线性时不变动力学系统构成的具有加权有向的多智能体网络拓扑变化可辨识性. 这些网络智能体动力学和内耦合矩阵均具有异构性. 分析异构内耦合矩阵对网络拓扑可辨识性的影响, 并发现网络拓扑结构的可辨识性与智能体之间的内耦合矩阵相关. 当内耦合矩阵由同构变为异构时, 网络拓扑的可辨识性可能发生变化, 既可能由可辨识变为不可辨识, 也可能由不可辨识变为可辨识. 针对一般网络结构, 提出充分和必要的条件以验证拓扑变化的可辨识性. 此外, 针对有向链状网络、有向星型网络以及有向环状网络等几种典型网络结构, 分别给出相应的可辨识性条件. 通过实际案例验证了所提条件的合理性和有效性.
2025, 51(3): 570-576.
doi: 10.16383/j.aas.c240474
cstr: 32138.14.j.aas.c240474
摘要:
针对无领航者多智能体系统(Multi-agent systems, MASs)以及领航−跟随多智能体系统执行器故障问题, 设计基于PI结构的容错控制律. 考虑到传统的比例型控制律无法消除加性干扰影响下的稳态误差, 引入积分环节, 在一致性控制律中融入状态的积分项, 用于改善多智能体系统一致性过程的稳态性能. 针对领航者输入不为零的情况, 设计非线性的一致性控制律, 并借助黎卡提方程以及Lyapunov函数, 进行多智能体系统在故障情况下的一致性分析和控制律设计. 最后, 通过一系列对比仿真, 说明了所设计控制律在改善系统稳态性能方面的优势.
针对无领航者多智能体系统(Multi-agent systems, MASs)以及领航−跟随多智能体系统执行器故障问题, 设计基于PI结构的容错控制律. 考虑到传统的比例型控制律无法消除加性干扰影响下的稳态误差, 引入积分环节, 在一致性控制律中融入状态的积分项, 用于改善多智能体系统一致性过程的稳态性能. 针对领航者输入不为零的情况, 设计非线性的一致性控制律, 并借助黎卡提方程以及Lyapunov函数, 进行多智能体系统在故障情况下的一致性分析和控制律设计. 最后, 通过一系列对比仿真, 说明了所设计控制律在改善系统稳态性能方面的优势.
2025, 51(3): 577-589.
doi: 10.16383/j.aas.c240288
cstr: 32138.14.j.aas.c240288
摘要:
本文研究了严格反馈多智能体系统的最优一致性问题, 旨在局部信息交互的条件下, 使所有智能体收敛至全局代价函数的最优解. 首先, 针对权重非平衡有向图, 提出一种新的分布式比例积分(Proportional-integral, PI)变量, 将最优一致性问题转化为PI调节问题, 使得经典的控制技术能够通过调节PI变量的方式来处理更加复杂的多智能体系统. 然后, 结合所提出的分布式PI变量和预设性能控制, 设计一类基于PI调节的分布式控制算法, 使得带有死区输入非线性和有界扰动的严格反馈多智能体系统实现近似最优一致性. 最后, 通过仿真实验验证了所设计算法的有效性.
本文研究了严格反馈多智能体系统的最优一致性问题, 旨在局部信息交互的条件下, 使所有智能体收敛至全局代价函数的最优解. 首先, 针对权重非平衡有向图, 提出一种新的分布式比例积分(Proportional-integral, PI)变量, 将最优一致性问题转化为PI调节问题, 使得经典的控制技术能够通过调节PI变量的方式来处理更加复杂的多智能体系统. 然后, 结合所提出的分布式PI变量和预设性能控制, 设计一类基于PI调节的分布式控制算法, 使得带有死区输入非线性和有界扰动的严格反馈多智能体系统实现近似最优一致性. 最后, 通过仿真实验验证了所设计算法的有效性.
2025, 51(3): 590-603.
doi: 10.16383/j.aas.c240451
cstr: 32138.14.j.aas.c240451
摘要:
针对多智能体系统分布式一致性控制问题, 提出一种新的融合动态模糊神经网络(Dynamic fuzzy neural network, DFNN)和自适应动态规划(Adaptive dynamic programming, ADP)算法的无模型自适应控制方法. 类似于强化学习中执行者−评论家结构, DFNN和神经网络(Neural network, NN)分别逼近控制策略和性能指标. 每个智能体的DFNN执行者从零规则开始, 通过在线学习, 与其局部邻域的智能体交互而生成和合并规则. 最终, 每个智能体都有一个独特的DFNN控制器, 具有不同的结构和参数, 实现了最优的分布式同步控制律. 仿真结果表明, 本文提出的在线算法在非线性多智能体系统分布式一致性控制中优于传统基于NN的ADP算法.
针对多智能体系统分布式一致性控制问题, 提出一种新的融合动态模糊神经网络(Dynamic fuzzy neural network, DFNN)和自适应动态规划(Adaptive dynamic programming, ADP)算法的无模型自适应控制方法. 类似于强化学习中执行者−评论家结构, DFNN和神经网络(Neural network, NN)分别逼近控制策略和性能指标. 每个智能体的DFNN执行者从零规则开始, 通过在线学习, 与其局部邻域的智能体交互而生成和合并规则. 最终, 每个智能体都有一个独特的DFNN控制器, 具有不同的结构和参数, 实现了最优的分布式同步控制律. 仿真结果表明, 本文提出的在线算法在非线性多智能体系统分布式一致性控制中优于传统基于NN的ADP算法.
2025, 51(3): 604-616.
doi: 10.16383/j.aas.c240459
cstr: 32138.14.j.aas.c240459
摘要:
针对异构非线性多智能体系统(Multi-agent system, MAS)的输出一致性控制难题, 设计了一种基于同胚分布式控制协议的无模型方法. 通过将输出反馈线性化理论与自适应动态规划相结合, 可以在不需要精确系统模型的情况下实现非线性智能体的线性化, 简化分布式控制器的设计复杂性. 具体而言, 设计一种双层分布式控制结构, 在物理空间层通过无模型反馈线性化方法实现未知系统线性化, 在微分同构空间层利用线性控制技术进行分布式共识控制. 通过两个实验验证了所提方法在处理未知异构非线性多智能体系统中的有效性, 将传统的线性分布式控制方法扩展到未知非线性多智能体系统的控制器设计.
针对异构非线性多智能体系统(Multi-agent system, MAS)的输出一致性控制难题, 设计了一种基于同胚分布式控制协议的无模型方法. 通过将输出反馈线性化理论与自适应动态规划相结合, 可以在不需要精确系统模型的情况下实现非线性智能体的线性化, 简化分布式控制器的设计复杂性. 具体而言, 设计一种双层分布式控制结构, 在物理空间层通过无模型反馈线性化方法实现未知系统线性化, 在微分同构空间层利用线性控制技术进行分布式共识控制. 通过两个实验验证了所提方法在处理未知异构非线性多智能体系统中的有效性, 将传统的线性分布式控制方法扩展到未知非线性多智能体系统的控制器设计.
2025, 51(3): 617-630.
doi: 10.16383/j.aas.c240446
cstr: 32138.14.j.aas.c240446
摘要:
针对执行器饱和的离散时间线性多智能体系统(Multi-agent systems, MASs)有限时域一致性控制问题, 将低增益反馈(Low gain feedback, LGF)方法与Q学习相结合, 提出采用后向时间迭代的模型无关控制方法. 首先, 将执行器饱和的有限时域一致性控制问题的求解转化为执行器饱和的单智能体有限时域最优控制问题的求解, 并证明可以通过求解修正的时变黎卡提方程 (Modified time-varying Riccati equation, MTVRE)实现有限时域最优控制. 随后, 引入时变参数化Q函数(Time-varying parameterized Q-function, TVPQF), 并提出基于Q学习的模型无关后向时间迭代算法, 可以更新低增益参数, 同时实现逼近求解MTVRE. 另外, 证明所提迭代求解算法得到的LGF控制矩阵收敛于MTVRE的最优解, 也可以实现全局有限时域一致性控制. 最后, 通过仿真实验结果验证了该方法的有效性.
针对执行器饱和的离散时间线性多智能体系统(Multi-agent systems, MASs)有限时域一致性控制问题, 将低增益反馈(Low gain feedback, LGF)方法与Q学习相结合, 提出采用后向时间迭代的模型无关控制方法. 首先, 将执行器饱和的有限时域一致性控制问题的求解转化为执行器饱和的单智能体有限时域最优控制问题的求解, 并证明可以通过求解修正的时变黎卡提方程 (Modified time-varying Riccati equation, MTVRE)实现有限时域最优控制. 随后, 引入时变参数化Q函数(Time-varying parameterized Q-function, TVPQF), 并提出基于Q学习的模型无关后向时间迭代算法, 可以更新低增益参数, 同时实现逼近求解MTVRE. 另外, 证明所提迭代求解算法得到的LGF控制矩阵收敛于MTVRE的最优解, 也可以实现全局有限时域一致性控制. 最后, 通过仿真实验结果验证了该方法的有效性.
2025, 51(3): 631-642.
doi: 10.16383/j.aas.c240426
cstr: 32138.14.j.aas.c240426
摘要:
现有基于偏微分方程(Partial differential equation, PDE)的多智能体系统(Multi-agent system, MAS)编队控制方法要求智能体必须是密集分布的, 为打破这一限制, 提出一种新的基于常微分−偏微分方程(Ordinary differential equation-partial differential equation, ODE-PDE)的分析方法, 以解决稀疏−密集混合分布的大规模异构MAS编队问题. 首先, 通过设计特定的通信协议, 并基于空间离散系统部分连续化方法, 将原始大量的异构MAS的ODE动力学模型转化为由一个PDE 和少数几个ODE耦合而成的ODE-PDE 模型. 为更符合实际复杂场景, 将拓扑权值规定为半马尔科夫切换的, 且稀疏分布和密集分布智能体遵循不一致的切换规则. 其次, 针对无时滞和有时滞两种情形, 设计两种异步边界控制策略, 利用Lyapunov方法得到保证误差系统实际有限时间稳定的充分条件, 并得到停息时间和稳定阈值的计算规则. 最后, 两个广义的数值仿真进一步验证了所提方法的有效性.
现有基于偏微分方程(Partial differential equation, PDE)的多智能体系统(Multi-agent system, MAS)编队控制方法要求智能体必须是密集分布的, 为打破这一限制, 提出一种新的基于常微分−偏微分方程(Ordinary differential equation-partial differential equation, ODE-PDE)的分析方法, 以解决稀疏−密集混合分布的大规模异构MAS编队问题. 首先, 通过设计特定的通信协议, 并基于空间离散系统部分连续化方法, 将原始大量的异构MAS的ODE动力学模型转化为由一个PDE 和少数几个ODE耦合而成的ODE-PDE 模型. 为更符合实际复杂场景, 将拓扑权值规定为半马尔科夫切换的, 且稀疏分布和密集分布智能体遵循不一致的切换规则. 其次, 针对无时滞和有时滞两种情形, 设计两种异步边界控制策略, 利用Lyapunov方法得到保证误差系统实际有限时间稳定的充分条件, 并得到停息时间和稳定阈值的计算规则. 最后, 两个广义的数值仿真进一步验证了所提方法的有效性.
2025, 51(3): 643-657.
doi: 10.16383/j.aas.c240445
cstr: 32138.14.j.aas.c240445
摘要:
针对多智能体系统中邻居间通信存在通信路径损耗的情况, 研究距离−变权重通信拓扑下非线性多智能体系统固定时间防碰防离编队控制问题, 充分考虑通信路径损耗所引起的拓扑变化的不确定性和距离相关性、系统中未知非线性动力学特性以及固定时间收敛的控制性能要求等. 为解决以上问题, 首先结合通信理论中的通信损耗模型和数学图论知识, 对通信路径损耗下的拓扑结构进行量化建模. 其次, 基于人工势场原理, 设计一套新的预设时间防碰防离策略, 以确保每个智能体在预设时间内离开碰撞与离群预警区, 避免碰撞与离群现象. 同时, 提出一种新的具有自适应增益的分层滑模面结构, 进一步改善系统的动态性能. 在此基础上, 结合自适应技术, 构建一套自适应分层滑模固定时间防碰防离编队控制方案. 所提方案不仅解决了系统本身以及通信路径损耗所引起的非线性动态耦合问题, 而且保证了通信路径损耗情况下多智能体系统的编队任务在固定时间内完成, 同时没有碰撞和离群现象. 最后, 给出严格的理论分析以及对比仿真结果, 证明了所提控制方法的有效性和优越性.
针对多智能体系统中邻居间通信存在通信路径损耗的情况, 研究距离−变权重通信拓扑下非线性多智能体系统固定时间防碰防离编队控制问题, 充分考虑通信路径损耗所引起的拓扑变化的不确定性和距离相关性、系统中未知非线性动力学特性以及固定时间收敛的控制性能要求等. 为解决以上问题, 首先结合通信理论中的通信损耗模型和数学图论知识, 对通信路径损耗下的拓扑结构进行量化建模. 其次, 基于人工势场原理, 设计一套新的预设时间防碰防离策略, 以确保每个智能体在预设时间内离开碰撞与离群预警区, 避免碰撞与离群现象. 同时, 提出一种新的具有自适应增益的分层滑模面结构, 进一步改善系统的动态性能. 在此基础上, 结合自适应技术, 构建一套自适应分层滑模固定时间防碰防离编队控制方案. 所提方案不仅解决了系统本身以及通信路径损耗所引起的非线性动态耦合问题, 而且保证了通信路径损耗情况下多智能体系统的编队任务在固定时间内完成, 同时没有碰撞和离群现象. 最后, 给出严格的理论分析以及对比仿真结果, 证明了所提控制方法的有效性和优越性.
2025, 51(3): 658-668.
doi: 10.16383/j.aas.c240444
cstr: 32138.14.j.aas.c240444
摘要:
运动受速度和加速度嵌套饱和约束, 而反应式躲避安全机制下分布式编队互联的移动机器人更易触发该嵌套饱和, 从而引起编队的剧烈振荡, 所以需要研究该情况下多移动机器人平滑安全协同及其自适应振荡抑制方法. 故以分布式网络中的移动机器人为研究对象, 首先构建基于视线和速度的低触发势能函数, 实现邻近编队机器人近距排斥作用下的避碰保持; 引入驱动机器人绕过障碍物的安全加速度包络, 并复合近距排斥的弱能量、低触发势能, 避免与非合作障碍物的碰撞. 其次, 嵌入复合自适应辅助动态系统, 平滑躲避过程中触发的嵌套运动饱和与安全加速度约束引起的轨迹振荡; 设计复合非线性反馈框架下的分布式编队控制器, 融合混合的躲避和振荡抑制机制, 实现多机器人障碍环境下的安全编队. 最后, 与现有安全编队方法进行对比仿真和实验验证, 结果表明该方法在嵌套运动饱和约束下可显著提升编队的平滑和安全性能.
运动受速度和加速度嵌套饱和约束, 而反应式躲避安全机制下分布式编队互联的移动机器人更易触发该嵌套饱和, 从而引起编队的剧烈振荡, 所以需要研究该情况下多移动机器人平滑安全协同及其自适应振荡抑制方法. 故以分布式网络中的移动机器人为研究对象, 首先构建基于视线和速度的低触发势能函数, 实现邻近编队机器人近距排斥作用下的避碰保持; 引入驱动机器人绕过障碍物的安全加速度包络, 并复合近距排斥的弱能量、低触发势能, 避免与非合作障碍物的碰撞. 其次, 嵌入复合自适应辅助动态系统, 平滑躲避过程中触发的嵌套运动饱和与安全加速度约束引起的轨迹振荡; 设计复合非线性反馈框架下的分布式编队控制器, 融合混合的躲避和振荡抑制机制, 实现多机器人障碍环境下的安全编队. 最后, 与现有安全编队方法进行对比仿真和实验验证, 结果表明该方法在嵌套运动饱和约束下可显著提升编队的平滑和安全性能.
2025, 51(3): 669-677.
doi: 10.16383/j.aas.c240473
cstr: 32138.14.j.aas.c240473
摘要:
针对模型参数不确定下多无人艇(Multiple unmanned surface vehicle, Multi-USV)系统的固定时间二分编队跟踪控制问题, 通过将命令滤波与复合学习技术融合到反推控制方法中, 提出一种新型分布式固定时间二分编队跟踪控制协议. 首先, 将命令滤波引入到反推控制中, 进而分别设计虚拟控制协议与真实控制协议. 在此基础上, 为估计未知参数设计了参数复合学习律, 利用在线记录的数据和即时数据来产生预测误差, 并利用跟踪误差和预测误差来更新参数估计. 结果表明, 在严格弱于持续激励(Persistent excitation, PE)条件的区间激励(Interval excitation, IE)条件下, 本文提出的控制方案不仅能够保证编队误差的固定时间收敛性, 也能够保证参数估计误差的固定时间收敛性, 同时解决了多无人艇系统的固定时间二分编队跟踪控制问题. 最后, 通过仿真实验验证了本文提出的控制协议的有效性.
针对模型参数不确定下多无人艇(Multiple unmanned surface vehicle, Multi-USV)系统的固定时间二分编队跟踪控制问题, 通过将命令滤波与复合学习技术融合到反推控制方法中, 提出一种新型分布式固定时间二分编队跟踪控制协议. 首先, 将命令滤波引入到反推控制中, 进而分别设计虚拟控制协议与真实控制协议. 在此基础上, 为估计未知参数设计了参数复合学习律, 利用在线记录的数据和即时数据来产生预测误差, 并利用跟踪误差和预测误差来更新参数估计. 结果表明, 在严格弱于持续激励(Persistent excitation, PE)条件的区间激励(Interval excitation, IE)条件下, 本文提出的控制方案不仅能够保证编队误差的固定时间收敛性, 也能够保证参数估计误差的固定时间收敛性, 同时解决了多无人艇系统的固定时间二分编队跟踪控制问题. 最后, 通过仿真实验验证了本文提出的控制协议的有效性.
2025, 51(3): 678-691.
doi: 10.16383/j.aas.c240371
cstr: 32138.14.j.aas.c240371
摘要:
针对离散时间多智能体系统的协同最优输出调节问题, 在不依赖多智能体系统矩阵精确信息的条件下提出分布式数据驱动自适应控制策略. 基于自适应动态规划和分布式自适应内模, 通过引入值迭代和策略迭代两种强化学习算法, 利用在线数据学习最优控制器, 实现多智能体系统的协同输出调节. 考虑到跟随者只能访问领导者的估计值进行在线学习, 对闭环系统的稳定性和学习算法的收敛性进行严格的理论分析, 证明所学习的控制增益可以收敛到最优控制增益. 仿真结果验证了所提控制方法的有效性.
针对离散时间多智能体系统的协同最优输出调节问题, 在不依赖多智能体系统矩阵精确信息的条件下提出分布式数据驱动自适应控制策略. 基于自适应动态规划和分布式自适应内模, 通过引入值迭代和策略迭代两种强化学习算法, 利用在线数据学习最优控制器, 实现多智能体系统的协同输出调节. 考虑到跟随者只能访问领导者的估计值进行在线学习, 对闭环系统的稳定性和学习算法的收敛性进行严格的理论分析, 证明所学习的控制增益可以收敛到最优控制增益. 仿真结果验证了所提控制方法的有效性.
2025, 51(3): 692-704.
doi: 10.16383/j.aas.c240295
cstr: 32138.14.j.aas.c240295
摘要:
针对持续扰动下的分布式状态耦合非线性系统, 提出一种新的多耦合分布式经济模型预测控制(Economic model predictive control, EMPC)策略. 由于耦合非线性系统的经济性能函数的非凸性和非正定性, 首先引入关于经济最优平衡点的正定辅助函数和相应的辅助优化问题. 接着, 利用辅助函数的最优值函数构造原始分布式EMPC的一类隐式收缩约束. 然后, 建立状态耦合分布式EMPC的递推可行性和闭环系统关于最优经济平衡点的输入到状态稳定性(Input-to-state stability, ISS). 最后, 以耦合的四个连续搅拌釜反应器(Continuous stirred tank reactors, CSTRs)为例, 验证本文所提策略的有效性.
针对持续扰动下的分布式状态耦合非线性系统, 提出一种新的多耦合分布式经济模型预测控制(Economic model predictive control, EMPC)策略. 由于耦合非线性系统的经济性能函数的非凸性和非正定性, 首先引入关于经济最优平衡点的正定辅助函数和相应的辅助优化问题. 接着, 利用辅助函数的最优值函数构造原始分布式EMPC的一类隐式收缩约束. 然后, 建立状态耦合分布式EMPC的递推可行性和闭环系统关于最优经济平衡点的输入到状态稳定性(Input-to-state stability, ISS). 最后, 以耦合的四个连续搅拌釜反应器(Continuous stirred tank reactors, CSTRs)为例, 验证本文所提策略的有效性.
本刊经同行评议拟录用的文章,目前在编校阶段,尚未确定卷期及页码,已有DOI。
显示方式:
摘要:
在两团队零和马尔科夫博弈中, 一组玩家通过合作与另一组玩家进行对抗. 由于对手行为的不确定性和复杂的团队内部合作关系, 在高采样成本的任务中快速识别优势的分布式策略仍然具有挑战性. 鉴于此, 提出一种熵引导的极小极大值分解(Entropy-guided minimax factorization, EGMF)强化学习方法, 在线学习队内合作和队间对抗的策略. 首先, 提出基于极小极大值分解的多智能体执行器−评估器框架, 在高采样成本的、不限动作空间的任务中, 提升优化效率和博弈性能; 其次, 引入最大熵使智能体可以更充分地探索状态空间, 避免在线学习过程收敛到局部最优; 此外, 策略在时间域累加的熵值用于评估策略的熵, 并将其与分解的个体独立Q函数结合用于策略改进; 最后, 在多种博弈仿真场景和一个实体任务平台上进行方法验证, 并与其他基线方法进行比较. 结果显示EGMF可以在更少样本下学到更具有对抗性能的两团队博弈策略.
在两团队零和马尔科夫博弈中, 一组玩家通过合作与另一组玩家进行对抗. 由于对手行为的不确定性和复杂的团队内部合作关系, 在高采样成本的任务中快速识别优势的分布式策略仍然具有挑战性. 鉴于此, 提出一种熵引导的极小极大值分解(Entropy-guided minimax factorization, EGMF)强化学习方法, 在线学习队内合作和队间对抗的策略. 首先, 提出基于极小极大值分解的多智能体执行器−评估器框架, 在高采样成本的、不限动作空间的任务中, 提升优化效率和博弈性能; 其次, 引入最大熵使智能体可以更充分地探索状态空间, 避免在线学习过程收敛到局部最优; 此外, 策略在时间域累加的熵值用于评估策略的熵, 并将其与分解的个体独立Q函数结合用于策略改进; 最后, 在多种博弈仿真场景和一个实体任务平台上进行方法验证, 并与其他基线方法进行比较. 结果显示EGMF可以在更少样本下学到更具有对抗性能的两团队博弈策略.
摘要:
研究了分布式在线复合优化场景中的几种反馈延迟, 包括梯度反馈、单点Bandit反馈和两点Bandit反馈. 其中, 每个智能体的局部目标函数由一个强凸光滑函数与一个凸的非光滑正则项组成. 在分布式场景下, 研究每个智能体具有不同时变延迟的场景. 基于近端梯度下降算法, 分别设计这三种延迟反馈的分布式在线复合优化算法, 并且对动态遗憾上界进行分析. 分析结果表示, 延迟梯度反馈和延迟两点Bandit反馈的动态遗憾上界阶数在期望意义下相同, 均为\begin{document}$ {\rm O}(\bar{\tau} (D_T\;+ $\end{document} \begin{document}$ 1)+C_T+1) $\end{document} , 而延迟单点Bandit反馈的动态遗憾上界中\begin{document}$ T $\end{document} 的次数稍差于前两者, 为\begin{document}$ {\rm O}(\sqrt{T\log T}+\bar{\tau} (D_T+1)+C_T+1) $\end{document} , 其中, \begin{document}$ \bar{\tau} $\end{document} 为所有智能体的平均延迟, \begin{document}$ T $\end{document} 为总迭代次数, \begin{document}$ C_T $\end{document} 和\begin{document}$ D_T $\end{document} 是问题的复杂度度量, 分别称为路径长度和梯度变化度. 这表明, 存在延迟时, 两点Bandit反馈可以在期望意义下达到与梯度反馈相同阶数的动态遗憾上界, 且在步长选择合适的情况下, 三种反馈类型的平均延迟在动态遗憾上具有相同的阶数. 最后通过仿真实验验证算法的性能和理论分析结果.
研究了分布式在线复合优化场景中的几种反馈延迟, 包括梯度反馈、单点Bandit反馈和两点Bandit反馈. 其中, 每个智能体的局部目标函数由一个强凸光滑函数与一个凸的非光滑正则项组成. 在分布式场景下, 研究每个智能体具有不同时变延迟的场景. 基于近端梯度下降算法, 分别设计这三种延迟反馈的分布式在线复合优化算法, 并且对动态遗憾上界进行分析. 分析结果表示, 延迟梯度反馈和延迟两点Bandit反馈的动态遗憾上界阶数在期望意义下相同, 均为
摘要:
考虑了量化通信下多智能体系统的协同最优输出调节问题. 为降低通信负担, 利用取整量化器将智能体之间传输的浮点数数据转化为整数, 从而减少通信信道中传输数据的比特数. 通过将量化器引入到编码−解码方案中, 设计分布式量化观测器, 保证在量化通信下, 每个跟随者对外部系统状态的估计误差渐近收敛至零. 在此基础上, 在多智能体系统动态未知的情况下, 提出基于自适应动态规划的数据驱动算法, 在线学习次优控制策略, 解决协同最优输出调节问题, 保证每个跟随者的输出信号渐近跟踪参考信号, 并抑制由外部系统产生的干扰信号. 最后, 在智能车联网自适应巡航控制系统上进行仿真实验并验证所提方法的有效性. 结果表明与精确通信相比, 量化通信下比特数降低了58.33%.
考虑了量化通信下多智能体系统的协同最优输出调节问题. 为降低通信负担, 利用取整量化器将智能体之间传输的浮点数数据转化为整数, 从而减少通信信道中传输数据的比特数. 通过将量化器引入到编码−解码方案中, 设计分布式量化观测器, 保证在量化通信下, 每个跟随者对外部系统状态的估计误差渐近收敛至零. 在此基础上, 在多智能体系统动态未知的情况下, 提出基于自适应动态规划的数据驱动算法, 在线学习次优控制策略, 解决协同最优输出调节问题, 保证每个跟随者的输出信号渐近跟踪参考信号, 并抑制由外部系统产生的干扰信号. 最后, 在智能车联网自适应巡航控制系统上进行仿真实验并验证所提方法的有效性. 结果表明与精确通信相比, 量化通信下比特数降低了58.33%.
摘要:
随着计算机视觉(Computer vision, CV)的快速发展, 人们对于提高视觉任务的性能和泛化能力的需求不断增长, 导致模型的复杂度与对各种资源的需求进一步提高. 提示学习(Prompt learning, PL)作为一种能有效地提升模型性能和泛化能力、重用预训练模型和降低计算量的方法, 在一系列下游视觉任务中受到了广泛的关注与研究. 然而, 现有的PL综述缺乏对PL方法全面的分类和讨论, 也缺乏对现有实验结果进行深入的研究以评估现有方法的优缺点. 因此, 本文对PL在CV领域的分类、应用和性能进行全面的概述. 首先, 介绍PL的研究背景和定义, 并简要回顾CV领域中PL研究的最新进展. 其次, 对目前CV领域中的PL方法进行分类, 包括文本提示、视觉提示和视觉—语言联合提示, 对每类PL方法进行详细阐述并探讨其优缺点. 接着, 综述PL在十个常见下游视觉任务中的最新进展. 此外, 提供三个CV应用的实验结果并进行总结和分析, 全面讨论不同PL方法在CV领域的表现. 最后, 基于上述讨论对PL在CV领域面临的挑战和机遇进行分析, 为进一步推动PL在CV领域的发展提供前瞻性的思考.
随着计算机视觉(Computer vision, CV)的快速发展, 人们对于提高视觉任务的性能和泛化能力的需求不断增长, 导致模型的复杂度与对各种资源的需求进一步提高. 提示学习(Prompt learning, PL)作为一种能有效地提升模型性能和泛化能力、重用预训练模型和降低计算量的方法, 在一系列下游视觉任务中受到了广泛的关注与研究. 然而, 现有的PL综述缺乏对PL方法全面的分类和讨论, 也缺乏对现有实验结果进行深入的研究以评估现有方法的优缺点. 因此, 本文对PL在CV领域的分类、应用和性能进行全面的概述. 首先, 介绍PL的研究背景和定义, 并简要回顾CV领域中PL研究的最新进展. 其次, 对目前CV领域中的PL方法进行分类, 包括文本提示、视觉提示和视觉—语言联合提示, 对每类PL方法进行详细阐述并探讨其优缺点. 接着, 综述PL在十个常见下游视觉任务中的最新进展. 此外, 提供三个CV应用的实验结果并进行总结和分析, 全面讨论不同PL方法在CV领域的表现. 最后, 基于上述讨论对PL在CV领域面临的挑战和机遇进行分析, 为进一步推动PL在CV领域的发展提供前瞻性的思考.
摘要:
针对非线性多智能体系统, 提出基于混合双端事件触发机制的模糊跟踪控制策略. 首先, 相比于现存状态触发机制, 构建一种灵活可调的阈值设计方法以满足系统实时性需求; 其次, 改进的状态触发机制将状态估计信号作为触发信号, 可有效降低现存机制的保守性并提高阈值设计的灵活性; 随后, 针对控制器−执行器环节和传感器−控制器环节, 设计混合双端事件触发机制来同时缓解双信道的通讯负担. 此外, 为解决未知不可测状态的问题, 构造一种仅基于相对输出信息的状态观测器. 最后, 在闭环系统内, 所有信号都是半全局一致最终稳定的, 并用一个实际的仿真例子证明提出控制策略的有效性.
针对非线性多智能体系统, 提出基于混合双端事件触发机制的模糊跟踪控制策略. 首先, 相比于现存状态触发机制, 构建一种灵活可调的阈值设计方法以满足系统实时性需求; 其次, 改进的状态触发机制将状态估计信号作为触发信号, 可有效降低现存机制的保守性并提高阈值设计的灵活性; 随后, 针对控制器−执行器环节和传感器−控制器环节, 设计混合双端事件触发机制来同时缓解双信道的通讯负担. 此外, 为解决未知不可测状态的问题, 构造一种仅基于相对输出信息的状态观测器. 最后, 在闭环系统内, 所有信号都是半全局一致最终稳定的, 并用一个实际的仿真例子证明提出控制策略的有效性.
摘要:
多列车运行态势是列车调度员和司机分别调整运行图和列车驾驶策略的关键信息和重要依据, 表征各列车在未来运行各位置处的速度、加速度、通过时刻等信息. 然而, 由于高铁信号系统的交互信息利用率较低, 列车调度员和司机只能凭经验推演多列车运行态势, 基于此给出的运行图和列车驾驶策略的自动化程度较低, 影响铁路运营效率. 为此, 针对多列车运行态势推演问题, 构建多列车运行态势推演系统架构及模型. 以单列车运行态势的离线推演和在线推演方法为基础, 提出多列车运行态势微观推演方法, 以及基于虚拟编队模式的多列车运行态势宏观实时推演方法. 仿真结果表明, 微观推演方法能在 420 s 内计算多列车超速防护曲线和运行图调整的安全下界. 宏观推演方法针对任意临时限速场景, 都能在 7 s 内为列车调度员和司机分别实时提供列车运行调整方案和辅助驾驶策略, 有效降低铁路人员的工作强度, 提升高铁运营效率和应急处置能力.
多列车运行态势是列车调度员和司机分别调整运行图和列车驾驶策略的关键信息和重要依据, 表征各列车在未来运行各位置处的速度、加速度、通过时刻等信息. 然而, 由于高铁信号系统的交互信息利用率较低, 列车调度员和司机只能凭经验推演多列车运行态势, 基于此给出的运行图和列车驾驶策略的自动化程度较低, 影响铁路运营效率. 为此, 针对多列车运行态势推演问题, 构建多列车运行态势推演系统架构及模型. 以单列车运行态势的离线推演和在线推演方法为基础, 提出多列车运行态势微观推演方法, 以及基于虚拟编队模式的多列车运行态势宏观实时推演方法. 仿真结果表明, 微观推演方法能在 420 s 内计算多列车超速防护曲线和运行图调整的安全下界. 宏观推演方法针对任意临时限速场景, 都能在 7 s 内为列车调度员和司机分别实时提供列车运行调整方案和辅助驾驶策略, 有效降低铁路人员的工作强度, 提升高铁运营效率和应急处置能力.
摘要:
质量相关故障检测作为数据驱动的多元统计过程监测的重要研究内容, 是保障复杂装备或工业过程安全高效运行的关键技术, 而确定或划分质量相关变量是该方法的核心环节. 现有质量相关故障检测方法通常高度依赖于质量变量, 一旦质量变量不可测, 其有效性便受到严重挑战. 为解决这一挑战, 提出基于质量关联虚拟变量(Quality-related virtual variable, QRV)的质量相关变量划分方法, 基于此建立一种独立成分分析(Independent component analysis, ICA)质量相关故障检测模型, 并开展故障检测应用研究. 首先, 构造一个QRV, 以间接反映系统的质量特性; 其次, 基于该QRV, 利用假设检验将过程变量划分为质量相关和质量无关变量组; 随后, 将该划分结果应用于基于ICA的质量相关故障检测, 利用指数加权移动平均(Exponentially weighted moving average, EWMA)修正统计量, 并构造综合检测指标; 最后, 通过数值仿真和田纳西−伊斯曼过程(Tennessee-Eastman process, TEP)实验验证了所提方法的可行性和有效性.
质量相关故障检测作为数据驱动的多元统计过程监测的重要研究内容, 是保障复杂装备或工业过程安全高效运行的关键技术, 而确定或划分质量相关变量是该方法的核心环节. 现有质量相关故障检测方法通常高度依赖于质量变量, 一旦质量变量不可测, 其有效性便受到严重挑战. 为解决这一挑战, 提出基于质量关联虚拟变量(Quality-related virtual variable, QRV)的质量相关变量划分方法, 基于此建立一种独立成分分析(Independent component analysis, ICA)质量相关故障检测模型, 并开展故障检测应用研究. 首先, 构造一个QRV, 以间接反映系统的质量特性; 其次, 基于该QRV, 利用假设检验将过程变量划分为质量相关和质量无关变量组; 随后, 将该划分结果应用于基于ICA的质量相关故障检测, 利用指数加权移动平均(Exponentially weighted moving average, EWMA)修正统计量, 并构造综合检测指标; 最后, 通过数值仿真和田纳西−伊斯曼过程(Tennessee-Eastman process, TEP)实验验证了所提方法的可行性和有效性.
摘要:
针对未知环境下的多机器人环境感知和围捕问题, 提出一种基于变分稀疏高斯过程回归的分布式感知与围捕算法. 考虑到传统高斯过程回归不适合处理大量数据的问题, 在这项工作中, 首先考虑障碍物的影响, 以引入分离超平面的质心维诺划分算法为机器人动态规划任务区域; 其次, 利用多机器人在任务区域中的移动探索获取环境信息, 并通过变分自由能方法来近似模型的后验分布, 完成对未知环境的感知; 最后, 基于粒子群算法为围捕机器人动态分配围捕点, 实现多机器人的全方位均匀围捕. 通过仿真实验证明, 该算法能够适用于单源、多源以及动态源的围捕, 且能够在保证多机器人编队安全性的同时, 实现较高的迭代速度, 最终成功实现均匀围捕.
针对未知环境下的多机器人环境感知和围捕问题, 提出一种基于变分稀疏高斯过程回归的分布式感知与围捕算法. 考虑到传统高斯过程回归不适合处理大量数据的问题, 在这项工作中, 首先考虑障碍物的影响, 以引入分离超平面的质心维诺划分算法为机器人动态规划任务区域; 其次, 利用多机器人在任务区域中的移动探索获取环境信息, 并通过变分自由能方法来近似模型的后验分布, 完成对未知环境的感知; 最后, 基于粒子群算法为围捕机器人动态分配围捕点, 实现多机器人的全方位均匀围捕. 通过仿真实验证明, 该算法能够适用于单源、多源以及动态源的围捕, 且能够在保证多机器人编队安全性的同时, 实现较高的迭代速度, 最终成功实现均匀围捕.
摘要:
针对执行器故障的无人机/无人艇(Unmanned aerial/surface vehicle, UAV/USV)异构协同系统编队包容控制问题, 提出一种固定时间预设性能演化控制方法. 为保证基于视觉测量的相对位置信号的连续性和准确性, 设计控制误差收敛的演化路径, 通过固定时间预设性能函数使误差限制在演化路径的邻域内, 并利用转换函数将受约束跟踪问题转换为无约束镇定问题. 采用动态面技术对转换后的误差动力学进行控制, 并利用干扰观测器和自适应技术对干扰和未知执行器故障进行估计. 通过 Lyapunov 函数证明误差动力学闭环系统所有信号都是最终一致有界的, 并进一步证明编队误差是固定时间稳定的, 数值仿真验证了所提方法的有效性.
针对执行器故障的无人机/无人艇(Unmanned aerial/surface vehicle, UAV/USV)异构协同系统编队包容控制问题, 提出一种固定时间预设性能演化控制方法. 为保证基于视觉测量的相对位置信号的连续性和准确性, 设计控制误差收敛的演化路径, 通过固定时间预设性能函数使误差限制在演化路径的邻域内, 并利用转换函数将受约束跟踪问题转换为无约束镇定问题. 采用动态面技术对转换后的误差动力学进行控制, 并利用干扰观测器和自适应技术对干扰和未知执行器故障进行估计. 通过 Lyapunov 函数证明误差动力学闭环系统所有信号都是最终一致有界的, 并进一步证明编队误差是固定时间稳定的, 数值仿真验证了所提方法的有效性.
摘要:
为应对来袭目标的机动调整对防区防御能力的影响, 针对性设计全新的部署优化模型和求解算法. 首先, 从战术层面出发, 提出一种考虑攻防信息变化的新型武器部署模型, 该模型能够动态调整部署策略以提高防御系统的整体效能; 其次, 设计基于混沌映射机制和\begin{document}$K$\end{document} 均值聚类与重心法的算法初始化方案, 以应对资源紧缺和充足两种情况, 降低算法陷入局部最优的风险; 然后, 设计基于Metropolis准则的个体最优更新方法和基于Stackelberg博弈模型的全局最优更新方法用以指导种群的进化方向; 最后, 通过提供多规模场景仿真实验, 验证了新模型和所提算法的有效性, 对比实验结果表明, 新模型能够更准确地反映部署方案之间的差异, 所提算法在求解质量与收敛性方面均有显著提高.
为应对来袭目标的机动调整对防区防御能力的影响, 针对性设计全新的部署优化模型和求解算法. 首先, 从战术层面出发, 提出一种考虑攻防信息变化的新型武器部署模型, 该模型能够动态调整部署策略以提高防御系统的整体效能; 其次, 设计基于混沌映射机制和
摘要:
多无人艇(Multiple unmanned surface vehicles, Multi-USVs)协同导航对于实现高效的海上作业至关重要, 而如何在开放未知海域处理多艇之间复杂的协作关系、实现多艇自主协同决策是当前亟待解决的难题. 近年来, 多智能体强化学习(Multi-agent reinforcement learning, MARL)在解决复杂的多体决策问题上展现出巨大的潜力, 被广泛应用于多无人艇协同导航任务中. 然而, 这种基于数据驱动的方法通常存在探索效率低、探索与利用难平衡、易陷入局部最优等问题. 因此, 在集中训练和分散执行(Centralized training and decentralized execution, CTDE)框架的基础上, 考虑从优势函数输入端注入扰动量来提升优势函数的泛化能力, 提出一种新的基于优势函数输入扰动的多智能体近端策略优化(Noise-advantage multi-agent proximal policy optimization, NA-MAPPO)方法, 从而提升多无人艇协同策略的探索效率. 实验结果表明, 与现有的基准算法相比, 所提方法能够有效提升多无人艇协同导航任务的成功率, 缩短策略的训练时间以及任务的完成时间, 从而提升多无人艇协同探索效率, 避免策略陷入局部最优.
多无人艇(Multiple unmanned surface vehicles, Multi-USVs)协同导航对于实现高效的海上作业至关重要, 而如何在开放未知海域处理多艇之间复杂的协作关系、实现多艇自主协同决策是当前亟待解决的难题. 近年来, 多智能体强化学习(Multi-agent reinforcement learning, MARL)在解决复杂的多体决策问题上展现出巨大的潜力, 被广泛应用于多无人艇协同导航任务中. 然而, 这种基于数据驱动的方法通常存在探索效率低、探索与利用难平衡、易陷入局部最优等问题. 因此, 在集中训练和分散执行(Centralized training and decentralized execution, CTDE)框架的基础上, 考虑从优势函数输入端注入扰动量来提升优势函数的泛化能力, 提出一种新的基于优势函数输入扰动的多智能体近端策略优化(Noise-advantage multi-agent proximal policy optimization, NA-MAPPO)方法, 从而提升多无人艇协同策略的探索效率. 实验结果表明, 与现有的基准算法相比, 所提方法能够有效提升多无人艇协同导航任务的成功率, 缩短策略的训练时间以及任务的完成时间, 从而提升多无人艇协同探索效率, 避免策略陷入局部最优.
摘要:
作为多智能体对抗博弈问题的重要分支, 追逃博弈(Pursuit-evasion, PE)问题在控制和机器人领域得到了广泛应用, 受到众多研究者的密切关注. 追逃博弈问题主要聚焦于追逐者和逃跑者双方为实现各自目标而展开的动态博弈: 追逐者试图在最短时间内抓到逃跑者, 逃跑者的目标则是避免被捕获. 本文概述追逃博弈问题的相关研究进展, 从空间环境、信息获取等五个方面介绍追逃博弈问题的各类设定; 简述理论求解、数值求解等四种当下主流的追逃博弈问题求解方法. 通过对现有研究的总结和分析, 给出几点研究建议, 对未来追逃博弈问题的发展具有一定指导意义.
作为多智能体对抗博弈问题的重要分支, 追逃博弈(Pursuit-evasion, PE)问题在控制和机器人领域得到了广泛应用, 受到众多研究者的密切关注. 追逃博弈问题主要聚焦于追逐者和逃跑者双方为实现各自目标而展开的动态博弈: 追逐者试图在最短时间内抓到逃跑者, 逃跑者的目标则是避免被捕获. 本文概述追逃博弈问题的相关研究进展, 从空间环境、信息获取等五个方面介绍追逃博弈问题的各类设定; 简述理论求解、数值求解等四种当下主流的追逃博弈问题求解方法. 通过对现有研究的总结和分析, 给出几点研究建议, 对未来追逃博弈问题的发展具有一定指导意义.
摘要:
协同制导是飞行器集群遂行协同任务中最关键的环节之一, 也是飞行器制导控制领域近年来最重要的研究方向之一. 协同制导经历了从简单约束到复杂约束、单一任务到复杂任务的发展过程. 首先, 从协同制导的发展历程和任务级别角度进行分类, 将现有协同制导方法概括为打击时间/角度约束下的协同制导、编队构型约束下的协同制导、角色和任务互补下的协同制导、博弈对抗条件下的协同制导等四类协同制导方法; 其次, 总结国内外学者对相关领域理论成果的最新进展, 从研究方法层面综述相关成果的优缺点和适用范围; 最后, 对协同制导领域的技术挑战与难点进行深入分析, 并对协同制导技术的未来发展进行前瞻性展望.
协同制导是飞行器集群遂行协同任务中最关键的环节之一, 也是飞行器制导控制领域近年来最重要的研究方向之一. 协同制导经历了从简单约束到复杂约束、单一任务到复杂任务的发展过程. 首先, 从协同制导的发展历程和任务级别角度进行分类, 将现有协同制导方法概括为打击时间/角度约束下的协同制导、编队构型约束下的协同制导、角色和任务互补下的协同制导、博弈对抗条件下的协同制导等四类协同制导方法; 其次, 总结国内外学者对相关领域理论成果的最新进展, 从研究方法层面综述相关成果的优缺点和适用范围; 最后, 对协同制导领域的技术挑战与难点进行深入分析, 并对协同制导技术的未来发展进行前瞻性展望.
摘要:
研究异构不确定二阶非线性多智能体系统事件触发状态趋同控制问题. 首先, 为每个智能体设计参数观测器, 用以估计不确定参数, 这些观测器可渐近估计不确定参数. 其次, 为每个跟随智能体设计分布式参数观测器, 渐近估计领导智能体不确定参数, 每个智能体利用邻居智能体触发时刻的采样值估计其邻居智能体的状态. 基于估计的参数和邻居状态, 提出完全不依赖智能体间连续信息传输的事件触发趋同算法. 同时, 证明在所给算法的作用下, 多智能体系统能够达到状态趋同且不存在芝诺现象. 最后, 给出一个多单摆系统, 用以验证事件触发趋同算法. 仿真实验结果表明, 跟随智能体的位置和速度可以渐近跟踪领导智能体的位置和速度, 并且整个多智能体系统平均每秒触发8.825次. 对比仿真实验显示, 所提出的事件触发趋同算法可有效减少事件触发次数.
研究异构不确定二阶非线性多智能体系统事件触发状态趋同控制问题. 首先, 为每个智能体设计参数观测器, 用以估计不确定参数, 这些观测器可渐近估计不确定参数. 其次, 为每个跟随智能体设计分布式参数观测器, 渐近估计领导智能体不确定参数, 每个智能体利用邻居智能体触发时刻的采样值估计其邻居智能体的状态. 基于估计的参数和邻居状态, 提出完全不依赖智能体间连续信息传输的事件触发趋同算法. 同时, 证明在所给算法的作用下, 多智能体系统能够达到状态趋同且不存在芝诺现象. 最后, 给出一个多单摆系统, 用以验证事件触发趋同算法. 仿真实验结果表明, 跟随智能体的位置和速度可以渐近跟踪领导智能体的位置和速度, 并且整个多智能体系统平均每秒触发8.825次. 对比仿真实验显示, 所提出的事件触发趋同算法可有效减少事件触发次数.
摘要:
自主无人系统是一类具有自主感知和决策能力的智能系统, 在国防安全、航空航天、高性能机器人等方面有着广泛的应用. 近年来, 基于Transformer架构的各类大模型快速革新, 极大地推动了自主无人系统的发展. 目前, 自主无人系统正迎来一场以“具身智能”为核心的新一代技术革命. 大模型需要借助无人系统的物理实体来实现“具身化”, 无人系统可以利用大模型技术来实现“智能化”. 本文阐述具身智能自主无人系统的发展现状, 详细探讨包含大模型驱动的多模态感知、面向具身任务的推理与决策、基于动态交互的机器人学习与控制、三维场景具身模拟器等具身智能领域的关键技术. 最后, 指出目前具身智能无人系统所面临的挑战, 并展望未来的研究方向.
自主无人系统是一类具有自主感知和决策能力的智能系统, 在国防安全、航空航天、高性能机器人等方面有着广泛的应用. 近年来, 基于Transformer架构的各类大模型快速革新, 极大地推动了自主无人系统的发展. 目前, 自主无人系统正迎来一场以“具身智能”为核心的新一代技术革命. 大模型需要借助无人系统的物理实体来实现“具身化”, 无人系统可以利用大模型技术来实现“智能化”. 本文阐述具身智能自主无人系统的发展现状, 详细探讨包含大模型驱动的多模态感知、面向具身任务的推理与决策、基于动态交互的机器人学习与控制、三维场景具身模拟器等具身智能领域的关键技术. 最后, 指出目前具身智能无人系统所面临的挑战, 并展望未来的研究方向.
摘要:
视频超分辨率重建(Video super-resolution, VSR)是底层计算机视觉任务中的一个重要研究方向, 旨在利用低分辨率视频的帧内和帧间信息, 重建具有更多细节和内容一致的高分辨率视频, 有助于提升下游任务性能和改善用户观感体验. 近年来, 基于深度学习的视频超分辨率重建算法如雨后春笋般涌现, 在帧间对齐、信息传播等方面取得了突破性的进展. 在简述视频超分辨率重建任务的基础上, 梳理了现有的视频超分辨率重建的公共数据集及相关算法; 接着, 重点综述了基于深度学习的视频超分辨率重建算法的创新性工作进展情况; 最后, 总结了视频超分辨率重建算法面临的挑战及未来的发展趋势.
视频超分辨率重建(Video super-resolution, VSR)是底层计算机视觉任务中的一个重要研究方向, 旨在利用低分辨率视频的帧内和帧间信息, 重建具有更多细节和内容一致的高分辨率视频, 有助于提升下游任务性能和改善用户观感体验. 近年来, 基于深度学习的视频超分辨率重建算法如雨后春笋般涌现, 在帧间对齐、信息传播等方面取得了突破性的进展. 在简述视频超分辨率重建任务的基础上, 梳理了现有的视频超分辨率重建的公共数据集及相关算法; 接着, 重点综述了基于深度学习的视频超分辨率重建算法的创新性工作进展情况; 最后, 总结了视频超分辨率重建算法面临的挑战及未来的发展趋势.
摘要:
本文聚焦于生物结构与类脑智能的交叉研究方向, 探讨前额叶皮层的结构及其认知功能对人工智能领域Transformer模型的启发. 前额叶皮层在认知控制和决策制定中扮演着关键角色, 本文首先介绍前额叶皮层的注意力机制、生物编码、多感觉融合等相关生物研究进展, 然后探讨这些生物机制如何启发新型的类脑Transformer架构, 重点提升其在自注意力、位置编码、多模态整合等方面的生物合理性与计算高效性. 最后, 总结前额叶皮层启发的类脑新模型, 在支持多类型神经网络组合、多领域应用、世界模型构建等方面的发展与潜力, 为生物和人工智能两大领域之间交叉融合构建桥梁.
本文聚焦于生物结构与类脑智能的交叉研究方向, 探讨前额叶皮层的结构及其认知功能对人工智能领域Transformer模型的启发. 前额叶皮层在认知控制和决策制定中扮演着关键角色, 本文首先介绍前额叶皮层的注意力机制、生物编码、多感觉融合等相关生物研究进展, 然后探讨这些生物机制如何启发新型的类脑Transformer架构, 重点提升其在自注意力、位置编码、多模态整合等方面的生物合理性与计算高效性. 最后, 总结前额叶皮层启发的类脑新模型, 在支持多类型神经网络组合、多领域应用、世界模型构建等方面的发展与潜力, 为生物和人工智能两大领域之间交叉融合构建桥梁.
摘要:
针对多机器人系统在战场、灾难现场等复杂未知环境下的区域搜索问题, 提出一种基于分层仿生神经网络的多机器人协同区域搜索算法. 首先将仿生神经网络(Bio-inspired neural network, BNN) 和不同分辨率下的区域栅格地图结合, 构建分层仿生神经网络信息模型, 其中包括区域搜索神经网络信息模型(Area search neural network information model, AS-BNN)和区域覆盖神经网络信息模型(Area coverage neural network information model, AC-BNN). 机器人在任务区域内实时探测到的环境信息将转换为AS-BNN和AC-BNN中神经元的动态活性值. 其次, 在分层仿生神经网络信息模型基础上引入分布式模型预测控制(Distributed model predictive control, DMPC)框架, 并设计多机器人分层协同决策机制. 当机器人处于正常搜索状态时, 基于AS-BNN进行搜索路径滚动优化决策; 当机器人陷入局部最优状态时, 则启用AC-BNN引导机器人快速找到新的未搜索区域. 最后, 在复杂未知环境下进行多机器人区域搜索仿真实验, 并与该领域内的3种算法进行比较. 仿真结果验证了所提算法能够在复杂未知环境下引导多机器人系统高效地完成区域搜索任务.
针对多机器人系统在战场、灾难现场等复杂未知环境下的区域搜索问题, 提出一种基于分层仿生神经网络的多机器人协同区域搜索算法. 首先将仿生神经网络(Bio-inspired neural network, BNN) 和不同分辨率下的区域栅格地图结合, 构建分层仿生神经网络信息模型, 其中包括区域搜索神经网络信息模型(Area search neural network information model, AS-BNN)和区域覆盖神经网络信息模型(Area coverage neural network information model, AC-BNN). 机器人在任务区域内实时探测到的环境信息将转换为AS-BNN和AC-BNN中神经元的动态活性值. 其次, 在分层仿生神经网络信息模型基础上引入分布式模型预测控制(Distributed model predictive control, DMPC)框架, 并设计多机器人分层协同决策机制. 当机器人处于正常搜索状态时, 基于AS-BNN进行搜索路径滚动优化决策; 当机器人陷入局部最优状态时, 则启用AC-BNN引导机器人快速找到新的未搜索区域. 最后, 在复杂未知环境下进行多机器人区域搜索仿真实验, 并与该领域内的3种算法进行比较. 仿真结果验证了所提算法能够在复杂未知环境下引导多机器人系统高效地完成区域搜索任务.
摘要:
针对无人机集群的运动相态转换问题, 提出了一种基于仿鸟群自推进粒子模型的无人机集群相变控制方法. 首先, 从鸟群运动行为中获得启发, 通过设计速度保持项和势能梯度项构建仿鸟群运动模型, 并设计相变控制项模拟巢穴对鸟群的吸引, 以实现集群在不同相态之间的转换. 然后, 讨论了集群在设计的相变控制律作用下的运动相态, 证明无人机集群能够实现两种稳定的运动相态并进行相互转换. 最后, 仿真验证了集群存在的两种稳定运动构型, 所提出相变控制律能够实现两种集群运动相态的互相转换.
针对无人机集群的运动相态转换问题, 提出了一种基于仿鸟群自推进粒子模型的无人机集群相变控制方法. 首先, 从鸟群运动行为中获得启发, 通过设计速度保持项和势能梯度项构建仿鸟群运动模型, 并设计相变控制项模拟巢穴对鸟群的吸引, 以实现集群在不同相态之间的转换. 然后, 讨论了集群在设计的相变控制律作用下的运动相态, 证明无人机集群能够实现两种稳定的运动相态并进行相互转换. 最后, 仿真验证了集群存在的两种稳定运动构型, 所提出相变控制律能够实现两种集群运动相态的互相转换.
摘要:
倾转旋翼无人机动力学特性复杂, 过渡过程中的变速变构型特性导致系统具有较大的模型不确定性, 且容易受到阵风扰动等的影响, 对姿态控制律设计提出了很高要求. 针对该问题, 本文建立了一种扰动观测器结合终端滑模补偿控制器的模型参考姿态控制方法. 基于齐次系统理论设计了固定时间收敛扰动观测器, 实现对倾转旋翼无人机未建模动态和外部扰动的准确估计; 基于一种新型非线性饱和函数设计了固定时间收敛终端滑模控制器, 结合低通滤波实现对指令的快速高品质跟踪; 为进一步解决控制奇异性问题, 提出了在纵轴附近邻域时对控制器的改进策略. 仿真结果表明, 所提方法在应对倾转旋翼无人机模型不确定性和外部扰动方面具有较强的鲁棒性, 相比基于有限时间稳定性理论的模型参考姿态控制方法, 固定时间收敛控制提供了更高的控制精度和更平滑的输出.
倾转旋翼无人机动力学特性复杂, 过渡过程中的变速变构型特性导致系统具有较大的模型不确定性, 且容易受到阵风扰动等的影响, 对姿态控制律设计提出了很高要求. 针对该问题, 本文建立了一种扰动观测器结合终端滑模补偿控制器的模型参考姿态控制方法. 基于齐次系统理论设计了固定时间收敛扰动观测器, 实现对倾转旋翼无人机未建模动态和外部扰动的准确估计; 基于一种新型非线性饱和函数设计了固定时间收敛终端滑模控制器, 结合低通滤波实现对指令的快速高品质跟踪; 为进一步解决控制奇异性问题, 提出了在纵轴附近邻域时对控制器的改进策略. 仿真结果表明, 所提方法在应对倾转旋翼无人机模型不确定性和外部扰动方面具有较强的鲁棒性, 相比基于有限时间稳定性理论的模型参考姿态控制方法, 固定时间收敛控制提供了更高的控制精度和更平滑的输出.
摘要:
多智能体系统是分布式人工智能的重要分支, 主要通过智能体之间的交互与协作完成复杂的任务. 一致性是协同控制的核心问题, 二分一致性作为一致性的延伸受到了广泛关注. 首先, 介绍一些符号图知识, 给出一阶、二阶、高阶及分数阶多智能体系统的模型及一些二分一致性的定义. 其次, 概述这四类多智能体系统多种二分一致性的研究进展. 此外, 分析有限时间、固定时间和预设时间二分一致性的优势及保守性, 讨论二分一致性和二分输出一致性的特点. 最后, 对多智能体系统二分一致性进行总结与展望.
多智能体系统是分布式人工智能的重要分支, 主要通过智能体之间的交互与协作完成复杂的任务. 一致性是协同控制的核心问题, 二分一致性作为一致性的延伸受到了广泛关注. 首先, 介绍一些符号图知识, 给出一阶、二阶、高阶及分数阶多智能体系统的模型及一些二分一致性的定义. 其次, 概述这四类多智能体系统多种二分一致性的研究进展. 此外, 分析有限时间、固定时间和预设时间二分一致性的优势及保守性, 讨论二分一致性和二分输出一致性的特点. 最后, 对多智能体系统二分一致性进行总结与展望.
摘要:
本文研究了多智能体时变网络上基于Bandit反馈的分布式在线鞍点问题, 其中每个智能体通过本地计算和局部信息交流去协作最小化全局损失函数. 在Bandit反馈下, 包括梯度在内的损失函数信息是不可用的, 每个智能体仅能获得和使用在某决策或其附近产生的函数值. 为此, 结合单点梯度估计方法和预测映射技术, 提出一种非欧几里得意义上的分布式在线Bandit鞍点优化算法. 以动态鞍点遗憾作为性能指标, 对于一般的凸−凹损失函数, 建立了遗憾上界并在某些预设条件下确保所提算法的次线性收敛. 此外, 考虑到在迭代优化中计算优化子程序的精确解通常较为困难, 进一步扩展一种基于近似计算方法的算法变种, 并严格分析精确度设置对扩展算法遗憾上界的影响. 最后, 通过一个目标跟踪案例对算法的有效性和先进性进行仿真验证.
本文研究了多智能体时变网络上基于Bandit反馈的分布式在线鞍点问题, 其中每个智能体通过本地计算和局部信息交流去协作最小化全局损失函数. 在Bandit反馈下, 包括梯度在内的损失函数信息是不可用的, 每个智能体仅能获得和使用在某决策或其附近产生的函数值. 为此, 结合单点梯度估计方法和预测映射技术, 提出一种非欧几里得意义上的分布式在线Bandit鞍点优化算法. 以动态鞍点遗憾作为性能指标, 对于一般的凸−凹损失函数, 建立了遗憾上界并在某些预设条件下确保所提算法的次线性收敛. 此外, 考虑到在迭代优化中计算优化子程序的精确解通常较为困难, 进一步扩展一种基于近似计算方法的算法变种, 并严格分析精确度设置对扩展算法遗憾上界的影响. 最后, 通过一个目标跟踪案例对算法的有效性和先进性进行仿真验证.
摘要:
针对障碍环境下多无人机编队跟踪问题, 提出了一种兼顾编队跟踪性能与安全的控制框架. 在该框架中, 首先利用性能边界可调的预设性能控制 (Prescribed performance control, PPC) 方法生成期望控制信号, 使无人机跟踪虚拟领导者的期望轨迹, 跟踪过程中满足瞬态与稳态误差约束. 进一步, 基于控制障碍函数 (Control barrier function, CBF) 描述无人机的安全状态集合并建立二次规划问题, 利用 Karush-Kuhn-Tucker (KKT) 条件得到最小干预安全控制器的闭式解. 最后, 利用安全控制的闭式解构造辅助系统, 实现性能函数的自适应更新. 理论分析表明, 该算法能够在编队跟踪与安全性冲突条件下确保系统安全, 在不发生冲突时实现性能约束下的编队跟踪. 仿真结果验证了提出算法的有效性.
针对障碍环境下多无人机编队跟踪问题, 提出了一种兼顾编队跟踪性能与安全的控制框架. 在该框架中, 首先利用性能边界可调的预设性能控制 (Prescribed performance control, PPC) 方法生成期望控制信号, 使无人机跟踪虚拟领导者的期望轨迹, 跟踪过程中满足瞬态与稳态误差约束. 进一步, 基于控制障碍函数 (Control barrier function, CBF) 描述无人机的安全状态集合并建立二次规划问题, 利用 Karush-Kuhn-Tucker (KKT) 条件得到最小干预安全控制器的闭式解. 最后, 利用安全控制的闭式解构造辅助系统, 实现性能函数的自适应更新. 理论分析表明, 该算法能够在编队跟踪与安全性冲突条件下确保系统安全, 在不发生冲突时实现性能约束下的编队跟踪. 仿真结果验证了提出算法的有效性.
摘要:
近年来, 随着深度强化学习方法快速发展, 其在无人机自主导航上的应用也受到越来越广泛地关注. 然而, 面对复杂未知的环境, 现存的基于深度强化学习的无人机自主导航算法常受限于对全局信息的依赖和特定训练环境的约束, 极大地限制了其在各种场景当中的应用潜力. 为了解决上述问题, 提出了多尺度输入用于平衡感受野与状态维度, 以及截断操作来使智能体能够在扩张后的环境中运行. 此外, 构建了自主感知-规划-控制架构, 赋予无人机在多样复杂环境中自主导航的能力.
近年来, 随着深度强化学习方法快速发展, 其在无人机自主导航上的应用也受到越来越广泛地关注. 然而, 面对复杂未知的环境, 现存的基于深度强化学习的无人机自主导航算法常受限于对全局信息的依赖和特定训练环境的约束, 极大地限制了其在各种场景当中的应用潜力. 为了解决上述问题, 提出了多尺度输入用于平衡感受野与状态维度, 以及截断操作来使智能体能够在扩张后的环境中运行. 此外, 构建了自主感知-规划-控制架构, 赋予无人机在多样复杂环境中自主导航的能力.
摘要:
受限于局部感受野, 卷积神经网络无法建立足够的长距离依赖关系. 一些方法通过将Transformer部署至卷积网络的某些特定部位来缓解这个问题, 如网络编码器、解码器或跳跃连接层. 但这些方法只能为某些特定特征建立长距离依赖关系, 难以捕获大小、形态多样的腹部器官之间的复杂依赖关系. 针对该问题, 提出了一种交叉增强Transformer (Cross-connection enhanced transformer, CE transformer)结构, 并用它作为特征提取单元构建了一种新的多层级编-解码分割网络CE TransNet. CE transformer采用双路径设计, 深度融合Transformer与卷积结构, 可同时对长、短距离依赖关系进行建模. 在双路径中, 引入密集交叉连接促进不同粒度信息的交互与融合, 提高模型整体特征捕获能力. 将CE transformer部署于CE TransNet的整个编解码路径中, 可有效捕捉多器官的复杂上下文关系. 实验结果表明, 提出方法在WORD和Synapse腹部CT多器官数据集上的平均DSC值分别高达82.42%和81.94%, 显著高于多种当前先进方法.
受限于局部感受野, 卷积神经网络无法建立足够的长距离依赖关系. 一些方法通过将Transformer部署至卷积网络的某些特定部位来缓解这个问题, 如网络编码器、解码器或跳跃连接层. 但这些方法只能为某些特定特征建立长距离依赖关系, 难以捕获大小、形态多样的腹部器官之间的复杂依赖关系. 针对该问题, 提出了一种交叉增强Transformer (Cross-connection enhanced transformer, CE transformer)结构, 并用它作为特征提取单元构建了一种新的多层级编-解码分割网络CE TransNet. CE transformer采用双路径设计, 深度融合Transformer与卷积结构, 可同时对长、短距离依赖关系进行建模. 在双路径中, 引入密集交叉连接促进不同粒度信息的交互与融合, 提高模型整体特征捕获能力. 将CE transformer部署于CE TransNet的整个编解码路径中, 可有效捕捉多器官的复杂上下文关系. 实验结果表明, 提出方法在WORD和Synapse腹部CT多器官数据集上的平均DSC值分别高达82.42%和81.94%, 显著高于多种当前先进方法.
摘要:
研究了基于磁链在线辨识的异步电机超螺旋滑模控制问题. 针对异步电机, 设计了一种改进的超螺旋滑模速度控制器 (Improved super-twisting sliding mode speed controller, IMSTSMC), 提升了系统的动态响应性能. 为抑制算法中符号函数高频切换所引起的系统抖振问题, 构造了一种可变指数切换函数. 进一步地, 考虑到转子磁链受惯性延迟的影响, 设计了磁链在线观测器 (Flux online observer, FOO), 可辨识转子磁链幅值, 提升系统的控制精度和参数鲁棒性. 数值仿真和实验结果验证了所提算法的可行性和有效性.
研究了基于磁链在线辨识的异步电机超螺旋滑模控制问题. 针对异步电机, 设计了一种改进的超螺旋滑模速度控制器 (Improved super-twisting sliding mode speed controller, IMSTSMC), 提升了系统的动态响应性能. 为抑制算法中符号函数高频切换所引起的系统抖振问题, 构造了一种可变指数切换函数. 进一步地, 考虑到转子磁链受惯性延迟的影响, 设计了磁链在线观测器 (Flux online observer, FOO), 可辨识转子磁链幅值, 提升系统的控制精度和参数鲁棒性. 数值仿真和实验结果验证了所提算法的可行性和有效性.
摘要:
随着无人系统技术的快速发展, 海上无人系统跨域集群凭借其诸多优点已成为当前无人系统领域研究热点. 具体来说, 海上无人系统跨域集群是指空中、水面、水下无人平台, 通过跨域任务规划与信息交互实现高效集群协作, 对提升复杂海洋环境下无人平台应对能力至关重要. 目前, 海上无人系统跨域集群理论体系还不完善, 相关研究正面临诸多亟待解决的难题. 为此, 首先梳理跨域集群相关概念及其发展现状, 分析其面临的挑战与关键问题; 进而, 从控制理论和通信技术相结合的角度出发, 简述跨域集群任务规划、组网传输、协同控制等关键技术的研究进展; 最后, 结合实际发展情况和未来发展趋势, 对海上无人系统跨域集群未来值得深入研究的方向进行总结与展望.
随着无人系统技术的快速发展, 海上无人系统跨域集群凭借其诸多优点已成为当前无人系统领域研究热点. 具体来说, 海上无人系统跨域集群是指空中、水面、水下无人平台, 通过跨域任务规划与信息交互实现高效集群协作, 对提升复杂海洋环境下无人平台应对能力至关重要. 目前, 海上无人系统跨域集群理论体系还不完善, 相关研究正面临诸多亟待解决的难题. 为此, 首先梳理跨域集群相关概念及其发展现状, 分析其面临的挑战与关键问题; 进而, 从控制理论和通信技术相结合的角度出发, 简述跨域集群任务规划、组网传输、协同控制等关键技术的研究进展; 最后, 结合实际发展情况和未来发展趋势, 对海上无人系统跨域集群未来值得深入研究的方向进行总结与展望.
摘要:
数据流是一组随时间无限到来的数据序列, 在数据流不断产生过程中, 由于各种因素的影响, 数据分布随时间推移可能以不可预测的方式发生变化, 这种现象被称为概念漂移. 在漂移发生后, 当前学习模型需要及时响应数据流中的实时分布变化, 并有效处理不同类型的概念漂移, 从而避免模型泛化性能下降. 针对这一问题, 提出了一种基于主动-被动增量集成的概念漂移适应方法(Concept drift adaptation method based on active-passive incremental ensemble, CDAM-APIE). 该方法首先使用在线增量集成策略构建被动集成模型, 对新样本进行实时预测以动态更新基模型权重, 有利于快速响应数据分布的瞬时变化, 并增强模型适应概念漂移的能力. 在此基础上, 利用增量学习和概念漂移检测技术构建主动基模型, 提升模型在平稳数据流状态下的鲁棒性和漂移后的泛化性能. 实验结果表明, CDAM-APIE能够对概念漂移做出及时响应, 同时有效提高模型的泛化性能.
数据流是一组随时间无限到来的数据序列, 在数据流不断产生过程中, 由于各种因素的影响, 数据分布随时间推移可能以不可预测的方式发生变化, 这种现象被称为概念漂移. 在漂移发生后, 当前学习模型需要及时响应数据流中的实时分布变化, 并有效处理不同类型的概念漂移, 从而避免模型泛化性能下降. 针对这一问题, 提出了一种基于主动-被动增量集成的概念漂移适应方法(Concept drift adaptation method based on active-passive incremental ensemble, CDAM-APIE). 该方法首先使用在线增量集成策略构建被动集成模型, 对新样本进行实时预测以动态更新基模型权重, 有利于快速响应数据分布的瞬时变化, 并增强模型适应概念漂移的能力. 在此基础上, 利用增量学习和概念漂移检测技术构建主动基模型, 提升模型在平稳数据流状态下的鲁棒性和漂移后的泛化性能. 实验结果表明, CDAM-APIE能够对概念漂移做出及时响应, 同时有效提高模型的泛化性能.
摘要:
针对一类系统动态未知且受互联项影响的非线性互联大规模系统, 提出一种新的在线分散式动态事件触发控制(Dynamic event-triggered control, DETC)方案. 首先, 构建基于神经网络的辨识器来重构互联系统的未知内部动态. 其次, 使用自适应评判网络在事件触发机制下学习近似最优控制策略. 在所设计的动态事件触发控制机制下, 各子系统独立地设计自己的控制策略, 且各控制策略的更新是异步进行的. 也就是说, 各个分散式事件触发条件和控制器仅依赖于各自子系统的局部状态信息, 而无需频繁获取相邻子系统的信息, 从而规避通过通信网络在子系统间传递状态信息的需求. 然后, 借助李雅普诺夫稳定性定理, 从理论上证明所提出的闭环控制系统状态和评判网络权值估计误差都是最终一致有界的. 最后, 通过一个数值仿真示例和一个实际工程示例验证了所提出的动态事件触发控制方法的有效性和实用性.
针对一类系统动态未知且受互联项影响的非线性互联大规模系统, 提出一种新的在线分散式动态事件触发控制(Dynamic event-triggered control, DETC)方案. 首先, 构建基于神经网络的辨识器来重构互联系统的未知内部动态. 其次, 使用自适应评判网络在事件触发机制下学习近似最优控制策略. 在所设计的动态事件触发控制机制下, 各子系统独立地设计自己的控制策略, 且各控制策略的更新是异步进行的. 也就是说, 各个分散式事件触发条件和控制器仅依赖于各自子系统的局部状态信息, 而无需频繁获取相邻子系统的信息, 从而规避通过通信网络在子系统间传递状态信息的需求. 然后, 借助李雅普诺夫稳定性定理, 从理论上证明所提出的闭环控制系统状态和评判网络权值估计误差都是最终一致有界的. 最后, 通过一个数值仿真示例和一个实际工程示例验证了所提出的动态事件触发控制方法的有效性和实用性.
摘要:
针对复杂多约束条件下异构无人机集群系统的任务分配问题, 提出一种基于联盟形成博弈的分布式任务预分配和重分配方法. 考虑时效性、同时性等耦合约束条件, 引入准确的能耗模型建立任务分配模型, 利用联盟形成博弈将任务分配问题转化为联盟划分问题, 并设计一种无故障条件下的分布式任务预分配方法, 降低任务分配求解的复杂度, 同时提高最终解的平均质量; 进一步, 针对无人机故障问题, 准确分析健康无人机的运动模型, 合理划分重分配范围, 基于任务预分配结果设计重分配算法. 仿真结果表明了所提分布式任务预分配与重分配方法在不同场景下的实时性和有效性.
针对复杂多约束条件下异构无人机集群系统的任务分配问题, 提出一种基于联盟形成博弈的分布式任务预分配和重分配方法. 考虑时效性、同时性等耦合约束条件, 引入准确的能耗模型建立任务分配模型, 利用联盟形成博弈将任务分配问题转化为联盟划分问题, 并设计一种无故障条件下的分布式任务预分配方法, 降低任务分配求解的复杂度, 同时提高最终解的平均质量; 进一步, 针对无人机故障问题, 准确分析健康无人机的运动模型, 合理划分重分配范围, 基于任务预分配结果设计重分配算法. 仿真结果表明了所提分布式任务预分配与重分配方法在不同场景下的实时性和有效性.
摘要:
针对无人机集群系统, 提出了一种性能函数引导的深度强化学习控制方法, 同时评估性能函数的示范经验与学习策略的探索动作, 保证了高效可靠的策略更新, 实现了无人机集群系统的高性能控制. 首先, 利用领航-跟随集群框架, 将无人机集群的控制问题转化为领航-跟随框架下的跟踪问题, 进而提出了基于模型的跟踪控制方法, 利用性能函数将集群编队误差约束在给定范围内, 实现了无人机集群的模型驱动控制. 接下来, 为了解决复杂工况下性能函数极易失效难题, 将深度强化学习方法和性能函数驱动方法结合, 提出了性能函数引导的深度强化学习控制方法, 利用性能函数的示范经验辅助训练强化学习网络, 通过同时评估探索与示范动作, 保证学习策略显著优于性能函数驱动控制方法, 有效提高了无人机编队控制精度与鲁棒性. 实验结果表明, 该方法能够显著提升无人机集群的控制精度, 实现了兼顾鲁棒性与飞行精度的高性能集群控制.
针对无人机集群系统, 提出了一种性能函数引导的深度强化学习控制方法, 同时评估性能函数的示范经验与学习策略的探索动作, 保证了高效可靠的策略更新, 实现了无人机集群系统的高性能控制. 首先, 利用领航-跟随集群框架, 将无人机集群的控制问题转化为领航-跟随框架下的跟踪问题, 进而提出了基于模型的跟踪控制方法, 利用性能函数将集群编队误差约束在给定范围内, 实现了无人机集群的模型驱动控制. 接下来, 为了解决复杂工况下性能函数极易失效难题, 将深度强化学习方法和性能函数驱动方法结合, 提出了性能函数引导的深度强化学习控制方法, 利用性能函数的示范经验辅助训练强化学习网络, 通过同时评估探索与示范动作, 保证学习策略显著优于性能函数驱动控制方法, 有效提高了无人机编队控制精度与鲁棒性. 实验结果表明, 该方法能够显著提升无人机集群的控制精度, 实现了兼顾鲁棒性与飞行精度的高性能集群控制.
摘要:
深度学习是一门依赖于数据的科学, 传统深度学习方法假定在平衡数据集上训练模型, 然而, 现实世界中大规模数据集通常表现出长尾分布现象, 样本数量众多的少量头部类主导模型训练, 而大量尾部类样本数量过少, 难以得到充分学习. 近年来, 长尾学习掀起学术界的研究热潮, 涌现出大量先进的工作. 本文综合梳理和分析了近年来发表在高水平会议或期刊上的文献, 对长尾学习进行全面的综述. 具体而言, 根据深度学习模型设计流程, 将图像识别领域的长尾学习算法分为丰富样本数量与语义信息的优化样本空间方法, 关注特征提取器、分类器、logits和损失函数这四个基本组成部分的优化模型方法以及通过引入帮助模型训练的辅助任务, 在多个空间共同优化长尾学习模型的辅助任务学习3大类, 并根据提出的分类方法综合对比分析每类长尾学习方法的优缺点. 然后, 进一步将基于样本数量的狭义长尾学习概念推广至多尺度广义长尾学习. 此外, 本文对文本数据、语音数据等其它数据形式下的长尾学习算法进行简要评述. 最后, 讨论了目前长尾学习面临的可解释性较差、数据质量较低等挑战, 并展望了如多模态长尾学习、半监督长尾学习等未来具有潜力的发展方向.
深度学习是一门依赖于数据的科学, 传统深度学习方法假定在平衡数据集上训练模型, 然而, 现实世界中大规模数据集通常表现出长尾分布现象, 样本数量众多的少量头部类主导模型训练, 而大量尾部类样本数量过少, 难以得到充分学习. 近年来, 长尾学习掀起学术界的研究热潮, 涌现出大量先进的工作. 本文综合梳理和分析了近年来发表在高水平会议或期刊上的文献, 对长尾学习进行全面的综述. 具体而言, 根据深度学习模型设计流程, 将图像识别领域的长尾学习算法分为丰富样本数量与语义信息的优化样本空间方法, 关注特征提取器、分类器、logits和损失函数这四个基本组成部分的优化模型方法以及通过引入帮助模型训练的辅助任务, 在多个空间共同优化长尾学习模型的辅助任务学习3大类, 并根据提出的分类方法综合对比分析每类长尾学习方法的优缺点. 然后, 进一步将基于样本数量的狭义长尾学习概念推广至多尺度广义长尾学习. 此外, 本文对文本数据、语音数据等其它数据形式下的长尾学习算法进行简要评述. 最后, 讨论了目前长尾学习面临的可解释性较差、数据质量较低等挑战, 并展望了如多模态长尾学习、半监督长尾学习等未来具有潜力的发展方向.
当前状态:
, 最新更新时间: ,
doi: 10.16383/j.aas.c230210
摘要:
增加可再生能源在电网中的占比, 使能源结构更合理, 是加快能源转型实现低碳可持续发展的有效途径. 电网中占主导地位的火电, 辅助消纳可再生能源的能力, 对提高可再生能源在电网中的占比起到重要作用. 为了提高火电机组辅助可再生能源的消纳能力, 本文根据当前系统控制方案, 分析了影响机组灵活性与调峰深度的因素, 包括机炉协调、局部反馈策略下的锅炉控制、系统稳态工作点的规划等. 基于补偿方案的协调策略限制了机组对具有随机性和间歇性的可再生能源的补偿能力; 局部反馈策略下的锅炉控制只是实现了等效热效应的反馈; 非额定工况下的稳态工作点关系到辅助可再生能源消纳的能耗和排放指标. 根据以上分析分别给出了进一步的研究内容.
增加可再生能源在电网中的占比, 使能源结构更合理, 是加快能源转型实现低碳可持续发展的有效途径. 电网中占主导地位的火电, 辅助消纳可再生能源的能力, 对提高可再生能源在电网中的占比起到重要作用. 为了提高火电机组辅助可再生能源的消纳能力, 本文根据当前系统控制方案, 分析了影响机组灵活性与调峰深度的因素, 包括机炉协调、局部反馈策略下的锅炉控制、系统稳态工作点的规划等. 基于补偿方案的协调策略限制了机组对具有随机性和间歇性的可再生能源的补偿能力; 局部反馈策略下的锅炉控制只是实现了等效热效应的反馈; 非额定工况下的稳态工作点关系到辅助可再生能源消纳的能耗和排放指标. 根据以上分析分别给出了进一步的研究内容.
当前状态:
, 最新更新时间: ,
doi: 10.16383/j.aas.c190277
摘要:
首先, 通过分析黑体温度控制系统的物理模型, 推演出黑体传递函数的表达式.推演过程中得知黑体易受环境温度和空气散热的影响, 所以黑体温度控制系统是个非线性时变系统.结合实验黑体的阶跃响应数据, 采用阶跃响应法对传递函数进行近似计算, 得出黑体温控系统的传递函数是极点在左半轴的二阶系统, 该系统等效于二阶低通滤波器.经过低通滤波器的信号, 会滤除高频部分, 当用继电器法进行参数自整定时, 仅需计算能量较大的基波信号.通过对基波信号进行比较, 得出继电器法的整定公式, 并参照Ziegler-Nichols整定法则计算出PID参数.同时, 本文针对黑体加热器具有双路输出的特点, 提出了一种双路动态输出法, 通过理论分析了该方法可以消除环境对黑体温度的影响.对于环境温度变化较大的, 采用继电器法PID参数自整定的方式来消除; 对于黑体运行过程中环境温度变化较小的, 采用双路动态输出法来减少影响.最后, 结合实验数据, 引入性能指标, 验证了本文所述方法对黑体的温度控制性能有一定的提升.
首先, 通过分析黑体温度控制系统的物理模型, 推演出黑体传递函数的表达式.推演过程中得知黑体易受环境温度和空气散热的影响, 所以黑体温度控制系统是个非线性时变系统.结合实验黑体的阶跃响应数据, 采用阶跃响应法对传递函数进行近似计算, 得出黑体温控系统的传递函数是极点在左半轴的二阶系统, 该系统等效于二阶低通滤波器.经过低通滤波器的信号, 会滤除高频部分, 当用继电器法进行参数自整定时, 仅需计算能量较大的基波信号.通过对基波信号进行比较, 得出继电器法的整定公式, 并参照Ziegler-Nichols整定法则计算出PID参数.同时, 本文针对黑体加热器具有双路输出的特点, 提出了一种双路动态输出法, 通过理论分析了该方法可以消除环境对黑体温度的影响.对于环境温度变化较大的, 采用继电器法PID参数自整定的方式来消除; 对于黑体运行过程中环境温度变化较小的, 采用双路动态输出法来减少影响.最后, 结合实验数据, 引入性能指标, 验证了本文所述方法对黑体的温度控制性能有一定的提升.
当前状态:
, 最新更新时间: ,
doi: 10.16383/j.aas.c200007
摘要:
仿人智能控制是现代智能控制理论之一, 利用分层递阶的控制结构与多控制模态为强非线性、大迟滞、难建模问题提供了切实可行的解决方案, 近些年来发展迅速并且得到学术界的持续关注, 但缺乏对该理论研究进展系统性的总结. 本文通过系统的梳理仿人智能控制的理论基础和发展脉络, 将其划分为三代控制模型, 分别从每一代控制模型的算法描述、研究进展与应用进展三个角度进行综述, 同时, 结合当前的研究进展讨论仿人智能控制在控制模型、结构功能、参数校正方面进一步研究的方向.
仿人智能控制是现代智能控制理论之一, 利用分层递阶的控制结构与多控制模态为强非线性、大迟滞、难建模问题提供了切实可行的解决方案, 近些年来发展迅速并且得到学术界的持续关注, 但缺乏对该理论研究进展系统性的总结. 本文通过系统的梳理仿人智能控制的理论基础和发展脉络, 将其划分为三代控制模型, 分别从每一代控制模型的算法描述、研究进展与应用进展三个角度进行综述, 同时, 结合当前的研究进展讨论仿人智能控制在控制模型、结构功能、参数校正方面进一步研究的方向.
当前状态:
, 最新更新时间: ,
doi: 10.16383/j.aas.2020.c200033
摘要:
深度神经网络在解决复杂问题方面取得了惊人的成功, 广泛应用于生活中各个领域, 但是最近的研究表明, 深度神经网络容易受到精心设计的对抗样本的攻击, 导致网络模型输出错误的预测结果, 这对于深度学习网络的安全性是一种极大的挑战. 对抗攻击是深度神经网络发展过程中必须克服的一大障碍, 设计一种高效且能够防御多种对抗攻击算法, 且具有强鲁棒性的防御模型是有效推动对抗攻击防御的方向之一, 探究能否利用对抗性攻击来训练网络分类器从而提高其鲁棒性具有重要意义. 本文将生成对抗网络(Generative adversarial networks, GAN)和现有的攻击算法结合, 提出一种基于生成对抗网络的对抗攻击防御模型(AC-DefGAN), 利用对抗攻击算法生成攻击样本作为GAN的训练样本, 同时在网络中加入条件约束来稳定模型的训练过程, 利用分类器对生成器所生成样本的分类来指导GAN的训练过程, 通过自定义分类器需要防御的攻击算法来生成对抗样本以完成判别器的训练, 从而得到能够防御多种对抗攻击的分类器. 通过在MNIST、CIFAR-10和ImageNet数据集上进行实验, 证明训练完成后, AC-DefGAN可以直接对原始样本和对抗样本进行正确分类, 对各类对抗攻击算法达到很好的防御效果, 且比已有方法防御效果好、鲁棒性强.
深度神经网络在解决复杂问题方面取得了惊人的成功, 广泛应用于生活中各个领域, 但是最近的研究表明, 深度神经网络容易受到精心设计的对抗样本的攻击, 导致网络模型输出错误的预测结果, 这对于深度学习网络的安全性是一种极大的挑战. 对抗攻击是深度神经网络发展过程中必须克服的一大障碍, 设计一种高效且能够防御多种对抗攻击算法, 且具有强鲁棒性的防御模型是有效推动对抗攻击防御的方向之一, 探究能否利用对抗性攻击来训练网络分类器从而提高其鲁棒性具有重要意义. 本文将生成对抗网络(Generative adversarial networks, GAN)和现有的攻击算法结合, 提出一种基于生成对抗网络的对抗攻击防御模型(AC-DefGAN), 利用对抗攻击算法生成攻击样本作为GAN的训练样本, 同时在网络中加入条件约束来稳定模型的训练过程, 利用分类器对生成器所生成样本的分类来指导GAN的训练过程, 通过自定义分类器需要防御的攻击算法来生成对抗样本以完成判别器的训练, 从而得到能够防御多种对抗攻击的分类器. 通过在MNIST、CIFAR-10和ImageNet数据集上进行实验, 证明训练完成后, AC-DefGAN可以直接对原始样本和对抗样本进行正确分类, 对各类对抗攻击算法达到很好的防御效果, 且比已有方法防御效果好、鲁棒性强.