王耀南 华和安 张辉 钟杭 樊叶心 梁鸿涛 常浩 方勇纯

王耀南, 华和安, 张辉, 钟杭, 樊叶心, 梁鸿涛, 常浩, 方勇纯. 性能函数引导的无人机集群深度强化学习控制方法. 自动化学报, xxxx, xx(x): x−xx doi: 10.16383/j.aas.c240519
doi: 10.16383/j.aas.c240519 cstr: 32138.14.j.aas.c240519
基金项目: 科技创新2030-“新一代人工智能”重大项目(2021ZD0114503), 国家自然科学基金(62403190, 62427813, 62433010)资助

    王耀南:中国工程院院士, 湖南大学电气与信息工程学院教授. 主要研究方向为机器人学, 智能控制和图像处理. E-mail: yaonan@hnu.edu.cn

    华和安:湖南大学电气与信息工程学院副研究员. 主要研究方向为空中机器人的智能规划、控制与集群. E-mail: huahean@hnu.edu.cn

    张辉:湖南大学机器人学院教授. 主要研究方向为机器视觉, 图像处理和机器人控制. 本文通信作者. E-mail: zhanghuihby@126.com

    钟杭:湖南大学机器人学院副教授. 主要研究方向为机器人控制, 视觉伺服和路径规划. E-mail: zhonghang@hnu.edu.cn

    樊叶心:湖南大学机器人学院博士后. 主要研究方向为 机器人感知与控制、深度强化学习及运动规划. E-mail: yexinfan@hnu.edu.cn

    梁鸿涛:湖南大学电气与信息工程学院博士研究生. 主要研究方向为空中机器人集群运动控制与路径规划. E-mail: lianghongtao1@hnu.edu.cn

    常浩:湖南大学电气与信息工程学院博士研究生. 主要研究方向为空中机器人的视觉感知与路径规划. E-mail: changhao@hnu.edu.cn

    方勇纯:南开大学机器人与信息自动化研究所教授. 主要研究方向为非线性控制、视觉伺服、欠驱动系统控制和基于原子力显微镜的纳米系统. E-mail: fangyc@nankai.edu.cn

Performance Function-Guided Deep Reinforcement Learning Control for UAV Swarm

Funds: Supported by the National Key Research and Development Program of China (2021ZD0114503), National Natural Science Foundation of China (62403190, 62427813, 62433010)
More Information
    Author Bio:

    WANG Yao-Nan Academician at Chinese Academy of Engineering, professor at the College of Electrical and Information Engineering, Hunan University. His research interest covers robotics, intelligent control, and image processing

    HUA He-An Associate researcher atthe College of Electrical and Information Engineering, Hunan University. His main research interest is intelligent planning, control, and swarming of aerial robots

    ZHANG Hui Professor at the School of Robotics, Hunan University. His research interest covers machine vision, image processing, and robot control. Corresponding author of this paper

    ZHONG Hang Associate Professor at the School of Robotics, Hunan University. His research interest covers robot control, visual servoing, and path planning

    FAN Ye-Xin Postdoctoral fellow at the School of Robotics, Hunan University. Her research interests include robot perception and control, deep reinforcement learning and motion planning

    LIANG Hong-Tao PhD candidate at the College of Electrical and Information Engineering, Hunan University. His research interests include swarm motion control and path planning for aerial robots

    CHANG Hao PhD candidate at the College of Electrical and Information Engineering, Hunan University. His research interests include visual perception and path planning for aerial robots

    FANG Yong-Chun Professor at the Institute of Robotics and Automatic Information Systems, Nankai University. His research interest covers nonlinear control, robot visual servoing control, control of underactuated systems and AFM-based nanosystems

  • 摘要: 针对无人机集群系统, 提出了一种性能函数引导的深度强化学习控制方法, 同时评估性能函数的示范经验与学习策略的探索动作, 保证了高效可靠的策略更新, 实现了无人机集群系统的高性能控制. 首先, 利用领航-跟随集群框架, 将无人机集群的控制问题转化为领航-跟随框架下的跟踪问题, 进而提出了基于模型的跟踪控制方法, 利用性能函数将集群编队误差约束在给定范围内, 实现了无人机集群的模型驱动控制. 接下来, 为了解决复杂工况下性能函数极易失效难题, 将深度强化学习方法和性能函数驱动方法结合, 提出了性能函数引导的深度强化学习控制方法, 利用性能函数的示范经验辅助训练强化学习网络, 通过同时评估探索与示范动作, 保证学习策略显著优于性能函数驱动控制方法, 有效提高了无人机编队控制精度与鲁棒性. 实验结果表明, 该方法能够显著提升无人机集群的控制精度, 实现了兼顾鲁棒性与飞行精度的高性能集群控制.
  • 图  1  无人机领航-跟随编队模型示意图

    Fig.  1  Schematic diagram of drone pilot-following formation model

    图  2  性能函数引导的深度强化学习集群控制框架

    Fig.  2  Performance-driven cluster control bootstrap policy framework

    图  4  无人机集群控制策略训练与测试框架

    Fig.  4  Uav cluster control strategy training and testing framework

    图  3  性能函数驱动的集群控制引导策略框架

    Fig.  3  Performance function driven cluster control guidance policy framework

    图  5  无人机集群拓扑结构

    Fig.  5  Topology of UAV cluster

    图  6  无人机集群的编队飞行轨迹

    Fig.  6  Drone cluster formation flight trajectory

    图  9  无人机集群在$ x,\;y,\;z $三个方向的飞行曲线

    Fig.  9  The flight curve of the drone cluster in $x $, $y $ and $z $ directions

    图  7  无人机集群的飞行速度与误差曲线

    Fig.  7  Flight speed and error curve of UAV cluster

    图  8  无人机集群的飞行轨迹曲线

    Fig.  8  Uav cluster flight trajectory curve

    图  12  无人机集群的飞行轨迹曲线

    Fig.  12  The flight trajectory curves of drone swarms

    图  13  无人机集群的误差与评价曲线

    Fig.  13  Error and Evaluation Curves of Drone Swarms

    图  10  无人机集群在$ x,\;y,\;z $三个方向的飞行误差

    Fig.  10  Flight error of UAV cluster in $x $, $y $ and $z $ directions

    图  11  深度强化学习策略与引导策略在双critic框架中的评价曲线

    Fig.  11  Evaluation curves of deep reinforcement learning strategies and guidance strategies in the dual critic framework

    无人机质量$ \text{m}_i $ $ \text{m}_1 = 1.6\text{kg},\;\text{m}_{2-5} = 1.0 \text{kg} $
    无人机转动惯量$ \mathbb{I}_i $ $ \text{diag}[0.01\,\;\,\;0.01\,\;\,\;0.01]\text{kg}\cdot \text{m}^2 $
    重力加速度 $ 9.8\text{m}/\text{s}^2 $
    学习率$ \lambda_{\alpha_{1,\;2,\;3}} $ $ 1,\;2,\;2\times 10^{-4} $
    训练回合数$ M_\text{max} $ $ 100 $
    训练步数$ N_\text{max} $ $ 500 $
    经验池大小$ \mathcal{B}_{1,\;2} $ $ 10000 $
    采样数据量$ {N_m} $ $ 128 $
    训练折扣因子$ \gamma $ $ 0.95 $
    探索与平滑系数$ \sigma_{1,\;2} $ $ 0.1,\;0.05 $
    控制策略交互频率 $ 100 $ Hz
    引导策略参数$ k_{\varphi ij},\;\beta_{ij} $ $ 0.2,\; 0.3 $
    辅助增益矩阵$ K_{pi} $ $ \text{diag}[4\ 4\ 4] $
    辅助增益矩阵$ K_{Ri} $ $ \text{diag}[1.5\ 1.5\ 1.5] $
    外环控制参数$ K_{\zeta i} $ $ \text{diag}[2\ 2\ 2] $
    内环控制参数 $ k_{\eta i} $ $ \text{diag}[1.5\ 1.5\ 1.5] $
    内环控制参数$ k_i $ $ \text{diag}[2\ 2\ 2] $
