2.845

2023影响因子

(CJCR)

  • 中文核心
  • EI
  • 中国科技核心
  • Scopus
  • CSCD
  • 英国科学文摘

留言板

尊敬的读者、作者、审稿人, 关于本刊的投稿、审稿、编辑和出版的任何问题, 您可以本页添加留言。我们将尽快给您答复。谢谢您的支持!

姓名
邮箱
手机号码
标题
留言内容
验证码

基于深度强化学习的无人机虚拟管道视觉避障

赵静 裴子楠 姜斌 陆宁云 赵斐 陈树峰

赵静, 裴子楠, 姜斌, 陆宁云, 赵斐, 陈树峰. 基于深度强化学习的无人机虚拟管道视觉避障. 自动化学报, 2024, 50(11): 2245−2258 doi: 10.16383/j.aas.c230728
引用本文: 赵静, 裴子楠, 姜斌, 陆宁云, 赵斐, 陈树峰. 基于深度强化学习的无人机虚拟管道视觉避障. 自动化学报, 2024, 50(11): 2245−2258 doi: 10.16383/j.aas.c230728
Zhao Jing, Pei Zi-Nan, Jiang Bin, Lu Ning-Yun, Zhao Fei, Chen Shu-Feng. Virtual tube visual obstacle avoidance for UAV based on deep reinforcement learning. Acta Automatica Sinica, 2024, 50(11): 2245−2258 doi: 10.16383/j.aas.c230728
Citation: Zhao Jing, Pei Zi-Nan, Jiang Bin, Lu Ning-Yun, Zhao Fei, Chen Shu-Feng. Virtual tube visual obstacle avoidance for UAV based on deep reinforcement learning. Acta Automatica Sinica, 2024, 50(11): 2245−2258 doi: 10.16383/j.aas.c230728

基于深度强化学习的无人机虚拟管道视觉避障

doi: 10.16383/j.aas.c230728 cstr: 32138.14.j.aas.c230728
基金项目: 直升机动力学全国重点实验室 (2024-ZSJ-LB-02-05), 机械结构力学及控制国家重点实验室 (MCMS-E-0123G04), 工业控制技术全国重点实验室 (ICT2023B21), 南京邮电大学校级自然科学基金 (NY223119)资助
详细信息
    作者简介:

    赵静:南京邮电大学自动化学院、人工智能学院副教授. 主要研究方向为空中机器人和无人系统感知与控制. E-mail: zhaojing@njupt.edu.cn

    裴子楠:南京邮电大学自动化学院、人工智能学院硕士研究生. 主要研究方向为无人机轨迹规划和深度强化学习. E-mail: njpzn1@126.com

    姜斌:南京航空航天大学自动化学院教授. 主要研究方向为故障诊断与容错控制及应用. 本文通信作者.E-mail: binjiang@nuaa.edu.cn

    陆宁云:南京航空航天大学自动化学院教授. 主要研究方向为基于数据驱动的故障诊断与预测及其应用.E-mail: luningyun@nuaa.edu.cn

    赵斐:浙江大学控制科学与工程学院副研究员. 主要研究方向为过程系统工程.E-mail: zhaofeizju@zju.edu.cn

    陈树峰:北京计算机技术及应用研究所高级工程师. 主要研究方向为嵌入式操作系统和嵌入式智能计算.E-mail: csfcsf1991@sina.com

Virtual Tube Visual Obstacle Avoidance for UAV Based on Deep Reinforcement Learning

Funds: Supported by National Key Laboratory Foundation of Helicopter Aeromechanics (2024-ZSJ-LB-02-05), State Key Laboratory of Aerospace Structural Mechanics and Control (MCMS-E-0123G04), Open Research Project of the State Key Laboratory of Industrial Control Technology (ICT2023B21), and Natural Science Foundation of Nanjing University of Posts and Telecommunications (NY223119)
More Information
    Author Bio:

    ZHAO Jing Associate professor at the College of Automation and College of Artificial intelligence, Nanjing University of Posts and Telecommunications. Her research interest covers aerial robotics and unmanned system perception and control

    PEI Zi-Nan Master student at the College of Automation and College of Artificial Intelligence, Nanjing University of Posts and Telecommunications. His research interest covers UAV path planning and deep reinforcement learning

    JIANG Bin Professor at the College of Automation Engineering, Nanjing University of Aeronautics and Astronautics. His research interest covers fault diagnosis and fault-tolerant control and their applications. Corresponding author of this paper

    LU Ning-Yun Professor at the College of Automation Engineering, Nanjing University of Aeronautics and Astronautics. Her research interest covers data driven fault diagnosis and prognosis and their applications

    ZHAO Fei Associate research fellow at the College of Control Science and Engineering, Zhejiang University. His main research interest is process system engineering

    CHEN Shu-Feng Senior engineer at the Beijing Institute of Computer Technology and Application. His research interest covers embedded operating system and embedded intelligent computing

  • 摘要: 针对虚拟管道下的无人机 (Unmanned aerial vehicle, UAV)自主避障问题, 提出一种基于视觉传感器的自主学习架构. 通过引入新颖的奖励函数, 设计了一种端到端的深度强化学习(Deep reinforcement learning, DRL)控制策略. 融合卷积神经网络 (Convolutional neural network, CNN)和循环神经网络 (Recurrent neural network, RNN)的优点构建双网络, 降低了网络复杂度, 对无人机深度图像进行有效处理. 进一步通过AirSim模拟器搭建三维实验环境, 采用连续动作空间优化无人机飞行轨迹的平滑性. 仿真结果表明, 与现有的方法对比, 该模型在面对静态和动态障碍时, 训练收敛速度快, 平均奖励高, 任务完成率分别增加9.4%和19.98%, 有效实现无人机的精细化避障和自主安全导航.
  • 高效安全的无人机自主避障是无人机应用中的关键技术之一. 传统无人机避障方法主要依赖于激光雷达、超声波和红外摄像头等传感器[14]来获取环境信息, 其局限性主要表现在传感器自身的重量、功耗、成本, 以及环境中可能存在无定位信号等, 不具备高效性与自主性. 然而, 视觉传感器, 特别是深度相机, 可以提供丰富的环境信息, 如障碍物的形状、大小、位置和距离等信息, 这为无人机的自主避障提供了新的可能性. 在复杂动态环境下实现无人机避障的高效性与自主性, 虚拟管道思想引起了研究者的兴趣. 虚拟管道技术[56]为无人机创建一个看不见的“管道”, 它能够使其沿着预设路径移动, 技术的核心优点在于无人机只需要保证个体间以及与管道边界不发生碰撞即可. 然而, 虚拟管道的调整通常需要考虑环境的动态变化, 包括处理未知移动障碍物, 或与其他无人机交互的复杂动作等[78]. 因此, 探索基于虚拟管道技术使用视觉传感器实现无人机自主避障是当前研究热点之一. Opromolla等[9]提出了一种基于视觉的障碍物检测和跟踪以及冲突检测方法, 赋予小型无人机系统非合作感知和回避功能. Yao等[10]利用深度相机定位障碍位置, 用来规避多个静态障碍物, 经过两阶段压缩的YOLOv5模型进行障碍物检测, 提取更精确的图像特征实现了潜水艇的自主导航.

    近年来, 深度学习技术特别是卷积神经网络(Convolutional neural network, CNN) 在图像识别和自然语言处理等领域取得了显著的进展[11]. CNN广泛应用于图像分类、目标检测和语义分割等任务, 为无人机的视觉避障提供了强大的技术支持[1213]. 该方法具有以下几点优势: 1) CNN可以自动从原始图像中学习和提取有意义的特征, 无需手动设计; 2) 经过充分训练的CNN模型能够识别新的对象和场景, 这对于无人机在多变环境中的导航和避障是必要的; 3) CNN结构可以进行并行计算, 提高训练效率. 然而, 仅仅依靠深度学习进行视觉避障仍然面临技术难点, 即如何有效地获取大量的标注监督数据集, 以及如何确保算法的实时性和鲁棒性等.

    为了克服上述挑战, 研究者采用深度强化学习(Deep reinforcement learning, DRL), 在强化学习框架内引入神经网络. DRL优势在于其能够直接从原始数据中学习决策动作的映射, 有效处理高维状态空间和连续动作空间的序列决策问题, 同时减少对大量人工标注数据的依赖. 此外, DRL能够从视觉数据中自动提取特征并依据这些特征做出决策, 为无人机的视觉避障提供了一种新的途径, 被广泛应用于基于视觉传感器的无人系统领域. Roghair等[14]对基于视觉传感器的无人机避障中的若干DRL算法进行了研究, 包括深度Q网络(Deep Q network, DQN) 和近端策略优化(Proximal policy optimization, PPO), 并探讨了其优势、局限性和未来的研究方向. 周治国等[15]提出了基于阈值的DQN避障算法, 使得DRL模型能够在复杂环境下快速收敛. Kalidas等[16]提出了改进DQN, 该方法使用高斯混合分布将上一时刻的状态与预测的下一个状态进行比较, 以选择下一个离散动作, 智能体的奖励得到提高.

    尽管众多方法已实现了良好的避障效果, 但以下两个问题仍然存在:

    1) DRL在视觉避障导航中要求无人机与任务环境持续交互, 并依据环境反馈的奖励更新策略网络与评价网络的权重. 选择适当的DRL算法对于不同的应用场景至关重要, 以确保获得理想的结果. 先前的研究[1719]主要关注在二维环境中的无人机运动, 通过结合雷达和超声波等传感器数据融合构建无人机的状态空间, 定义离散动作空间. 虽然这些建模方法能够提供准确的观测结果, 但由于传感器的限制, 它们不适合用于小型旋翼无人机在虚拟管道中的精细操控和平滑轨迹生成, 以实现自主避障.

    2)虽然早期研究中已有基于DRL的无人机避障框架并获得一定成果, 但在复杂多变的环境中保证轨迹平滑性和模型泛化能力仍是一个问题. 特别是在高动态环境下, 避障导航问题更加复杂, 因为移动障碍物会产生大量交互数据, 极大地增加了DRL 模型端到端训练的难度. 具体而言: 一方面, 频繁与高动态障碍物发生碰撞会在初始训练阶段产生许多失败事件和负面奖励, 导致DRL系统难以从稀疏的积极反馈中学习有效策略. 这不仅增加了网络收敛的难度, 也限制了无人机探索环境以积累奖励的能力. 另一方面, 为了在高动态环境中实现自主避障, 无人机必须能够预测障碍物的移动和位置.

    基于上述分析, 本文聚焦于DRL在虚拟管道中的探索与利用问题, 特别是其对环境的高度依赖性. 本文的主要研究工作包括:

    1) 针对虚拟管道内无人机自主避障问题, 采用部分可观察马尔科夫决策过程(Partially observable Markov decision process, POMDP)[20] 进行建模. 与依赖激光传感器获得的数字序列信息不同, 本方法采用深度相机能够捕获更为丰富的环境状态信息, 具有更强的泛化能力, 更适合于实际应用, 并且易于在真实无人机上进行移植.

    2) 提出一种基于视觉传感器的无人机自主学习架构, 该架构能够在三维的静态与动态环境中实现实时避障和路径规划. 通过采用轻量级的CNN对状态空间数据进行预处理以提取空间特征, 并利用循环神经网络(Recurrent neural network, RNN)[21] 来提取时间特征, 通过这两种特征的权重融合及模型参数的更新, 实现了高效的端到端DRL训练, 提高数据的利用率并加速模型的收敛. 采用广义优势估计(Generalized advantage estimation, GAE)[22] 对优势函数进行优化, 进一步加速学习过程, 并在仿真实验中取得更平滑的飞行轨迹和更高的任务完成率.

    3) 通过一系列实验对比, 本文提出的基于视觉传感器的无人机自主学习架构通过在虚拟管道静态和动态环境中进行的仿真实验展现出了更快的收敛速度和更强的环境适应性. 具体体现在面对不同纹理颜色、传感器噪声和环境变化, 本文所提出的方法依然能够保持稳定的避障性能, 为实际应用中无人机的自主避障提供了有力的支持.

    本研究旨在为无人机在虚拟管道环境中寻找最优避障策略, 以便在通过虚拟管道过程中避开固定和移动障碍物. 在虚拟管道环境中, 为了确保无人机安全导航和有效避障, 智能体必须对环境状态有深入的了解. 这些状态通常是由多个环境属性组成的元组, 它们为无人机的避障导航提供了必要的信息. 在获取当前状态信息后, 无人机将做出相应的动作决策. 这些决策不仅会影响无人机的移动方向, 还会改变其从传感器中获得的视觉反馈. 例如: 在本任务中当无人机选择向某个方向移动时, 它会看到新的障碍物或更多的可通行空间. 因此, 无人机在导航过程中必须根据实时状态做出决策, 每一个决策都会影响未来的状态和后续的决策.

    然而, 在动态环境下的虚拟管道中, 无人机获取的数据(如图像或雷达数据等)通常受限, 并且易受到传感器误差的影响, 这增加了决策过程中的不确定性. 尽管马尔科夫决策过程为顺序决策问题提供了一个框架, 但它假设无人机可以完全观察到环境状态, 在许多实际应用中这一假设是不现实的. 因此, POMDP为这种情况提供了一个更为合适的模型. Zhang等[23] 已经证明了POMDP在处理无人船舶决策问题时的有效性. 基于此, 本文提出一个针对无人机自主避障导航的POMDP模型, 并在虚拟管道中对其进行训练和测试. 虽然这增加了决策的复杂性, 但更贴近许多实际应用场景的需求.

    DRL训练出的模型具备深度学习的特征表征能力和强化学习的自适应决策能力, 从而显著提升智能体的感知和决策功能. 与非学习的机器人路径规划技术[24]相比, DRL通过设计奖励函数, 使智能体在与环境交互的过程中不断学习并优化原有策略, 实现期望奖励最大化. DRL的核心组件包括状态、动作和奖励. DRL基本原理如图1所示. 智能体首先对环境进行观测, 获取状态$ {{S}_{0}} $, 然后根据一定的策略决定当前时刻要采取的动作$ {{A}_{0}} $. 环境随后对智能体的动作做出反应$ {{S}_{1}} $, 智能体获得奖励$ {{R}_{0}} $, 循环上述步骤直到当前回合结束.

    图 1  DRL基本原理
    Fig. 1  Basic principle of DRL

    DRL算法主要分为3类: 基于价值函数、基于策略梯度和结合基于价值函数与策略梯度的演员−评论家(Actor-critic, AC) 算法[25]. 本文主要采用AC框架下具有代表性的算法PPO[26] 来实现虚拟管道内避障导航, 利用集中训练的方式, 在单台电脑上高效地收集来自多个并行无人机环境的样本轨迹进行批量训练智能体, 并统一更新网络的参数, 从而确保了训练的稳健性和策略的多样性. 与Hou等[27]所使用的深度确定性策略梯度算法不同, PPO算法提高了数据利用率, 同时保留了策略梯度算法的随机探索性, 这对于处理部分可观测的无人机避障问题尤为重要.

    此外, 本文还采用GAE作为优势函数的估计器, 它在保持无偏性的同时, 提供低方差的优势估计, 进一步改善无人机轨迹的平滑性. 具体而言, 智能体在$ t $时刻相对于策略$ \pi_\theta(a_t \mid s_t) $的优势函数定义为:

    $$ A_t={Q}_{\pi_\theta}(s_t,\; a_t)-V_{\pi_\theta}(s_t) $$ (1)

    式中$ Q_{\pi_\theta}(s_t,\; a_t) $代表从状态$ s_t $开始并根据策略$ {\pi_\theta} $采取行动$ a_t $后获得的期望累积折扣奖励. 而$ V_{\pi_\theta}(s_t) $代表从状态$ s_t $开始并遵循策略$ {\pi_\theta} $获得的期望累积折扣奖励. 策略和评价网络的权重均按照均匀分布进行初始化.

    DRL算法的核心目标是确定一个最佳策略$ {\pi} $, 该策略能够将环境状态映射到相应的动作, 从而最大化期望累积折扣奖励. 在许多实际应用中, 智能体无法完全观测到环境的所有状态, 进而引入POMDP. POMDP是马尔科夫决策过程的一个扩展, 专门处理不完全可观测的情境. POMDP可以通过一个五元组$ \langle{S},\; {A},\; {R},\; \gamma,\; {O}\rangle $来定义. 其中$ S $和$ A $分别表示环境的状态和智能体可执行动作的集合, $ R $是奖励函数, $ \gamma \in(0,\; 1) $是折扣因子. 考虑到环境的部分可观测性, $ O $表示智能体接收到的观测结果, 而不是完整的状态集合$ S $.

    1.2.1   状态空间的设计

    状态指的是无人机通过传感器与其周围环境互动时获得的环境信息. 具体地说, 本文使用深度相机作为观测传感器, 其探测视角为$ e\in[-60^{\circ},\; 60^{\circ}] $. 由于深度相机在实际应用中的探测范围限制, 无人机只能获取部分环境的状态信息. 为了简化计算并便于算法实现, 本文将超出特定距离的深度值统一视为固定的深度值. 在这项工作中, $ t $时刻的无人机观测状态$ o_t $定义为: 相机视野中的深度图. 所有观测状态值都被映射到[–1, 1] 范围内, 并随后被送入神经网络以进一步处理.

    1.2.2   动作空间的设计

    在DRL算法框架下, 智能体通过执行特定动作与环境互动, 从而引起环境状态的变化. 对于虚拟管道下无人机的自主避障导航任务, 采用连续动作空间成为了关键设计考虑, 它使得动作控制更为精细和流畅. 在本文中, 动作空间被划分为三个维度. 无人机在$ t $时刻的动作被定义为:

    $$ a_t=\left[v_{xt},\; v_{yt},\; v_{zt}\right] $$ (2)

    其中$ v_{xt} $、$ v_{yt} $和$ v_{zt} $分别代表无人机在$ x $、$ y $和$ z $轴上的线速度. 无人机在三维空间中的速度分量分别为$V_x $, $V_y $和$V_z $.

    图2是无人机连续动作空间示意图, 这种设计不仅促进无人机在面对复杂飞行环境时的精细速度调整, 还有助于执行高精度控制任务. 此外, 采用连续动作空间进一步增强了算法的泛化性, 使训练过程更贴近实际应用场景. 这种方法也有助于提高算法学习的稳定性和效率, 因为它减少了动作选择的离散性, 使得学习过程更加平滑.

    图 2  无人机连续动作空间示意图
    Fig. 2  Schematic diagram of unmanned aerial vehicle continuous action space
    1.2.3   奖励函数的设计

    奖励在DRL中扮演着重要的角色, 它为智能体提供关于其行为优劣的反馈. 奖励的设计对模型的收敛性能和智能体在环境中的实际表现有深远影响. 在本文中, 提出了一个综合奖励$ r_t $, 包括正向奖励和负向奖励两个子目标. 这一设计旨在模拟和评价特定策略, 解决算法的稀疏奖励问题, 并寻求一种能够广泛适用且最优化的策略, 使无人机导航至目标点$ {p}_{{d}}=\left(x_{{d}},\; y_{{d}},\; z_{{d}}\right) $. $ t $时刻正向奖励包括无人机每步动作的奖励$ r_t^{a c t} $ 和达成目标的奖励$ r_t^{success} $, 而负向奖励则是对碰撞行为的惩罚$ r_t^{col} $.

    单步奖励的计算公式如下:

    $$ r_t^{a c t}= {\mathrm{e}}^{-n\|d\|} $$ (3)

    式中$ d=\sqrt{\left(x-x_{{d}}\right)^2+\left(y-y_{{d}}\right)^2+\left(z-z_{{d}}\right)^2} $表示无人机到目标地点的相对三维距离. 通过调整系数$ n $, 确保无人机始终朝向目标飞行, 并给予智能体较大的奖励; 相反, 如果无人机反向飞行, 则给予智能体逐渐减小的奖励, 以规范其动作, 实现期望目标. 这样的设计鼓励智能体积极探索环境, 从而加快模型收敛速度.

    注 1. 本文设计的奖励函数相较于基于连续时刻无人机距离之差更为高效. 当无人机接近洞口时, 本文设计的奖励函数引导无人机向前飞行的力度逐渐增强, 但不会发生突变. 这种平稳性可避免无人机在洞口附近产生剧烈的加速或减速, 进而提高飞行的稳定性和流畅性, 从而优化无人机在各种环境中的性能.

    达成目标奖励的计算公式如下:

    $$ r_t^{success}=\left\{\begin{aligned} &score,\;&& {X}_t \geq T \\&0,\;&& {X}_t < T \end{aligned}\right. $$ (4)

    式中$ {X}_t $为无人机在$ t $时刻相比其初始位置$ x $轴的距离差. 当这个距离超过一个预定的阈值$ T $时, 即无人机成功通过洞口, 智能体会得到$ score $的奖励; 否则, 智能体不获得奖励.

    碰撞惩罚的计算公式如下:

    $$ {r}_{{t}}^{{col}}=\left\{\begin{aligned} &-score,\;&& \text { 发生碰撞 } \\&r_t^{a c t},\;&& \text { 其他 }\end{aligned}\right. $$ (5)

    如果无人机在到达目标点的过程中与障碍物或墙壁发生碰撞, 它会受到相应惩罚. 具体地说, 当无人机撞到障碍物时, 它会得到$ -score $的负奖励, 以鼓励智能体避免这种行为; 如果没有碰撞, 智能体会得到奖励.

    综上所述, 综合奖励函数考虑单步奖励、达成目标奖励和碰撞惩罚的总和, 计算公式如式(6) 所示:

    $$ {{r}_{t}}=w_1 r_{t}^{act}+w_2 {r}_{t}^{col}+w_3 r_{t}^{success} $$ (6)

    式中$ w_1 $, $ w_2 $, $ w_3 $分别为各个子目标奖励的权重因子. 这种奖励设计确保无人机在自主飞行过程中既能够自主避免障碍, 又能够快速地达到目标, 从而实现了高效且安全的导航.

    本文采用PPO算法作为基线, 对无人机的飞行策略进行训练. PPO算法受到信赖域策略优化(Trust region policy optimization, TRPO) 和AC框架的启发. 它继承了这两种方法的优点, 并提出了剪切代理目标函数来解决TRPO算法中复杂的惩罚系数调整问题. 同时采用重要性采样来增加训练样本的利用效率, 进而加快算法的收敛速度.

    为了模拟无人机的飞行, 本文选择AirSim[28] 作为模拟器, 并将PPO算法扩展应用于虚拟管道避障导航任务. PPO遵循基于策略梯度的学习方法. 它通过与环境的交互收集经验样本, 并依据这些样本更新策略. 使用过的经验样本在更新策略后会被丢弃, 并采用更新后的策略收集新样本. PPO也遵循AC框架, 策略网络负责生成无人机在虚拟管道中的动作, 而评价网络通过估计优势函数评估当前策略的效果并指导策略的改进. 策略网络能够在连续动作空间中进行学习, 输出连续的实值向量作为动作. 这两个网络的参数更新都依赖于策略梯度方法, 以实现对策略的持续优化. 具体而言, 策略网络参数$ \theta $、评价网络参数$ \phi $的更新如下:

    $$ \begin{split} {{L}^{clip}}(\theta ) = \;&\underset{s,\;a\sim{{\pi }_{{{\theta }_{t}}}}}{\mathop{{{\mathrm{E}}}}} \left[ \min \left( \wp (\theta ){{{A}}^{{{\pi }_{{{\theta }_{t}}}}}},\; \right. \right. \\& \left. \left. clip(\wp (\theta ),\;1-\epsilon ,\;1+\epsilon ){{{A}}^{{{\pi }_{{{\theta }_{t}}}}}} \right) \right] \end{split} $$ (7)

    式中$ \wp (\theta ) $代表新策略与旧策略在给定状态下选择某个动作的概率比率, $ {{{A}}^{{{\pi }_{{{\theta }_{t}}}}}} $代表优势函数. $ \epsilon $是一个超参数, 用于确保新策略与旧策略之间的动作差异不会太大. 具体剪切过程如式(8)所示:

    $$ \begin{split} & clip(x,\; x_{MIN},\; x_{MAX})= \\ & \qquad\left\{\begin{aligned} & x, & & x_{MIN}\le x\le x_{MAX} \\ & x_{MIN}, & & x < x_{MIN} \\ & x_{\mathrm{\mathit{MAX}}}, & & x_{MAX} < x\end{aligned}\right.\end{split} $$ (8)

    策略参数$ \theta $的梯度更新如式(9) 所示:

    $$ {{{\theta }}_{new}}={{{\theta }}_{old}}+\alpha\nabla_\theta L^{c l i p}(\theta) $$ (9)

    式中$ {{{\theta }}_{new}} $代表更新后的策略参数, 而$ {{{\theta }}_{old}} $代表更新前的策略参数. $ \nabla_\theta L^{c l i p}(\theta) $是剪切损失函数关于策略参数$ \theta $的梯度; $ {\alpha} $表示学习率, 即参数更新的步长. 选择合适的学习率$ \alpha $对于参数$ \theta $的更新至关重要. 这种更新机制保证了策略在学习过程中的稳定性和效率.

    $$ L(\phi) =\underset{s\sim{{\pi }_{{{\theta }_{t}}}}}{\mathop{\rm{E}}}[(V_\phi\left(s_t\right)-V_t^{ {target }})^2] $$ (10)

    评价网络参数$ \phi $的更新依据式(10) 这个优化目标进行, 式中$ V_\phi\left(s_t\right) $表示由参数$ \phi $定义的价值函数对于状态$ s_t $的估计, $ V_t^{ {target}} $是目标价值函数的估计. 通过Adam或其他梯度下降来最小化目标函数$ L(\phi) $, 从而学习到能够准确评估价值函数的网络参数.

    为满足无人机在虚拟管道中自主避障的需求, 并充分利用视觉传感器的数据, 使其拥有感知侧面障碍物的能力, 让智能体记忆之前图像信息是一种可行的方法. 本文为此提出了一个新的无人机自主避障框架, 命名为RCPPO (Recurrent convolutional proximal policy optimization). 模型的训练遵循图3展示的RCPPO算法架构.

    图 3  RCPPO算法架构图
    Fig. 3  RCPPO algorithm architecture diagram

    在DRL中, 状态的精确表征对决策和优化至关重要. 选择合适的网络结构是简化决策空间并提升算法效率与稳定性的关键. 与传统PPO框架下的全连接结构相比, CNN的引入极大提升了深度图像数据的处理效率, 能够有效提取空间特征, 并筛除无关信息, 从而精简图像内容.

    然而, DRL通常不宜使用过大或过深的网络结构. 由于DRL的特性需要在训练几秒钟后就立即部署并应用新训练的模型, 这就要求使用较浅的网络结构以确保模型能快速适应新环境. 此外, DRL的训练数据不如监督学习那样稳定, 不易分割为训练集和测试集以规避过拟合现象. 本研究受到文献[16] 的启发, 改良PPO的网络结构, 实现了模型的轻量化, 并将其命名为CPPO-2; 同时, 文献[16] 所述的网络结构被称为CPPO-1. 此外, 引入了代表性的ResNet18网络结构, 命名为CPPO-ResNet. 文中使用的全连接层网络称为PPO. 为了在维持性能的同时最大限度减少参数量, 采用了两层卷积与最大池化层的配置. 优化后的CNN结构详见表1.

    表 1  CNN结构
    Table 1  CNN structure
    网络层 输入维度 卷积核尺寸 卷积核个数 步长 激活函数 输出维度
    CNN1 84 × 84 × 1 8 × 8 32 4 ReLU 20 × 20 × 32
    MaxPooling1 20 × 20 × 32 2 × 2 2 10 × 10 × 32
    CNN2 10 × 10 × 32 3 × 3 64 1 ReLU 8 × 8 × 64
    MaxPooling2 8 × 8 × 64 2 × 2 2 4 × 4 × 64
    下载: 导出CSV 
    | 显示表格

    注2. 这一设计旨在不损害性能的前提下减少网络复杂性, 增强算法的通用性和效率. 轻量化设计能够缓解DRL中的过拟合问题, 为无人机实际应用提供高效的感知能力. 通过改进CNN, 能够有效地处理大量图像数据, 并提升策略和评价网络的性能.

    在PPO算法处理POMDP环境下的无人机导航任务中, 关键挑战是无人机对任务全程的感知受限. 这导致其在遇到未知的障碍物时, 容易陷入局部最优解, 无法规划出理想的飞行路径. 针对此问题, 使用RNN以增强PPO算法的性能. 但是考虑到RNN在模型训练过程存在过拟合的可能性, 选取长短期记忆(Long short-term memory, LSTM) 神经网络来提取时间特征. LSTM作为RNN的一种改进, 其门控机制能够有效处理时序数据和长期依赖问题, 选择性保留或忽略信息, 确保关键信息在时间步之间得以传递. 每个LSTM单元包括遗忘门$ {{f}_{t}} $、输入门$ {{i}_{t}} $和输出门$ {{o}_{t}} $, 其基本结构如图4所示.

    图 4  LSTM网络结构图
    Fig. 4  LSTM structure

    在$ t $时刻, $ {{h}_{t-1}} $和$ {{x}_{t}} $分别代表上一时刻的输出和当前输入. $ {{C}_{t-1}} $和$ {{C}_{t}} $分别表示前一时刻和当前时刻的单元状态.

    首先, 通过遗忘门决定哪些信息被遗忘. 遗忘门使用$ \mathrm{sigmoid} $函数来确定上一时刻的输出$ {{h}_{t-1}} $和单元状态$ {{C}_{t-1}} $是否继续存在于当前时刻网络的单元状态$ {{C}_{t}} $中, 即丢弃部分信息. 遗忘门计算公式为:

    $$ {{f}_{t}}=\sigma \left( {{W}_{f}}\left[ {{h}_{t-1}},\;{{x}_{t}} \right]+{{b}_{f}} \right) $$ (11)

    式中$\sigma $为 sigmoid 激活函数, $ {{W}_{f}} $为权重矩阵, $ {{b}_{f}} $为偏置量, $ {{x}_{t}} $为当前网络的输入.

    接下来, 输入门决定更新哪些新信息到单元状态. 输入门使用$ \mathrm{sigmoid} $函数和$ \mathrm{tanh} $函数输出的信息来确定当前输入$ {{x}_{t}} $中的哪些信息应该被更新到单元状态$ {{C}_{t}} $中, 通过$ \mathrm{tanh} $函数生成新候选数值$ \tilde{{C}}_t $. 输入门计算公式为:

    $$ {{i}_{t}}=\sigma \left( {{W}_{i}}\left[ {{h}_{t-1}},\;{{x}_{t}} \right]+{{b}_{i}} \right) $$ (12)
    $$ \tilde{{C}}_t=\tanh \left({W}_{{c}}\left[{h}_{t-1},\; {x}_t\right]+{b}_{{c}}\right) $$ (13)

    新的单元状态$ C_t $的计算将结合遗忘门、输入门以及上一时刻的单元状态$ \tilde{{C}}_t $, 单元状态更新如下:

    $$ C_t=f_t C_{t-1}+i_t \tilde{C}_t $$ (14)

    最后, 输出门决定单元状态中的哪些信息应该输出. 通过使用$ \mathrm{sigmoid} $函数和$ \mathrm{tanh} $函数, 输出门确定了在单元状态$ C_t $中哪些信息应该被输出到$ {{h}_{t}} $中. 输出门的计算公式如下:

    $$ {{o}_{t}}=\sigma\left( {{W}_{o}}\left[ {{h}_{t-1}},\;{{x}_{t}} \right]+{{b}_{o}} \right) $$ (15)
    $$ {{h}_{t}}={{o}_{t}}\tanh \left( {{C}_{t}} \right) $$ (16)

    注3. RCPPO-N模型通过直接将CNN输出的特征向量输入RNN进行处理, 利用CNN提取的空间特征进行时间序列分析. 相比之下, RCPPO模型整合了空间和时间数据. 它首先通过CNN处理图像以提取空间数据, 随后通过LSTM分析这些数据以捕捉时间动态. 通过自适应拼接技术, 这两种信息被有效结合并送入全连接层. 这种策略不仅综合考虑了环境的静态与动态变化, 还增强了模型在训练过程中的理解能力, 有效地应对部分状态可观测性带来的挑战, 从而提高无人机的视觉自主避障能力.

    针对虚拟管道下的无人机自主避障问题, 改进后的PPO算法决策流程将在本节详述. 在$ t $时刻, 无人机通过深度相机捕获到的部分状态信息$ {o}_{t} $经过归一化处理后, 输入到CNN进行预处理, 以提取环境的关键特征. 这些特征随后被送入LSTM层, 该层负责存储并处理无人机的历史状态信息, 以便捕获环境的时间动态. LSTM层的输出, 即隐藏状态, 与CNN提取的特征信息经过权重融合, 一同作为训练数据传输到两个主要的神经网络: 策略网络和评价网络.

    策略网络根据当前无人机观测状态$ {o}_{t} $, 输出一个动作$ {a}_{t} $. 无人机控制系统获取这一动作, 并将其转化为实际的控制命令来执行, 随后进入下一个观测$ {o}_{t+1} $, 同时获得相应的奖励$ {r}_{t} $. 这一系列的观测、动作和奖励$ \left({{o}_{t}},\; {{a}_{t}},\; r_t,\; {{o}_{t+1}}\right) $被存储在经验缓冲区中. 当经验缓冲区中的数据量达到一定阈值时, 首先利用这些数据通过GAE来计算优势函数, 量化每个动作对于策略改进的贡献度.

    随后, 算法采用截断比率方法限制策略更新步幅, 以防止策略更新偏移过大. 同时, 价值网络用于辅助评估当前策略的性能, 并基于策略梯度优化方法直接对策略网络进行优化. 为了鼓励探索并防止策略过于确定性, 熵奖励被加入到目标函数中. 这一过程持续进行, 直到达到预设的迭代次数. 在此过程中, 通过定期查看训练曲线和在更新后的模型上测试成功率、奖励值和任务完成时间等指标, 以评估模型训练的效果并确定是否已经获得了最优策略. 值得注意的是, 策略网络和评价网络共享部分网络参数, 从而提高了训练的效率和模型的泛化能力. 双网络的结构如图5所示.

    图 5  双网络结构图
    Fig. 5  Dual network structure diagram

    通过设置三组仿真实验: 无障碍、静态障碍和动态障碍模拟正则管道的实际应用场景. 其中, 小立方体可以视为固定的监测站或传感器, 较大的立方体则代表巡检机器人或移动式采样器, 具体的虚拟管道场景如图6所示. 为了增强模型的泛化能力, 确保在仿真环境中训练得到的模型能够顺利迁移到实际应用场景中, 本文设置无人机的初始位置和目标位置为随机生成. 速度阈值为[−0.6, 0.6] m/s, LSTM捕获时间特征的步数为5, 两个连续步骤之间的时间间隔为0.05 s, 回合的最大步长预算根据不同场景进行不同设置.

    图 6  实验环境
    Fig. 6  Experiment environment

    本文首先在无障碍物的环境中训练模型, 以验证算法是否能在实验环境中成功达到预设目标. 其次, 在设置有静态障碍的虚拟管道环境中评估改进后的CNN对算法性能的影响. 最后, 在融合存在静态障碍与动态障碍的环境中, 使用RCPPO与不同算法进行对比, 以评估所提算法的优越性.

    在自主搭建的虚幻引擎仿真环境中, 本文主要通过测试成功率和无人机轨迹来评估改进算法的自主避障导航能力. 本实验所用的硬件环境为Intel i7-12700H的CPU, 16 GB内存和NVIDIA GeForce RTX 3070的GPU. 软件环境采用Python3.8 为编程工具, 并选用AirSim作为仿真平台. AirSim 通过内置的飞行控制器模拟真实飞行动力学, 接收飞行指令并根据无人机的物理特性和环境因素自动调整, 以确保模拟飞行的真实性和准确性. 为了增强安全性, 在无人机执行动作前, 引入安全层判断机制, 以避免速度指令与物理约束的冲突. DRL算法的性能主要通过智能体在训练过程中获得的奖励值来评估. 在固定的训练步长下, 智能体获得的奖励值越高, 说明智能体的学习效果越好, 能根据状态空间信息做出更好的决策.

    在AirSim仿真环境中, 通过调整深度相机的噪声设置, 模拟现实世界中因纹理和颜色变化引起的视觉噪声, 测试模型在多样化条件下的鲁棒性. 调节参数如下: HorizontalBump模拟水平方向上的凹凸不平影响; RandomNoise引入不同程度的随机噪点; HorizontalNoiseLines模拟水平噪声线条; HorizontalLineDistortion模拟水平线上的波动.

    表2是相关超参数的简明表示. 按照表2的参数设定, 可以稳定模型训练并加快收敛速度.

    表 2  参数设定
    Table 2  Parameter settings
    参数 取值
    学习率 0.0001
    优化器 Adam
    折扣因子 0.99
    剪切值 0.2
    批量大小 128
    熵权重 0.02
    GAE权重 0.95
    下载: 导出CSV 
    | 显示表格

    算法接受的输入是无人机当前视角下的深度图像, 其尺寸为84 × 84 × 1, 输出是无人机在机体坐标系下的三个轴上的线速度. 在训练期间无人机坐标设置如下: 无人机的初始位置在$ x $轴上的坐标为0 m, 目的地在$ x $轴上的坐标为10 m, 而$ y $轴和$ z $轴的坐标为随机初始化.

    在无障碍环境中, 如图6(a)所示, 无人机的主要任务是飞往随机目标点. 无人机将持续与环境交互, 直到达到预定交互次数. 在训练特定步数后, 保存当前模型并进行测试. 测试完成后, 训练继续进行. 当与环境的交互次数达到预定值时, 训练结束.

    本文在无障碍环境中训练了27 500步长, 以比较PPO、PPO-ResNet、CPPO-1和CPPO-2之间的性能差异. 通过奖励值和测试成功率两个指标来评估模型训练结果.

    无障碍训练过程中的平均奖励值如图7所示. 从整个训练过程可以观察到, 所有算法的奖励值具有相同的上升趋势, 其中CPPO-1和CPPO-2收敛后的奖励值高于PPO和PPO-ResNet算法. 这表明改进后的PPO在学习效率和策略优化方面具有潜在优势, 特别适用于自主避障的无人机深度相机的特定应用场景. 经过7 500步训练后, CPPO-2的奖励值增长更为稳定, 并且略高于CPPO-1, 显示出比CPPO-1更优秀的收敛速度. 当训练步数超过10 000步后, CPPO-1的奖励值开始出现一些波动, 而CPPO-2的奖励值则相对稳定. 这与CNN设计有关, 说明本文所采用的方法在保证参数轻量化的同时, 也使得模型具有较好的性能.

    图 7  无障碍环境中的平均奖励值
    Fig. 7  Average reward values in obstacle-free environment

    为进一步比较两种奖励值较高算法之间的差异, 本文将它们的最佳模型应用于与训练环境不同的测试环境中, 以评估模型的鲁棒性. 测试环境与训练环境存在多项不一致, 包括障碍物的位置和大小, 以及正则化虚拟管道洞口的位置; 同时, 测试环境的纹理颜色设置也与训练环境不同(给予深度相机不同程度的噪声), 以模拟现实世界的条件. 此外, 无人机的起始位置设为随机, 而目标位置则保持固定. 无人机在无障碍测试中的成功率如表3所示, 两种算法的轨迹如图8和图9所示.

    表 3  无障碍环境中的测试成功率
    Table 3  Test success rate in obstacle-free environment
    算法类型 平均得分 得分标准差 成功率(%)
    CPPO-1 21.31 7.29 97.00
    CPPO-1 (高噪声) 20.71 8.98 96.67
    CPPO-2 22.65 0.21 100.00
    CPPO-2 (高噪声) 22.64 0.21 100.00
    下载: 导出CSV 
    | 显示表格
    图 8  CPPO-1无障碍轨迹图
    Fig. 8  Obstacle-free trajectory map of CPPO-1
    图 9  CPPO-2无障碍轨迹图
    Fig. 9  Obstacle-free trajectory map of CPPO-2

    表3所示, 测试实验结果表明, CPPO-2的成功率比CPPO-1高了3%. 尽管两种算法都能驱动无人机成功通过虚拟管道洞口, 但从整个任务过程对比来看, 图9采用CPPO-2在接近洞口的过程中产生的轨迹更平滑, 而且在向目标洞口前进的轨迹更集中. 相较之下, 图8采用CPPO-1规划的路径则在后期需要的路径更长, 这将导致无人机需要更长续航. 虽然CPPO-1也有不错的性能, 但在部分测试中存在一些波动, 导致其奖励值的标准差较大. 这意味着CPPO-2可以让无人机学习鲁棒性策略, 方差更小, 动作更稳定. 改进后CPPO-2的性能优于CPPO-1.

    面对深度相机存在高噪声的环境时, CPPO-1算法的任务成功率相比低噪声环境下降低了0.33%, 同时得分标准差也有所增加; 反观CPPO-2, 在不同噪声水平下任务成功率均维持在100%. 综上所述, 在无障碍环境下, 经过仿真实验验证改进后的CNN能够降低传感器误差对无人机自主避障性能的影响, 提高任务成功率.

    本节进一步探讨在静态障碍环境下无人机的避障导航能力. 如图6(b)所示, 虚拟管道中设置随机静态障碍物. 研究的目标是训练无人机在不与障碍物发生碰撞的情况下安全到达目的地. 若无人机撞到障碍物, 则立即结束当前任务. 在静态障碍物环境下, 本文对PPO、PPO-ResNet、CPPO-1和CPPO-2之间的性能差异进行了比较. 静止障碍训练过程中的平均奖励值如图10所示.

    图 10  静态障碍环境中的平均奖励值
    Fig. 10  Average reward values in static obstacle environment

    从整个训练过程可以观察到, PPO、CPPO-1和CPPO-2奖励值均收敛, 但是PPO-ResNet出现了震荡, 这种现象是由模型参数的过拟合所引起的, 证实网络模型层数过多会造成训练不稳定. 相比较于无障碍环境, 智能体的训练步长显著增加.

    本文在静态障碍环境中训练140000步长, 在大约20000步内, CPPO-2的奖励值增长相对稳定并且略高于CPPO-1, 表明CPPO-2更容易收敛到一个较好的策略, 并且在收敛过程中的波动较小. 在训练40000步后, PPO开始收敛, 其收敛步长大于CPPO-1和CPPO-2的收敛步长, 训练时间较长. 而CPPO-2在20000步开始收敛. 经过120000步后, CPPO-1的奖励值出现下降, 明显低于CPPO-2, 表明CPPO-1在这个任务中对环境的变化更加敏感, 面对环境变化时无法及时调整策略, 导致性能下降. 改进后的CPPO-2在具有静态障碍环境中的表现优于CPPO-1和其他两种算法, 奖励值更高且更稳定. 静态障碍测试成功率如表4所示, 选取两种奖励值较好算法给出无人机轨迹, 如图11图 12所示.

    表 4  静态障碍环境中的测试成功率
    Table 4  Test success rate in static obstacle environment
    算法类型 平均得分 得分标准差 成功率(%)
    CPPO-1 13.96 17.09 81.08
    CPPO-1 (高噪声) 12.53 18.16 78.60
    CPPO-2 20.26 9.32 90.52
    CPPO-2 (高噪声) 17.84 13.76 88.93
    下载: 导出CSV 
    | 显示表格
    图 11  CPPO-1静态障碍轨迹图
    Fig. 11  Static obstacle trajectory map of CPPO-1
    图 12  CPPO-2静态障碍轨迹图
    Fig. 12  Static obstacle trajectory map of CPPO-2

    测试实验结果表明, 在引入障碍物后, 两种算法在同一静态障碍环境下完成任务的成功率均有不同程度的下降, 但是CPPO-1比CPPO-2低了9.44% 的成功率, 且得分标准差更大. 从图11图12也可以观察到CPPO-1路径呈现出较多曲折, 存在较多调整, 避障路径不平滑. 在高噪声环境下CPPO-1的任务成功率比低噪声下的CPPO-1降低了2.48%. 相较之下, CPPO-2在低噪声环境下的任务成功率比在高噪声环境下高出1.59%. 改进后的CPPO-2与改进前的CPPO-1相比, 任务成功率提高了0.89%. CPPO-2算法的平均得分和成功率均优于CPPO-1, 尤其在高噪声环境下依然保持较好的表现, 表现更为鲁棒. 从图11图12轨迹图对比可见, CPPO-2的测试轨迹在$ xy $平面和$ xz $平面相比CPPO-1更集中, 其轨迹规划更为平滑和精确, 避障性能优于CPPO-1.

    为了验证RCPPO在动态场景中的性能, 本文设计了一个包含多个静态和动态障碍物的复杂场景, 如图6(c) 所示. 这些动态障碍的移动速度不一致, 使得它们之间出现重叠、分离和趋近等状态, 增加了环境的复杂度和不确定性. 这种设计旨在验证智能体的鲁棒性. 在这个实验中, 无人机经过200 000次训练. CPPO结合LSTM来捕获时间特征并与空间特征相融合. 这种方法不仅关注当前时刻的状态, 还能够从全局角度理解整个轨迹, 避免无人机陷入局部循环和参数过拟合. 动态障碍训练过程中的平均奖励如图13所示.

    图 13  动态障碍环境中的平均奖励值
    Fig. 13  Average reward values in dynamic obstacle environment

    图13可以观察到在训练的初始阶段, CPPO-1、RCPPO-N和RCPPO的奖励都是负数, 这意味着无人机在动态障碍物环境中的初始表现并不理想. 在60 000到100 000步长期间, RCPPO的奖励增长速度明显快于CPPO-1, 略优于RCPPO-N. 在训练后期, RCPPO的奖励值不仅明显高于CPPO-1, 而且奖励值波动较少, 同时相比较RCPPO-N, 奖励值略高, 波动缓和. 这些数据表明RCPPO在此环境中的性能明显超过CPPO-1, 略优于RCPPO-N, 并且具有更强的鲁棒性. 这种差异是因为CPPO-1陷入了某种局部最优, RCPPO-N则没有更细致地考虑空间特征, 而RCPPO则成功找到一种更为理想的决策模型, 综合考虑环境的静态与动态变化的策略. 动态障碍测试成功率如表5所示.

    表 5  动态障碍环境中的测试成功率
    Table 5  Test success rate in dynamic obstacle environment
    算法类型 平均得分 得分标准差 成功率(%)
    CPPO-1 7.52 19.70 65.34
    RCPPO-N 12.34 17.34 78.47
    RCPPO-N (高动态) 11.02 18.06 74.73
    RCPPO 15.61 14.56 85.32
    RCPPO (高动态) 15.02 16.02 82.63
    下载: 导出CSV 
    | 显示表格

    表5可以看出, 采用CPPO-1算法时, 无人机的避障成功率仅为65.34%, 采用RCPPO-N则能达到78.47%, 而使用RCPPO时, 成功率达到了85.32%, 相比CPPO-1提高了19.98%, 相比RCPPO-N高了6.85%. 为了进一步分析相邻帧深度图像相似性的影响, 通过模拟不同速度的动态障碍物进行验证. 高动态环境中, RCPPO相比RCPPO-N成功率提高了7.9%, 验证了RCPPO在应对高动态障碍物方面的优势. 采用CPPO-1和RCPPO无人机轨迹图如图14和图15所示.

    图 14  CPPO-1动态障碍轨迹图
    Fig. 14  Dynamic obstacle trajectory map of CPPO-1
    图 15  RCPPO动态障碍轨迹图
    Fig. 15  Dynamic obstacle trajectory map of RCPPO

    图14所示, CPPO-1的轨迹表明无人机在面对移动障碍物时趋向于选择相同的路径, 通过奖励值分析是因为CPPO-1在尝试避免障碍物时, 陷入局部最优解或者没有找到更优的路径, 导致未能成功达到预期目标. 由图15的RCPPO轨迹可以明显观察到无人机在面对移动障碍物时会选择不同的动作完成任务. 综上所述, RCPPO在面对无人机复杂障碍环境时, 明显优于CPPO-1算法, 能够为无人机提供更优化的路径.

    表6所示, 在无障碍环境和静态障碍环境中, 采用经过动态障碍物训练完的RCPPO算法进行仿真测试, 均展现出良好性能. 这一结果表明, 尽管该算法针对单一环境进行训练, 但它具备一定的泛化能力, 能够适应多样化的环境, 并在各种实际应用场景中保持有效性.

    表 6  RCPPO泛化性测试成功率
    Table 6  Test success rate of RCPPO generalization
    仿真环境 平均得分 得分标准差 成功率(%)
    无障碍 22.61 0.28 100.00
    静态障碍 17.70 13.07 89.36
    动态障碍 15.61 14.56 85.32
    下载: 导出CSV 
    | 显示表格

    本文针对虚拟管道环境下无人机自主避障问题, 提出了一种基于视觉传感器的深度强化学习自主学习架构. 首先, 构建了一种新颖的奖励函数来引导无人机在复杂环境中完成任务; 其次, 集成轻量化CNN和LSTM网络, CNN可以加速模型的收敛, LSTM可以增强模型鲁棒性; 最后, 将CNN与LSTM相融合提出RCPPO, 并在仿真实验环境中对其进行验证. 三组实验环境下的结果均表明无人机在正则化虚拟管道环境下均可做出合理的动作, 进而完成避障, 说明模型具有良好的泛化能力. 考虑到多无人机系统可以为DRL算法提供更为全面的感知并提高系统的总体可靠性, 未来的研究致力于将本文提出的方法扩展到非正则化虚拟管道环境中的多无人机集群避障问题.

  • 图  1  DRL基本原理

    Fig.  1  Basic principle of DRL

    图  2  无人机连续动作空间示意图

    Fig.  2  Schematic diagram of unmanned aerial vehicle continuous action space

    图  3  RCPPO算法架构图

    Fig.  3  RCPPO algorithm architecture diagram

    图  4  LSTM网络结构图

    Fig.  4  LSTM structure

    图  5  双网络结构图

    Fig.  5  Dual network structure diagram

    图  6  实验环境

    Fig.  6  Experiment environment

    图  7  无障碍环境中的平均奖励值

    Fig.  7  Average reward values in obstacle-free environment

    图  8  CPPO-1无障碍轨迹图

    Fig.  8  Obstacle-free trajectory map of CPPO-1

    图  9  CPPO-2无障碍轨迹图

    Fig.  9  Obstacle-free trajectory map of CPPO-2

    图  10  静态障碍环境中的平均奖励值

    Fig.  10  Average reward values in static obstacle environment

    图  11  CPPO-1静态障碍轨迹图

    Fig.  11  Static obstacle trajectory map of CPPO-1

    图  12  CPPO-2静态障碍轨迹图

    Fig.  12  Static obstacle trajectory map of CPPO-2

    图  13  动态障碍环境中的平均奖励值

    Fig.  13  Average reward values in dynamic obstacle environment

    图  14  CPPO-1动态障碍轨迹图

    Fig.  14  Dynamic obstacle trajectory map of CPPO-1

    图  15  RCPPO动态障碍轨迹图

    Fig.  15  Dynamic obstacle trajectory map of RCPPO

    表  1  CNN结构

    Table  1  CNN structure

    网络层 输入维度 卷积核尺寸 卷积核个数 步长 激活函数 输出维度
    CNN1 84 × 84 × 1 8 × 8 32 4 ReLU 20 × 20 × 32
    MaxPooling1 20 × 20 × 32 2 × 2 2 10 × 10 × 32
    CNN2 10 × 10 × 32 3 × 3 64 1 ReLU 8 × 8 × 64
    MaxPooling2 8 × 8 × 64 2 × 2 2 4 × 4 × 64
    下载: 导出CSV

    表  2  参数设定

    Table  2  Parameter settings

    参数 取值
    学习率 0.0001
    优化器 Adam
    折扣因子 0.99
    剪切值 0.2
    批量大小 128
    熵权重 0.02
    GAE权重 0.95
    下载: 导出CSV

    表  3  无障碍环境中的测试成功率

    Table  3  Test success rate in obstacle-free environment

    算法类型 平均得分 得分标准差 成功率(%)
    CPPO-1 21.31 7.29 97.00
    CPPO-1 (高噪声) 20.71 8.98 96.67
    CPPO-2 22.65 0.21 100.00
    CPPO-2 (高噪声) 22.64 0.21 100.00
    下载: 导出CSV

    表  4  静态障碍环境中的测试成功率

    Table  4  Test success rate in static obstacle environment

    算法类型 平均得分 得分标准差 成功率(%)
    CPPO-1 13.96 17.09 81.08
    CPPO-1 (高噪声) 12.53 18.16 78.60
    CPPO-2 20.26 9.32 90.52
    CPPO-2 (高噪声) 17.84 13.76 88.93
    下载: 导出CSV

    表  5  动态障碍环境中的测试成功率

    Table  5  Test success rate in dynamic obstacle environment

    算法类型 平均得分 得分标准差 成功率(%)
    CPPO-1 7.52 19.70 65.34
    RCPPO-N 12.34 17.34 78.47
    RCPPO-N (高动态) 11.02 18.06 74.73
    RCPPO 15.61 14.56 85.32
    RCPPO (高动态) 15.02 16.02 82.63
    下载: 导出CSV

    表  6  RCPPO泛化性测试成功率

    Table  6  Test success rate of RCPPO generalization

    仿真环境 平均得分 得分标准差 成功率(%)
    无障碍 22.61 0.28 100.00
    静态障碍 17.70 13.07 89.36
    动态障碍 15.61 14.56 85.32
    下载: 导出CSV
  • [1] Zhou T, Chen M, Zou J. Reinforcement learning based data fusion method for multi-sensors. IEEE/CAA Journal of Automatica Sinica, 2020, 7(6): 1489−1497 doi: 10.1109/JAS.2020.1003180
    [2] Yasin J N, Mohamed S A S, Haghbayan M H, Heikkonen J, Tenhunen H, Plosila J. Low-cost ultrasonic based object detection and collision avoidance method for autonomous robots. International Journal of Information Technology, 2021, 13: 97−107 doi: 10.1007/s41870-020-00513-w
    [3] Ravankar A, Ravankar A A, Rawankar A, Hoshino Y. Autonomous and safe navigation of mobile robots in vineyard with smooth collision avoidance. Agriculture, 2021, 11(10): 954−970 doi: 10.3390/agriculture11100954
    [4] Fan J, Lei L, Cai S, Shen G, Cao P, Zhang L. Area surveillance with low detection probability using UAV swarms. IEEE Transactions on Vehicular Technology, 2024, 73(2): 1736−1752 doi: 10.1109/TVT.2023.3318641
    [5] Mao P, Quan Q. Making robotics swarm flow more smoothly: A regular virtual tube model. In: Proceedings of the 2022 IEEE/RSJ International Conference on Intelligent Robots and Systems. Kyoto, Japan: IEEE, 2022. 4498−4504
    [6] Lv S, Gao Y, Che J, Quan Q. Autonomous drone racing: Time-optimal spatial iterative learning control within a virtual tube. In: Proceedings of the 2023 IEEE International Conference on Robotics and Automation. London, United Kingdom: IEEE, 2023. 3197−3203
    [7] 岳敬轩, 王红茹, 朱东琴, ALEKSANDR Chupalov. 基于改进粒子滤波的无人机编队协同导航算法. 航空学报, 2023, 44(14): 251−262

    Yue Jing-Xuan, Wang Hong-Ru, Zhu Dong-Qin, Aleksandr Chupalov. UAV formation cooperative navigation algorithm based on improved particle filter. Acta Aeronautica et Astronautica Sinica, 2023, 44(14): 251−262
    [8] 吴健发, 王宏伦, 王延祥, 刘一恒. 无人机反应式扰动流体路径规划. 自动化学报, 2023, 49(2): 272−287

    Wu Jian-Fa, Wang Hong-Lun, Wang Yan-Xiang, Liu Yi-Heng. UAV reactive interfered fluid path planning. Acta Automatica Sinica, 2023, 49(2): 272−287
    [9] Opromolla R, Fasano G. Visual-based obstacle detection and tracking, and conflict detection for small UAS sense and avoid. Aerospace Science and Technology, 2021, 119: 107167−107186 doi: 10.1016/j.ast.2021.107167
    [10] Yao P, Sui X, Liu Y, Zhao Z. Vision-based environment perception and autonomous obstacle avoidance for unmanned underwater vehicle. Applied Ocean Research, 2023, 134: 103510−103527 doi: 10.1016/j.apor.2023.103510
    [11] Xu Z, Xiu Y, Zhan X, Chen B, Shimada K. Vision-aided UAV navigation and dynamic obstacle avoidance using gradient-based b-spline trajectory optimization. In: Proceedings of the 2023 IEEE International Conference on Robotics and Automation. London, United Kingdom: IEEE, 2023. 1214−1220
    [12] Rezaei N, Darabi S. Mobile robot monocular vision-based obstacle avoidance algorithm using a deep neural network. Evolutionary Intelligence, 2023, 16(6): 1999−2014 doi: 10.1007/s12065-023-00829-z
    [13] Abd Elaziz M, Dahou A, Abualigah L, Yu L, Alshinwan M, Khasawneh A M, et al. Advanced metaheuristic optimization techniques in applications of deep neural networks: A review. Neural Computing and Applications, 2021, 33(21): 14079−14099 doi: 10.1007/s00521-021-05960-5
    [14] Roghair J, Niaraki A, Ko K, Jannesari A. A vision based deep reinforcement learning algorithm for UAV obstacle avoidance. In: Proceedings of the 2021 Intelligent Systems Conference. Cham, Switzerland: Springer, 2022. 115−128
    [15] 周治国, 余思雨, 于家宝, 段俊伟, 陈龙, 陈俊龙. 面向无人艇的T-DQN智能避障算法研究. 自动化学报, 2023, 49(8): 1645−1655

    Zhou Zhi-Guo, Yu Si-Yu, Yu Jia-Bao, Duan Jun-Wei, Chen Long, Chen Jun-Long. Research on T-DQN intelligent obstacle avoidance algorithm of unmanned surface vehicle. Acta Automatica Sinica, 2023, 49(8): 1645−1655
    [16] Kalidas A P, Joshua C J, Md A Q, Basheer S, Mohan S, Sakri S. Deep reinforcement learning for vision-based navigation of UAVs in avoiding stationary and mobile obstacles. Drones, 2023, 7(4): 245−267 doi: 10.3390/drones7040245
    [17] Liang C, Liu L, Liu C. Multi-UAV autonomous collision avoidance based on PPO-GIC algorithm with CNN-LSTM fusion network. Neural Networks, 2023, 162: 21−33 doi: 10.1016/j.neunet.2023.02.027
    [18] Zhao X, Yang R, Zhang Y, Yan M, Yue L. Deep reinforcement learning for intelligent dual-UAV reconnaissance mission planning. Electronics, 2022, 11(13): 2031−2048 doi: 10.3390/electronics11132031
    [19] 施伟, 冯旸赫, 程光权, 黄红蓝, 黄金才, 刘忠, 等. 基于深度强化学习的多机协同空战方法研究. 自动化学报, 2021, 47(7): 1610−1623

    Shi Wei, Feng Yang-He, Cheng Guang-Quan, Huang Hong-Lan, Huang Jin-Cai, Liu Zhong, et al. Research on multi-aircraft cooperative air combat method based on deep reinforcement learning. Acta Automatica Sinica, 2021, 47(7): 1610−1623
    [20] Kurniawati H. Partially observable Markov decision processes and robotics. Annual Review of Control, Robotics, and Autonomous Systems, 2022, 5: 253−277 doi: 10.1146/annurev-control-042920-092451
    [21] Fang W, Chen Y, Xue Q. Survey on research of RNN-based spatio-temporal sequence prediction algorithms. Journal on Big Data, 2021, 3(3): 97−110 doi: 10.32604/jbd.2021.016993
    [22] Schulman J, Moritz P, Levine S, Jordan M, Abbeel P. High-dimensional continuous control using generalized advantage estimation. arXiv preprint arXiv: 1506.02438, 2015.
    [23] Zhang X, Zheng K, Wang C, Chen J, Qi H. A novel deep reinforcement learning for POMDP-based autonomous ship collision decision-making. Neural Computing and Applications, 2023: 1−15
    [24] 姚鹏, 解则晓. 基于修正导航向量场的AUV自主避障方法. 自动化学报, 2020, 46(8): 1670−1680

    Yao Peng, Xie Ze-Xiao. Autonomous obstacle avoidance for AUV based on modified guidance vector field. Acta Automatica Sinica, 2020, 46(8): 1670−1680
    [25] Khetarpal K, Riemer M, Rish I, Precup D. Towards continual reinforcement learning: A review and perspectives. Journal of Artificial Intelligence Research, 2022, 75: 1401−1476 doi: 10.1613/jair.1.13673
    [26] Schulman J, Wolski F, Dhariwal P, Radford A, Klimov O. Proximal policy optimization algorithms. arXiv preprint arXiv: 1707.06347, 2017.
    [27] Hou Y, Liu L, Wei Q, Xu X, Chen C. A novel DDPG method with prioritized experience replay. In: Proceedings of the 2017 IEEE International Conference on Systems, Man, and Cybernetics. Banff, Canada: IEEE, 2017. 316−321
    [28] Shah S, Dey D, Lovett C, Kapoor A. AirSim: High-fidelity visual and physical simulation for autonomous vehicles. In: Proceedings of the Field and Service Robotics: Results of the 11th International Conference. Zurich, Switzerland: Springer, 2018. 621−635
  • 期刊类型引用(2)

    1. 王辉,黄宇廷,夏玉婷,范自柱,罗国亮,杨辉. 基于视觉属性的多模态可解释图像分类方法. 自动化学报. 2025(02): 445-456 . 本站查看
    2. 徐沛,黄凯奇. 大模型引导的高效强化学习方法. 图学学报. 2024(06): 1165-1177 . 百度学术

    其他类型引用(0)

  • 加载中
图(15) / 表(6)
计量
  • 文章访问数:  803
  • HTML全文浏览量:  485
  • PDF下载量:  281
  • 被引次数: 2
出版历程
  • 收稿日期:  2023-11-22
  • 录用日期:  2024-05-12
  • 网络出版日期:  2024-06-25
  • 刊出日期:  2024-11-26

目录

/

返回文章
返回