2.845

2023影响因子

(CJCR)

  • 中文核心
  • EI
  • 中国科技核心
  • Scopus
  • CSCD
  • 英国科学文摘

留言板

尊敬的读者、作者、审稿人, 关于本刊的投稿、审稿、编辑和出版的任何问题, 您可以本页添加留言。我们将尽快给您答复。谢谢您的支持!

姓名
邮箱
手机号码
标题
留言内容
验证码

电力设施多模态精细化机器人巡检关键技术及应用

张辉 杜瑞 钟杭 曹意宏 王耀南

张耀中, 胡小方, 周跃, 段书凯. 基于多层忆阻脉冲神经网络的强化学习及应用. 自动化学报, 2019, 45(8): 1536-1547. doi: 10.16383/j.aas.c180685
引用本文: 张辉, 杜瑞, 钟杭, 曹意宏, 王耀南. 电力设施多模态精细化机器人巡检关键技术及应用. 自动化学报, 2025, 51(1): 20−42 doi: 10.16383/j.aas.c230809
ZHANG Yao-Zhong, HU Xiao-Fang, ZHOU Yue, DUAN Shu-Kai. A Novel Reinforcement Learning Algorithm Based on Multilayer Memristive Spiking Neural Network With Applications. ACTA AUTOMATICA SINICA, 2019, 45(8): 1536-1547. doi: 10.16383/j.aas.c180685
Citation: Zhang Hui, Du Rui, Zhong Hang, Cao Yi-Hong, Wang Yao-Nan. The key technology and application of multi-modal fine robot inspection for power facilities. Acta Automatica Sinica, 2025, 51(1): 20−42 doi: 10.16383/j.aas.c230809

电力设施多模态精细化机器人巡检关键技术及应用

doi: 10.16383/j.aas.c230809 cstr: 32138.14.j.aas.c230809
基金项目: 科技创新2030——“新一代人工智能”重大项目(2021ZD0114503), 国家自然科学基金重大研究计划(92148204), 国家自然科学基金(62027810), 湖南省科技创新领军人才(2022RC3063), 湖南省十大技术攻关项目(2024GK1010), 湖南省重点研发计划(2023GK2068, 2022GK2011), 国网湖南省电力有限公司科技项目(5216A522001Y, 5216A5240003), 国家电网有限公司科技项目(5700-202423229A-1-1-ZN)资助
详细信息
    作者简介:

    张辉:湖南大学机器人学院教授. 主要研究方向为机器视觉, 图像处理和机器人控制. E-mail: zhanghuihby@126.com

    杜瑞:湖南大学机器人学院博士研究生. 2020年获得湘潭大学硕士学位. 主要研究方向为机器视觉, 图像处理. 本文通信作者.E-mail: durui@hnu.edu.cn

    钟杭:湖南大学机器人学院副教授. 分别于2013年、2016年和2020年获得湖南大学电气与信息工程学院自动化科学专业学士、硕士和博士学位. 主要研究方向为航空机器人, 多机器人系统, 视觉伺服, 视觉导航和非线性控制. E-mail: zhonghang@hnu.edu.cn

    曹意宏:湖南大学机器人学院博士研究生. 2021年获得湖南师范大学硕士学位. 主要研究方向为计算机视觉. E-mail: caoyihong@hnu.edu.cn

    王耀南:中国工程院院士, 湖南大学电气与信息工程学院教授. 1995 年获得湖南大学博士学位. 主要研究方向为机器人学, 智能控制和图像处理. E-mail: yaonan@hnu.edu.cn

The Key Technology and Application of Multi-modal Fine Robot Inspection for Power Facilities

Funds: Supported by National Key Research and Development Program of China (2021ZD0114503), Major Research Plan of National Natural Science Foundation of China (92148204), National Natural Science Foundation of China (62027810), Hunan Leading Talent of Technological Innovation (2022RC3063), Top Ten Technical Research Projects of Hunan Province (2024GK1010), Key Research and Development Program of Hunan Province (2023GK2068, 2022GK2011), Science and Technology Project of State Grid Hunan Electric Power Company Limited (5216A522001Y, 5216A5240003), and Science and Technology Project of State Grid Corporation of China (5700-202423229A-1-1-ZN)
More Information
    Author Bio:

    ZHANG Hui Professor at the School of Robotics, Hunan University. His research interest covers machine vision, image processing, and robot control

    DU Rui Ph.D. candidate at the School of Robotics, Hunan University. He received his master degree from Xiangtan University in 2020. His research interest covers machine vision and image processing. Corresponding author of this paper

    ZHONG Hang Associate professor at the School of Robotics, Hunan University. He received his bachelor degree, master degree and Ph.D. degree in automation science from the College of Electrical and Information Engineering, Hunan University in 2013, 2016 and 2020, respectively. His research interest covers aerial robotics, multi-robot systems, visual servoing, visual navigation, and nonlinear control

    CAO Yi-Hong Ph.D. candidate at the School of Robotics, Hunan University. He received his master degree from Hunan Normal University in 2021. His main research interest is computer vision

    WANG Yao-Nan Academician at Chinese Academy of Engineering, professor at the College of Electrical and Information Engineering, Hunan University. He received his Ph.D. degree from Hunan University in 1995. His research interest covers robotics, intelligent control, and image processing

  • 摘要: 电力设施巡检对于加快电网基础设施智能化改造和智能微电网建设, 提高电力系统互补互济和智能调节能力的需求具有重要作用. 近年来, 智能巡检机器人开始在电力巡检中广泛应用, 在提高电力设施巡检效率和准确性、提升安全性、降低成本和促进电力智能化发展等方面发挥关键作用. 本文从电力巡检机器人的智能感知和导航技术出发, 重点介绍目标检测、语义分割、自主导航等共性关键技术的国内外发展现状. 然后以可见光红外双光融合、可见光图像和点云数据融合、声纹和可见光融合为例, 阐述电力场景多模态数据融合方式. 并进一步介绍电力部件精准分割和异物检测、线路点云杆塔倾斜检测、输电线路覆冰多模态检测和电力架空线路缺陷分析及台账异常检测等电力设施多模态机器人相关案例. 最后探讨电力设施多模态精细化机器人巡检关键技术的发展趋势和所面临的挑战.
  • 强化学习, 是智能体通过与环境交互、试错的过程来学习的行为.它是一种以环境反馈作为输入的自适应的机器学习方法[1], 目前已广泛应用于控制科学、运筹学等诸多领域[2-3].在强化学习过程中, 智能体最初对环境一无所知, 通过与环境交互的方式获取奖赏.智能体在这个过程中学习策略, 使得最终能在某种评价体系下达到最优目标. Q学习是一种典型的无需模型的强化学习算法, 智能体根据动作价值即Q值函数, 通过对状态-动作序列进行足够多的访问, 学习到最优策略[4].通常, 在Q学习任务中, Q值函数由表格的方式实现, 在状态为连续值的情况下, 则通过离散化状态以存储动作价值, 然而传统的表格法有如下缺点: 1)状态的离散度难以控制. 2)状态维数较多时会导致维数灾难.

    将神经网络作为Q值函数拟合器可以有效解决以上问题.神经网络可以分为三代:第一代把McCulloch-Pitts神经元模型作为计算单元; 第二代为人工神经网络(Artificial neural network, ANN), 它们的计算单元中带有激活函数; 脉冲神经网络(Spiking neural network, SNN)将脉冲神经元作为计算单元, 被称为第三代神经网络[5]. SNN的学习方式与哺乳动物的学习方式非常类似[6].此外, SNN能量效率高, 有报道证明SNN芯片比用现场可编程门阵列(Field programmable gate array, FPGA)实现的ANN能耗低两个数量级[7].因此, 基于SNN的强化学习算法更容易进行低功耗-硬件实现.

    与ANN类似, SNN的学习算法也分为监督学习算法和非监督学习算法.非监督学习算法仅仅基于数据的特征, 这类算法对计算能力要求较低, 因为不需要数据集的多次迭代, 脉冲神经网络中典型的非监督学习算法是脉冲时间依赖可塑性(Spike-timing dependent plasticity, STDP)学习规则[8].而监督学习算法需要带有标签的数据集, 需要多次迭代运算, 主要有远程监督学习算法(ReSuMe)等[9].

    目前许多训练SNN的学习算法都只能用于不含隐含层的网络, 且没有通用的方法[10].对于训练多层SNN, 一种方式是先训练ANN, 再将其转换为SNN[11], 这种基于映射的学习方式会导致局部最优, 因为训练在ANN上进行, 而不是SNN[12].也有人提出了利用突触延迟的监督学习算法, 并行调整隐含层和输出层权重[13].由于本文基于多层SNN实现强化学习算法, 因此设计有效的多层SNN的训练方法是一个必须要解决的问题.

    基于传统半导体器件和集成技术实现的神经网络电路复杂度高、规模小、处理能力有限, 难以真正用于嵌入式智能体.本文进一步引入新型纳米信息器件忆阻器, 探求强化学习算法的硬件加速新方案.忆阻器是除电阻、电容、电感以外的第四种基本电路元件, 由Chua[14]于1971年基于电路完备性理论提出, 其定义忆阻器的电阻值为流经忆阻器的磁通量和电荷的比值($M={\rm d}\phi/{\rm d}q$).然而, 由于没有物理实物, 忆阻器一直没有引起太多的关注.直到2008年, 美国惠普(HP)实验室制造出了基于二氧化钛的交叉存储阵列, 并声称交叉点处的存储单元即为预言的忆阻器[15], 立即引起了学术界和工业界的深厚兴趣.之后, 研究者对忆阻器的模型、特性进行了广泛的研究[16-17].此外由于忆阻器具有记忆力和类似突触的可变导电性, 使其成为构建硬件神经网络关键部件-电子突触的理想器件.近年来, Jo等[18]证明了CMOS神经元和忆阻突触构成的神经网络能够实现一些重要的突触行为, 如STDP.在此基础上, 研究者提出了多种用忆阻器实现STDP的方法, 例如Panwar等[19]实现了对任意STDP波形的模拟. Serrano-Gotarredona等[20]仅用一个忆阻器实现并完成了对STDP的仿真.

    本文提出并研究了基于多层SNN的强化学习算法, 并利用忆阻器设计了其硬件实现方案, 下文称之为忆阻脉冲强化学习(Memristive spiking reinforcement learning, MSRL).首先, 为了实现数据和脉冲之间的转换, 设计了用于数据-脉冲转换的脉冲神经元; 然后, 通过改进基本STDP学习规则, 将SNN与强化学习算法有效结合, 并设计相应的忆阻突触以期实现硬件加速.此外, 为了进一步提高网络的学习效率, 构建了可动态调整的网络结构.最后基于brian2框架[21]完成了对MSRL的实验仿真.结果显示, MSRL控制的智能体可以以较低的计算资源消耗, 高效地完成强化学习任务.

    本文结构如下:第1节介绍了Q学习和SNN以及忆阻器的背景知识, 第2节给出MSRL算法的基础, 第3节详细地介绍了MSRL算法设计.第4节给出仿真结果, 第5节总结全文.

    强化学习的理论基础是马尔科夫决策过程(Markov decision process, MDP). MDP可以表示为: $({\mathit{\boldsymbol{s}}}, {\mathit{\boldsymbol{A}}}, P_a({\mathit{\boldsymbol{s}}}_t, {\mathit{\boldsymbol{s}}}_{t+1}), R_a({\mathit{\boldsymbol{s}}}_t, {\mathit{\boldsymbol{s}}}_{t+1})$), 其中${\mathit{\boldsymbol{s}}}$是状态集, ${\mathit{\boldsymbol{A}}}$是动作集, $P_a({\mathit{\boldsymbol{s}}}_t, {\mathit{\boldsymbol{s}}}_{t+1})$表示若智能体在时间$t$时处于状态${\mathit{\boldsymbol{s}}}_t$, 采取动作$a$可以在时间$t+1$时转换到${\mathit{\boldsymbol{s}}}_{t+1}$的概率; $R_a({\mathit{\boldsymbol{s}}}_t, {\mathit{\boldsymbol{s}}}_{t+1})$表示通过动作$a$, 状态${\mathit{\boldsymbol{s}}}_t$转换到${\mathit{\boldsymbol{s}}}_{t+1}$所带来的及时奖赏.

    强化学习中的Q学习是一种经典的在线学习方法.在学习过程中, 智能体在每一个时间步(step)内尝试动作, 获得来自环境的奖赏, 从而更新Q值和优化行动策略$\pi({\mathit{\boldsymbol{s}}})$ (如图 1).这个学习过程称为时间差分(Temporal difference, TD)学习[22].

    图 1  Q学习过程
    Fig. 1  The process of Q-learning

    强化学习的目标是让智能体通过与环境的交互学到最优的行动策略$\pi^{*}({\mathit{\boldsymbol{s}}})$, 使累积奖赏即回报最大.回报定义为

    $ \begin{align} G_t = \sum\limits_{i = 0}^\infty {\gamma^{i}r_{t+i}} \end{align} $

    (1)

    其中, 折扣因子$\gamma\in[0, 1]$, 表示我们对未来奖赏的重视程度. $\gamma = 0$时智能体只关注当前奖赏值, $\gamma = 1$时未来奖赏与当前奖赏同样重要.

    Q学习算法中的Q值是智能体按照行动策略$\pi({\mathit{\boldsymbol{s}}})$执行动作后所得回报的期望, 定义为

    $ \begin{align} Q_\pi({\mathit{\boldsymbol{s}}}_t, a_t)={\rm E}_\pi[G_\pi|{\mathit{\boldsymbol{s}}}={\pmb s}_t, A=a_t] \end{align} $

    (2)

    智能体通过Q值的更新优化行动策略$\pi({\mathit{\boldsymbol{s}}})$, 使其所得回报增大. Q值更新公式为

    $ \begin{align} &Q({\mathit{\boldsymbol{s}}}_t, a_t) \leftarrow Q({\mathit{\boldsymbol{s}}}_t, a_t)~+\notag\\ &\qquad \alpha[r_t+\gamma \max\limits_{a_{t+1}} Q({\mathit{\boldsymbol{s}}}_{t+1}, a_{t+1})-Q({\pmb s}_t, a_t)] \end{align} $

    (3)

    其中, ${\rm max}_{a_{t+1}} Q({\mathit{\boldsymbol{s}}}_{t+1}, a_{t+1})$表示智能体在状态${\mathit{\boldsymbol{s}}}_{t+1}$下采取动作$a_{t+1}$后所得到的Q值中的最大值, 而$\gamma {\rm max}_{a_{t+1}} Q({\mathit{\boldsymbol{s}}}_{t+1}, a_{t+1})-Q({\mathit{\boldsymbol{s}}}_t, a_t)$便是所谓的TD误差, 用来衡量目标Q值$\gamma {\rm max}_{a_{t+1}} Q({\mathit{\boldsymbol{s}}}_{t+1}, a_{t+1})$和当前Q值$Q({\mathit{\boldsymbol{s}}}_t, a_t)$之间的差距, 学习率$\alpha\in[0, 1]$表示对过往经验的重视程度.

    除此之外, 在Q学习中选择动作的基本策略也即本文采取的策略是$\epsilon-{\rm greedy}$策略, 该策略也是Q学习同其他机器学习所不同之处, 它反映了Q学习中智能体探索(Exploration)和利用(Exploitation)之间的权衡.前者是指随机尝试动作, 以期获得更高的回报, 即$\epsilon$; 后者是执行根据历史经验学习到的可获得最大收益的动作, 即${\rm greedy}$.智能体以概率$\epsilon$随机选择动作, 而以$1- \epsilon$的概率选取最大价值所对应的动作.

    基本Q学习的算法流程可描述为

    算法1.基本Q学习算法

    1 任意初始化动作价值$Q_\pi({\mathit{\boldsymbol{s}}}_0, a_0)$

    for ${\rm episode}=1:M$ do

    3  初始化状态${\mathit{\boldsymbol{s}}}$, 概率$\epsilon$

    4  repeat

    5    以概率$\epsilon$随机选择动作, 以概率$1-\epsilon$选取最大价值所对应动作

    6    执行动作$a_t$, 获得奖赏$r_t$, 观察到状态${\mathit{\boldsymbol{s}}}_{t+1}$

    7    更新Q值: $Q({\mathit{\boldsymbol{s}}}_t, a_t) \leftarrow Q({\mathit{\boldsymbol{s}}}_t, a_t)+ \alpha[r_t~+$$\gamma {\max}_{a_{t+1}} Q({\mathit{\boldsymbol{s}}}_{t+1}, a_{t+1})-Q({\mathit{\boldsymbol{s}}}_t, a_t)]$

    8    更新状态: ${\mathit{\boldsymbol{s}}}_t \leftarrow {\mathit{\boldsymbol{s}}}_{t+1}$

    9  until ${\mathit{\boldsymbol{s}}}$ is terminal

    10 end for

    脉冲神经网络(Spiking neural network, SNN)起源于神经科学, 广泛用于构建类脑神经系统模型, 例如用于设计模拟大脑皮层中的信息传递和时间动态可观测过程[23].与ANN类似, SNN也是由神经元和突触构成, 本文利用经典的LIF (Leaky integrate-and-fire)神经元模型和具有STDP学习规则的突触模型来构建SNN.

    在流经离子通道的电流作用下, 脉冲神经元(Spiking neuron, SN)的细胞膜将会产生动作电位$u(t)$[24].当动作电位达到阈值后, 神经元将会发放脉冲, 这个过程可以描述为

    $ u(t^{(f)})=u_{\rm th} $

    (4)

    $ \frac{{\rm d}u(t)}{{\rm d}t}|_{t=t^{(f)}}>0 $

    (5)

    其中, $t^{(f)}$是神经元发放脉冲的时间, $u_{\rm th}$是阈值电压.

    LIF模型将神经元抽象为一个RC电路(图 2).

    图 2  LIF模型
    Fig. 2  LIF model

    图 2中, $\delta(t-t^{(f)}_i)$为来自突触前神经元$i$的脉冲信号, 而$\alpha(t-t^{(f)}_j)$为突触后神经元$j$的输出脉冲.神经元收到输入电流后, 由于积分电路的作用, 动作电位会升高, 直到达到激活阈值, 发放脉冲, 这个过程称为积分点火.在脉冲发放后, 由于漏电流的作用, 神经元的动作电位会立即恢复至静息电位, 这一过程是对真实生物神经元中的离子扩散效应的模拟[25]. LIF模型的微分方程描述如下

    $ I_1(t) = \frac{u(t)}{R_m(t)} $

    (6)

    $ I(t)-I_1(t) = C_m\frac{{\rm d}u(t)}{{\rm d}t} $

    (7)

    其中, $C_m$为神经元膜电容, $I(t)$为外界输入电流, $I_1(t)$为漏电流, $R_m(t)$为神经元膜电阻.

    在LIF模型中, 外部输入电流$I(t)$通常为$\delta(t-t^{(f)}_i)$的加权和, 因此, 神经元$j$收到第$i$个神经元的输入电流可以表示为

    $ \begin{align} I_j(t)= \sum\limits_i \bigg \{ w_{ij} \sum\limits_f \delta(t-t^{(f)}_i) \bigg \} \end{align} $

    (8)

    其中, $w_{ij}$为神经元$i$和$j$之间的突触权重; $t^{(f)}_i$为突触前神经元$i$发出第$f$个脉冲的时间.

    STDP规则是SNN的基本学习规则之一, 具有良好的生物学基础. Hebb等[26]于1949年提出通过改变神经元相互之间的连接强度来完成神经系统学习过程的假设, 称为Hebb规则. Hebb规则指出, 如果两个神经元同时发放脉冲, 则它们之间的突触权重会增加, 反之会减少.这一假设描述了生物神经元突触可塑性的基本原理.随后在海马趾上进行的研究发现了长时增强(Long-term potentiation, LTP)效应和长时抑制(Long-term depression, LTD)效应:在一个时间窗口内, 如果突触后神经元发放脉冲晚于突触前神经元发放脉冲, 则会导致LTP效应, 而反之则会导致LTD效应.前者称为"突触前先于突触后"事件("Pre before post" event), 后者称为"突触后先于突触前"事件("Post before pre" event). LTP和LTD有力地支持了Hebb的假设.

    LTP和LTD效应是与脉冲发放时间高度相关的, 基于这两种效应和相关实验, Markram[27]于1997年定义了STDP规则, 在STDP规则中权重的变化量是前后两个神经元激活的时间差的函数, 该函数称为学习窗函数$\xi(\Delta t)$, STDP学习窗函数$\xi(\Delta t)$以及权重变化量$\Delta w_{ij}$如下所示

    $ \begin{align} \xi(\Delta t) = \begin{cases} A^{+} {\rm e}^{-\frac{\Delta t}{\tau_{\rm pre}}}, & \Delta t \geq 0\\[1mm] A^{-} {\rm e}^{\frac{\Delta t}{\tau_{\rm post}}}, & \Delta t < 0 \end{cases} \end{align} $

    (9)

    $ \begin{align} \Delta w_{ij} = w_{ij} \xi(\Delta t) \end{align} $

    (10)

    式(9)中, $\Delta t = t_{\rm post}-t_{\rm pre}$为突触后神经元与突触前神经元发放脉冲时间差, 而$\tau_{\rm pre}$, $\tau_{\rm post}$分别为突触前后的时间常数, 权重增强的增益$A^{+}>0$, 减弱的增益$A^{-} < 0$. $\Delta t \geq 0$对应LTP效应而$\Delta t < 0$对应LTD效应. STDP学习规则可以看作是Hebb规则在时间上的改进版本, 因为它考虑了输入脉冲和输出脉冲调整突触权重时时间上的相关性, 换句话说, STDP强调了脉冲之间的因果联系.

    HP实验室于2008年制造出了能够工作的物理忆阻器, 并提出了HP忆阻器模型(图 3).

    图 3  HP忆阻器模型示意图
    Fig. 3  HP memristor

    图 3中, $D$是二氧化钛薄膜的厚度, 亦为忆阻器的全长, $W$是掺杂层的宽度, 会在电场作用下改变, 并与流过忆阻器的电荷数有关.当掺杂宽度$W$增大, 忆阻值减小, 反之忆阻值增大.忆阻器的总电阻值可表示为

    $ R_{\rm mem}(x)=R_{\rm on}x+R_{\rm off}(1-x) $

    (11)

    $ x=\frac{W}{D}\in(0, 1) $

    (12)

    其中, $R_{\rm on}$和$R_{\rm off}$分别为掺杂区和非掺杂区的长度达到全长时的电阻, 也称为极值电阻.由于在时间$t$时, 掺杂区的宽度取决于通过忆阻器的电荷量, 而电流为电荷的导数, 因此, 内部状态变量$x$的变化可以表示为电流的函数

    $ \begin{align} \frac{{\rm d}x}{{\rm d}t}=\frac{U_D}{D}=\frac{\mu E}{D}=\frac{\mu R_{\rm on} i(t)}{D^{2}} f(x) \end{align} $

    (13)

    其中, $U_D$是掺杂区和非掺杂区之间边界移动的速度, $\mu$是平均离子漂移率, $E$是掺杂区的电场强度, $i(t)$为流经忆阻器的电流, $f(x)$为窗函数, 已存在多种多样的函数表达形式, 通常用于模拟离子漂移的非线性, 限制器件边缘特性等.本文的主要目的并非提出新的忆阻器模型, 而是利用合适的模型实现忆阻突触, 后文详述, 这里不做过多讨论.

    忆阻脉冲神经网络强化学习(MSRL)算法的目标在于减小TD误差的绝对值, 使回报最大.训练SNN所需样本来自对过往经验的回放, 这些经验存放在记忆池中.经验回放减少了需要学习的经验数目, 学习效率高于智能体直接与环境交互学习的方式[28].由此, 设计MSRL算法的首先任务是设计学习效率较高的SNN并使之与Q学习结合.

    MSRL算法的设计是基于一个三层的SNN, 如图 4所示.图中省略号表示神经元的数量随着任务的不同而变化.网络中输入神经元将状态值转换为状态脉冲${{\delta }_{\mathrm{S}}}(t)$, 其数量等于状态的维数.输出神经元的输出为Q值脉冲$\delta_Q(t)$, 其数量等于动作数.这样的结构意味着每个输入神经元对应每个状态维度, 每个输出神经元对应每个动作.相邻层神经元之间用忆阻器连接, 忆阻器可工作在三种状态: a)权重不可更改状态; b)权重调节状态; c)断开状态.

    图 4  脉冲神经网络结构
    Fig. 4  The structure of SNN

    适当调节隐含层节点数量是有必要的, 如果隐含层节点数过少, 网络的学习能力和信息处理能力不足.反之, 如果节点过多可能会增加网络结构的复杂性, 减慢运行速度.具体的隐含层神经元数量对网络性能的影响将在第4节讨论.

    考虑到脉冲神经元接受、处理和传递的信息是脉冲信号, 因此有必要设计数据与脉冲之间的转换关系.在本文中, 模拟数据转换为脉冲时间序列的过程为编码, 其逆过程为解码.一个时间窗口$T$为10 ms.

    1) 输入层神经元

    生物学研究表明, 在生物视觉神经网络中, 神经元对信息的编码与首次发放脉冲的时间有关, 发放时间越提前说明输入脉冲与输出脉冲之间的相关性越强[29].由此引入一维编码方式[30]:状态值$s$ $\in$ $[s_{\min}$, $s_{\max}]$, 编码后首次发放时间$t(s)\in[0, T]$, 则编码规则为

    $ \begin{align} t(s)=\frac{T(s-s_{\min})}{s_{\max}-s_{\min}} \end{align} $

    (14)

    这种编码方式使输入神经元在一个$T$内只发放一个脉冲.基于式(14), 并结合式(8)得到隐含层输入电流$I_h(t)$为

    $ \begin{align} I_h(t) = \sum\limits_i w_{ih}t(s)_i \end{align} $

    (15)

    其中, $w_{ih}$为输入层与隐含层神经元之间的突触权重.输入神经元用于将状态值转换为单个的状态脉冲, 没有解码过程.

    2) 隐含层神经元

    研究以下情形:两个LIF神经元$i$, $j$由一个突触连接.突触前神经元$i$为输入神经元而突触后神经元$j$为输出神经元, 它们的初始电压均为0, 神经元$i$在$t_0$时间电压达到阈值而发放脉冲, 根据式(8), 脉冲将通过突触转换为输入至神经元$j$的电流, 如果输入电流能使突触后电位达到阈值, 则突触后神经元$j$将发放脉冲.通过神经元不应期的设置, 在一个时间窗口的时间内, 神经元$j$只会发放一个脉冲, 如图 5 (a)所示.

    图 5  脉冲神经元响应
    Fig. 5  The response of spiking neurons

    对于隐含层神经元, 设置激发态时其只发放一个脉冲, 解码时将其脉冲发放时间$t_h$直接作为输出数据, 从而可得输出层输入电流$I_o(t)$

    $ \begin{align} I_o(t)=\sum\limits_h w_{ho}t_h \end{align} $

    (16)

    其中, $w_{ho}$是隐含层与输出层之间的突触权重, 编码时则根据发放时间还原脉冲即可.

    3) 输出层神经元

    由于首次发放时间越提前说明输入输出相关性越强, 则可以认为在一个时间窗口内, 输出层中最早发放脉冲的神经元为动作价值最大的动作, 这意味着首次发放时间和动作价值呈反相关关系, 解码时直接将首次发放时间作为输出数据则需要修改Q值更新公式.为了减少算法设计的复杂度, 输出层神经元发放脉冲的形式设置为连续发放.如图 5 (b)所示, 进而计算其平均发放率(Mean firing rate)[24]

    $ \begin{align} v=\frac{n_{\rm sp}}{T} \end{align} $

    (17)

    其中, $n_{\rm sp}$是输出层神经元在一个时间窗口$T$内发放脉冲的数量.事实上, 平均发放率和首次发放时间是等效的, 一个神经元的平均发放率越高, 由于脉冲时间间隔均等, 则说明它的首次发放时间就越提前[24].因而如果设置输出层神经元总是在一个时间窗口内, 连续发放时间间隔相同的脉冲, 那么可以直接将$n_{\rm sp}$作为输出动作价值.进一步, 近似认为输出脉冲时间将$T$均等分, 所以输出脉冲序列的发放时间为等差数列, 在已知数列项数即脉冲数量$n_{\rm sp}$的情况下可还原脉冲序列.

    神经科学领域的主要研究问题之一是对生物学习过程的解释.例如, STDP学习规则的提出是基于对单个生物突触的实验, 但对于STDP规则如何在脉冲神经网络中实现权重调整并没有统一且详尽的描述[31].为了实现STDP规则对脉冲神经网络的权重调整, 进而应用于强化学习中, 需要对基本STDP规则加以改进.其思路在于引入第三方信号(可以是奖赏信号或TD误差信号), 作为突触权重的调节信号[31].

    以奖赏信号为调节信号的STDP规则称作Reward STDP, 例如文献[32]提出如下权重调节规则

    $ \begin{align} \Delta w_{ij} = \frac { T_{e} \xi(\Delta t)} {T_{e} + t_{\rm re}-t_{t}} S_{\rm rp} \end{align} $

    (18)

    方案中奖赏为一个时间函数$S_{\rm rp}$, $t_{\rm re}$是奖赏出现的时间而$t_{t}$是智能体执行动作的时间. $T_{e}$是每次迭代持续的时间. Reward STDP实现了在虚拟环境中对觅食行为这一生物问题的建模.但是, 这种方案不适用于强化学习任务, 因为在强化学习任务中, 执行动作的事件和奖赏之间可能达到上千步的延迟, 导致学习效率非常低.

    以TD误差信号作为调节信号的STDP规则称作TD STDP规则, 为了方便讨论, 将TD误差重写

    $ \begin{align} TD = r_t + \gamma \max\limits_{a_{t+1}} Q({\mathit{\boldsymbol{s}}}_{t+1}, a_{t+1})-Q({\pmb s}_t, a_t) \end{align} $

    (19)

    利用式(19), 文献[33]提出如下的权重调节方案

    $ \begin{align} \frac{{\rm d}w_{ij}(t)}{{\rm d}t} = \eta TD \frac{\rho(stdp_{ij}(t))} {w_{ij}(t)} \end{align} $

    (20)

    其中, $\rho(stdp_{ij}(t))$为突触前发放脉冲与突触后发放脉冲的概率之差, $\eta \in [0, 1]$为学习率.此改进方案的立足点在于, TD误差反映了目标值和实际输出值的偏离程度.如果TD误差为正, 说明目标值优于实际值, 当前的突触权重应该加强, 反之应该减弱, 但是, 这种权重调节方案并不能直接应用于MSRL算法, 原因在于, 此方案限制每个神经元仅发放一个脉冲, 而MSRL中输出层神经元发放的是连续脉冲.另外, 直接将TD误差作为权重调节系数不能最小化误差, 需要定义损失函数.

    我们在式(20)基础上提出改进的STDP规则.首先, 将$\xi(\Delta t)$简化如下

    $ \begin{align} \xi(\Delta t) = \begin{cases} A^{+}, & \Delta t \geq 0\\ A^{-}, & \Delta t < 0 \end{cases} \end{align} $

    (21)

    式(21)不考虑输入和输出脉冲的时间差, 只考虑输入和输出脉冲之间的相关性.进一步, 按照文献[34], 定义损失函数如下

    $ \begin{align} L_{i}(\theta_i)={\rm E}[(y_i-Q({\mathit{\boldsymbol{s}}}_t, a_t;\theta_i))^2] \end{align} $

    (22)

    其中, $y_i={\rm E}[r_t + \gamma {\rm max}_{a_{t+1}} Q({\mathit{\boldsymbol{s}}}_{t+1}, a_{t+1};\theta_{i-1})]$为第$i$次迭代的目标Q值, $\theta$为网络参数.改进STDP的目标在于使平方TD误差的期望(即式(22))最小.最后, 改进的STDP规则表示为

    $ \begin{align} \frac{{\rm d}w_{ij}(t)}{{\rm d}t} = \eta L_{i}(\theta_i) \frac{ \xi(\Delta t) } {w_{ij}(t)} \end{align} $

    (23)

    在此基础上, 本文还设计了对应的基于忆阻器的人工突触, 以期进一步实现所提出算法的硬件加速.定义非线性窗函数如下

    $ \begin{align} f(v_{\rm MR}) = \begin{cases} v_{\rm MR}, & |v_{\rm MR}| > v_{\rm th} \\ 0, & |v_{\rm MR}| \leq v_{\rm th} \end{cases} \end{align} $

    (24)

    其中, $v_{\rm MR}$为忆阻器两端电压, $v_{\rm th}$为忆阻器的阈值电压, 调整忆阻器两端电压大小可使忆阻器处于权重调节或不可更改两个状态.

    进一步, 设置权重调节状态时$v_{\rm MR}$为

    $ \begin{align} v_{\rm MR}(\Delta t) = \begin{cases} A^{+}, & \Delta t \geq 0\\ A^{-}, & \Delta t < 0 \end{cases} \end{align} $

    (25)

    而突触权重的更新如下

    $ \begin{align} \frac{{\rm d}w_{ij}(t)}{{\rm d}t} = \eta L_{i}(\theta_i) \frac{ f(v_{\rm MR} (\Delta t) ) } {w_{ij}(t)} \end{align} $

    (26)

    即可实现改进后的STDP学习规则.

    在第2节基础上, 给出MSRL (算法2)的具体实现流程.如下所示:

    1) 数据收集

    强化学习任务开始时, 没有足够的样本用于训练SNN, 需要通过智能体与环境的交互以获取样本.此时使权重服从均值和方差均为0.1的正态分布, 并通过正则化提高权重收敛速率, 即

    $ \begin{align} w_{ij}\leftarrow \frac{w_{ij}}{ \sqrt{n} } \end{align} $

    (27)

    其中, $n$为输入神经元的数量.另外, 为了消除脉冲之间的相关性, 每个神经元注入了微量的噪声[33].每一个时间步(step)内, 神经网络的运行时间为两个时间窗口$T$.我们设置输入层和隐含层只在第一个$T$内发放脉冲, 一个$T$的时间过后, 输出层再发放脉冲.一旦神经网络运行完成, 便得到了输出脉冲数量${ Q}$, 隐含层输出脉冲时间$t_h$, 根据$\epsilon$-${\rm greedy}$策略, 智能体有$1 - \epsilon$的概率选择${ Q}$最多的神经元所对应的动作, 而以$\epsilon$的概率随机选择动作. $\epsilon$-${\rm greedy}$中$\epsilon$的值会随着迭代次数的增加而递减, 以确保随着任务的进行智能体逐渐依赖于策略$\pi({\mathit{\boldsymbol{s}}})$而不是无目的的选取动作.

    2) 网络训练

    根据文献[35], 突触权重变化会逆行而快速的传播到突触前神经元树突的突触上, 但并不会向前传播到下一级突触上, 这表明类似反向传播算法的机制可以在脉冲神经网络中存在并发挥作用.因此提出如图 6所示的训练方式.图中画出的忆阻器表示此时忆阻器处于权重调节状态, 未画出的忆阻器则处于断开状态.一次训练包含多个样本, 每一个样本使神经网络运行三个时间窗口$T$.训练时, 首先断开所有忆阻器.之后使目标动作对应的输出神经元与隐含层之间的忆阻器导通, 这类似于监督学习中利用标签进行训练.令隐含层神经元发放对应的隐含层脉冲$\delta_h(t)$, 运行一个时间窗口后, 在第二个时间窗口内令输出神经元发放目标脉冲$\delta_{y_{j}}(t)$ (图 6 (a)).网络运行完两个时间窗口后, 断开隐含层与输出层之间的忆阻器, 使输入层和隐含层之间的忆阻器导通(图 6 (b)), 令输入神经元发放状态脉冲$\delta_{{\mathit{\boldsymbol{s}}}}(t)$, 同时令隐含层神经元再次发放隐含层脉冲$\delta_{h}(t)$.如此循环往复, 直到一次训练完成.

    图 6  忆阻脉冲神经网络的训练过程
    Fig. 6  The training process of memristive spiking neural network

    3) 网络测试

    测试时忆阻突触的权重将完全由训练结果决定, 通过设置忆阻器电压, 可以使其工作在权重不可更改状态.神经网络的运行步骤同训练前.

    具体的MSRL算法描述如下:

    算法2.忆阻脉冲神经网络强化学习(MSRL)算法

    1 初始化容量为$N$的记忆池${\mathit{\boldsymbol{D}}}$

    2 初始化观测值$o$, 样本容量$b$

    3 初始化权重

    4 for ${\rm episode}=1:M$ do

    5  初始化状态${\mathit{\boldsymbol{s}}}_0$

    6  repeat

    7    运行神经网络, 得到输出层输出脉冲数量$Q_t$, 隐含层脉冲发放时间$t_h$

    8    以概率$\epsilon$随机选择动作$a_t$, 以$1-\epsilon$执行$a_t= \mathop{\arg\max} Q_t$

    9    执行动作$a_t$, 得到奖赏值$r_t$和下一个状态${\mathit{\boldsymbol{s}}}_{t+1}$

    10    存储${\mathit{\boldsymbol{e}}}_{t}=({\mathit{\boldsymbol{s}}}_t, a_t, r_t, {\mathit{\boldsymbol{s}}}_{t+1}, t_h, Q_t)$于记忆池${\mathit{\boldsymbol{D}}}$

    11    if迭代步数大于$o$, then

    12      从${\mathit{\boldsymbol{D}}}$中随机抽取$b$个元组$({\mathit{\boldsymbol{s}}}_j, a_j, r_j, {\mathit{\boldsymbol{s}}}_{j+1}, t_{hj}, Q_j)$作为训练样本

    13                  将${\mathit{\boldsymbol{s}}}_{j+1}$输入到神经网络中, 得到$Q_{j+1}$

    14      

    15      目标脉冲$\delta_{y_{j}}(t)$数量$n_{y_{j}}={\rm ceil}(y_{j})$

    16      对每一个动作, 分别按式(22)求出其平方TD误差的期望

    17      运用改进STDP算法训练神经网络

    18    ${\mathit{\boldsymbol{s}}}_t\leftarrow {\mathit{\boldsymbol{s}}}_{t+1}$

    19    until ${\mathit{\boldsymbol{s}}}$ is terminal

    20 end for

    1) CartPole-v0

    图 7所示, 一辆小车上用铰链装有一只平衡杆, 平衡杆可以自由移动.在力$F$的作用下, 小车在离散时间区间内向左或向右移动, 从而改变小车自身的位置和杆的角度.这个模型的状态有4个维度: a)小车在轨道上的位置$x$; b)平衡杆与垂直方向的夹角$\theta$; c)小车速度$v$; d)平衡杆角速度$\omega$.

    图 7  CartPole-v0示意图
    Fig. 7  CartPole-v0

    游戏中每移动一个时间步(step), 智能体都会通过观察获得下一个状态的值, 并且会获得值为$1$的奖赏.游戏终止的条件为: a)平衡杆的角度的绝对值大于$12^\circ$; b)小车的位置与$x=0$的位置的距离超出$\pm2.4$的范围; c)在一次迭代(episode)中step数超过200.满足条件c)则认为游戏成功.由于摆杆角度和车位移的绝对值较小的情况下游戏容易成功, 因而定义每一步的游戏得分为

    $ \begin{align} S_c = \frac{1}{100}\left(\frac{1}{|x|}+\frac{1}{|\theta|}\right) \end{align} $

    (28)

    每次游戏得分通过此次游戏总分除以此次游戏迭代步数得到. MSRL参数设置如下:对$\epsilon-{\rm greedy}$, 设置$\epsilon=0.1$, 学习率$\eta$设置为$0.1$, 记忆池容量为$10\, 000$, 折扣因子$\gamma$为$0.9$.算法运行$500$次迭代.

    2) MountainCar-v0

    图 8所示, 一辆小车被置于两座山峰之间, 小车的初始位置$x_0\in(-0.6, -0.4)$, 山谷处的位置为$-0.5$.任务目标是开到右边小旗处.但是, 车的动力不足以一次爬上山顶, 因此, 小车需要来回移动以获取足够的速度到达目标处.智能体的状态由两个维度组成: a)小车轨道位置$x\in(-1.2, 0.6)$; b)小车的速度$y\in(-0.07, 0.07)$.

    图 8  MountainCar-v0示意图
    Fig. 8  MountainCar-v0

    每一个step中, 小车有三个动作可供选择:向右、停止、向左.小车移动一步后会获得观察值和值为$-1$的奖赏.根据小车与终点的距离, 定义每步游戏得分$S_m$为

    $ \begin{align} S_m=\frac{1}{0.6-x} \end{align} $

    (29)

    每次游戏得分计算方式与CartPole-v0相同.另外, 设定当一次迭代中步数超过300游戏也会自动结束. MSRL参数设置如下:对$\epsilon-{\rm greedy}$, 同样设置$\epsilon=0.1$, 学习率$\eta$设置为$0.1$, 记忆池容量为$5\, 000$, 折扣因子$\gamma$为$0.9$.算法运行100次迭代.

    3) 隐含层神经元数量

    为了确定SNN隐含层神经元的数量, 我们在其他实验参数相同的情况下分别独立运行了隐含层神经元数量不同的MSRL算法, 并比较它们的TD方差, 结果见表 1.表 1的列展示了隐含层神经元数量不同的情况下TD方差的大小, 在其他参数相同的条件下进行实验. TD方差小表明学习效率更高. CartPole-v0的输入神经元为4个, MountainCar-v0为2个.

    表 1  不同隐含层神经元数量TD方差对比
    Table 1  The comparison of TD variance for difierent hidden neurons
    任务CartPole-v0MountainCar-v0
    $\rm Hidden = 1$27.145.17
    $\rm Hidden = 2$24.525.03
    $\rm Hidden = 4$21.24.96
    $\rm Hidden = 6$19.454.87
    $\rm Hidden = 10$17.264.79
    $\rm Hidden = 12$14.044.65
    下载: 导出CSV 
    | 显示表格

    表 1中可以发现, 隐含层神经元数量较少, TD方差较大, 但数量过多并没有显著提高学习效率, 反而可能会增加网络复杂度, 减慢运行速率.因此我们设置CartPole-v0隐含层神经元数量为6, MountainCar-v0隐含层神经元数量为4, 作为折中的一种优化选择.

    1) MSRL有效性验证

    在实验过程中智能体的状态反映了学习效果. Cartpole-v0游戏中, 平衡杆的角度和小车的位移越小越好, 这样游戏才可能成功.而MountainCar-v0游戏中, 小车在速率足够大的情况下才能爬上右侧山坡, 到达目标.我们分别在训练开始前和训练开始后随机抽取相同数量的样本以观察样本的数值分布, 结果如图 9所示.可以看出, 在CartPole-v0中, 当完成了200次游戏后, 平衡杆的角度和小车的位置集中于原点附近.而在MountainCar-v0中, 完成了50次游戏后, 坐标值的变化显示小车学会了利用左侧山坡获得反向势能, 并且速率大于训练之前.

    图 9  MSRL训练前后样本状态分布对比
    Fig. 9  The comparison of sample states distribution before and after training of MSRL

    2) 算法对比

    为进一步说明MSRL的特点, 我们将深度Q网络(Deep Q network, DQN)和离散状态Q-learning作为比较的对象.三者折扣因子和学习率均相同, DQN同样采用三层全连接前向网络结构, 隐含层神经元数量为10, 且其记忆池容量与MSRL相同.三个算法在同一台计算机上分别独立运行.对比结果如图 10表 2所示.

    图 10  比较结果(A)
    Fig. 10  The results of comparison (A)
    表 2  比较结果(B)
    Table 2  The results of comparison (B)
    评价指标平均迭代步数平均分数平均CPU利用率(%)运行时间(s)
    MSRL (CartPole-v0)98.931.2812.03 528.38
    DQN (CartPole-v0)61.791.2223.51 119.52
    Q-learning (CartPole-v0)11.831.140.3105.60
    MSRL (MountainCar-v0)183.871.2311.81 358.14
    DQN (MountainCar-v0)204.321.1222.9359.21
    Q-learning (MountainCar-v0)250.260.980.232.68
    下载: 导出CSV 
    | 显示表格

    根据游戏环境的设置, 在CartPole-v0游戏中每次游戏的迭代步数越高越好, 而MountainCar-v0则相反.图 10(a)10(b)的结果显示, 在CartPole-v0游戏中, MSRL算法所控制的倒立摆系统游戏成功率和得分高于另外两种算法.尽管DQN先于MSRL算法完成游戏目标, 但其收敛性较差.图 10(c)10(d)的结果显示, 在MountainCar-v0游戏中, MSRL算法所控制的小车容易以较少的步数达到目标处, 且最少步数小于另外两种算法, 同时游戏得分为三者中的最高值.从两个游戏的结果可以看出, 离散状态之后的Q-learning算法难以达成目标.我们将结果列在表 2里以更清楚对比结果.

    表 2中, 平均迭代步数为实验中的累积步数除以迭代数, 而平均分数为累积分数除以累积步数.在CartPole-v0游戏中, MSRL算法总平均迭代步数相比于DQN和离散Q-learning明显增加, 而在MountainCar-v0游戏中, MSRL算法总平均迭代步数相比于DQN和离散Q-learning明显减少.两个游戏中得分最高者均为MSRL.此外, 我们还在游戏执行的每一步中记录CPU利用率, 最后用累积CPU利用率除以累积步数以计算平均CPU利用率.结果显示, 尽管Q-learning能以较短的运行时间和较低的CPU利用率完成目标, 但是其计算效果不如神经网络式强化学习.而MSRL算法CPU利用率低于DQN, 但运行时间长于DQN.根据文献[36], 采用不同的模拟策略影响脉冲神经网络的运行时间.而本文利用新型信息器件忆阻器的高密度、非易失性等优势, 融合优化的网络结构和改进的学习算法, 有望以实现MSRL的硬件加速, 同时减少对计算资源的依赖.

    尽管传统的神经网络与强化学习算法的结合提高了智能体的学习能力, 但这些算法对计算能力依赖性较强, 同时网络复杂度高, 不适合硬件实现.为了进一步达到硬件加速, 促进嵌入式智能体在实际环境中独立执行任务, 本文设计了基于多层忆阻脉冲神经网络的强化学习(MSRL)算法.首先解决了数据与脉冲之间的转换问题; 在前人工作基础上, 改进了STDP学习规则, 使SNN能够与强化学习有机结合, 同时也设计了相应的忆阻突触; 进一步, 设计了结构可动态调整的多层忆阻脉冲神经网络, 这种网络具有较高的学习效率和适应能力.实验结果表明, MSRL与传统的强化学习算法相比能更高效地完成学习任务, 同时更节省计算资源.在未来的工作中, 我们将研究深度SNN与更复杂的强化学习算法例如Actor-Critic算法的结合, 并进一步改进学习算法以增强算法稳定性.

  • 图  1  近年全国总用电量趋势(单位: 亿千瓦时)

    Fig.  1  Trend of national total electricity consumption in recent years (unit: 100 million kW·h)

    图  2  电力设施多模态机器人巡检案例

    Fig.  2  Multi-modal robot inspection cases of power facilities

    图  3  智能巡检机器人感知关键技术

    Fig.  3  Key technologies of intelligent inspection robot perception

    图  4  典型2D目标检测网络

    Fig.  4  Typical 2D object detection networks

    图  5  3D点云检测和分割方法

    Fig.  5  3D point cloud detection and segmentation methods

    图  6  电力设施红外和可见光融合图像

    Fig.  6  Infrared and visible light fusion images of power facilities

    图  7  点云和可见光融合流程

    Fig.  7  Point cloud and visible light fusion process

    图  8  中国南方电网巡检机器人

    Fig.  8  China Southern Power Grid inspection robot

    图  9  声学图像和光学图像融合流程

    Fig.  9  Acoustic image and optical image fusion process

    图  10  电力设施精准目标检测框架

    Fig.  10  Accurate object detection framework for power facilities

    图  11  基于可见光和点云的杆塔倾斜检测流程图

    Fig.  11  Flow chart of tower tilt detection based on visible light and point cloud

    图  12  带电除冰机器人

    Fig.  12  Electric de-icing robot

    图  13  电力架空线路缺陷检测及三维台账拓扑数字孪生体

    Fig.  13  Defect detection of power overhead lines and three-dimensional ledger topology digital twins

    表  1  电力设施机器人巡检智能感知关键技术

    Table  1  Key technologies for intelligent perception in robotic inspection of power facilities

    场景 技术 电力检测任务 代表方法
    2D 目标检测 常用于可见光模态, 输出电力设备缺陷的位置和类型信息 Faster R-CNN[25]、YOLO系列[28]、SSD[29]、RetinaNet[30]
    语义分割 常用于红外模态, 输出电力设备缺陷的热故障区域 U-Net[36]、SegNet[37]、DeepLab系列[3839]
    3D 目标检测 常用于激光点云, 检测电力导线三维位置 PointNet系列[4042]、SESS[43]
    语义分割 常用于激光点云, 输出杆塔点区域 PointNet系列[4042]、DGCNN[44]
    下载: 导出CSV

    表  2  2D语义分割技术分类

    Table  2  Classification of 2D semantic segmentation techniques

    方法 分类类型 方法类型 原理或用途
    传统方法原理基于阈值的方法[33]根据灰度值大小不同, 设定阈值完成分割
    基于边缘检测的方法[34]对图像边缘线条进行检测
    基于图割的方法[35]利用图形结构最小割分割图像
    深度学习方法用途多尺度信息融合[3839]增加感受野, 提高分割结果精度
    无监督语义分割[4950]减少大量人工标注成本
    实时语义分割[51]节省计算资源, 加快推理时间
    下载: 导出CSV

    表  3  可见光红外双光融合方法分类

    Table  3  Classification of visible light infrared dual-light fusion methods

    方法 优点 缺点
    基于多尺度变换的方法 多层次子图像保留了更多图像细节信息 基于预先设定的基函数进行图像融合,
    易忽略源图像部分重要特征
    基于稀疏表示的方法 超完备字典蕴涵丰富的基原子, 有利于图像更好的表达和提取 难以应对复杂图像融合
    基于神经网络的方法 避免了传统算法手动设计复杂的分解级别和融合规则, 并有效保留源图像信息 对计算资源需求较大, 暂未大量应用
    下载: 导出CSV

    表  4  电力设施多模态精细化巡检应用

    Table  4  Application of multi-modal fine inspection in power facilities

    典型案例 融合模态 方法原理
    电力部件精准分割 可见光+红外 结合可见光的高分辨率和红外图像的温度特性, 实现高精度部件分割
    输电线路异物检测 可见光+点云 结合可见光的高分辨率和点云的形态特征, 充分识别线路异物
    线路杆塔倾斜检测 可见光+点云 结合可见光的颜色信息和点云的位置信息, 准确分割杆塔, 实现倾斜度检测
    线路覆冰多模态检测 可见光+点云 结合可见光的颜色信息和点云的位置信息定位电力线, 通过坐标计算覆冰厚度
    台账异常检测 可见光+点云 通过可见光实现台账目标识别, 利用点云构建数字孪生网络以实现台账校准
    下载: 导出CSV
  • [1] 吴庆, 赵涛, 佃松宜, 郭锐, 李胜川, 方红帏, 等. 基于FPSO的电力巡检机器人的广义二型模糊逻辑控制. 自动化学报, 2022, 48(6): 1482−1492

    Wu Qing, Zhao Tao, Dian Song-Yi, Guo Rui, Li Sheng-Chuan, Fang Hong-Wei, et al. General type-2 fuzzy logic control for a power-line inspection robot based on FPSO. Acta Automatica Sinica, 2022, 48(6): 1482−1492
    [2] Dian S Y, Chen L, Hoang S, Pu M, Liu J Y. Dynamic balance control based on an adaptive gain-scheduled backstepping scheme for power-line inspection robots. IEEE/CAA Journal of Automatica Sinica, 2019, 6(1): 198−208 doi: 10.1109/JAS.2017.7510721
    [3] 王耀南, 江一鸣, 姜娇, 张辉, 谭浩然, 彭伟星, 等. 机器人感知与控制关键技术及其智能制造应用. 自动化学报, 2023, 49(3): 494−513

    Wang Yao-Nan, Jiang Yi-Ming, Jiang Jiao, Zhang Hui, Tan Hao-Ran, Peng Wei-Xing, et al. Key technologies of robot perception and control and its intelligent manufacturing applications. Acta Automatica Sinica, 2023, 49(3): 494−513
    [4] 张振国, 毛建旭, 谭浩然, 王耀南, 张雪波, 江一鸣. 重大装备制造多机器人任务分配与运动规划技术研究综述. 自动化学报, 2024, 50(1): 21−41

    Zhang Zhen-Guo, Mao Jian-Xu, Tan Hao-Ran, Wang Yao-Nan, Zhang Xue-Bo, Jiang Yi-Ming. A review of task allocation and motion planning for multi-robot in major equipment manufacturing. Acta Automatica Sinica, 2024, 50(1): 21−41
    [5] Li J Q, Xu Y Q, Nie K H, Cao B F, Zuo S N, Zhu J. PEDNet: A lightweight detection network of power equipment in infrared image based on YOLOv4-tiny. IEEE Transactions on Instrumentation and Measurement, 2023, 72: Article No. 5004312
    [6] Chen G, Shao F, Chai X L, Chen H W, Jiang Q P, Meng X C, et al. CGMDRNet: Cross-guided modality difference reduction network for RGB-T salient object detection. IEEE Transactions on Circuits and Systems for Video Technology, 2022, 32(9): 6308−6323 doi: 10.1109/TCSVT.2022.3166914
    [7] Koji K, Takehisa Y, Tomohiro M, Katsuyoshi S. Development of substation patrol robot, overhead distribution line works manipulator and underground cable conduit monitor robot. Robot, 1988, 64: 65−73
    [8] Masafumi N. Development of a patrolling and inspection robot at 500 kV Transformer substation. (Results of field test). R&D News Kansai, 1999, 386: 13−15
    [9] Allan J F, Beaudry J. Robotic systems applied to power substations——A state-of-the-art survey. In: Proceedings of the 3rd International Conference on Applied Robotics for the Power Industry (CARPI). Foz do Iguacu, Brazil: IEEE, 2014. 1−6
    [10] Beaudry J, Poirier S. Véhicule Téléopéré Pour Inspection Visuelle Et Thermographique Dans Les Postes De Transformation, Technical Report IREQ-2012-0121, IREQ (Hydro-Québec Research Institute), Canada, 2012.
    [11] 鲁守银, 钱庆林, 张斌, 王明瑞, 李向东, 王宏. 变电站设备巡检机器人的研制. 电力系统自动化, 2006, 30(13): 94−98 doi: 10.3321/j.issn:1000-1026.2006.13.020

    Lu Shou-Yin, Qian Qing-Lin, Zhang Bin, Wang Ming-Rui, Li Xiang-Dong, Wang Hong. Development of a mobile robot for substation equipment inspection. Automation of Electric Power Systems, 2006, 30(13): 94−98 doi: 10.3321/j.issn:1000-1026.2006.13.020
    [12] Guo R, Han L, Cheng X Q. Omni-directional vision for robot navigation in substation environments. In: Proceedings of the IEEE International Conference on Robotics and Biomimetics (ROBIO). Guilin, China: IEEE, 2009. 1272−1275
    [13] Guo R, Xiao P, Han L, Cheng X Q. GPS and DR integration for robot navigation in substation environments. In: Proceedings of the IEEE International Conference on Information and Automation. Harbin, China: IEEE, 2010. 2009−2012
    [14] Zhou Z Y, Zhang C T, Xu C, Xiong F, Zhang Y, Umer T. Energy-efficient industrial internet of UAVs for power line inspection in smart grid. IEEE Transactions on Industrial Informatics, 2018, 14(6): 2705−2714 doi: 10.1109/TII.2018.2794320
    [15] Vapnik V N. The Nature of Statistical Learning Theory. New York: Springer, 2000.

    Vapnik V N. The Nature of Statistical Learning Theory. New York: Springer, 2000.
    [16] Ho T K. Random decision forests. In: Proceedings of the 3rd International Conference on Document Analysis and Recognition. Montreal, Canada: IEEE, 1995. 278−282
    [17] 何洪英, 姚建刚, 蒋正龙, 汪新秀, 李伟伟. 基于支持向量机的高压绝缘子污秽等级红外热像检测. 电力系统自动化, 2005, 29(24): 70−74, 82

    He Hong-Ying, Yao Jian-Gang, Jiang Zheng-Long, Wang Xin-Xiu, Li Wei-Wei. Infrared thermal image detecting of high voltage insulator contamination grades based on support vector machine. Automation of Electric Power Systems, 2005, 29(24): 70−74, 82
    [18] Vaswani A, Shazeer N, Parmar N, Uszkoreit J, Jones L, Gomez A N, et al. Attention is all you need. In: Proceedings of the 31st International Conference on Neural Information Processing Systems. Long Beach, USA: ACM, 2017. 6000−6010
    [19] Carion N, Massa F, Synnaeve G, Usunier N, Kirillov A, Zagoruyko S. End-to-end object detection with transformers. In: Proceedings of the 16th European Conference on Computer Vision. Glasgow, UK: Springer, 2020. 213−229
    [20] Zhu X Z, Su W J, Lu L W, Li B, Wang X G, Dai J F. Deformable DETR: Deformable Transformers for end-to-end object detection. In: Proceedings of the 9th International Conference on Learning Representations. Vienna, Austria: OpenReview, 2021.

    Zhu X Z, Su W J, Lu L W, Li B, Wang X G, Dai J F. Deformable DETR: Deformable Transformers for end-to-end object detection. In: Proceedings of the 9th International Conference on Learning Representations. Vienna, Austria: OpenReview, 2021.
    [21] Zong Z F, Song G L, Liu Y. DETRs with collaborative hybrid assignments training. In: Proceedings of the IEEE/CVF International Conference on Computer Vision (ICCV). Paris, France: IEEE, 2023. 6725−6735
    [22] Zhang S L, Wang X J, Wang J Q, Pang J M, Lyu C Q, Zhang W W, et al. Dense distinct query for end-to-end object detection. In: Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). Vancouver, Canada: IEEE, 2023. 7329−7338
    [23] Girshick R, Donahue J, Darrell T, Malik J. Rich feature hierarchies for accurate object detection and semantic segmentation. In: Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Columbus, USA: IEEE, 2014. 580−587
    [24] Girshick R. Fast R-CNN. In: Proceedings of the IEEE International Conference on Computer Vision (ICCV). Santiago, Chile: IEEE, 2015. 1440−1448
    [25] Ren S Q, He K M, Girshick R, Sun J. Faster R-CNN: Towards real-time object detection with region proposal networks. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2017, 39(6): 1137−1149 doi: 10.1109/TPAMI.2016.2577031
    [26] Tang X, Du D K, He Z Q, Liu J T. PyramidBox: A context-assisted single shot face detector. In: Proceedings of the 15th European Conference on Computer Vision (ECCV). Munich, Germany: Springer, 2018. 812−828
    [27] Cai Z W, Vasconcelos N. Cascade R-CNN: Delving into high quality object detection. In: Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. Salt Lake City, USA: IEEE, 2018. 6154−6162
    [28] Redmon J, Divvala S, Girshick R, Farhadi A. You only look once: Unified, real-time object detection. In: Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Las Vegas, USA: IEEE, 2016. 779−788
    [29] Liu W, Anguelov D, Erhan D, Szegedy C, Reed S, Fu C Y, et al. SSD: Single shot multibox detector. In: Proceedings of the 14th European Conference on Computer Vision (ECCV). Amsterdam, The Netherlands: Springer, 2016. 21−37
    [30] Lin T Y, Goyal P, Girshick R, He K M, Dollár P. Focalloss for dense object detection. In: Proceedings of the IEEE International Conference on Computer Vision (ICCV). Venice, Italy: IEEE, 2017. 2999−3007
    [31] Yi J F, Mao J X, Zhang H, Zeng K, Tao Z M, Zhong H, et al. PSTL-Net: A patchwise self-texture-learning network for transmission line inspection. IEEE Transactions on Instrumentation and Measurement, 2024, 73: Article No. 5005714
    [32] Liu X Y, Miao X R, Jiang H, Chen J, Wu M, Chen Z H. Component detection for power line inspection using a graph-based relation guiding network. IEEE Transactions on Industrial Informatics, 2023, 19(9): 9280−9290 doi: 10.1109/TII.2022.3227638
    [33] Barrow H G, Tenenbaum J M. Recovering intrinsic scene characteristics from images. Computer Vision Systems. London: Academic Press, 1978.
    [34] Canny J. A computational approach to edge detection. IEEE Transactions on Pattern Analysis and Machine Intelligence, 1986, PAMI-8(6): 679−698 doi: 10.1109/TPAMI.1986.4767851
    [35] Ke L, Tai Y W, Tang C K. Occlusion-aware instance segmentation via bilayer network architectures. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2023, 45(8): 10197−10211 doi: 10.1109/TPAMI.2023.3246174
    [36] Ronneberger O, Fischer P, Brox T. U-Net: Convolutional networks for biomedical image segmentation. In: Proceedings of the 18th International Conference on Medical Image Computing and Computer-assisted Intervention (MICCAI). Munich, Germany: Springer, 2015. 234−241
    [37] Badrinarayanan V, Kendall A, Cipolla R. SegNet: A deep convolutional encoder-decoder architecture for image segmentation. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2017, 39(12): 2481−2495 doi: 10.1109/TPAMI.2016.2644615
    [38] Chen L C, Papandreou G, Kokkinos I, Murphy K, Yuille A L. Semantic image segmentation with deep convolutional nets and fully connected CRFs. arXiv: 1412.7062, 2015.

    Chen L C, Papandreou G, Kokkinos I, Murphy K, Yuille A L. Semantic image segmentation with deep convolutional nets and fully connected CRFs. arXiv: 1412.7062, 2015.
    [39] Chen L C, Zhu Y K, Papandreou G, Schroff F, Adam H. Encoder-decoder with atrous separable convolution for semantic image segmentation. In: Proceedings of the 15th European Conference on Computer Vision (ECCV). Munich, Germany: Springer, 2018. 833−851
    [40] Charles R Q, Hao S, Mo K C, Guibas L J. PointNet: Deep learning on point sets for 3D classification and segmentation. In: Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Honolulu, USA: IEEE, 2017. 77−85

    Charles R Q, Hao S, Mo K C, Guibas L J. PointNet: Deep learning on point sets for 3D classification and segmentation. In: Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Honolulu, USA: IEEE, 2017. 77−85
    [41] Charles R Q, Yi L, Su H, Guibas L J. PointNet++: Deep hierarchical feature learning on point sets in a metric space. In: Proceedings of the 31st International Conference on Neural Information Processing Systems. Long Beach, USA: ACM, 2017. 5105−5114

    Charles R Q, Yi L, Su H, Guibas L J. PointNet++: Deep hierarchical feature learning on point sets in a metric space. In: Proceedings of the 31st International Conference on Neural Information Processing Systems. Long Beach, USA: ACM, 2017. 5105−5114
    [42] Shi S S, Guo C X, Jiang L, Wang Z, Shi J P, Wang X G. PV-RCNN: Point-voxel feature set abstraction for 3D object detection. In: Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). Seattle, USA: IEEE, 2020. 10526−10535
    [43] Zhao N, Chua T S, Lee G H. SESS: Self-ensembling semi-supervised 3D object detection. In: Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). Seattle, USA: IEEE, 2020. 11076−11084
    [44] Wang Y, Sun Y B, Liu Z W, Sarma S E, Bronstein M M, Solomon J M. Dynamic graph CNN for learning on point clouds. ACM Transactions on Graphics, 2019, 38(5): Article No. 146
    [45] Zhao Z B, Liu B, Zhai Y J, Zhao W Q, Su P. Dual graph reasoning network for oil leakage segmentation in substation equipment. IEEE Transactions on Instrumentation and Measurement, 2024, 73: Article No. 3502415
    [46] Zhao Z B, Feng S, Zhai Y J, Zhao W Q, Li G. Infrared thermal image instance segmentation method for power substation equipment based on visual feature reasoning. IEEE Transactions on Instrumentation and Measurement, 2023, 72: Article No. 5029613
    [47] MacQueen J. Some methods for classification and analysis of multivariate observations. In: Proceedings of the 5th Berkeley Symposium on Mathematical Statistics and Probability. Berkeley, USA: University of California Press, 1967. 281−297
    [48] Shi J B, Malik J. Normalized cuts and image segmentation. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2000, 22(8): 888−905 doi: 10.1109/34.868688
    [49] Goodfellow I J, Pouget-Abadie J, Mirza M, Xu B, Warde-Farley D, Ozair S, et al. Generative adversarial nets. In: Proceedings of the 27th International Conference on Neural Information Processing Systems (NeurIPS). Montreal, Canada: ACM, 2014. 2672−2680
    [50] Jiang B, Zhang Z Y, Lin D D, Tang J , Luo B. Semi-supervised learning with graph learning-convolutional networks. In: Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). Long Beach, USA: IEEE, 2019. 11305−11312

    Jiang B, Zhang Z Y, Lin D D, Tang J , Luo B. Semi-supervised learning with graph learning-convolutional networks. In: Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). Long Beach, USA: IEEE, 2019. 11305−11312
    [51] Mehta S, Rastegari M, Caspi A, Shapiro L, Hajishirzi H. ESPNet: Efficient spatial pyramid of dilated convolutions for semantic segmentation. In: Proceedings of the 15th European Conference on Computer Vision (ECCV). Munich, Germany: Springer, 2018. 561−580
    [52] Maturana D, Scherer S. VoxNet: A 3D convolutional neural network for real-time object recognition. In: Proceedings of the IEEE/RSJ International Conference on Intelligent Robots and Systems (IROS). Hamburg, Germany: IEEE, 2015. 922−928
    [53] Shi S, Wang Z, Wang X, Li H. Part-A2 net: 3D part-aware and aggregation neural network for object detection from point cloud. Pattern Recognition, 2022, 122: Article No. 108242
    [54] Zhou Y, Tuzel O. VoxelNet: End-to-end learning for point cloud based 3D object detection. In: Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). Salt Lake City, USA: IEEE, 2018. 4490−4499
    [55] Ouyang Z C, Dong X Y, Cui J H, Niu J W, Guizani M. PV-EncoNet: Fast object detection based on colored point cloud. IEEE Transactions on Intelligent Transportation Systems, 2022, 23(8): 12439−12450 doi: 10.1109/TITS.2021.3114062
    [56] Dong Z, Li J, Li Y. 3DV-Net: Learning multi-level multi-scale 3D features from point cloud for object detection. Sensors, 2021, 21(11): Article No. 3875 doi: 10.3390/s21113875
    [57] Shi S S, Jiang L, Deng J J, Wang Z, Guo C X, Shi J P, et al. PV-RCNN++: Point-voxel feature set abstraction with local vector representation for 3D object detection. arXiv: 2102.00463, 2022.

    Shi S S, Jiang L, Deng J J, Wang Z, Guo C X, Shi J P, et al. PV-RCNN++: Point-voxel feature set abstraction with local vector representation for 3D object detection. arXiv: 2102.00463, 2022.
    [58] Hu Q Y, Yang B, Xie L H, Rosa S, Guo Y L, Wang Z H. RandLA-Net: Efficient semantic segmentation of large-scale point clouds. In: Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). Seattle, USA: IEEE, 2020. 11105−11114
    [59] Shi W J, Rajkumar R. Point-GNN: Graph neural network for 3D object detection in a point cloud. In: Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). Seattle, USA: IEEE, 2020. 1708−1716
    [60] Yan X, Zheng C D, Li Z, Wang S, Cui S G. PointASNL: Robust point clouds processing using nonlocal neural networks with adaptive sampling. In: Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). Seattle, USA: IEEE, 2020. 5588−5597
    [61] Li W, Luo Z P, Xiao Z L, Chen Y P, Wang C, Li J. A GCN-based method for extracting power lines and pylons from airborne LiDAR data. IEEE Transactions on Geoscience and Remote Sensing, 2022, 60: Article No. 5700614
    [62] Jeong S, Kim D, Kim S, Ham J W, Lee J K, Oh K Y. Real-time environmental cognition and sag estimation of transmission lines using UAV equipped with 3-D Lidar system. IEEE Transactions on Power Delivery, 2021, 36(5): 2658−2667 doi: 10.1109/TPWRD.2020.3024965
    [63] Munir N, Awrangjeb M, Stantic B. An iterative graph-based method for constructing gaps in high-voltage bundle conductors using airborne LiDAR point cloud data. IEEE Transactions on Geoscience and Remote Sensing, 2024, 62: Article No. 5700316
    [64] Huang J J, Shen Y Q, Wang J G, Ferreira V. Automatic pylon extraction using color-aided classification from UAV LiDAR point cloud data. IEEE Transactions on Instrumentation and Measurement, 2023, 72: Article No. 2520611
    [65] Ibrahim M, Akhtar N, Anwar S, Mian A. SAT3D: Slot attention Transformer for 3D point cloud semantic segmentation. IEEE Transactions on Intelligent Transportation Systems, 2023, 24(5): 5456−5466 doi: 10.1109/TITS.2023.3243643
    [66] 张贵峰, 张志强, 沈锋. 变电站巡检机器人现状与发展综述. 云南电力技术, 2022, 50(6): 2−8

    Zhang Gui-Feng, Zhang Zhi-Qiang, Shen Feng. Review of the current situation and development of substation inspection robots. Yunnan Electric Power, 2022, 50(6): 2−8
    [67] 袁利, 姜甜甜, 魏春岭, 杨孟飞. 空间控制技术发展与展望. 自动化学报, 2023, 49(3): 476−493

    Yuan Li, Jiang Tian-Tian, Wei Chun-Ling, Yang Meng-Fei. Advances and perspectives of space control technology. Acta Automatica Sinica, 2023, 49(3): 476−493
    [68] 黄观文, 王媛媛, 龙正鑫, 秦志伟, 张勤. GNSS卫星轨道机动探测技术进展. 导航定位学报, 2024, 12(2): 1−12

    Huang Guan-Wen, Wang Yuan-Yuan, Long Zheng-Xin, Qin Zhi-Wei, Zhang Qin. Technique advancements in GNSS satellite orbit maneuver detection. Journal of Navigation and Positioning, 2024, 12(2): 1−12
    [69] Zhang X C, Demiris Y. Visible and infrared image fusion using deep learning. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2023, 45(8): 10535−10554 doi: 10.1109/TPAMI.2023.3261282
    [70] Li T, Yu H Y. Visual-inertial fusion-based human pose estimation: A review. IEEE Transactions on Instrumentation and Measurement, 2023, 72: Article No. 4007816
    [71] Sun Z H, Ke Q H, Rahmani H, Bennamoun M, Wang G, Liu J. Human action recognition from various data modalities: A review. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2023, 45(3): 3200−3225
    [72] Yuan D, Zhang H P, Shu X, Liu Q, Chang X J, He Z Y, et al. Thermal infrared target tracking: A comprehensive review. IEEE Transactions on Instrumentation and Measurement, 2024, 73: Article No. 5000419
    [73] Tian C, Zhou Z K, Huang Y Q, Li G J, He Z Y. Cross-modality proposal-guided feature mining for unregistered RGB-thermal pedestrian detection. IEEE Transactions on Multimedia, 2024, 26: 6449−6461 doi: 10.1109/TMM.2024.3350926
    [74] Li X Y, Chen S G, Tian C N, Zhou H, Zhang Z X. M2FNet: Mask-guided multi-level fusion for RGB-T pedestrian detection. IEEE Transactions on Multimedia, 2024, 26: 8678−8690 doi: 10.1109/TMM.2024.3381377
    [75] Xu Y W, Fan K G, Hu Q, Zhang X T. Positioning of suspended permanent magnet maglev trains using satellite-ground multisensor fusion. IEEE Sensors Journal, 2024, 24(10): 16816−16825 doi: 10.1109/JSEN.2024.3384699
    [76] Cossio-Montefinale L, Ruiz-Del-Solar J, Verschae R. Cherry CO dataset: A dataset for cherry detection, segmentation and maturity recognition. IEEE Robotics and Automation Letters, 2024, 9(6): 5552−5558 doi: 10.1109/LRA.2024.3393214
    [77] Rayhana R, Ma Z Y, Liu Z, Xiao G Z, Ruan Y F, Sangha J S. A review on plant disease detection using hyperspectral imaging. IEEE Transactions on AgriFood Electronics, 2023, 1(2): 108−134 doi: 10.1109/TAFE.2023.3329849
    [78] Song M, Um G M, Lee H K, Seo J, Kim W. Dynamic residual filtering with Laplacian pyramid for instance segmentation. IEEE Transactions on Multimedia, 2023, 25: 6892−6903 doi: 10.1109/TMM.2022.3215306
    [79] Wu S J, Wang Y B. Seismic image dip estimation by multiscale principal component analysis. IEEE Transactions on Geoscience and Remote Sensing, 2023, 61: Article No. 5900410
    [80] Grossmann A, Morlet J. Decomposition of hardy functions into square integrable wavelets of constant shape. SIAM Journal on Mathematical Analysis, 1984, 15(4): 723−736 doi: 10.1137/0515056
    [81] Li X X, Cheng X Z, Xu Y W, Jiao Y, Huang W C, Cui Y Y, et al. Multi-frequency ultrasound imaging fusion method based on wavelet transform for guided screw insertion. IEEE Transactions on Ultrasonics, Ferroelectrics, and Frequency Control, 2024, 71(3): 395−407 doi: 10.1109/TUFFC.2023.3348100
    [82] Yang B, Li S T. Multifocus image fusion and restoration with sparse representation. IEEE Transactions on Instrumentation and Measurement, 2010, 59(4): 884−892 doi: 10.1109/TIM.2009.2026612
    [83] Liu Y, Liu S P, Wang Z F. A general framework for image fusion based on multi-scale transform and sparse representation. Information Fusion, 2015, 24: 147−164 doi: 10.1016/j.inffus.2014.09.004
    [84] Yin H T. Sparse representation with learned multiscale dictionary for image fusion. Neurocomputing, 2015, 148: 600−610 doi: 10.1016/j.neucom.2014.07.003
    [85] Yang B, Li S T. Pixel-level image fusion with simultaneous orthogonal matching pursuit. Information Fusion, 2012, 13(1): 10−19 doi: 10.1016/j.inffus.2010.04.001
    [86] Engan K, Aase S O, Husoy J H. Method of optimal directions for frame design. In: Proceedings of the IEEE International Conference on Acoustics, Speech, and Signal Processing. Phoenix, USA: IEEE, 1999. 2443−2446
    [87] Aharon M, Elad M, Bruckstein A. K-SVD: An algorithm for designing overcomplete dictionaries for sparse representation. IEEE Transactions on Signal Processing, 2006, 54(11): 4311−4322 doi: 10.1109/TSP.2006.881199
    [88] Zong Z Y, Fu T, Yin X Y. High-dimensional generalized orthogonal matching pursuit with singular value decomposition. IEEE Geoscience and Remote Sensing Letters, 2023, 20: Article No. 7502205
    [89] Liu S J, Ma J J, Cui C K. FPGA implementation of threshold projection orthogonal matching pursuit algorithm for compressed sensing reconstruction. IEEE Transactions on Circuits and Systems I: Regular Papers, 2024, 71(3): 1184−1197 doi: 10.1109/TCSI.2023.3345537
    [90] Bai L, Yao S L, Gao K, Huang Y J, Tang R J, Yan H, et al. Joint sparse representations and coupled dictionary learning in multisource heterogeneous image pseudo-color fusion. IEEE Sensors Journal, 2023, 23(24): 30620−30632 doi: 10.1109/JSEN.2023.3325364
    [91] Li H, Wu X J, Kittler J. Infrared and visible image fusion using a deep learning framework. In: Proceedings of the 24th International Conference on Pattern Recognition (ICPR). Beijing, China: IEEE, 2018. 2705−2710
    [92] Ren X Y, Meng F Y, Hu T, Liu Z J, Wang C. Infrared-visible image fusion based on convolutional neural networks (CNN). In: Proceedings of the 8th International Conference on Intelligent Science and Big Data Engineering. Lanzhou, China: Springer, 2018. 301−307
    [93] Ma J Y, Yu W, Liang P W, Li C, Jiang J J. FusionGAN: A generative adversarial network for infrared and visible image fusion. Information Fusion, 2019, 48: 11−26 doi: 10.1016/j.inffus.2018.09.004
    [94] Sun F M, Zhang K, Yuan X, Zhao C X. Feature enhancement and fusion for RGB-T salient object detection. In: Proceedings of the IEEE International Conference on Image Processing (ICIP). Kuala Lumpur, Malaysia: IEEE, 2023. 1300−1304
    [95] Zhu X, Liu J, Xiong X Z, Luo Z Q. Maximize peak-to-sidelobe ratio for real-time RGB-T tracking. IEEE Transactions on Instrumentation and Measurement, 2024, 73: Article No. 4502104
    [96] Liu J, Luo Z Q, Xiong X Z. Online learning samples and adaptive recovery for robust RGB-T tracking. IEEE Transactions on Circuits and Systems for Video Technology, 2024, 34(2): 724−737 doi: 10.1109/TCSVT.2023.3288853
    [97] Lv Y, Liu Z, Li G Y. Context-aware interaction network for RGB-T semantic segmentation. IEEE Transactions on Multimedia, 2024, 26: 6348−6360 doi: 10.1109/TMM.2023.3349072
    [98] Liang W L, Shan C F, Yang Y J, Han J G. Multi-branch differential bidirectional fusion network for RGB-T semantic segmentation. IEEE Transactions on Intelligent Vehicles, DOI: 10.1109/TIV.2024.3374793
    [99] Chen G, Shao F, Chai X L, Chen H W, Jiang Q P, Meng X C, et al. Modality-induced transfer-fusion network for RGB-D and RGB-T salient object detection. IEEE Transactions on Circuits and Systems for Video Technology, 2023, 33(4): 1787−1801 doi: 10.1109/TCSVT.2022.3215979
    [100] 陈建, 廖燕俊, 王适, 郑明魁, 苏立超. 自适应分割的视频点云多模式帧间编码方法. 自动化学报, 2023, 49(8): 1707−1722

    Chen Jian, Liao Yan-Jun, Wang Shi, Zheng Ming-Kui, Su Li-Chao. An adaptive segmentation based multi-mode inter-frame coding method for video point cloud. Acta Automatica Sinica, 2023, 49(8): 1707−1722
    [101] Chen L, Luo X. Tensor distribution regression based on the 3D conventional neural networks. IEEE/CAA Journal of Automatica Sinica, 2023, 10(7): 1628−1630 doi: 10.1109/JAS.2023.123591
    [102] Ye S Q, Chen D D, Han S F, Liao J. Robust point cloud segmentation with noisy annotations. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2023, 45(6): 7696−7710 doi: 10.1109/TPAMI.2022.3225323
    [103] 张凯, 杨朋澄, 彭开香, 陈志文. 基于深度置信网络的多模态过程故障评估方法及应用. 自动化学报, 2024, 50(1): 89−102

    Zhang Kai, Yang Peng-Cheng, Peng Kai-Xiang, Chen Zhi-Wen. A deep belief network-based fault evaluation method for multimode processes and its applications. Acta Automatica Sinica, 2024, 50(1): 89−102
    [104] 刘云鹏, 来庭煜, 刘嘉硕, 魏晓光, 裴少通. 特高压直流换流阀饱和电抗器振动声纹特性与松动程度声纹检测方法. 电工技术学报, 2023, 38(5): 1375−1389

    Liu Yun-Peng, Lai Ting-Yu, Liu Jia-Shuo, Wei Xiao-Guang, Pei Shao-Tong. Vibration voiceprint characteristics and looseness detection method of UHVDC converter valve saturable reactor. Transactions of China Electrotechnical Society, 2023, 38(5): 1375−1389
    [105] Khotimah K, Santoso A B, Ma'arif M, Azhiimah A N, Suprianto B, Sumbawati M S, et al. Validation of voice recognition in various Google voice languages using voice recognition module V3 based on microcontroller. In: Proceedings of the 3rd International Conference on Vocational Education and Electrical Engineering (ICVEE). Surabaya, Indonesia: IEEE, 2020. 1−6
    [106] Brunelli R, Falavigna D. Person identification using multiple cues. IEEE Transactions on Pattern Analysis and Machine Intelligence, 1995, 17(10): 955−966 doi: 10.1109/34.464560
    [107] Noda K, Yamaguchi Y, Nakadai K, Okuno H G, Ogata T. Audio-visual speech recognition using deep learning. Applied Intelligence, 2015, 42(4): 722−737 doi: 10.1007/s10489-014-0629-7
    [108] 张玉珍, 魏带娣, 王建宇, 戴跃伟. 基于多模态融合的足球视频语义分析. 计算机科学, 2010, 37(7): 273−276

    Zhang Yu-Zhen, Wei Dai-Di, Wang Jian-Yu, Dai Yue-Wei. Semantic analysis for soccer video based on fusion of multimodal features. Computer Science, 2010, 37(7): 273−276
    [109] Xu Z J, Wang R F, Wang J, Yu D H. Parkinson's disease detection based on spectrogram-deep convolutional generative adversarial network sample augmentation. IEEE Access, 2020, 8: 206888−206900 doi: 10.1109/ACCESS.2020.3037775
    [110] 施胜丹, 黄金军, 朱霄珣, 王瑜, 钱白云. 基于声纹SDP-CNN的变压器局部放电模式识别. 电力信息与通信技术, 2022, 20(10): 105−112

    Shi Sheng-Dan, Huang Jin-Jun, Zhu Xiao-Xun, Wang Yu, Qian Bai-Yun. Partial discharge pattern recognition on transformer based on voiceprint SDP-CNN. Electric Power Information and Communication Technology, 2022, 20(10): 105−112
    [111] 陆云才, 廖才波, 李群, 王同磊, 邵剑, 张一. 基于声纹特征和集成学习的变压器缺陷诊断方法. 电力工程技术, 2023, 42(5): 46−55

    Lu Yun-Cai, Liao Cai-Bo, Li Qun, Wang Tong-Lei, Shao Jian, Zhang Yi. Transformer fault diagnosis method based on voiceprint feature and ensemble learning. Electric Power Engineering Technology, 2023, 42(5): 46−55
    [112] 王欢, 王昕, 张峰, 齐笑, 柴方森, 李文鹏. 基于改进生成对抗网络的变压器声纹故障诊断. 智慧电力, 2024, 52(4): 24−31

    Wang Huan, Wang Xin, Zhang Feng, Qi Xiao, Chai Fang-Sen, Li Wen-Peng. Transformer voiceprint fault diagnosis based on improved generative adversarial network. Smart Power, 2024, 52(4): 24−31
    [113] 林颖, 张峰达, 李壮壮, 郑文杰, 戈宁. 基于大模型的红外图像电力设备交互式分割. 网络新媒体技术, 2024, 13(2): 53−60, 67

    Lin Ying, Zhang Feng-Da, Li Zhuang-Zhuang, Zheng Wen-Jie, Ge Ning. Large model based interactive segmentation of infrared image for power equipment. Network New Media Technology, 2024, 13(2): 53−60, 67
    [114] 杨权, 樊绍胜. 基于图像预处理和语义分割的电力巡检机器人视觉导航方法. 电力科学与技术学报, 2023, 38(6): 248−258

    Yang Quan, Fan Shao-Sheng. Visual navigation method for electric power inspection robot based on image preprocessing and semantic segmentation. Journal of Electric Power Science and Technology, 2023, 38(6): 248−258
    [115] 马青山, 朱建宝, 俞鑫春, 张斌. 基于改进DSD-LinkNet的电力安全带分割算法. 电气自动化, 2023, 45(3): 106−108

    Ma Qing-Shan, Zhu Jian-Bao, Yu Xin-Chun, Zhang Bin. Power safety belt segmentation algorithm based on improved DSD-LinkNet. Electrical Automation, 2023, 45(3): 106−108
    [116] 许刚, 李果. 轻量化航拍图像电力线语义分割. 中国图象图形学报, 2021, 26(11): 2605−2618 doi: 10.11834/jig.200690

    Xu Gang, Li Guo. Research on lightweight neural network of aerial powerline image segmentation. Journal of Image and Graphics, 2021, 26(11): 2605−2618 doi: 10.11834/jig.200690
    [117] 左安全, 秦伦明, 王悉, 边后琴, 陈思林. 基于改进DeepLabv3+模型的电力线语义分割方法. 无线电工程, 2023, 53(1): 96−104

    Zuo An-Quan, Qin Lun-Ming, Wang Xi, Bian Hou-Qin, Chen Si-Lin. Powerline semantic segmentation method based on improved DeepLabv3+ model. Radio Engineering, 2023, 53(1): 96−104
    [118] Cui C, Gao T Q, Wei S Y, Du Y N, Guo R Y, Dong S L, et al. PP-LCNet: A lightweight CPU convolutional neural network. arXiv: 2109.15099, 2021.

    Cui C, Gao T Q, Wei S Y, Du Y N, Guo R Y, Dong S L, et al. PP-LCNet: A lightweight CPU convolutional neural network. arXiv: 2109.15099, 2021.
    [119] Chollet F. Xception: Deep learning with depthwise separable convolutions. In: Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Honolulu, USA: IEEE, 2017. 1800−1807
    [120] Park J, Woo S, Lee J Y, Kweon I S. BAM: Bottleneck attention module. arXiv: 1807.06514, 2018.
    [121] Mao M F, Chen Y, Chen W X, Du W, Zhang M, Mao T Q. Power transmission line image segmentation method based on binocular vision and feature pyramid network. In: Proceedings of the International Conference on Sensing, Measurement & Data Analytics in the Era of Artificial Intelligence (ICSMD). Nanjing, China: IEEE, 2021. 1−4
    [122] Wang L J, Chen Z L, Hua D, Zheng Z X. Semantic segmentation of transmission lines and their accessories based on UAV-taken images. IEEE Access, 2019, 7: 80829−80839 doi: 10.1109/ACCESS.2019.2923024
    [123] Yang L, Kong S Y, Cui S L, Huang H Y, Liu Y H. An efficient end-to-end CNN network for high-voltage transmission line segmentation. In: Proceedings of the 8th International Conference on Cloud Computing and Intelligent Systems (CCIS). Chengdu, China: IEEE, 2022. 565−570
    [124] 唐小煜, 黄进波, 冯洁文, 陈锡和. 基于U-net和YOLOv4的绝缘子图像分割与缺陷检测. 华南师范大学学报(自然科学版), 2020, 52(6): 15−21

    Tang Xiao-Yu, Huang Jin-Bo, Feng Jie-Wen, Chen Xi-He. Image segmentation and defect detection of insulators based on U-net and YOLOv4. Journal of South China Normal University (Natural Science Edition), 2020, 52(6): 15−21
    [125] Yu Y J, Cao H, Wang Z Z, Li Y Q, Li K, Xie S Q. Texture-and-shape based active contour model for insulator segmentation. IEEE Access, 2019, 7: 78706−78714 doi: 10.1109/ACCESS.2019.2922257
    [126] Tang X, Mao J X, Yi J F, Tao Z M, He Z Y. An insulator feature-enhanced segmentation method based on the residual-type attention mechanism. In: Proceedings of the 5th Advanced Information Management, Communicates, Electronic and Automation Control Conference (IMCEC). Chongqing, China: IEEE, 2022. 1507−1511
    [127] Han Y F, Han J, Ni Z J, Wang W S, Jiang H Y. Instance segmentation of transmission line images based on an improved D-SOLO network. In: Proceedings of the 3rd International Conference on Power Data Science (ICPDS). Harbin, China: IEEE, 2021. 40−46
    [128] Choi H, Yun J P, Kim B J, Jang H, Kim S W. Attention-based multimodal image feature fusion module for transmission line detection. IEEE Transactions on Industrial Informatics, 2022, 18(11): 7686−7695 doi: 10.1109/TII.2022.3147833
    [129] Xu C, Li Q W, Jiang X B, Yu D B, Zhou Y Q. Dual-space graph-based interaction network for RGB-thermal semantic segmentation in electric power scene. IEEE Transactions on Circuits and Systems for Video Technology, 2023, 33(4): 1577−1592 doi: 10.1109/TCSVT.2022.3216313
    [130] Ma J L, Qian K, Zhang X B, Ma X D. Weakly supervised instance segmentation of electrical equipment based on RGB-T automatic annotation. IEEE Transactions on Instrumentation and Measurement, 2020, 69(12): 9720−9731 doi: 10.1109/TIM.2020.3001796
    [131] 孙阳, 李佳. 基于通道剪枝的YOLOv7-tiny输电线路异物检测算法. 计算机工程与应用, 2024, 60(14): 319−328

    Sun Yang, Li Jia. YOLOv7-tiny transmission line foreign object detection algorithm based on channel pruning. Computer Engineering and Applications, 2024, 60(14): 319−328
    [132] 沈晓峰, 谢伟, 孙路, 李轶, 贺润平. 基于相邻帧差法的输电线路异物目标检测研究. 自动化仪表, 2023, 44(10): 20−24

    Shen Xiao-Feng, Xie Wei, Sun Lu, Li Yi, He Run-Ping. Research on foreign object target detection on transmission lines based on adjacent frame difference method. Process Automation Instrumentation, 2023, 44(10): 20−24
    [133] Lowe D G. Distinctive image features from scale-invariant keypoints. International Journal of Computer Vision, 2004, 60(2): 91−110 doi: 10.1023/B:VISI.0000029664.99615.94
    [134] 余沿臻, 邱志斌, 周银彪, 朱轩, 王青. 基于卷积神经网络与ECOC-SVM的输电线路异物检测. 智慧电力, 2022, 50(3): 87−92, 107

    Yu Yan-Zhen, Qiu Zhi-Bin, Zhou Yin-Biao, Zhu Xuan, Wang Qing. Foreign body detection for transmission lines based on convolutional neural network and ECOC-SVM. Smart Power, 2022, 50(3): 87−92, 107
    [135] Jiang H, Huang W L, Chen J, Liu X Y, Miao X R, Zhuang S B. Detection of bird nests on power line patrol using single shot detector. In: Proceedings of the Chinese Automation Congress (CAC). Hangzhou, China: IEEE, 2019. 3409−3414
    [136] 杨征. 基于ZigBee和GSM技术输电线路杆塔倾斜监测系统的研究 [硕士学位论文], 华北电力大学, 中国, 2012.

    Yang Zheng. Tilt Monitoring System of Transmission Line Towers Based on the ZigBee and GSM Technology [Master thesis], North China Electric Power University, China, 2012.
    [137] Li Q Q, Chen Z P, Hu Q W. A model-driven approach for 3D modeling of pylon from airborne LiDAR data. Remote Sensing, 2015, 7(9): 11501−11524 doi: 10.3390/rs70911501
    [138] 沈小军, 秦川, 杜勇, 于忻乐. 复杂地形电力线机载激光雷达点云自动提取方法. 同济大学学报(自然科学版), 2018, 46(7): 982−987

    Shen Xiao-Jun, Qin Chuan, Du Yong, Yu Xin-Le. An automatic power line extraction method from airborne light detection and ranging point cloud in complex terrain. Journal of Tongji University (Natural Science), 2018, 46(7): 982−987
    [139] 柳长安, 孙书明, 赵丽娟. 基于激光点云实现杆塔提取的轻量级网络. 激光技术, 2021, 45(3): 367−372

    Liu Chang-An, Sun Shu-Ming, Zhao Li-Juan. A lightweight network for power tower extraction from laser point cloud. Laser Technology, 2021, 45(3): 367−372
    [140] 芦竹茂, 龚浩, 金秋衡, 胡庆武, 李加元. 无人机激光雷达点云电力杆塔倾斜状态测量. 应用科学学报, 2022, 40(3): 389−399

    Lu Zhu-Mao, Gong Hao, Jin Qiu-Heng, Hu Qing-Wu, Li Jia-Yuan. Tilt rate measurement of power tower based on UAV LiDAR point cloud. Journal of Applied Sciences, 2022, 40(3): 389−399
    [141] 徐梁刚, 时磊, 陈凤翔, 王时春, 龙新, 王迪. 基于激光点云的输电线路杆塔倾斜检测算法. 激光技术, 2022, 46(3): 390−396

    Xu Liang-Gang, Shi Lei, Chen Feng-Xiang, Wang Shi-Chun, Long Xin, Wang Di. Transmission line tower tilt detection algorithm based on laser point cloud. Laser Technology, 2022, 46(3): 390−396
    [142] 应斌, 唐斌, 潘俊杰, 郭震. 基于YOLOv3的电力杆塔检测算法研究. 浙江电力, 2021, 40(5): 53−59

    Ying Bin, Tang Bin, Pan Jun-Jie, Guo Zhen. Research on a detection algorithm of power tower based on YOLOv3. Zhejiang Electric Power, 2021, 40(5): 53−59
    [143] 郝美. 输电线路覆冰在线监测的关键技术. 电子技术, 2020, 49(3): 90−91

    Hao Mei. Key of icing online monitoring for transmission line. Electronic Technology, 2020, 49(3): 90−91
    [144] Huang T T, Liu Z, Chen X W, Bai X. EPNet: Enhancing point features with image semantics for 3D object detection. In: Proceedings of the 16th European Conference on Computer Vision (ECCV). Glasgow, UK: Springer, 2020. 35−52
    [145] 安秋娥. 设备台帐与备件管理. 化工设备与防腐蚀, 1999(4): 27−28, 62

    An Qiu-E. Equipment ledger and spare parts management. Chemical Equipment and Anticorrosion, 1999(4): 27−28, 62
  • 期刊类型引用(11)

    1. 谭畅,姜坤,陈馨玥. 基于确定性模型的高速列车二阶段自适应速度跟踪控制. 控制理论与应用. 2025(01): 41-49 . 百度学术
    2. 张坤鹏,严斐,杨辉,刘鸿恩,安春兰. 高速列车大功率操纵过程分数阶建模及速度时滞预测. 电工技术学报. 2024(14): 4557-4566 . 百度学术
    3. Feng Guo,Jing He. Optimal allocation method of electric/air braking force of high-speed train considering axle load transfer. High-speed Railway. 2024(02): 77-84 . 必应学术
    4. 李中奇,黄琳静,周靓,杨辉,唐博伟. 高速列车滑模自抗扰黏着控制方法. 交通运输工程学报. 2023(02): 251-263 . 百度学术
    5. 王胜,鲍立昌,章家岩,冯旭刚,徐帅,王正兵,魏新源. 基于神经网络逆模型的污水pH值内模控制策略. 重庆大学学报. 2023(12): 55-65 . 百度学术
    6. 刘晓宇,荀径,高士根,阴佳腾. 高速列车精确停车的鲁棒自触发预测控制. 自动化学报. 2022(01): 171-181 . 本站查看
    7. 程翔,吴家仪,黄宜山,汤梦姣. 基于观测器的货运列车黏着系数检测研究. 科学技术创新. 2022(08): 193-196 . 百度学术
    8. 李中奇,孟凡晖,杨辉. 基于最优蠕滑率的列车防滑控制研究. 控制工程. 2021(12): 2312-2317 . 百度学术
    9. 谢国,金永泽,姬文江,黑新宏,马维纲,王丹,陈庞,叶闽英. 高速列车疫情风险评估与主动防护策略. 交通运输工程学报. 2020(03): 110-119 . 百度学术
    10. 黄川. 机械设备波动状态预测模型的关键参数识别. 计算机仿真. 2020(11): 371-374+464 . 百度学术
    11. 姬文江,左元,黑新宏,高橋聖,中村英夫. 基于FastDTW的道岔故障智能诊断方法. 模式识别与人工智能. 2020(11): 1013-1022 . 百度学术

    其他类型引用(19)

  • 加载中
图(13) / 表(4)
计量
  • 文章访问数:  1880
  • HTML全文浏览量:  438
  • PDF下载量:  237
  • 被引次数: 30
出版历程
  • 收稿日期:  2023-12-31
  • 录用日期:  2024-05-30
  • 网络出版日期:  2024-10-11
  • 刊出日期:  2025-01-16

目录

/

返回文章
返回