-
摘要: 本文研究了一类具有边界执行器动态特性的双曲线型偏微分方程(Partial differential equation, PDE)系统的输出调节问题. 特别地, 执行器由一组非线性常微分方程(Ordinary differential equation, ODE)描述, 控制输入出现在执行器的一端而非直接作用在PDE系统上, 这使得控制任务变得相当困难. 基于几何设计方法和有限维与无限维反步法, 本文提出了显式表达的输出调节器, 实现了该类系统的扰动补偿及跟踪控制. 并且我们采用Lyapunov稳定性理论严格证明了闭环系统及跟踪误差在范数意义上的指数稳定性. 仿真实例对比验证了所提出控制方法的有效性.Abstract: This paper investigates the output regulation problem for a class of hyperbolic partial differential equation (PDE) systems with boundary actuator dynamics. Particularly, the control input appears at one end of the actuator described by a set of ordinary differential equation (ODE) rather than directly in the PDE system, which makes the control task rather difficult. Based on the geometric design method as well as finite and infinite dimensional backstepping methods, an output regulator is explicitly provided in the paper so that the disturbance compensation and tracking control of this system are implemented. Moreover, we rigorously prove the exponential stability of both the closed-loop system and the tracking error in the norm by employing the Lyapunov stability theory. The simulation example comparatively demonstrates the effectiveness of the proposed control method.
-
单目图像的场景深度估计, 关注于如何从单目图像中获得场景深度信息. 在Marr奠定的计算机视觉理论中, 将单目图像的场景深度估计作为人类视觉的一项重要任务. 场景深度信息, 对于许多其他任务提供了重要信息, 例如, 语义分割[1]、目标检测[2]、姿态估计[3]、3D重建[4]、即时定位与地图构建[5]等. 随着深度传感器技术的成熟, 含有场景深度信息的RGBD数据集被构建, 拓展了单目图像的场景深度估计的研究领域. 但是, 由于在真实世界的不同场景中, 视觉信息含有大量的复杂干扰因素, 场景深度估计仍然是一个不明确的病态问题.
近年来, 单目图像的场景深度估计, 被视为场景深度值的连续回归问题, 其使用的基本假设是外观特征差异与场景深度的不连续性具有对应关系. 卷积神经网络由于具有准确地图像特征提取能力, 受到场景深度估计研究人员的广泛关注[6-10], 借助场景深度数据集, 卷积神经网络可有效实现场景深度模型的训练. 然而, 现有方法中仍然存在着以下几大挑战: 1)场景深度恢复任务需要像素级的预测结果, 卷积神经网络下采样过程会丢弃部分图像像素, 从而导致场景深度估计精度不足; 2)随着卷积神经网络模型深度的增加, 梯度退化现象严重, 造成场景深度估计模型学习能力降低; 3)卷积神经网络中跨层方式和特征组合方式的多样性, 造成场景深度估计模型的复杂性和预测精度之间难以平衡.
针对现有场景深度估计方法中, 由于下采样操作引起的复杂物体边界定位不准确, 而造成物体边界处的场景深度估计模糊的问题; 受密集神经网络中特征汇集过程的启发[11], 本文提出一种针对上/下采样过程的汇集神经网络模型. 首先, 模型使用层次卷积和下采样策略描述图像中不同层次物体的基本结构; 其次, 采用反卷积和上采样策略, 恢复场景深度分辨率, 避免卷积神经网络对图像分辨率的损失. 最终, 针对采样神经网络训练过程中的梯度退化问题, 通过分析上/下采样过程中物体边缘保持的对应关系, 引入相同尺度采样约束下的跨层连接, 实现高精度的场景深度估计. 本文主要贡献如下:
1)通过分析下采样分辨率损失对复杂边界精度估计的影响, 引入相同尺度采样约束下的跨层连接, 并使用上采样反卷积过程逐层还原图像分辨率, 提出一种采样汇集网络(Sampling aggregate network, SAN)模型.
2)使用尺度特征汇集策略, 兼顾不同尺寸物体的深度估计; 同时, 受密集神经网络中特征汇集过程的启发, 尺度特征汇集和采样跨层汇集一样, 也有效缩短了特征图到输出层的路径, 避免了模型梯度过小陷入局部最优解.
3)通过分析不同尺度采样下的场景深度估计结果, 确定深度卷积神经网络的最佳层次结构, 在NYU-Depth-v2场景深度公认数据集中, 本文提出采样汇集网络模型, 能够提供更准确的场景深度估计结果.
1. 场景深度估计现状
解决单目场景深度估计问题过程中, 利用的基本线索是物体的外观特征, 除此以外, 场景几何、物体语义、运动、3D位置和方向都可以实现对场景深度的约束. Su等[12]对场景深度的外观模式, 使用自然场景统计获得局部深度模式字典, 构建多变量高斯混合似然模型估计场景深度. Liu等[13]同时分析语义分割和场景几何约束对深度估计的影响. Karsch等[14]采用非参数采样方法, 使用局部运动和光流保持时间约束上的场景深度一致性. Saxena等[4]在马尔科夫随机场(Markov random field, MRF)框架下分析超像素的3D位置和3D方向对场景深度重建的影响. 但是, 上述模型存在两个主要问题, 1)忽略了场景中内容之间的深度相互约束关系. 2)手工特征在描述复杂外观模式上的局限性.
针对深度相互约束关系, 条件随机场(Conditional random field, CRF) 模型具有统一深度特征和上下文深度约束的建模能力, 具体来说包括层内建模和层次间的建模. Batra等[15]使用Laplacian形式定义CRF层内中团势函数, 并使用最大边界模型对CRF参数进行求解. Saxena等[16]针对非结构化室外场景, 构建层次化的多尺度MRF, 实现全局和局部场景深度的融合. 上述模型解决了深度约束, 但是受到一元函数求解精度的限制, 因此, 研究的主要方向转向深度学习模型及其在深度学习模型基础上构建的图模型.
卷积神经网络用于提高外观特征建模的准确性, Eigen等[17]使用深度神经网络, 分别对局部和全局场景深度建模, 实现尺度不变的场景深度估计. 在卷积神经网络基础上, Roy等[6]使用随机森林构建层次化的场景深度估计模型. Fu等[7]提出回归分类级联网络, 同时预测低分辨率和高分辨率的场景深度. 在卷积神经网络的场景深度描述能力基础上, CRF模型进一步对场景深度的局部不一致性进行优化, 包括对多尺度CRF建模和求解, 以及不同线索下的二元约束问题. 在多尺度CRF建模和求解方面, Liu等[18]将单目深度估计问题, 定义为离散 − 连续优化的CRF问题, 对超像素进行连续编码, 对超像素之间的关系进行离散编码, 使用粒子置信度传播算法来推理求解. Liu等在超像素基础上, 使用卷积神经网络提取场景深度特征, 并构建像素池化的CRF模型[6, 19]. Xu等[20]构建深度序列卷积神经网络模型, 并将卷积后的多尺度输出, 构建层次化的CRF模型实现场景深度估计. 此外, 场景全局布局和表面法向量约束, 可以用于构建CRF二元约束. Zhuo等[21]使用场景全局结构, 将场景内容分层, 使用CRF对多层次的场景深度进行编码和推理. Wang等[8]在全局布局指导下, 将图像分解为局部区域, 以卷积神经网络为基础构建层次CRF模型, 进行场景深度和语义预测. Yan等[22]使用CRF模型添加物体的表面法向量的约束, 对超像素级别和像素级别的多层次场景深度估计. 可以看出卷积神经网络对一元函数的建模提高了场景深度建模的准确性, 然而, 深度学习模型自身的演化, 必将带动场景深度估计的再次突破.
随着卷积神经网络模型深度的增加, 存在严重的梯度退化问题, 该现象被场景深度估计研究者关注. Cao等[10]首先将场景深度进行离散化, 并将场景深度估计视为分类任务, 使用残差神经网络求解. Laina等[23]对全卷积残差网络, 采用多尺度上卷积和上投影策略实现重叠特征映射. 此外, 左右视差一致性[24]和场景深度的空间上下文[25], 同样被用于残差网络, 以解决局部深度不一致性问题. 与残差网络模型思想一致, 汇集网络[11]也通过特征汇集策略, 使得特征图与输出损失之间路径变短从而避免模型陷入局部最优解. Sharma等[26]对预训练的Denseblock模型进行反卷积处理, 同时考虑使用均方根误差 (Root mean square error, RMSE)和berHu两种损失项, 重新设计深度估计损失函数. Zhu等[27]在上采样反卷积过程中, 使用denseblock模块并尝试引入同尺度跨层特征共享策略, 应用于像素级的图像光流估计任务, 在其上采样过程中使用特征累积, 并没有考虑特征的冗余性. 通过分析发现, 上述模型并没有关注采样过程中场景深度误差的产生的原因, 尤其是上采样过程中同尺度特征共享和冗余是否会干扰场景深度估计的损失. 现有方法结果中存在物体边界处的场景深度值出现模糊的情况, 造成这种情况的主要原因是下采样操作引起的复杂物体边界定位不准确. 为了解决这些问题, 受到密集神经网络中特征汇集过程的启发, 本文提出一种针对上/下采样过程的汇集神经网络模型.
2. 采样汇集网络
2.1 采样汇集网络模型结构
针对现有深度神经网络模型不能解决卷积下采样引起的场景深度估计损失问题, 图1给出了本文提出的采样汇集网络(SAN)模型. 本文的主要创新点包括3个方面: 1)引入反卷积上采样模块(图1中US (Up sampling) 模块), 实现对场景深度分辨率的恢复; 2)基于特征汇集思想, 对相同尺度的场景深度估计引入跨层误差传递, 图1中灰色虚线, 通过缩短误差计算的路径, 提高模型的收敛精度. 本文提出的采样汇集网络模型, 通过上述的上采样策略和采样跨层误差传递, 从而实现场景深度估计精度的提高; 3)在汇集网络模块内部(图1中AB(Aggregate block) 模块), 使用尺度特征汇集策略, 进一步缩短特征图到输出损失的路径, 有利于模型的参数优化.
基于本文提出采样汇集网络(SAN)模型, 场景深度估计问题可以描述为对场景深度值的回归估计, 即通过学习RGB特征和场景深度值之间的映射关系, 并使用深度模型学习具有层次化的局部结构特征, 从而实现场景深度值的回归估计.
$ {\rm SAN}(x, $ $w) $ 是测试时, 本文使用的深度网络模型,$ {x} $ 其中是输入图像,$ {w} $ 是采样汇集网络中每层中的参数集合. 为了学习本文模型中的参数, 在训练过程中, 本文模型的目标函数$ {\Omega({x},{w})} $ 可以定义为$$ \Omega({x},{w})=\|{\rm SAN}({x},{w})-{y}_{gt}\|^2_2+\lambda\|{w}\|^2_2 $$ (1) 其中,
$ {y}_{gt} $ 是真实测量的场景深度值, 采用逐像素方式比较, 并采用2范数的平方描述预测值和真实值之间的损失.$ \lambda $ 是回归模型的正则化参数, 以保证采样汇集网络中参数尽可能小, 避免过拟合现象. 在本文模型的预处理模块, 模型中将图像的RGB通道分离, 并使用3D卷积层(图1中CL (Convolutional layer模块)对其进行特征预处理, 可以记作$ {z}_1 = $ $ f({x},{w}_1) $ , 其中,$ {w}_1 $ 是第1块网络的滤波器参数, 其中使用的3D滤波器的尺寸为3 × 3 × 3, 使用64个3D滤波器($ m = 64$ ), 获得预处理模块的64层特征, 每层特征图与原始图像大小一致.根据图1的说明, 本文的采样汇集网络从输入到输出共包括13个模块, 即, 1个预处理卷积层模块, 5个基于局部汇集网络的下采样模块, 1个局部汇集网络转换模块, 5个基于局部汇集网络的上采样模块, 和1个线性回归模块. 最后一层的回归模块中, 使用1 × 1卷积模型, 等价实现线性回归单元(图1中LR (Linear regression) 模块), 获得场景深度估计. 通过优化求解整个网络滤波器的权重, 恢复出场景的深度信息.
2.2 尺度特征汇集的下采样网络
本文模型使用下采样(Down sampling, DS)的主要原因是, 1)使用下采样可以降低图像分辨率, 在较小的分辨率中, 每个像素对应到原始图像中的感受野较大, 这样可以描述更大尺度上的场景深度的分布; 2)使用下采样可以降低图像分辨率, 同时降低了图像滤波过程的计算代价. 但是, 图像下采样过程的负面作用是, 在重建和原始图像相同分辨率的场景深度时, 产生了预测精度上的损失.
图2进一步给出了本文采样汇集网络模型的下采样网络结构, 其中每次下采样过程, 包括一次局部汇集网络和一次下采样网络. 每个局部汇集网络中包含了若干的卷积层, 图2中给出了2个不同深度的局部汇集网络, 其中每一个CL矩形是一个3D卷积层. 本文通过特征通道的汇集操作实现特征前向的跨层传递, 以便误差反向传播时, 能够进行跨层形式的传递. 本文模型中第2块到第6块为包含局部汇集网络的下采样模块. 每个局部汇集网络(AB)的参数可以记为
$ {w}_i = [{w}_{i,1},{w}_{i,2},{w}_{i,l_i},{w}_{i,d}] $ , 其中$ l_i $ 是当前第$ i $ 块局部汇集网络(AB)中具有的3D卷积层的数量,$ {w}_{i,d} $ 是下采样操作过程中使用的1 × 1滤波器参数(图2中DS模块). 局部汇集网络(AB)和下采样网络(DS)的前向推理过程可以记为$$ \begin{split} {z}_i =\; & ds\left(f([{z}_{i-1},f^1({z}_{i-1},{w}_i),f^2({z}_{i-1},{w}_i), \cdots,\right.\\ & \left. f^{l_i}({z}_{i-1},{w}_i)],{w}_{i,d})\right) \end{split} $$ (2) 其中,
$ ds(·) $ 表示下采样过程,$ {z}_i $ 表示第$i $ 块局部汇集网络的特征图,$ {z}_{i-1} $ 表示第$i-1 $ 块局部汇集网络的特征图,$ f^1({z}_{i-1},{w}_i) $ 表示对输入的第一次3D卷积网络的特征输出, 由于局部汇集网络各卷积层采用串行级联方式前向推理, 因此, 每经过一个3D卷积层就叠加一次卷积过程, 到该局部汇集网络的最后一层时, 共经历$ l_i $ 层卷积层, 所以记作$ f^{l_i}({z}_{i-1}, {w}_i)$ .如果不考虑下采样
$ ds(·) $ 和其中$ {w}_{i,d} $ 卷积过程, 而单独考虑每个3D卷积层中的滤波器前向计算过程, 我们可以将式(2)中的卷积过程记为$$ \begin{split} {zt}_i =\;& [f^1({z}_{i-1},{w}_i),f^2({z}_{i-1},{w}_i),\cdots,f^{l_i}({z}_{i-1},{w}_i)]=\\ & [f^1({z}_{i-1},{w}_{i,1}),f(f({z}_{i-1},{w}_{i,1}),{w}_{i,2}),\cdots,\\ & f(\cdots(f({z}_{i-1},{w}_{i,1}),{w}_{i,2}),\cdots,{w}_{i,l_i})] \end{split} $$ (3) 其中,
$ f^{l_i}({z}_{i-1},{w}_i) $ 包含了第$ i $ 块局部汇集网络中每一层的滤波器卷积过程. 图2中下方给出各特征通道汇集过程的示意图, 局部汇集网络中每个卷积层输出的特征汇集到一起(即图2中的圆形节点), 并与前一层输入的特征汇集. 在局部汇集网络中, 为了保证每个3D卷积层的输出都为16层特征, 在局部汇集网络的特征输入时, 预先采用3D卷积处理转化为16层的特征宽度.根据上述特征汇聚过程, 可以推理出每层特征通道中包含的特征来源和特征图数量, 例如, 第1次下采样过程中, 使用的局部汇集网络的参数为
$ L $ = 6,$ m $ = 160, 其代表的含义为局部汇集网络有6个3D卷积层(图2中CL矩形), 每个3D卷积层输出16层特征, 同时浅层网络中输入特征层为$ m $ = 64, 因此, 第1次下采样过程的输出特征层数为16 × 6 + 64 = 160. 随后的下采样网络中, 继续执行一次2 × 2的最大池化下采样, 得到长宽各为原始图像分辨率一半的图像, 继续前向传递计算.2.3 采样汇集跨层的上采样网络
在下采样过程中, 随着网络深度的增加, 特征图数量在增加, 但是特征图的空间分辨率随之下降. 为了恢复空间分辨率, 本文模型中引入了上采样反卷积操作, 并引入跨层连接, 组成上采样路径. 每个上采样模块与下采样模块一一对应, 每个上采样模块包括局部汇集网络和上采样网络. 由于上采样过程中, 引入了反卷积滤波器, 因此, 其参数形式与下采样模块不同, 上采样网络的模型参数可以记作
$ {w}_j = [{w}_{j,1},{w}_{j,2},\cdots,{w}_{j,l_i},{w}_{j,u}] $ , 其中$ {w}_{j,u} $ 为上采样反卷积滤波器的参数.图3给出了上采样反卷积的执行过程, 包含2个主要步骤: 1)进行空间分辨率2倍的上采样, 并将新增的像素初始化为0; 2)对2倍上采样的图像进行3 × 3滤波器卷积, 并保持图像的分辨率不变(如图3所示), 从而实现对0像素位置场景深度的重新估计. 由于本文模型采用多层的特征图, 在不同的特征图上使用各自的3 × 3滤波器参数独立前向推理, 从图3中可以看出不同滤波器具有不同的边缘效应, 反卷积过程会将滤波器自身包含的边缘信息添加到上采样输出中, 从而实现分辨率细节的恢复. 图4描述了采样汇集跨层(图1中向下虚线)的网络模型结构, 其中采样汇集跨层是指从相同分辨率的下采样模块到上采样模型的特征图传递(图4中向下虚线), 并与前向传递的上采样反卷积特征图进行特征汇集, 从而产生后续的特征图.
本文模型的上采样网络模块中, 对于低分辨率的特征图, 先进行一次上采样反卷积, 随后执行一次局部汇集处理. 由于下采样过程中的分辨率损失, 仍然受到上采样反卷积滤波器参数的局限, 因此, 根据图像分辨率的对应关系, 将同分辨率的卷积特征图进行关联, 引入采样同层跨层约束, 使用所有可用的特征来参与上采样计算. 本文模型中第8块到第12块为包含局部汇集网络的上采样模块, 上采样网络的前向推理过程可以记为
$$ \begin{split} {z}_j =\; & f(us([{zt}_{14-j},f^1({z}_{j-1},{w}_j),f^2({z}_{j-1},{w}_j), \cdots,\\ & f^{l_j}({z}_{j-1},{w}_j)]),{w}_{j.u}) \end{split} $$ (4) 其中,
$ {zt}_{14-j} $ 表示与上采样第j块对应的下采样模块, 从图1中可知, 其模块编号为$ 14-j $ . 注意到为了避免特征层数无限增加, 因此, 在上采样过程中, 其特征通道仅保留对应的下采样特征图, 以及该块局部汇集网络自己产生的特征图. 上采样模块中的内部3D卷积层数与下采样过程一一对应, 根据图4可以看出本文模型特征随着上采样过程的进行, 特征图数量逐步减少.2.4 采样汇集网络的参数学习
图1中给出了本文模型的基本参数设置, 本文模型包含预处理模块(1层), 包含局部汇集网络的下采样模块(56层, 其中每次下采样后进行一次1 × 1卷积), 转换模块(15层), 上采样模块(56层, 其中每次反卷积算作一次卷积层)和线性回归模块(1层), 共计129层卷积神经网络.
为了避免每一层的数据分布不同, 在每个局部汇集块前使用批规一化(Batch normalization, BN)进行预处理, 随后使用ReLu激活函数, 3 × 3滤波器模块, 进行无分辨率损失的滤波操作. 每个下采样模块采用批规范化, 进行预处理, 使用ReLu激活函数和1 × 1滤波器, 采用2倍的最大池化下采样方式降低分辨率. 每个上采样模块, 采用3 × 3滤波器进行反卷积. 本文模型中最后一个模块是线性回归模块, 采用1 × 1滤波器实现, 输入
$ m $ = 256层的特征图, 进行场景深度数值的线性回归.本文模型的目标函数如式(1)所示, 根据图1,
$ {\rm SAN}(x,w) $ 的场景深度预测值就是模型的第13块的输出, 即$ {\rm SAN}(x,w) = z_{13} $ . 式(2)和式(4)分别给出了下采样和上采样的前向计算过程, 用于模型的场景深度值预测过程. 参数学习的执行过程可以记为$${w}^*=\arg\mathop{{\min}}\limits_w (\|{\rm {SAN}}({x},{w})-{y}_{gt}\|^2_2+\lambda\|{w}\|^2_2)$$ (5) 本文模型使用Torch[28]深度学习开源平台训练网络. 实验工作站配置为CoreX i7-6800k 6核3.4 GHz CPU, 2块NIVDIA GTX1080 8 GB显卡. 本文模型不使用任何预训练模型, 而是对所有层的参数重新训练, 本文模型的参数初始化采用He-Uniformed形式[29], 参数优化过程使用随机梯度下降方法. 训练过程的批处理大小为4, 每循环一次训练集合的所有图像, 作为一轮迭代, 模型训练的最大迭代次数设置为30. 参数学习率为0.01, 每迭代5次降低20 %. 迭代过程中, 权重衰减系数为
$ 10^{-4} $ , 权重衰减用于模型正则化.3. 实验
3.1 实验设置
本文模型使用纽约大学构建的NYU-Depth-v2数据集进行模型的训练和测试[30], 数据库包含1 449幅不同类型的室内场景的RGBD图像, 该数据集是场景深度估计公认的大型数据集之一. 其中depth图像使用Microsoft kinect设备采集获得, 场景深度的数值从0米到10米. 实验随机选择795幅图片作为训练图像, 其余的654幅图片作为测试图像. 并对795幅训练图像进行扩充, 具体操作为, 根据随机条件对原始训练图像进行变换, 最终产生48 k合成RGBD图像对用于模型训练. 随机条件包括: 1)尺度缩放, 尺度缩放因子的取值范围为[1,1.5]; 2)旋转变换, 旋转角度的取值范围为[–5, 5]; 3)颜色变换, 对图像的亮度, 饱和度和对比度, 分别进行线性变换, 线性变换因子的取值范围为[0.6,1.4]; 4)图像左右翻转, 左右翻转的随机概率为0.5. 在训练和测试过程中图像采用相同的分辨率, 为了分析输入图像分辨率对实验结果的影响, 在网络层次结构不变的情况下, 采用2种不同尺寸图像分辨率304 × 228, 152 × 114进行实验分析.
本文对比方法包括传统的字典学习模型, 结构化深度模型, 深度CRF模型以及残差深度模型. 具体来说: 1) Su等[12]使用局部模式字典估计场景深度模式. 2)在深度模型结构化方面, Roy等[6]使用随机森林构建层次化深度模型; Fu等[7]使用回归级联形式的深度模型. 3)在深度CRF方面, Wang等[9]在卷积神经网络基础上, 构建层次CRF模型; Liu等[10]在超像素基础上, 构建卷积池化CRF模型. 4)在残差网络方面, Laina等[23]使用残差网络, 构建多尺度上卷积和上投影模型; Cao等[10]使用残差网络, 并将场景深度问题视为分类任务建模, Sharma等[26]使用带denseblock结构的反卷积网络实现深度估计. 我们通过与上述模型对比, 来分析本文方法中采用的上采样策略和尺度采样约束的功能. 本文使用评价标准[9]具体包括: 1)平均相对深度(Average relative error, REL), 即预测深度与真实深度的差值的绝对值与真实深度的比值. 2)根均方误差(Root mean squared error, RMS), 即预测深度与真实深度的均方根误差. 3)对数误差(
$ {\rm{log}}_{10} $ ), 即对预测深度与真实深度进行${\rm{ log}}_{10} $ 处理后, 计算像素上的两者之间的平均差值. 4)阈值精度($\delta $ ), 根据${\rm{max}}({\rm SAN}(x,w^*)/y_gt,y_gt/ $ $ {\rm SAN}(x,w^*)) $ 求出比值误差, 并与阈值比较, 如果比值误差小于阈值$\delta $ , 则认为深度数值预测正确, 本文实验中阈值参数设置为$ \delta_1<1.25 $ ,$ \delta_2<1.25^2 $ ,$ \delta_3<1.25^3 $ .3.2 定量分析
3.2.1 采样汇集网络的消融分析
本文的消融因素包含两个, 即采样汇集和尺度特征汇集. 为了验证本文采样汇集的有效性, 采用如下的方式进行消融分析: 1)对本文模型中的采样汇集跨层进行删除, 保留尺度特征汇集过程, 将该消融模型称为尺度特征汇集网络(Scale feature aggregate network, SFAN); 2)对本模型中的尺度特征汇集过程删除, 即去除前层输入的特征, 保留下采样对上采样的汇集过程, 将该消融模型称为窄采样网络(Narrow sampling network, NSN). 表1给出了图像分辨率为304 × 228情况下, 采样汇集网络的消融分析的定量结果, 图5给出了该情况下的采样汇集网络的消融分析的定性结果.
表 1 采样汇集网络的消融分析Table 1 Ablation analysis of sampling aggregate network消融模型 Error Accuracy (%) REL ${\rm{log}}_{10}$ RMS $\delta_1$ $\delta_2$ $\delta_3$ SFAN-129 0.165 0.072 0.586 75.70 93.70 98.10 NSN-129 0.163 0.070 0.583 76.00 94.10 98.20 SAN-129 0.158 0.067 0.567 77.60 95.20 98.80 从表1中可以看出, 本文模型中两个消融因素在多种评价指标中都具有明显作用. 从图5定性结果中可以看出, 采样汇集网络(图5(e)), 在尺度和采样像素上的准确性高于其他消融模型. 1)采样汇集比尺度特征汇集策略, 对整个描述的正确性影响更大, 以平均相对深度(REL)来说, 采样汇集可以提供0.007的贡献, 而尺度特征汇集提供0.005的贡献. 2)观察图5(c)第2行中, 预测的物体轮廓模糊的情况, 可以说明采样汇集的作用主要在于下采样的跨层, 可以利用下采样前高分辨率的特征, 来保持物体外围边界位置的准确, 避免产生局部最优解, 使得物体轮廓模糊. 3)观察图5(d)第1行中, 预测的场景背景中散落的杂乱信息情况, 可以说明尺度特征的作用主要在于描述不同感受野大小的观测, 以保证预测在不同尺度上的一致性, 避免产生局部最优解, 使得出现琐碎伪物体的估计结果. 通过消融模型分析发现, 本文模型通过考虑尺度特征和采样特征在场景估计中各自的优势, 设计出新的深度模型结构, 实现了更鲁棒的场景深度估计.
3.2.2 采样汇集网络的感受野范围分析
通过消融模型分析发现尺度特征的感受野大小对场景估计中有明显的影响. 场景深度估计任务中采用下采样的主要意义在于, 下采样能够产生不同尺度的特征图, 其中各像素对应原始图像中的感受野大小不同, 从而发现不同尺度下的场景深度模式, 但是, 同时也注意到下采样降低了空间分辨率, 可能导致更大的误差, 而且随着下采样次数的增加, 网络模型加深, 整体网络模型的参数增加, 训练难度和测试时间都会增加, 从模型的计算成本出发, 因此, 需要讨论网络结构中的下采样次数.
根据图1所示, 本文采用5块汇集网络和下采样网络, 针对本文模型设计变形模型, 即分别采用1层下采样, 即本文模型只使用第1次下采样后直接进行转换模块和对应的一次上采样, 此时模型为31层, 记作SAN-31. 同理, 我们分别讨论不同层次的下采样次数和对应的变形模型, 分别记作SAN-47, SAN-69, SAN-95. 表2, 给出了图像分辨率304×228情况下, 不同下采样次数下的模型变形定理分析, 图6给出了该情况下, 不同下采样次数下的定性结果.
表 2 采样汇集网络中下采样次数定量分析Table 2 Quantitative analysis of downsampling times in sampling aggregate network采样汇集网络模型 Error Accuracy (%) REL ${\rm{log}}_{10}$ RMS $\delta_1$ $\delta_2$ $\delta_3$ SAN-31 0.311 0.129 1.012 46.20 77.10 91.80 SAN-47 0.250 0.107 0.830 55.70 84.90 95.50 SAN-69 0.194 0.083 0.672 68.00 90.70 97.70 SAN-95 0.169 0.073 0.608 73.60 93.10 98.30 SAN-129 0.158 0.067 0.567 77.60 95.20 98.80 通过表2和图6的下采样次数分析发现: 1)下采样次数越多, 感受野范围变化越多, 场景深度估计的准确性越准确; 2)下采样次数进一步增多, 所带来的场景深度估计的贡献逐渐减小, 可以理解为场景中的主要物体尺寸集中在中小物体尺寸, 进一步增加下采样次数带来的增益有限; 3)下采样次数过多带来的计算成本和储存成本提高. 在实验工作环境下, SAN-95的测试单幅图像的平均运行时间为0.06 s, 而SAN-129的测试单幅图像的平均运行时间为0.11 s, 同时, 由于显存大小的限制, 难以训练更大深度的SAN模型; 4)从图6中可以看出, 小尺寸感受野的情况下, 出现了大量的杂乱估计, 这是因为小尺寸对边缘敏感, 但是不对物体级别的区域敏感; 5)只有在下采样尺寸达到3以上, 才能出现与真实场景物体分布相似的估计. 因此, 结合下采样次数的定量和定性分析, 以及工作环境和成本的限制, 本文模型最后确定下采样次数为5次.
3.2.3 采样汇集网络的输入图像分辨率分析
表3给出了不同图像分辨率情况下采样汇集网络的定量分析结果. 本文方法目的在于重构出于输入图像分辨率相同的场景深度图像, 其中, 不同的输入图像分辨率, 会改变模型中每层特征图的分辨率, 也会影响模型参数规模, 从而影响模型最终的参数学习结果. 实验采用2种不同尺寸的分辨率图像, 讨论该参数对结果的影响. 对304 × 228的训练和测试图像, 采用间隔为2的下采样方法获得对应152 × 114的训练和测试图像. 通过表3中的实验结果可知, 在相同的模型结构和参数学习条件下, 使用缩小后图像训练的模型, 会在各项预测指标上都有所提高. 这是因为较大图像分辨率中包括较多的局部细节结构, 这些相对精细结构需要更复杂优化算法找出模型中的卷积参数. 而对于使用较小分辨率图像训练的情况, 由于较小图像分辨率已经丢弃了部分局部细节结构, 可以认为局部细节结构的复杂度有所降低, 模型中的卷积参数已经能够有效描述存在的局部模式, 从而在指标上有所提高. 但是, 较小分辨率预测的缺点是, 对于具有深度范围变化的物体, 会无法准确提取物体较大分辨率上的深度值. 因此, 本文同时给出304 × 228和152 × 114分辨率下的预测结果.
表 3 采样汇集网络中输入图像分辨率定量分析Table 3 Quantitative analysis of image resolution in sampling aggregate network采样汇集网络模型 图像分辨率 Error Accuracy (%) REL ${\rm{log}}_{10}$ RMS $\delta_1$ $\delta_2$ $\delta_3$ SAN-129 304 × 228 0.158 0.067 0.567 77.60 95.20 98.80 SAN-129 152 × 114 0.149 0.064 0.562 79.95 95.23 98.80 3.2.4 对比方法
本文训练过程采用整幅图像像素级的监督信息, 对各像素的场景深度值进行回归处理, 这种处理的有效性在于: 1)与Fu等[7]方法离散化的像素深度值预测相比, 本文模型可以获得连续性的深度预测值, 避免场景中出现相邻像素深度值的阶梯效应; 2)与使用预分割的区域标记方法[9, 12]相比, 本文模型直接使用端对端的方式分析边缘两侧深度的连续性, 从而避免使用预分割过程中存在的误分割标记.
表4展示了现有主流对比方法, 对比方法包括局部模式字典, 深度模型优化策略, 深度CRF模型, 深度残差网络. 从表4中的实验发现: 1)本文模型比局部模式字典的方法[12], 准确性有显著提高, 这主要归功于深度学习特征对自然场景中复杂边缘结构的捕获能力; 2)建立在深度学习基础上的级联优化过程[6-7], 有助于准确性提高, 本文模型使用多尺度下采样和采样汇集策略, 提供了更准确的结果; 3) CRF模型有助于琐碎区域的平滑[8-9], 本文模型对于琐碎区域的解决思路是, 考虑较大尺度的感受野, 以保证小物体区域在不同感受野下深度估计的一致性, 从而提高了准确性; 4)残差网络模型[10, 23]通过减少特征图到输出层的路径长度, 可以有效地改善参数优化过程, 避免模型中各层特征图梯度过小, 陷入局部最优的情况. 本文模型使用多尺度特征汇集和采样跨层汇集策略, 实现了不同特征层次到输出损失层的更短的路径, 从而提高了模型训练效果. 本文模型在所有Error评价上优于所有方法, 在Accuracy评价上, 本文模型在小误差范围内能得到更好的效果.
表 4 本文采样汇集网络与现有方法定量对比Table 4 Quantitative analysis of our sampling aggregate network with state-of-the-art methods对比方法 Error Accuracy (%) REL ${\rm{log}}_{10}$ RMS $\delta_1$ $\delta_2$ $\delta_3$ Su等[12] 0.302 0.128 0.937 − − − Laina等[23] 0.215 0.083 0.790 62.90 88.90 97.10 Liu等[9] 0.213 0.087 0.759 65.00 90.60 97.60 Wang等[8] 0.210 0.094 0.745 60.50 89.00 97.00 Roy等[6] 0.187 0.078 0.744 − − − Cao等[10] 0.187 0.071 0.681 71.20 92.30 98.00 Fu等[7] 0.160 − 0.586 76.50 95.00 99.10 Sharma-RMSE[26] 0.159 0.064 0.549 79.10 94.60 98.40 SAN-129 @ 304 × 228 0.158 0.067 0.567 77.60 95.20 98.80 Sharma-berHu[26] 0.153 0.062 0.549 79.90 95.00 98.50 SAN-129 @ 152 × 114 0.149 0.064 0.562 79.95 95.23 98.80 基于表4的实验对比, 本文方法部分指标上也有不足之处. 1) Fu等[7]方法在大范围精度的评价标准上略高于本文SAN方法, 但是, 首先这种误差已经接近于1.95倍(
$ 1.25^3 $ 约等于1.95), 在实际场景深度应用中会产生较多的后续错误, 此外, 大范围精度的准确性达到99 %, 反映出的是场景整体分布的范围, 而不反映局部区域的特性, 因此, 对于小物体的估计参考价值有限. 2) Sharma等[26]方法在部分指标上超出本文方法, 这主要是因为Sharma等使用了两种不同形式的数据损失项, RMSE损失是一种均方根形式的损失, berHu是一种分段函数, 原始误差在较小数值范围内是线性变换, 在较大数值范围内是平方形式变换. 因此, 我们看出Sharma-RMSE损失项的方法, 在RMS指标上能够到达所有方法中最好的结果, 此外, Sharma-berHu在$ {\rm{log}}_{10} $ 和RMS上超出本文方法. 通过对比Sharma等方法和本文SAN-129在304像素 × 228像素分辨率上的表现, 说明Sharma等使用的损失项有利于部分指标, 但并不能兼顾所有指标的提高. 3)同时, 我们注意到Sharma等方法[26]使用的图像分辨率为175像素 × 127像素, 与本文方法的304像素 × 228像素不同, 为了进一步分析图像分辨率对结果的影响, 我们对304 × 228图像进行间隔2下采用获得训练集合, 重新训练模型. 进一步观察本文方法SAN-129在152像素 × 114像素分辨率上的实验效果, 仍然能够发现Sharma等使用的损失项在$ {\rm{log}}_{10} $ 和RMS指标上是有优势的, 但是本文方法在Accuracy指标上均超过Sharma等方法, 同时还获得了REL指标的最好值. 综上所述, 本文模型由于使用了采样汇集和尺度特征汇集策略, 改善了神经网络结构, 缩短了特征图到输出层的路径, 从而实现了更准确了场景深度估计定量结果.3.2.5 困难实例的定性分析
场景深度估计中存在几个主要挑战是小物体干扰、复杂边界干扰、光照干扰、深度范围干扰, 因此, 本文进一步给出上述挑战情况下的困难实例的实验结果, 以说明本文方法处理的鲁棒性. 1)小物体的主要困难在于需要从背景中区分出物体(图7第1行), 并避免小物体的深度被周围信息干扰, 对比图7(c)和图7(e)第1行可以看出, 在小尺度上小物体(桌子)具有一定的显著性, 但是, 随着采样尺度的增加, 场景中小物体可以更好地与周围的环境分离, 对比图7(d)和图7(e)第1行可以看出, 由于删除了采样汇集跨层, 图7(d)第1行图中, 小物体周围的边界较模糊, 而本文方法中桌子的轮廓较为清晰. 2)复杂边界是指物体轮廓的形状较复杂, 而且具有的场景深度跨度较大(图7第2行). 不同尺度下的特征图所对应的原始图像感受野不同, 如果去除特定层次的感受野, 会导致物体整体淹没在背景深度中(图7(c)第2行), 同样, 去除采样跨层后(图7(d)第2行), 其中的复杂边界和小物体其轮廓都更为模糊, 这主要是因为下采样中丢失了物体边界的准确位置, 造成场景深度难以恢复. 3)光照干扰是指场景中由于存在干扰, 造成局部外观与周围外观的突变(图7第3行). 如果丢失大尺度的特征图, 在捕获场景的较大的边缘时就会更为困难, 会产生光源区域的错误估计(图7(c)第3行). 尺度特征汇集策略(图7(d)第3行)其精度明显不如本文的模型(图7(e)第3行)的原因, 主要是环境光照干扰下进一步加剧了下采样过程对边界定位的误差. 4)深度范围干扰是指本文模型需要兼顾处理场景深度变化大的图像, 也要兼顾处理场景深度变化小的图像. 图7(a)第4行场景的深度范围, 大于图7(a)第5行场景的深度范围, 但是基于本文方法的处理策略, 产生了明显的深度估计的改善, 使用尺度特征汇集避免了图7(c)第4行中的孔洞, 使用采样汇集提高了图7(e)第4行和第5行中的边界准确性. 从而说明本文方法在上述各种干扰中, 都实现了可靠的场景深度估计.
图 7 场景估计中的困难实例,第1行小物体干扰,第2行复杂边界干扰,第3行光照干扰,第4行深度范围大干扰,第5行深度范围小的干扰. (a) 原始图像; (b)真实场景深度; (c) SAN-95结果; (d) SFAN-129结果; (e) SAN-129结果Fig. 7 Challenge examples in depth estimation, including small object interference (Line 1), complex boundary interference (line 2), illumination interference (line 3), large depth range interference (line 4), small depth range interference (line 5). (a) RGB image; (b) GT depth; (c) result of SAN-95; (d) result of SFAN-129; (e) result of SAN-129从上述定性实验中可以看出, 现有场景深度估计任务中的主要挑战在于细节信息的预测, 即精确的物体轮廓, 本文方法使用的采样汇集网络, 其成功主要在于: 1)利用深度学习的层次卷积方式挖掘复杂局部结构, 这种结构既能反映出物体轮廓, 同时物体轮廓也能用于深度估计, 因为物体轮廓暗示了区域之间的深度不连续性; 2)本文方法在汇集网络的基础上, 进一步讨论了引入相同尺度采样约束下的跨层连接的特征汇集, 和去除同尺度特征冗余在特征选择中的作用, 即通过不同尺度特征的分析, 找出哪些特征对于场景深度不连续性是有效的. 由于本文关注于场景深度估计, 因此其学习出的特征主要反映的是深度模式; 3)由于精确物体轮廓也是图像分割中关注的重点, 需要进一步分析本文方法与图像分割任务之间的关系. 本文方法同样可以使用于有分割标记的训练过程, 这是因为两个任务有相同点, 都需要学习RGB局部结构, 都是像素级标记预测, 在RGB结构学习中面对的噪声干扰是相似的. 但是, 本文任务与图像分割也具有明显的不同点, 具体来说: 1)深度估计是连续标记回归, 而分割是离散标记分类, 场景回归任务需要更高的精度; 2)监督信号不同, 分割标记和深度值不是一一对应的, 同一个物体可以具有不同的场景深度, RGB局部结构特征对不同任务的有效性不同, 学习过程中对RGB局部结构特征的选择不同; 3)虽然, 分割中不同物体之间的轮廓可以暗示深度值的差异, 但是是否真的有差异, 以及差异程度仍然需要进一步学习.
4. 结论
针对现有基于深度卷积模型的场景深度估计方法中, 由于采样分辨率损失, 引起的物体边界估计不足的问题, 受密集网络中的特征汇集策略启发, 本文提出一种针对上/下采样过程的汇集神经网络模型. 通过方法分析和实现分析可以证明: 1)通过采样汇集跨层和上采样卷积策略, 提供了更准确的物体轮廓精度估计; 2)通过尺度特征汇集, 有效地避免了小尺寸物体容易引起的杂乱场景深度现象; 3)受密集神经网络中特征汇集过程的启发, 尺度特征汇集和采样汇集跨层都缩短了特征图到输出层的路径, 从而有利于本文模型的参数优化和准确性提高. 在公认的场景深度NYU-Depth-v2数据库实验结果中, 说明本文方法达到并在部分指标上超过了现有主流方法在深度估计误差和精度上的执行效果, 并通过对小物体干扰、复杂边界干扰、光照干扰、深度范围干扰的定性实现分析, 说明本文方法在处理实际问题真实可靠.
-
图 9 PDE子系统受到的常值扰动${D_i} = Q_i^\mathrm{T}{v_{d1}},i = 1, 2 ,3$及相应的扰动观测值${\hat D_i} = Q_i^\mathrm{T}{\hat v_{d1}},i = 1, 2 ,3$
Fig. 9 The constant perturbations ${D_i} = Q_i^\mathrm{T} {v_{d1}}$, $i = 1, 2 ,3$ to PDE subsystem and the corresponding disturbance observations ${\hat D_i} = Q_i^\mathrm{T}{\hat v_{d1}},i = 1, 2 ,3$
图 10 执行器受到的周期性扰动${d_i} = q_i^\mathrm{T}{v_{d2}},i = 0,1 ,2$以及相应的扰动观测值${{\hat d}_i} = q_i^\mathrm{T}{{\hat v}_{d2}},i = 0,1 ,2$
Fig. 10 The periodic perturbations ${d_i} = q_i^\mathrm{T} {v_{d2}}$, $i = 0, 1 ,2$ to actuator and the corresponding disturbance observations ${{\hat d}_i} = q_i^\mathrm{T}{{\hat v}_{d2}}$, $i = 0, 1 ,2$
-
[1] Xu C, Sallet G. Exponential stability and transfer functions of processes governed by symmetric hyperbolic systems. ESAIM: Control, Optimisation and Calculus of Variations, 2002, 7: 421-442 doi: 10.1051/cocv:2002062 [2] Landet I S, Pavlov A, Aamo O M. Modeling and control of heave-induced pressure fluctuations in managed pressure drilling. IEEE Transaction Control System Technology, 2012, 21(4): 1340-1351 [3] Boskovic D M, Krstic M. Backstepping control of chemical tubular reactors. Computers & Chemical Engineering, 2002, 26(7-8): 1077-1085 [4] Deutscher J. Output regulation for general linear heterodirectional hyperbolic systems with spatially-varying coefficients. Automatica, 2017, 85: 34-42 doi: 10.1016/j.automatica.2017.07.027 [5] Xu X, Dubljevic S. Output regulation boundary control of first-order coupled linear mimo hyperbolic pide systems. International Journal of Control, 2020, 93(3): 410-23 doi: 10.1080/00207179.2018.1475749 [6] Deutscher J, Gehring N, Kern R. Output feedback control of general linear heterodirectional hyperbolic ode-pde-ode systems. Automatica, 2018, 95: 472-480 doi: 10.1016/j.automatica.2018.06.021 [7] Xu X, Dubljevic S. Output regulation for a class of linear boundary controlled first-order hyperbolic pide systems. Automatica, 2017, 85: 43-52 doi: 10.1016/j.automatica.2017.07.036 [8] Deutscher J, Gabriel J. Minimum time output regulation for general linear heterodirectional hyperbolic systems. International Journal of Control, 2020, 93(8): 1826-1838 doi: 10.1080/00207179.2018.1533648 [9] Zhang J, Qi J, Dubljevic S, Bo S. Output regulation for a first-order hyperbolic PIDE with state and sensor delays. European Journal of Control, 2022, 65: Article No. 100643 [10] Irscheid A, Deutscher J, Gehring N, Joachim R. Output regulation for general heterodirectional linear hyperbolic PDEs coupled with nonlinear ODEs. Automatica, 2023, 148: Article No. 110748 [11] Deutscher J. Finite-time output regulation for linear 2×2 hyperbolic systems using backstepping. Automatica, 2017, 75: 54-62 doi: 10.1016/j.automatica.2016.09.020 [12] Owens B A, Mann B P. Linear and nonlinear electromagnetic coupling models in vibration-based energy harvesting. Journal of Sound and Vibration, 2012, 331(4): 922-937 doi: 10.1016/j.jsv.2011.10.026 [13] Susto G A, Krstic M. Control of pde-ode cascades with neumann interconnections. Journal of Franklin Institute, 2010, 347(1): 284-314 doi: 10.1016/j.jfranklin.2009.09.005 [14] Xu X, Tian Y, Yuan Y, Luan X, Liu F, Dubljevic S. Output regulation of linearized column froth flotation process. IEEE Transaction Control System Technology, 2020 29(1): 249-262 [15] Li J, Wu Z, Liu Y. Adaptive stabilization for an uncertain reaction-diffusion equation with dynamic boundary condition at control end. System & Control Letters, 2022, 162, 105-180 [16] Liu W J, Krstic M. Backstepping boundary control of burgers’ equation with actuator dynamics. System & Control Letters, 2000, 41(4): 291-303 [17] Wang J, Krstic M. Output-feedback control of an extended class of sandwiched hyperbolic pde-ode systems. IEEE Transaction on Automatic Control, 2020, 66(6): 2588-2603 [18] Wang J, Krstic M. Delay-compensated control of sandwiched ode-pde-ode hyperbolic systems for oil drilling and disaster relief. Automatica, 2020, 120: 109-131 [19] Wang J, Krstic M. Event-triggered output-feedback backstepping control of sandwich hyperbolic pde systems. IEEE Transaction Automatic Control, 2022, 67(1): 220-235 doi: 10.1109/TAC.2021.3050447 [20] Wang J, Krstic M. Output feedback boundary control of a heat pde sandwiched between two odes. IEEE Transaction Automatic Control, 2019, 64(11): 4653-4660 doi: 10.1109/TAC.2019.2901704 [21] Li J, Wu Z, Wen C. Adaptive stabilization for a reaction-diffusion equation with uncertain nonlinear actuator dynamics. Automatica, 2021, 128: 109-594 [22] Xiao Y, Yuan Y, Yang C, Luo B, Xu X, Dubljevic S. Adaptive neural tracking control of a class of hyperbolic PDE with uncertain actuator dynamics. IEEE Transactions on Cybernetics, DOI: 10.1109/TCYB.2022.3223168 [23] Zhang B, Yang C, Zhu H, Shi P, Gui W. Controllable-domain-based fuzzy rule extraction for copper removal process control. IEEE transactions on fuzzy systems, 2017 26(3): 1744-1756 [24] Lin Z, Stoorvogel A A, Saberi A. Output regulation for linear systems subject to input saturation. Automatica, 1996, 32(1): 29-47 doi: 10.1016/0005-1098(95)00110-7 [25] Raghavan S, Hedrick J K. Observer design for a class of nonlinear systems. International Journal of Control, 1994, 59(2): 515-528 doi: 10.1080/00207179408923090 [26] Vazquez R, Krstic M, Coron J M. Backstepping boundary stabilization and state estimation of a 2 × 2 linear hyperbolic system. In: Proceedings of Conference on Decision and Control and European Control Conference. Orlando, USA: 2011. 4937−4942 [27] Kailath T. Linear Systems. Englewood Cliffs, NJ: Prentice Hall, 1980. [28] Khalil H. Nonlinear systems (3rd edition). NJ: Prentice Hall, 2002. -