Multi-level Dynamic Principal Component Analysis for Abnormality Diagnosis of Fused Magnesia Furnaces
-
摘要: 电熔镁熔炼过程中的异常工况(如半熔化工况)直接影响产品质量、威胁人员和生产安全, 有必要及时诊断. 但与异常直接相关的超高温熔池温度(>2850 ℃)难以利用温度传感器检测, 目前现场主要依靠工人在定期巡检时人眼观察炉壁来诊断, 工作强度大、安全度低、诊断不及时. 针对上述问题, 本文提出一种炉体动态图像驱动的电熔镁炉异常工况实时诊断方法. 结合电熔镁炉熔炼各区域温度分布的空间特征、正常工况下熔炼温度变化和水雾扰动引入的图像时序特征、以及异常工况下温度异常区域持续发亮扩大的特征, 在对炉体动态图像进行空间多级划分的基础上, 提出了一种多级动态主元分析(Multi-level dynamic principal component analysis, MLDPCA) 动态图像分块建模方法. 在此基础上, 提出基于MLDPCA的逐级诊断方法与基于贡献图的异常定位方法. 最后, 采用某电熔镁生产现场的实际图像进行方法验证, 结果表明了所提方法的有效性.Abstract: The abnormalities during the melting process of fused magnesia furnace (FMF) such as semimolten situation may significantly affect the product quality, the safety of personnel and manufacturing process. The abnormal condition diagnosis deserves more attentions. However, the ultra-high temperature within the melting zone of the FMF is not measurable, that makes the diagnosis of FMF abnormality be difficult. The practitioners can only perform occasional visual inspections which often fail to detect the abnormalities in time. In order to resolve this challenge, this paper proposes a novel dynamic image analysis based real-time abnormality diagnosis method for the FMF. The proposed method exploits the spatial and temporal characteristics of temperature fluctuation in FMF in normal condition as well as the partial glowing of the furnace wall and continuous expanding of the glowing area in abnormal conditions. In order to extract these spatial and temporal features from the dynamic images, a new multi-level dynamic principal component analysis (MLDPCA) algorithm is developed. A hierarchical monitoring method is then proposed to perform the abnormality diagnosis and locate the abnormality by using the MLDPCA based contribution plot. The application result on a practical FMF using the collected field images has demonstrated the effectiveness of the proposed method.
-
随着自动驾驶和机器人应用技术的兴起, 3D点云数据分析引起了广泛关注. 近年来, 由于基于深度学习的神经网络在图像分类[1-2]、目标检测[3-4]和图像分割[5-6]等任务中取得了很大的成功, 基于深度学习的点云数据分析也成为了研究的热点[7]. 现有的基于深度学习的点云数据分析方法大体可以分为以下两类:
一类是基于无序点云规则化的深度学习方法, 这类方法先将3D点云转换为规则的体素结构[8-9]或多视图图像[10-11], 然后使用卷积神经网络 (Convolutional neural network, CNN)方法来学习特征表示. 由于体素化过程存在量化误差, 多视图投影则压缩了数据维度, 这些都会不同程度上导致3D点云中几何信息的丢失. 另一类方法是直接基于点云的深度学习方法. 这类方法又可以分为基于多层感知机(Multi-layer perceptron, MLP)的方法、 基于卷积的方法和基于图的方法. 其中基于多层感知机的方法[12-14]的核心思想是通过参数共享的MLP独立地提取每个点的特征, 然后通过一个对称函数聚合得到全局特征, 这类方法往往不能充分考虑到3D点之间的关系. 基于卷积的方法[15-17]的核心思想是根据邻域点之间的空间位置关系去学习点之间的权重参数, 并根据学习到的权重参数自适应地聚合局部特征, 这类方法已经取得了极大的成功. 基于图的方法[18-20]在近年来也受到了广泛的关注, 它们将每个点都作为图的顶点, 通过学习顶点之间边的权重来更新顶点的特征, 这类方法通常在构图的过程中会产生相当大的计算量.
在上述方法中, 基于MLP的方法是最直接简单的方法. PointNet[12]是这类方法中的开创性工作, 其核心思想是通过参数共享的多层感知机独立地将每个点的坐标信息映射至高维特征空间, 再通过一个对称函数聚合最终的高维特征以获得全局表示, 从而解决了点云的无序性问题; 此外, PointNet还使用T-Net网络[12]学习变换矩阵对点云进行旋转标定, 从而保证点云的旋转不变性; 在分割任务中, PointNet将全局特征与每个点的局部特征级联, 通过多层MLP提取每个点的语义特征, 实现对每个点的分类. 虽然该方法简单有效, 但是由于其是对每个点进行独立地处理, 因此该网络并没有有效提取点云的局部特征. 对此, PointNet++[13]提出了一种层次化的网络结构, 通过在每一层级递归使用采样、分组和PointNet网络来抽象低层次的特征; 面对语义分割任务, PointNet++提出基于欧氏距离的插值法对点进行上采样, 并将通过插值计算所得语义特征与低层学习的语义特征进行融合以更准确地学习每个点的语义特征. 但是在每一个子区域中, PointNet++仍然独立地处理每个点的信息. PointSIFT[14]引入卦限约束来有效探索各个点周围的局部模式, 其主要思想是以每个点为原点, 在周围8个卦限中找到特定范围内的最近点, 然后沿着X, Y, Z轴使用三阶段2D卷积来提取局部模式, 其三阶段的卷积操作会受到因点云旋转而造成的不同卦限顺序的影响, 从而使得提取的局部模式具有方向敏感性; 此外, 在下采样阶段, PointSIFT沿用PointNet++的网络结构, 采用可学习的方式聚合局部特征, 这为其引入额外的参数, 从而大大增加了其计算量.
为了克服上述问题, 本文提出了一种新的卦限卷积神经网络(Octant-CNN)来提取点云的局部几何结构. 该网络主要由卦限卷积模块和下采样模块两部分组成. 具体来说, 卦限卷积模块首先搜索每个点在8个卦限内的最近邻点, 由于点云的密度特性可以通过近邻点的距离来表征, 为了使Octant-CNN能更好地反映这一特性, 本文取消了对搜索半径的限制, 从而保证远离中心点的近邻点同样可以被度量. 卦限卷积模块使用单阶段卷积操作同时作用在8个卦限的近邻点, 从而克服了三阶段卷积操作对卦限顺序敏感这一问题, 并且配合T-Net的使用, 能够对点云旋转具有更好的鲁棒性. 最后通过级联各层的特征和残差连接方式实现了多层次特征的融合. 下采样模块根据空间分布对点云进行分组聚合, 扩大了中间特征的感受野, 构成了层次化的网络连结结构, 并且该模块并没有引入额外的可学习参数, 从而大大降低了Octant-CNN的计算复杂度. 通过对卦限卷积模块和下采样模块的多层堆叠, Octant-CNN实现了从局部模式中不断抽象出全局特征.
1. Octant-CNN
Octant-CNN的整体网络框架如图1所示. 以原始点云作为输入, 首先将点云送入T-Net中进行点云旋转, 将点云标定至规范空间, 接着通过卦限卷积模块(Octant convolution module)提取点云的局部几何结构, 其后采用下采样模块(Sub-sampling module)来减少点的数量, 以设计一种分层式的层次化网络结构, 从而增加中间层特征的感受野. 通过这两个模块的多层堆叠, Octant-CNN实现了对高层语义特征的抽象, 为点云处理提供了一种高效的特征编码方式.
1.1 卦限卷积模块
假设具有
$ n $ 个点的点云为$ S = (X; F) \subseteq {\bf{R}}^{3+C} $ , 其中$ X = \{x_{1}, x_{2}, \cdots, x_{n}\} \subseteq {\bf{R}}^{3} $ 表示坐标信息,$F = $ $ \{f_{1}, f_{2}, \cdots, f_{n}\} \subseteq {\bf{R}}^{C}$ 表示点云的特征. 对于每个点$ s_{i} $ , 以该点为原点建立一个三维局部坐标系, 可以将空间划分为8个卦限, 然后在8个卦限中分别找到$ s_{i} $ 的最近邻点, 即$ N(s_{i}) = \{s_{i1}, \cdots, s_{i8}\} $ . 在卦限卷积模块中, Octant-CNN取消了搜索半径上限的限制, 这样可以确保远离中心点的近邻点同样可以被捕获到, 从而可以更好地反映点云的局部密度特性.对于8个最近邻点, PointSIFT[14]使用了具有三阶段操作的2D卷积, 如图2(a)所示. 该卷积操作沿X, Y和Z轴分别使用卷积核大小为
$ 1 \times 2 $ 的2D卷积. 这种三阶段的卷积操作存在着先后顺序, 对于三维空间中的不同维度具有各向异性, 而且PointSIFT中没有采用T-Net对输入点云进行旋转, 因此不同的卦限顺序会造成不同的卷积结果. 为了克服这个问题, 本文采用T-Net对点云进行旋转标定, 并通过单阶段的卷积操作直接在8个最近邻点上进行运算. 如图2(b)所示, Octant-CNN先按照卦限的顺序对8个邻点进行排序, 接着利用一个卷积核大小为$ 1 \times 8 $ 的2D卷积直接作用在这8个邻点上. 给定中心点$ s_{i} $ 及其最近邻点$ N(s_{i}) $ , 卷积的输入通道包括中心点坐标$ x_{i} $ , 中心点及其最近邻点之间的残差坐标$ x_{i} - x_{ij} $ , 以及最近邻点的特征$ f_{ij} $ , 该操作过程如下:$$ f^{(l)}(s_{i}) = \sum\limits_{j = 1}^{8}w_{ij}\left(concat(x_{i}, x_{i} - x_{ij}, f_{ij})\right) $$ (1) 其中,
$ f^{(l)}(s_{i}) $ 表示点$ s_{i} $ 在第$ l $ 层学到的特征,$ concat $ 表示级联操作,$ w_{ij} $ 表示$ s_{i} $ 和$ s_{ij} $ 之间的可学习权重.由于Octant-CNN先通过T-Net对点云方向进行预先标定, 其后采用一个二维卷积同等处理各卦限内的点及其特征, 使得单阶段卷积对输入点云具有各向同性, 因此对于不同角度的同一点云输入, Octant-CNN总能得到相似的特征表示, 具有旋转不变性.
为了使每个点能够提取更丰富的特征, Octant-CNN在卦限卷积模块中堆叠了多层卷积操作, 并将各层的输出特征通过MLP进行融合, 以充分利用各层次特征信息, 并且MLP的输出尺寸与最后一个卷积层相同, 从而可以在最后一层添加残差块以缓解梯度消失问题. 整个卦限卷积模块可以表示为
$$ f_{O} = F_{{\rm{res}}}+F^{(l)} = MLP\left(F^{(1)}, F^{(2)}, \cdots, F^{(l)}\right)+F^{(l)} $$ (2) 卦限卷积模块的架构如图3所示.
1.2 下采样模块
下采样模块的目的是为了扩大每个点特征学习的局部感受野. 主要思路为: 从输入点集中选择一系列种子点作为聚类中心点; 然后, 将这些中心点周围的点的特征用对称函数聚合在一起. 由于PointSIFT[14]在下采样的过程中沿用了PointNet++[13]的结构设计, 这为PointSIFT引入了可学习的参数, 从而增加了其计算量; 不同于此, Octant-CNN在下采样模块中的核心操作是种子点的选择和特征聚合, 而在特征聚合时仅仅通过对称函数即可实现, 这并没有为Octant-CNN带来额外的可学习参数, 因此降低了Octant-CNN的计算复杂度.
给定输入点
$ \{x_{1}, x_{2}, \cdots, x_{n}\} $ , 下采样模块迭代使用最远点采样(Furthest point sampling, FPS)来选择该点集的一个子集$ \{x_{1}, x_{2}, \cdots, x_{m}\} $ ,$ m < n $ , 并将该子集作为聚类中心的种子点. 与随机采样相比, FPS通过最大化采样点之间的距离来更好地覆盖整个点集[13].对于每一个采样点, Octant-CNN都可以在一定的半径内寻找它的邻点. 为了保持一致性, 本文在实际操作中设置了一个上限
$ K $ . 该操作可以表示为: 给定一个大小为$ N \times C $ 的原始点集, 以及通过FPS采样得到的大小为$ M \times C $ 的子集, 其中$ M $ 和$ N $ 表示集合中点的数量($ M < N $ ),$ C $ 表示特征维度. 对于每个采样点, 都可以在一定半径内从原始点集中选取$ K $ 个邻点, 并输出大小为$ M \times K \times C $ 的数据. 这些邻点的特征都可以通过一个对称函数聚合并输出大小为$ M \times C $ . 在实际操作中, 本文使用最大值来聚合局部特征.2. 实验结果与分析
为了详细评估Octant-CNN的性能, 本文在对象分类、部件分割、场景语义分割、3D目标检测四组任务中, 对其进行了实验测试, 并和相关方法进行了比较. 此外, 本文还通过一系列消融实验评估了卦限卷积和下采样模块的不同设置对网络性能的影响.
2.1 对象分类
首先在ModelNet40[9]分类基准上评估Octant-CNN. 该数据集包含40个人工设计的对象类别, 共有12311个CAD模型, 其中9843个用于训练集, 2468个用于测试集. 参照PointNet[12], 本文均匀采样1024个点并将其标准化到单位球体中, 并仅将采样点的坐标作为模型的输入. 在训练过程中, 本文与PointNet++[13]一样, 通过随机旋转和缩放对象并扰动对象点的位置来扩充数据.
如图1所示, 首先使用PointNet[12]设计的T-Net对点云进行旋转标定. T-Net首先通过三层共享的MLP提取点的特征, 然后通过最大值池化以获取全局表示, 最后通过两个全连接层来计算一个转换矩阵. Octant-CNN在卦限卷积模块中学习点的局部特征, 然后在下采样模块中对点进行分组聚合局部特征. 在实际操作中, 对于最后一个下采样模块, 本文仅对原点进行采样, 然后使用最大值获取全局特征, 最后通过两层全连接层来输出对象的类别概率. 在训练过程中, 本文在全连接层中使用了dropout[21]机制, 并将该比率设置为50%. 在测试阶段, 本文和PointNet++[13]一样, 使用投票机制将点云均匀旋转12个不同的角度后分别送入模型中预测, 并对这12个预测结果取平均获取最终的分类结果.
表1列出了Octant-CNN与最新一些相关方法进行的比较结果, 包括PointNet[12], PointNet++[13], PAT[22]等. 本文采用了整体准确率(Overall accuracy, oAcc)和平均准确率(Mean accuracy, mAcc)两种指标来衡量分类结果, 它们的定义分别为
表 1 ModelNet40分类结果(%)Table 1 Classification results on ModelNet40 (%)$$ oAcc = \dfrac{\sum\limits_{i = 1}^{N}p_{ii}}{\sum\limits_{i = 1}^{N}\sum\limits_{j = 1}^{N}p_{ij}} $$ (3) $$ mAcc = \dfrac{1}{N}\sum\limits_{i = 1}^{N}\frac{p_{ii}}{\sum\limits_{j = 1}^{N}p_{ij}} $$ (4) 其中,
$ p_{ij} $ 表示真实标签为$i,$ 预测结果为$ j $ 的数量,$ N $ 表示类别数. 为了客观分析比较, 本文还实现了基于PointSIFT[14]的对象分类任务. 从表1可以看到, Octant-CNN取得了不错的效果, 这也说明了Octant-CNN在一定程度上可以更好地学习到点云的局部几何特征.2.2 部件分割
ShapeNet[28]数据集主要用于测试部件分割任务. 该数据集包含16个对象类别的16881个不同形状, 总共被标记为50个部件. 本文参照PointNet[12]的方法对数据集进行划分, 并随机采样2048个点作为网络输入. Octant-CNN仅使用坐标信息作为网络的输入, 而没有采用PointNet++[13]中的法线信息.
但是, 对于分割任务, 模型希望获得每个点的语义特征以实现每个点的分类. PointSIFT[14]首先参照PointNet++[13]的方法, 先使用基于欧氏距离的插值法对点进行上采样, 并将内插值与上一个卦限卷积模块中学习的特征进行级联, 然后通过共享的多层感知机提取丰富的语义特征; 紧接着, PointSIFT在此基础上使用三阶段卷积操作进一步做特征变换. 该三阶段的卷积操作在原来多层感知机的基础上又引入了额外的参数. 不同于此操作, 考虑到计算量的问题, Octant-CNN在上采样的过程中仅通过多层感知机来抽象高层的语义特征.
在实际操作中, 我们还将对象的one-hot标签级联到最后一层特征传播层中, 以进行准确的预测. 为了更好地评测Octant-CNN在部件分割上的性能, 本文还和PointNet[12], PointNet++[13]等方法进行了实验比较, 表2中给出了实验比较结果. 本文采用平均交并比(Mean intersection over union, mIoU)作为衡量分割任务性能的指标, 其定义为
表 2 ShapeNet部件分割结果(%)Table 2 Part segmentation results on ShapeNet (%)方法 mIoU aero bag cap car chair earphone guitar knife lamp laptop motor mug pistol rocket skateboard table PointNet[12] 83.7 83.4 78.7 82.5 74.9 89.6 73.0 91.5 85.9 80.8 95.3 65.2 93.0 81.2 57.9 72.8 80.6 PointNet++[13] 85.1 82.4 79.0 87.7 77.3 90.8 71.8 91.0 85.9 83.7 95.3 71.6 94.1 81.3 58.7 76.4 82.6 PointSIFT[14] 79.0 75.1 78.4 81.8 74.5 85.2 64.3 89.6 81.9 77.5 95.1 64.0 93.5 77.1 54.2 70.6 74.3 RGCNN[19] 84.3 80.2 82.8 92.6 75.3 89.2 73.7 91.3 88.4 83.3 96.0 63.9 95.7 60.9 44.6 72.9 80.4 DGCNN[20] 85.1 84.2 83.7 84.4 77.1 90.9 78.5 91.5 87.3 82.9 96.0 67.8 93.3 82.6 59.7 75.5 82.0 SCN[23] 84.6 83.8 80.8 83.5 79.3 90.5 69.8 91.7 86.5 82.9 96.0 69.2 93.8 82.5 62.9 74.4 80.8 Kd-Net[26] 82.3 80.1 74.6 74.3 70.3 88.6 73.5 90.2 87.2 81.0 94.9 57.4 86.7 78.1 51.8 69.9 80.3 SO-Net[27] 84.6 81.9 83.5 84.8 78.1 90.8 72.2 90.1 83.6 82.3 95.2 69.3 94.2 80.0 51.6 72.1 82.6 RS-Net[29] 84.9 82.7 86.4 84.1 78.2 90.4 69.3 91.4 87.0 83.5 95.4 66.0 92.6 81.8 56.1 75.8 82.2 Octant-CNN 85.3 83.9 83.6 88.3 79.2 91.1 70.8 91.8 87.5 82.9 95.7 72.2 94.5 83.6 60.0 75.5 81.9 $$ mIoU = \frac{1}{N}\sum\limits_{i = 1}^{N}\frac{p_{ii}}{\sum\limits_{j = 1}^{N}p_{ij}+\sum\limits_{j = 1}^{N}p_{ji}-p_{ii}} $$ (5) 其中,
$ p_{ij} $ 表示真实标签为$ i $ , 预测结果为$ j $ 的数量,$ N $ 表示类别数. 可以看到, 本文仅将坐标信息用作输入, 就可以得到比使用法线信息的PointNet++[13]更好的性能. 同时, PointSIFT[14]在部件分割任务中并不能取得很好的效果, 主要由于其上采样使用了三阶段的卷积操作, 这带来了大量的参数, 对于ShapeNet[28]这种相对较小的数据集, 很容易造成模型的过拟合.2.3 室内场景语义分割
为了进一步证明Octant-CNN的有效性, 本文还在斯坦福大学大型3D室内空间数据集(3d semantic parsing of large-scale indoor spaces, S3DIS)[30]上评估了其性能. 该数据集包含来自6个室内区域的272个房间. 每个点都用来自13个类别(天花板, 地板, 墙壁, 梁和其他)的语义标签进行标注. 参照PointNet[12], 本文将每个房间分成面积为
$1\;{\rm{m}} \times 1\;{\rm{m}}$ 的块, 每个点都表示为9维向量(XYZ, RGB和归一化坐标). 在训练过程中, Octant-CNN在每个块中随机选取4096个点, 并将所有的点用于测试. 与PointNet[12]一样, 本文在6个区域上使用了6折交叉验证的方式.本文将Octant-CNN与PointNet[12], PointNet++[13], PointSIFT[14]进行了比较. 由于我们无法达到PointSIFT[14]中报告的结果, 因此仅显示根据作者提供的代码而获得的结果. 结果总结在表3中, 本文提出的Octant-CNN优于其他方法. 图4显示了Octant-CNN的一些可视化结果, 可以发现, Octant-CNN可以更平滑地分割场景, 这是由于Octant-CNN在卦限卷积模块中更好地学习局部几何特征.
表 3 S3DIS语义分割结果Table 3 Semantic segmentation results on S3DIS方法 mIoU OA ceiling floor wall beam column windows door chair table bookcase sofa board clutter PointNet[12] 47.7 78.6 88.0 88.7 69.3 42.4 23.1 47.5 51.6 42.0 54.1 38.2 9.6 29.4 35.2 PointNet++[13] 57.3 83.8 91.5 92.8 74.6 41.3 28.1 54.5 59.6 64.6 58.9 27.1 52.0 52.3 48.0 PointSIFT[14] 55.5 83.5 91.1 91.3 75.5 42.0 24.0 51.4 56.6 60.2 55.8 17.0 50.2 57.1 49.9 RS-Net[29] 56.5 — 92.5 92.8 78.6 32.8 34.4 51.6 68.1 59.7 60.1 16.4 50.2 44.9 52.0 Octant-CNN 58.3 84.6 92.1 94.5 76.3 48.9 30.8 56.9 62.9 65.8 55.5 28.0 48.1 50.3 48.4 2.4 3D目标检测
最后, 本文将Octant-CNN和PointSIFT[14]扩展到了KITTI[31]数据集上进行3D目标检测. KITTI 3D目标检测数据集由7481个训练图像和7518个测试图像以及相应的点云数据组成. 它具有三个目标类别: 汽车、行人和自行车. 对于3D目标检测, 本文遵循Frustum PointNets[32]的检测流程, 仅将PointNet特征提取模块替换成Octant-CNN以客观比较. 由于Frustum PointNets[32]仅公开了在训练集和验证集上的2D检测框, 因此本文评估的是Octant-CNN及相关方法在验证集上的检测结果.
3D目标检测的实验结果如表4所示, 这些方法的检测流程都是基于Frustum PointNets[32]实现的, 主要不同之处在于点云的分割网络以及3D目标检测框的回归网络, 其中Frustum PointNet v1采用的是PointNet[12]的网络结构, Frustum PointNet v2采用的是PointNet++[13]的网络结构, 可以发现, 本文提出的方法要优于这些方法. 尤其对于小目标的检测性能提升较为明显, 图5同时也展示了一些检测的可视化结果.
表 4 3D目标检测对比结果(%)Table 4 Performance compression in 3D object detection (%)方法 Cars Pedestrians Cyclists Easy Moderate Hard Easy Moderate Hard Easy Moderate Hard Frustum PointNet v1[32] 83.75 69.37 62.83 65.39 55.32 48.62 70.17 52.87 48.27 Frustum PointNet v2[32] 83.93 71.23 63.72 64.23 56.95 50.15 74.04 54.92 50.53 Frustum PointSIFT[14] 71.56 66.17 58.97 63.13 55.08 49.05 70.36 52.56 48.53 Frustum Geo-CNN[33] 85.09 71.02 63.38 69.64 60.50 52.88 75.64 56.25 52.54 Frustum Octant-CNN 85.10 72.31 64.46 67.90 59.73 52.44 76.56 57.50 54.26 2.5 消融实验
本节在ModelNet40[9]数据集上进行了实验, 详细分析了网络结构中各个模块的作用, 并且分析了卦限卷积中不同特征融合方式、不同近邻点选择方法和不同特征输入的效果. 此外, 本节还对卦限卷积与其他方法的旋转鲁棒性和计算复杂度进行了比较.
1) 结构的设计. 为了分析卦限卷积模块中各个部件的重要性, 通过将各个部件分别加入卦限卷积模块中进行实验, 结果如表5所示. 在卦限卷积模块中, 首先通过堆叠多层2D卷积以获取点云丰富的局部特征, 此时该模型可以达到90.7%的准确率. 为了充分利用低层的几何特征, 接着将所有卷积层的输出特征级联起来, 并通过一层MLP实现多层特征的融合, 此时的准确率可以提升到91.2%. 考虑到多层堆叠卷积可能带来的过拟合问题, 进一步以残差方式将融合特征与最后一层2D卷积层的输出特征相加, 准确率也进一步提升到91.5%. 最后, 为了能够客观的与PointNet++[13]等方法对比, 采用了投票机制, 将输入点云均匀旋转12个不同角度并分别送入模型中预测, 并取平均值作为最终的结果, 最终取得91.9%的准确率.
表 5 结构设计分析Table 5 Analysis of the structure design模型 多层融合 残差 投票 oAcc (%) A 90.7 B $\checkmark$ 91.2 C $\checkmark$ $\checkmark$ 91.5 D $\checkmark$ $\checkmark$ $\checkmark$ 91.9 2) 特征融合方式的选择. 为了比较2D卷积和MLP两种特征融合方法对最终结果性能的影响, 本组实验对这两种特征融合的方式进行了对比, 实验结果如表6所示. 可以观察到2D卷积效果更佳, 这是由于在使用MLP时, 其是对每个邻点单独处理, 然后通过最大值操作聚合局部特征, 该操作只保留了每个通道中最重要的信息, 从而导致细节信息的丢失; 而在使用2D卷积时, 其会考虑到所有邻点各个通道的信息, 充分利用了细节信息.
表 6 2D卷积和MLP的对比Table 6 Comparisons of 2D CNN and MLP模型 运算 oAcc (%) A MLP 90.8 B 2D CNN 91.9 3) 近邻点的选择.
$ {\rm{K}} $ 近邻(K-nearest neighbor, KNN)是最常见的一种近邻选择方式, 本文提出了使用8卦限搜索的方式来选择近邻点. 对此, 本组实验对这两种近邻点的选择进行了对比, 实验结果如表7所示. 可以发现, 本文所使用的8卦限搜索的性能要优于KNN. 这两种近邻点的区别如图6所示, 其中方框表示选择的近邻点. 当使用KNN时, 选取的近邻点会受到点云密度特性的影响而偏向某一特定方向; 而使用8卦限搜索时, 所选取的近邻点来自于不同的方向, 从而更好地覆盖在点云上.表 7 不同邻点的比较Table 7 The results of different neighbor points模型 邻点 准确率 (%) A K近邻 90.2 B 8 卦限搜索 91.9 4)搜索半径的设置: 为了分析在使用8卦限搜索近邻点时, 搜索半径的限制对模型性能的影响, 通过设置几组不同的搜索半径进行实验. 由于在点云分类任务中, 点云首先被标准化到单位球体中, 因此最大搜索半径设置为1. 结果如表8所示, 我们观察到, 当搜索半径越大, 分类准确率也会随之提升. 这是由于在设置搜索半径时, 部分偏离中心点较远的近邻点会被丢弃, 从而导致几何结构的不完整. 因此, 我们取消了搜索半径的限制.
表 8 不同搜索半径的比较Table 8 Comparison of different search radius模型 搜索半径 oAcc (%) A (0.25, 0.5, 1.0) 88.0 B (0.4, 0.8, 1.0) 89.2 C (0.5, 1.0, 1.0) 89.9 D None 91.9 5) 不同输入特征的比较: 本组实验对比了使用不同的输入特征对模型最终性能的影响, 实验结果如表9所示. 从实验结果可以看出来, 当仅使用邻点的特征作为卷积的输入时, 由于缺少点云的空间位置信息, 此时的效果不佳. 随着越来越多的坐标信息, 如中心点的坐标、中心点与邻点的残差坐标同时送入卷积中进行运算, 精度也会得到相应的提升.
表 9 不同输入通道的结果比较Table 9 The results of different input channels模型 输入通道 oAcc (%) A ($f_{ij}$) 90.1 B ($x_i-x_{ij}, f_{ij}$) 90.3 C ($x_i, f_{ij}$) 90.8 D ($x_i, x_i-x_{ij}, f_{ij}$) 91.9 6) 点云旋转的鲁棒性分析: 在本组实验中, 将输入点云分别旋转
$0^{\circ},$ $30^{\circ},$ $60^{\circ},$ $90^{\circ},$ $ 180^{\circ} $ 后送入Octant-CNN和PointSIFT[14]中进行预测, 通过计算由不同角度得到的准确率的均值和方差来比较这两种方法对点云旋转的鲁棒性. 由于Octant-CNN在一定程度上依赖于T-Net, 为了更客观地比较单阶段卷积和三阶段卷积对点云旋转的鲁棒性的影响, 我们还将T-Net加入PointSIFT模型中, 实验结果如表10所示. 可以发现, T-Net在一定程度上提高了PointSIFT的旋转鲁棒性, 但是本文提出的单阶段卷积对点云旋转依然更具鲁棒性, 这是由于三阶段卷积是存在先后顺序的, 对于三维空间不同维度具有各向异性, 而单阶段卷积同等处理各卦限的点, 对输入点云具有各向同性.表 10 点云旋转鲁棒性比较Table 10 Comparison of robustness to point cloud rotation方法 0° (%) 30° (%) 60° (%) 90° (%) 180° (%) 均值 方差 PointSIFT[14] 88.2 89.2 88.9 88.7 88.5 88.7 0.124 PointSIFT+T-Net 89.1 89.4 89.4 88.6 88.6 89.04 0.114 Octant-CNN 91.5 91.7 91.9 91.5 91.8 91.68 0.025 7) Octant-CNN的复杂度: 最后, 我们对比了Octant-CNN和其他一些方法在语义分割任务中的参数量和每秒的浮点运算量(Floating point operations per second, FLOPs), 结果如表11所示. 可以观察到, 相比于PointSIFT[14], Octant-CNN的参数量和FLOPs都得到了明显的降低, 这主要来自两个方面: 1) 在下采样阶段, PointSIFT采用可学习的方式聚合局部特征, 这为PointSIFT引入了额外的可学习参数, 而Octant-CNN直接采用最大值池化聚合局部特征, 这一操作不需要额外参数; 2) 由于语义分割任务需要上采样以恢复点的原始数量, PointSIFT首先使用几层MLP抽象语义特征, 紧接着使用三阶段卷积进一步丰富语义信息, 这带来了大量的参数, Octant-CNN则只使用了MLP来抽象高层语义特征. 同时可以发现, 对于部件分割和目标检测这两个数据集相对较小的任务, PointSIFT由于参数量过大, 导致模型出现过拟合的情况, 因此在这两个任务上的效果不佳.
3. 结论
为了有效捕获点云的局部几何信息, 本文提出了Octant-CNN, 并在对象分类、部件分割、语义分割和目标检测上均取得显著提升. Octant-CNN具有三个关键点: 首先, 在近邻空间中定位最近邻点时, Octant-CNN取消了搜索范围的限制, 这使得远离中心点的近邻点可以被捕获, 从而更好地反映点云的密度特性. 其次, Octant-CNN使用单阶段的卷积操作直接提取点的局部几何结构, 这克服了三阶段卷积操作带来的对卦限顺序敏感的问题, 从而对点云旋转更具鲁棒性. 最后, 通过下采样模块实现对原始点集的分组及特征聚合, 从而增大了中间特征的感受野, 并大大降低了卷积操作的计算量.
-
表 1 电熔镁炉半熔化工况诊断误报率
Table 1 False positive rates of semimolten for FMF
诊断方法 误报率 (不加时间延迟诊断) 误报率 (加时间延迟诊断) 多级 PCA 35.17 % 8.69 % 本文方法 7.63 % 0.1 % 表 2 建模时间与诊断时间
Table 2 Cost time of modeling and online diagnosis
诊断方法 建模时间 (秒) 诊断时间 (秒) 多级 PCA 54.95 0.87 本文方法 145.14 0.94 -
[1] 罗仙平, 李建康, 徐徽, 王金庆, 逯登琴, 张贤. 电熔镁砂制备工艺及熔炼过程. 盐业与化工, 2016, 45(08): 8-13Luo Xian-Ping, Li Jian-Kang, Xu Hui, Wang Jin-Qing, Lu Deng-Qing, Zhang Xian. Preparation and melting process of fused magnesia. Journal of Salt and Chemical Industr, 2016, 45(08): 8-13 [2] 吴志伟, 柴天佑, 吴永建. 电熔镁砂产品单吨能耗混合预报模型. 自动化学报, 2013, 39(12): 2002-2011Wu Zhi-wei, Chai Tian-you, Wu Yong-jian. A hybrid prediction model of energy consumption per ton for fused magnesia. Acta Automatica Sinica, 2013, 39(12): 2002-2011 [3] Zhang X, Xue D F, Xu D L, Feng X Q, Wang J Y. Growth of large MgO single crystals by an arc-fusion method. Journal of Crystal Growth, 2005, 280(6): 234-238 [4] Zhang X, Xue D F, Wang J Y, Feng X Q. Improved growth technology of large MgO single crystals. Journal of Crystal Growth, 2006, 292(7): 505-509 [5] Wu Z W, Wu Y J, Chai T Y, Sun J. Data-driven abnormal condition identi cation and self-healing control system for fused magnesium furnace. IEEE Transactions on Industrial Electronics, 2015, 62(3): 1703-1715 doi: 10.1109/TIE.2014.2349479 [6] Chai T Y, Wu Z W, Wang H. A CPS based optimal operational control system for fused magnesium furnace. In: Proceedings of the 20th world Congress of the International Federation of Automatic Control. Toulouse, France: IFAC, 2013. 50(1): 14992−14999 [7] 孔德志, 刘强, 郎志强. 基于图像动态相关度的电熔镁炉半熔化异常工况诊断, 中国过程控制会议, 沈阳, 中国, 2018Kong De-Zhi, Liu Qiang, Lang Zhi-Qiang. Dynamic correlation based semi-melting condition diagnosis for fused magnesia furnaces. In: Proceedings of the 2018 Chinese Process Control Conference. Shenyang, China, 2018 [8] 卢绍文, 王克栋, 吴志伟, 李鹏琦, 郭章. 基于深度卷积网络的电熔镁炉欠烧工况在线识别. 控制与决策, 2017, 23(9): 1-8Lu Shao-Wen, Wang Ke-Dong, Wu Zhi-Wei, Li Peng- Qi, Guo Zhang. Online detection of semi-molten of fused magnesium furnace based on deep convolutional neural network. Control and Decision, 2017, 23(9): 1-8 [9] 吴高昌, 刘强, 柴天佑, 秦泗钊. 基于时序图像深度学习的电熔镁炉异常工况诊断. 自动化学报, 201945(8): 1475-1485Wu Gao-Chang, Liu Qiang, Chai Tian-You, Qin S Joe. Abnormal condition diagnosis based on deep learning of image sequences for fused magnesium furnaces. Acta Automatica Sinica, 2019, 45(8): 1475-1485 [10] Qin S J. Data-driven fault detection and diagnosis for complex industrial processes. In: Proceedings of the 7th IFAC Symposium on Fault Detection, Supervision and Safety of Technical Processes. Barcelona, Spain: IFAC, 2009. 42(8): 1115−1125 [11] 纪洪泉, 何潇, 周东华. 基于多元统计分析的故障检测方法. 上海交通大学学报, 2015, 49(06): 842-848Ji Hong-Quan. He Xiao, Zhou Dong-Hua. Fault detection techniques based on multivariate statistical analysis. Journal of Shanghai Jiao Tong University, 2015, 49(06): 842-848 [12] 刘强, 柴天佑, 秦泗钊, 赵立杰. 基于数据和知识的工业过程监视及故障诊断综述. 控制与决策, 2010, 25(06): 801-807Liu Qiang, Chai Tian-You, Qin S Joe, Zhao Li-Jie. Progress of data-driven and knowledge-driven process monitoring and fault diagnosis for industry process. Control and Decision, 2010, 25(06): 801-807 [13] 贾宝柱, 贾志涛, 余培文. 数据驱动的船舶智能故障诊断方法, 控制工程, 2019 26(10): 1892-1898Jia Bao-zhu, Jia Zhi-tao, Yu Pei-wen. Data-deiven vessel smart fault diagnosis method. Control Engineering of China, 2019, 26(10): 1892-1898 [14] 陈晓露, 王瑞璇, 王晶, 周靖林. 基于混合型判别分析的工业过程监控及故障诊断, 自动化学报, 2020, 46(8): 1600−1614Chen Xiao-Lu, Wang Rui-Xuan, Wang Jing, Zhou Jing-Lin. Industrial process monitoring and fault diagnosis based on hybrid discriminant analysis. Acta Automatica Sinica, 2020, 46(8): 1600−1614 [15] Jia R X, Wang J, Zhou J L. Fault diagnosis of industrial process based on the optimal parametric t-distributed stochastic neighbor embedding. Science China Information Sciences, 2021, 64: 159204 [16] Ku W, Storer R H, Georgakis C. Disturbance detection and isolation by dynamic principal component analysis. Chemometrics and Intelligent Laboratory Systems, 1995, 30(1): 179-196 doi: 10.1016/0169-7439(95)00076-3 [17] Chen J, Liu K C. On-line batch process monitoring using dynamic PCA and dynamic PLS models. Chemical Engineering Science, 2002, 57(1): 63-75 doi: 10.1016/S0009-2509(01)00366-9 [18] Lu N, Yao Y, Gao F, Wang F. Two-dimensional dynamic PCA for batch process monitoring. AIChE Journal, 2005, 51(12): 3300-3304 doi: 10.1002/aic.10568 [19] Lin W, Qian Y, Li X. Nonlinear dynamic principal component analysis for on-line process monitoring and diagnosis. Computers and Chemical Engineering, 2000, 24(2): 423-429 [20] Li G, Liu B, Qin S J, Zhou D H. Dynamic latent variable modeling for statistical process monitoring. In: Proceedings of the 18th World Congress The International Federation of Automatic Control. Milano, Italy: IFAC, 2011. 44(1): 12886−12891 [21] Li G, Qin S J, Zhou D H. A new method of dynamic latent-variable modeling for process monitoring. IEEE Transactions on Industrial Electronics, 2014, 61(11): 6438-6448 doi: 10.1109/TIE.2014.2301761 [22] Dong Y N, Qin S J. A novel dynamic PCA algorithm for dynamic data modeling and process monitoring. Journal of Process Control, 2018, 67(7): 1-11 [23] Liu Q, Qin S J, Chai T Y. Decentralized fault diagnosis of continuous annealing processes based on multilevel PCA. IEEE Transactions on Automation Science and Engineering, 2013, 10(3): 687-698 doi: 10.1109/TASE.2012.2230628 [24] Alcala F, Qin S J. Reconstruction-based contribution for process monitoring. Automatica, 2009, 7(45): 1593-1600 [25] Gonzalez R C, Woods R E. Digital image processing. Englewood: Prentice Hall, 2002. 282−348 [26] Reinhard E, Ashikmin M, Gooch B, Shirley P. Color Transfer between Images. IEEE Computer Graphics & Applications, 2001, 21(5): 34-41 [27] Izadi I, Shah S L, Shook D S, Kondaveeti S R, Chen T W. A framework for optimal design of alarm systems. In: Proceedings of the 7th IFAC Symposium on Fault Detection, Supervision and Safety of Technical Processes. Barcelona, Spain: IFAC, 2009. 42(8): 651−656 期刊类型引用(8)
1. 胡伏原,李晨露,周涛,程洪福,顾敏明. 面向深度学习的三维点云补全算法综述. 中国图象图形学报. 2025(02): 309-333 . 百度学术
2. 肖剑,王晓红,周润民,李炜,杨祎斐,罗季. 集加权K近邻与卷积块注意力的三维点云语义分割. 激光杂志. 2025(02): 225-231 . 百度学术
3. 方银,张惊雷,文彪. 基于空间感知和特征增强的三维点云分类与分割研究. 光电子·激光. 2024(07): 753-760 . 百度学术
4. 孙昊,帅惠,许翔,刘青山. DFE3D:双重特征增强的三维点云类增量学习. 计算机系统应用. 2024(08): 132-144 . 百度学术
5. 梁循,李志莹,蒋洪迅. 基于图的点云研究综述. 计算机研究与发展. 2024(11): 2870-2896 . 百度学术
6. 郝雯,汪洋,魏海南. 基于多特征融合的点云场景语义分割. 计算机应用. 2023(10): 3202-3208 . 百度学术
7. 单铉洋,孙战里,曾志刚. RFNet:用于三维点云分类的卷积神经网络. 自动化学报. 2023(11): 2350-2359 . 本站查看
8. 郝雯,王红霄,汪洋. 结合空间注意力与形状特征的三维点云语义分割. 激光与光电子学进展. 2022(08): 512-522 . 百度学术
其他类型引用(12)
-