2.845

2023影响因子

(CJCR)

  • 中文核心
  • EI
  • 中国科技核心
  • Scopus
  • CSCD
  • 英国科学文摘

留言板

尊敬的读者、作者、审稿人, 关于本刊的投稿、审稿、编辑和出版的任何问题, 您可以本页添加留言。我们将尽快给您答复。谢谢您的支持!

姓名
邮箱
手机号码
标题
留言内容
验证码

解耦表征学习综述

文载道 王佳蕊 王小旭 潘泉

郑广智, 彭添强, 肖计春, 吴高昌, 李智, 柴天佑. 基于语义信息增强的化纤丝线网络度检测方法. 自动化学报, 2024, 50(10): 1963−1976 doi: 10.16383/j.aas.c230649
引用本文: 文载道, 王佳蕊, 王小旭, 潘泉. 解耦表征学习综述. 自动化学报, 2022, 48(2): 351−374 doi: 10.16383/j.aas.c210096
Zheng Guang-Zhi, Peng Tian-Qiang, Xiao Ji-Chun, Wu Gao-Chang, Li Zhi, Chai Tian-You. A detection method for the interlacing degree of filament yarn based on semantic information enhancement. Acta Automatica Sinica, 2024, 50(10): 1963−1976 doi: 10.16383/j.aas.c230649
Citation: Wen Zai-Dao, Wang Jia-Rui, Wang Xiao-Xu, Pan Quan. A review of disentangled representation learning. Acta Automatica Sinica, 2022, 48(2): 351−374 doi: 10.16383/j.aas.c210096

解耦表征学习综述

doi: 10.16383/j.aas.c210096
基金项目: 国家自然科学基金(61806165, 61790552, 61801020), 陕西省基础研究计划 (2020JQ-196)资助
详细信息
    作者简介:

    文载道:西北工业大学自动化学院副教授. 主要研究方向为压缩感知与稀疏模型, 认知机器学习, 合成孔径雷达图像解译, 多源自主目标识别. E-mail: wenzaidao@nwpu.edu.cn

    王佳蕊:西北工业大学自动化学院博士研究生. 主要研究方向为解耦表征学习, SAR图像处理, 因果推理. E-mail: wangjiarui_wyy163@163.com

    王小旭:西北工业大学自动化学院教授. 主要研究方向为惯性器件与惯性导航, 合成孔径雷达图像解译, 协同感知. 本文通信作者. E-mail: woyaofly1982@163.com

    潘泉:西北工业大学自动化学院教授. 主要研究方向为信息融合理论及应用, 目标跟踪与识别技术, 光谱成像及图像处理. E-mail: quanpan@nwpu.edu.cn

A Review of Disentangled Representation Learning

Funds: Supported by National Natural Science Foundation of China (61806165, 61790552, 61801020), the Natural Science Basic Research Plan in ShaanXi Province of China (2020JQ-196)
More Information
    Author Bio:

    WEN Zai-Dao Associate professor at the School of Automation, Northwestern Polytechnical University. His research interest covers compressed sensing and sparse model, cognitive machine learning, synthetic aperture radar image interpretation, and multisource automatic target recognition

    WANG Jia-Rui Ph. D. candidate at the School of Automation, Northwestern Polytechnical University. Her research interest covers disentangled representation learning, SAR image processing and causal reasoning

    WANG Xiao-Xu Professor at the School of Automation, Northwestern Polytechnical University. His research interest covers inertial devices and inertial navigation, synthetic aperture radar image interpretation, cooperative sensing. Corresponding author of this paper

    PAN Quan Professor at the School of Automation, Northwestern Polytechnical University. His research interest covers information fusion theory and application, target tracking and recognition technology, spectral imaging and image processing

  • 摘要: 在大数据时代下, 以高效自主隐式特征提取能力闻名的深度学习引发了新一代人工智能的热潮, 然而其背后黑箱不可解释的“捷径学习”现象成为制约其进一步发展的关键性瓶颈问题. 解耦表征学习通过探索大数据内部蕴含的物理机制和逻辑关系复杂性, 从数据生成的角度解耦数据内部多层次、多尺度的潜在生成因子, 促使深度网络模型学会像人类一样对数据进行自主智能感知, 逐渐成为新一代基于复杂性的可解释深度学习领域内重要研究方向, 具有重大的理论意义和应用价值. 本文系统地综述了解耦表征学习的研究进展, 对当前解耦表征学习中的关键技术及典型方法进行了分类阐述, 分析并汇总了现有各类算法的适用场景并对此进行了可视化实验性能展示, 最后指明了解耦表征学习今后的发展趋势以及未来值得研究的方向.
  • 我国化纤产业作为国民经济发展的关键支柱产业之一, 近年来逐渐明确了高质量发展的需求, 即推动化纤制造向中高端迈进, 实现成为化纤强国的目标[1]. 其中, 化纤丝线作为一种重要的合成纤维产品, 在纺织品制作等领域因其耐磨、高强度和高弹性等优点, 得到广泛应用[2]. 在化纤丝线的质量检测过程中, 网络度作为质量评估的关键指标之一, 因其具有直观且易于观察与统计的特点, 在许多企业中广泛应用. 网络度是指单位长度的化纤丝线中, 具有一定牢度的未散开的网络结数量. 以锦纶6型全拉伸丝为例, 丝线在水面上散开后呈现的形态如图1所示. 对于正常的化纤丝线, 其网络结数需要在规定的范围内. 当网络结数偏多时, 使丝线在松弛加工过程中无法充分解捻, 同时在染色时上染率不同, 导致面料表面出现斑点. 相反, 当网络结数偏少时, 使丝线在织造过程中, 网络内部存在张力, 导致丝线网络结点松散, 进而产生毛羽. 总之, 化纤丝线的网络度作为重要的质量指标, 对于化纤产品的制造工艺和织物的最终品质都有着不可忽视的影响, 同时对网络度的准确评估具有重要意义.

    图 1  化纤丝线网络度示例
    Fig. 1  Interlacing degree diagram of filament yarns

    在工业领域, 常见的网络度检测方法包括手工移针法、仪器移针法、手工重锤法和水浴法等[3]. 目前常用的网络度检测设备主要基于仪器移针法研发, 但是使用基于仪器移针法的检测设备时, 每次只能检测单根丝线, 难以适用于大规模检测. 因此, 许多化纤生产企业选择水浴法作为网络度检测的方法, 将丝线放入盛有纯净水的水槽中, 待丝线接触水面散开成网络状后, 统计丝线网络结的数量. 然而, 此方法也存在一些局限性. 首先, 人眼目测依赖于主观评价, 易受光照等外界因素的影响, 使网络度检测结果不稳定; 其次, 在产量较大的情况下, 人工检测的能力有限, 难以同时对多根丝线进行检测. 因此需要设计更为准确与高效的化纤丝线网络度检测方法.

    与传统工业技术相比, 基于计算机视觉与深度学习的检测技术具有准确率高和抗干扰能力强等诸多优势. 通过研发深度学习算法与自动化检测设备, 实现对化纤丝线网络度的准确检测和量化分析, 从而减少人为主观判断带来的不确定性. 此外, 深度学习算法能够自动学习并提取复杂特征, 高效处理大规模数据, 进而提升质量分析的效率和精确性. 这为化纤行业提供了一种先进的技术手段, 提升了化纤产品的质量控制效果和后道质检结果的准确性. 目前, 基于目标检测的深度学习方法已广泛应用于丝线断裂检测[4]、毛羽检测[5-6]和丝线直径均匀度[7]等方面. 例如, 基于注意力机制改进的CenterNet 模型[8]在丝线毛羽检测方面表现出良好的性能, 通过全局阈值化方法处理样本图像, 可有效分割出丝线主干位置. 然而, 化纤丝线网络结点尺寸较小, 使用上述基于目标检测的方法容易导致丝线结点位置信息关注不足, 从而影响检测结果的准确性.

    为提高化纤丝线网络度检测结果的准确性, 本文将网络度检测问题视为像素级的二分类问题, 即将丝线的网络结点位置视为感兴趣区域, 并将样本图像中其他像素区域归属于背景区域, 最后按照像素进行分类. 目前针对此类问题, 主要采用编码器−解码器结构进行特征提取. 其中, 编码器用于提取图像的抽象特征, 解码器用于恢复特征至原始图像尺寸并细化特征. 双线性插值[9-10]和跳跃连接[11]有助于在编码和解码过程中保留细节和边缘信息, 多层空洞卷积[12-14]有助于在解码过程中增加图像的感受野. 然而, 对于丝线网络结点这种小目标而言, 使用大量的卷积层和较大的空洞卷积率容易导致语义信息丢失. 为增强对语义信息的提取能力及检测性能, 注意力机制[15-16]和Transformer[17-19]等方法相继提出. 其中, 通过多尺度融合策略[20]和残差特征金字塔[21]等方式使得模型专注于特定的感兴趣区域, 金字塔特征融合[22-24]和损失注意力机制[25]等方法在特征图融合和损失函数优化方面取得了显著的成果, 提高了对语义信息的提取能力. 然而, 考虑其对计算资源的较高要求, 对小样本数据集的适用性有限, 同时对局部特征信息处理不足, 训练难度较大, 故难以适用于本文的网络度检测问题.

    基于以上分析, 本文提出一种基于语义信息增强的化纤丝线网络度检测方法, 提高从化纤丝线图像中提取语义信息的能力, 实现化纤丝线网络度的批量计算, 同时解决人工检测误检率高的问题. 本文的主要贡献如下:

    1) 针对化纤丝线网络度结点目标较小, 导致检测准确性低的问题, 提出语义信息增强模块, 使得模型更加关注丝线网络结点区域的信息. 同时, 设计多级特征扩张模块, 使用不同大小的扩张卷积核提取深层特征的语义信息, 能够增强高质量的空间细节信息的提取能力, 提高检测结果的准确性.

    2) 针对丝线样本数量大且检测耗时长的问题, 提出网络度并行检测方法, 将化纤丝线图像中的丝线主干提取与网络结点提取两部分并行处理, 实现网络度的批量计算.

    3) 针对人工检测误检率高的问题, 研制网络度检测设备, 结合网络度检测算法与掩膜提取方法, 实现网络度自动化视觉检测. 通过使用所研制的设备进行丝线样本采集并建立数据集, 对所提检测模型进行实验验证.

    本文提出一种基于语义信息增强的“编码−解码”两阶段语义分割检测算法, 模型结构如图2所示. 在编码阶段, 首先基于MobileNetV2[26]进行改进, 用于提取输入图像的特征信息, 并获得包含局部细节信息的浅层特征图和全局语义信息的深层特征图. 然后, 使用交叉注意力模块和全局注意力模块增强浅层特征图中语义信息的提取能力. 同时使用扩张卷积方法提取深层特征图中的多级语义信息. 最后, 将得到的浅层特征信息与深层特征信息通过解码阶段的阶段性特征融合模块进行加权融合, 并将特征图像尺寸恢复至输入图像大小, 得到检测结果.

    图 2  网络度检测算法结构
    Fig. 2  Architecture of interlacing degree detection algorithm

    为保证所提网络度检测算法的可靠性, 本文基于MobileNetV2模型设计主干网络结构. 在这一模型中, 使用深度可分离卷积[27]的方法进行卷积操作. 对于传统卷积操作而言, 这种方法有效地减少了模型的参数数量和计算量, 从而在保持高质量特征提取的同时, 显著地降低了模型的复杂度. 深度可分离卷积将普通的卷积过程分解为深度卷积和逐点卷积两部分, 其中深度卷积用于获得输入特征图中包含的空间信息, 逐点卷积用于将提取的特征进行整合与变换. 使用这种卷积方式能够减少模型的运算量, 提高模型的运算效率. 经下采样操作后, 减小了特征图的尺寸, 同时增加了特征图的通道数. 这一操作通过扩大网络的感受野, 使得模型能够提取更为抽象的特征. 在本文中, 下采样的层数位置设定为2层、4层、8层和10层, 其网络架构如表1所示.

    表 1  主干网络架构
    Table 1  Architecture of the backbone network
    特征尺寸(像素)扩展因子循环次数输出通道数步长
    512 × 512 × 31322
    256 × 256 × 3212321
    128 × 128 × 3264642
    64 × 64 × 6462962
    32 × 32 × 96
    下载: 导出CSV 
    | 显示表格

    在主干网络中, 浅层特征包含原始输入图像中丰富的局部细节和位置信息. 为更加有效地从浅层特征中提取到原始输入图像的语义信息, 即提取像素点及其周围像素之间的关系信息, 本文提出一种基于语义信息增强模块, 对主干网络中的浅层特征图$ {x_{1}} $和$ {x_{2}} $进行处理, 模型结构如图3所示.

    图 3  基于语义信息增强模块
    Fig. 3  Enhancement module based on semantic information

    对于特征图$ {x_{1}} $, 由于其像素相对较大, 若多次进行特征提取, 将导致模型计算量增加, 影响模型的处理速度. 为确保输出特征图的维度与输入特征图一致, 同时避免增加模型的运算量. 本文首先对特征图$ {x_{1}} $使用$ 1\times1 $卷积核进行卷积操作, 将维度降至原始特征图的一半, 得到特征图$ x_{1}^{\prime} $, 然后采用全局注意力机制的方法进行特征提取, 计算方法为

    $$ \begin{array}{*{20}{l}} X_{1}=\sigma(f_{\rm con}(f_{\rm avg}(X_{1}^{\prime}),\;f_{\rm glo}(X_{1}^{\prime}))) \times X_{1}^{\prime} \end{array} $$ (1)
    $$ \begin{array}{*{20}{l}} X_{1}^{\prime}=\sigma(f_{\rm avg}(x_{1}^{\prime})+f_{\rm glo}(x_{1}^{\prime}))\times x_{1}^{\prime} \end{array} $$ (2)

    其中, $ \sigma(\cdot) $表示sigmoid 归一化函数, $ f_{\rm con}(\cdot) $表示特征图融合卷积操作, $ f_{\rm avg}(\cdot) $表示全局平均池化操作, $ f_{\rm glo}(\cdot) $表示全局最大池化操作, $ X_{1}^{\prime} $表示经通道注意力机制处理后的特征图. 对于特征图$ {x_{2}} $, 首先使用$ 1\times1 $卷积核进行卷积操作, 将维度降至原始特征图的一半, 得到特征图$ x_{2}^{\prime} $. 然后使用全局最大池化方法提取空间注意力信息, 将所得特征图与原始特征图$ {x_{2}} $进行相似性判断, 通过归一化的方式获取像素注意力权重. 最后将权重加权赋值到原始图像上, 从像素和通道两种角度增强特征的语义信息, 得到增强后的特征图$ {X_{2}} $. 为获得两个特征图中共同关注的感兴趣区域, 本文通过对比两个特征图中对应像素位置的相似度, 使模型更好地理解不同尺度下的语义信息. 此外, 通过对不同尺度的特征图进行加权融合, 有助于提高语义分割的精度和鲁棒性. 在像素相似性判断中, 常用方法包括点积、余弦相似度和欧氏距离等[28-29]. 综合考虑计算复杂度与数据量, 本文使用自注意力机制中的像素点积方式进行处理, 得到特征图$ {X_{2}} $, 并将其进行上采样至特征图$ {X_{1}} $的尺寸后进行特征融合, 得到特征图H. 计算方法为

    $$ \begin{array}{*{20}{l}} X_{2}=x_{2} \times \sigma((f_{\rm glo}(x_{2}^{\prime}))^{\rm T} \times x_{2}^{\prime}) \end{array} $$ (3)
    $$ \begin{array}{*{20}{l}} H=f_{\rm con}(X_{1},\;f_{\rm up}(X_{2})) \end{array} $$ (4)

    其中, $ f_{\rm up}(\cdot) $表示上采样操作, $ X_{1} $表示特征图$ x_{1} $经全局注意力机制模块处理后得到的特征图, $ X_{2} $表示特征图$ x_{2} $经本文提出的自注意力机制模块处理后得到的特征图.

    在主干网络中, 深层特征中包含更为抽象和丰富的语义信息, 对于图像分析和理解至关重要, 但是使用过于频繁的特征提取可能导致特征信息的丢失.

    在DeepLab系列的网络中, 通过采用空洞卷积模块提取深层语义信息, 能够得到多尺度信息. 然而使用单一的空洞卷积结构进行特征提取时, 可能导致不同特征之间的空间相关性不足, 使提取到的有效信息减少, 从而增加模型的参数量等[30]. 因此, 本文提出一种多级特征扩张模块, 旨在增强深层特征图中的语义信息提取能力, 如图4所示.

    图 4  多级特征扩张模块
    Fig. 4  Dilated module of multilevel features

    对于从主干网络中提取的特征图$ {x_{4}} $与上一级特征图$ {x_{3}} $, 按照上述分析进行扩张卷积操作, 即对卷积核的相邻两个权值之间进行扩张, 计算方法为

    $$ \begin{split} d_{k}(m,\;n)=\;&\sum\limits_{p=1}^{M} \sum\limits_{q=1}^{N} f(m+k \times p,\; \\ &n+k \times q)\cdot w(p,\;q) \end{split} $$ (5)

    其中, $ d_{k}(m,\;n) $表示像素点$ (m,\;n) $经扩张率为k的卷积核扩张后的特征图, $ w(p,\;q) $表示卷积核, $ M $和$ N $分别表示卷积核的长度与宽度.

    采用式(5)所示的方法, 使用扩张率为4和6的卷积核分别对特征图$ {x_{3}} $进行上述操作, 经特征融合后得到特征图$ {h_{1}} $. 同时, 使用扩张率为1和3的卷积核分别对特征图$ {x_{4}} $进行卷积, 经特征融合后得到特征图$ {h_{2}} $. 由于使用不同级别的特征图进行扩张卷积后, 生成的特征图的尺寸不同, 无法直接进行融合, 因此需要对特征图$ {h_{2}} $进行上采样操作. 目前传统的上采样方法主要包括最近邻插值、双线性插值和上池化等, 但是这些方法只是简单地复制或插值原始像素值, 忽略了对图像语义信息的保留以及对图像语义信息一致性的考虑, 容易导致特征信息的丢失. 为了克服这一问题, 本文使用卷积注意力机制模块对特征图$ {h_{2}} $进行处理. 首先对特征图每个通道进行全局平均池化和全局最大池化操作, 得到缩放后的全局特征向量, 然后采用反转置卷积的方式将特征图放大至与特征图$ {x_{3}} $相同的尺寸, 最后将上采样后的特征图与缩放后的全局特征向量逐元素相乘, 得到加权后的特征图L, 方法如下:

    $$ \begin{array}{*{20}{l}} L=f_{\rm con}(C^{\rm T} \times l,\;h_{1}) \end{array} $$ (6)
    $$ \begin{array}{*{20}{l}} l=f_{\rm con}(f_{\rm max}(h_{2}),\;f_{\rm avg}(h_{2})) \end{array} $$ (7)

    其中, $ f_{\rm max}(\cdot) $表示全局最大池化操作, $ C^{\rm T} $表示转置卷积核矩阵, $ {h_{1}} $和$ {h_{2}} $表示特征图$ {x_{3}} $和$ {x_{4}} $经扩张卷积模块处理并融合后得到的特征图. 由于全局特征向量涵盖整体信息, 因此使用所提方法有助于保持全局特征信息的一致性. 通过与上采样后的特征图进行相似性判断, 使得模型更加专注于提取全局特征信息, 从而增强了模型的特征信息提取能力.

    通过使用本文提出的基于语义信息增强模块和多级特征扩张卷积模块分别对主干网络的浅层特征图和深层特征图进行处理, 然后将得到的特征图进行融合, 构成模型的解码器部分. 然而, 直接将语义特征信息通过上采样至输入图像的分辨率大小时, 容易丢失原特征图的语义信息. 因此, 本文设计了阶段性特征融合模块, 如图5所示. 该模块的输入分为两大部分, 包括使用多级特征扩张模块后得到的特征图$ L $和使用基于语义信息增强模块处理后得到的特征图$ H $. 首先, 采用两个不同尺度的分支提取特征$ L $的通道注意力权重, 旨在从多个尺度上提取通道注意力信息. 其中, 第1个分支采用全局平均池化的方法提取全局特征的注意力信息; 第2个分支则采用逐点卷积的方式提取局部特征的通道注意力信息. 随后, 将这两个分支提取到的特征进行融合, 经过归一化操作后, 得到最终的特征权重值. 这一方法旨在有效地结合多尺度的语义特征信息, 以实现更精细的特征融合和更准确的解码结果. 为调节浅层特征图与深层特征图融合的权重, 使用像素级注意力掩膜进行权重分配. 经过相应的注意掩膜相乘后, 将这两种不同尺度的语义特征图对应的像素进行融合, 得到输出结果. 计算过程为

    图 5  阶段性特征融合模块
    Fig. 5  Fusion module of staged feature
    $$ \begin{array}{*{20}{l}} {H}'=\alpha \times H+f_{{\mathrm{up}}}((1-\alpha)\times L) \end{array} $$ (8)

    其中, $ {H}' $表示输出特征图, $ \alpha $表示特征权重. 将两特征图融合以后, 采用上采样方法将特征图恢复到原始图像的大小, 再经过$ 1\times1 $卷积核进行卷积处理, 最后对特征图按照类别数量进行分类, 得到输出结果.

    使用基于语义信息增强的网络度检测算法检测单根丝线的网络度时, 能够有效提取丝线网络结点的位置区域. 然而, 如果图像中丝线样本数量较大, 则难以区分视野内每根丝线的网络度是否符合标准. 因此, 针对多根化纤丝线的网络度的批量计算, 以及独立提取每根丝线的网络度检测结果的需求, 本文提出一种网络度并行检测方法. 此方法在原有检测算法基础上, 增加一条并行检测支路. 其中, 主支路用于检测视野内所有丝线网络结点的位置, 而并行检测支路用于提取每根丝线的位置. 此并行检测支路主要通过提取样本图像中丝线主干的边缘轮廓, 获得丝线的掩膜图像, 最后得到每根丝线主干的位置信息. 当图像同时经过两条支路处理后, 将所得结果进行融合, 从而得到每根丝线上的网络结点图像.

    通过提取丝线掩膜, 定位化纤丝线图像中每一条丝线主干区域, 能够从含有多根丝线的图像中分离出每根丝线所在的位置, 检测过程如图6所示. 具体方法如下:

    图 6  单根丝线图像提取过程
    Fig. 6  Process of extracting single filament yarn image

    1) 获取丝线样本图像. 从化纤丝线生产车间获取待检测的丝线样本后, 取一段单位长度的丝线放置于盛有纯净水的水槽中, 使丝线在水槽中自然散开并形成较好的形态, 然后使用工业相机拍摄包含多根并行的待测丝线样本的图像. 为配合检测算法模型中对输入图像的分辨率需求, 设置图像分辨率为2 048 × 512像素.

    2) 提取丝线主干. 使用工业相机拍摄图像的分辨率较高, 导致图像处理时间较长. 为减小模型处理时间, 同时确保获取到完整的化纤丝线轮廓区域, 在图像处理前将样本图像缩小至原尺寸的一半. 在实际检测过程中, 容易有小颗粒灰尘落入水槽中, 导致采样图像出现毛刺和杂点. 因此, 本文使用均值滤波算法处理图像. 使用最大类间方差算法对图像进行阈值分割, 通过遍历所有可能的阈值寻找最佳的分割结果. 最后对丝线所在区域与图像背景区域进行处理, 得到包含多根丝线掩膜区域的丝线主干图像.

    3) 提取单根丝线掩膜. 由于丝线主干区域与背景区域的对比度较为显著, 因此本文选择Canny边缘检测算子对上一步处理得到的丝线主干图像进行处理, 从而得到视野中每根丝线的边缘拟合图像. 然而, 由于边缘检测方法对图像中的噪音和复杂纹理较为敏感, 若目标边缘不清晰可能导致丝线主干边缘不完整, 进而影响丝线区域的完整性. 因此, 本文借助边缘提取方法, 以图像中每根化纤丝线轮廓区域的中心点为基准, 以丝线轮廓长度值作为掩膜图像的长度, 以轮廓最大宽度为掩膜的图像宽度, 得到轮廓尺寸信息. 然后根据所得尺寸信息, 将丝线拟合轮廓绘制在与输入图像相同尺寸的空白图像上, 得到最终的丝线掩膜图像.

    4) 提取单根丝线图像. 由于丝线掩膜图像为二值图像, 即每个像素点由0或1组成. 因此, 将单根丝掩膜与丝线样本图像的每个像素进行乘积处理, 得到单根丝线的图像.

    在实际生产环境中, 使用工业相机采集到的含多根丝线图像进行网络度检测, 方法如图7所示. 首先使用基于语义信息增强的网络度检测算法检测经预处理后的丝线样本图像的结点区域, 同时使用丝线掩膜提取算法检测单根丝线的位置区域. 其次, 将得到的两个特征图进行对应像素乘积, 得到多张含单根丝线且已标注网络结点位置的图像. 然后根据前述轮廓提取算法得到的数据, 绘制结点特征的外接矩形, 并根据矩形尺寸与标准值比较, 将长度小于2 mm的结点视为可忽略的结点, 筛选之后的结点即为该丝线所有的网络结点. 最后统计丝线上所有网络结点数, 并转换为网络度指标, 计算方法为

    图 7  多根丝线网络度并行检测方法
    Fig. 7  Parallel detection method for interlacing degree of the multiple filament yarns
    $$ k_{i}=\frac{m}{d} $$ (9)

    其中, $ k_{i} $表示单根丝线在单位长度内的网络度指标,单位为(个/m); $i $表示图像中丝线的位置序号($i= $1, 2, $ \cdots $); $m $表示丝线中含有的网络结点数; $d $表示视野范围内待测丝线对应的长度, 单位为m.

    为实现化纤丝线网络度自动视觉检测, 解决人工检测导致结果误检率高的问题, 本文研制了网络度检测设备. 该设备主要包括CME标准型闭环步进电机、M3ST502M-H型工业相机、3030型铝型材支撑架、亚克力水槽、丝线夹持装置、LED灯源和滑轨, 如图8所示. 使用网络度检测设备检测化纤丝线网络度的流程如图9所示. 在检测开始之前, 需要对设备进行初始化操作, 包括控制参数设置, 以及使用上位机控制两个丝线夹紧装置移动至同一侧. 在丝线网络度检测过程中, 首先将丝线挂载至夹取装置的固定孔中. 待丝线夹紧后, 由上位机控制滑轨转动, 拖动水平滑轨上的夹爪至水槽的另一侧. 然后控制垂直滑轨, 将丝线浸入水中. 最后使用工业相机采集丝线在水中的图像, 建立丝线样本图像数据集.

    图 8  多根丝线并行网络度检测设备
    Fig. 8  Parallel detection equipment for interlacing degree of multiple filament yarns
    图 9  网络度检测设备操作流程
    Fig. 9  Operation process of interlacing degree detection equipment

    与人工检测方法相比, 使用本文提出的检测设备能够实现精准统计视野范围内每根丝线的网络度, 降低因人工主观因素导致的检测结果偏差. 同时, 人工检测最多只能同时抓取4根丝线进行检测, 而使用本文所提装置进行检测时, 通过合理设计丝线夹持装置的固定孔数量及滑轨长度, 可实现多达10根以上丝线的同时检测, 从而提高丝线的检测效率.

    本文采用化纤丝线生产工厂提供的锦纶6型丝线进行样本采集, 并制作数据集. 经图像增强和裁剪等预处理操作后, 得到1 200张512 × 512像素大小的样本图像. 训练集与测试集的比例设置为9 : 1, 然后进行模型训练与验证. 实验中使用的配置信息如表2表3所示.

    表 2  模型训练环境配置
    Table 2  Configuration of model training environment
    项目版本参数
    操作系统Ubuntu 18.04.6 LTS
    CUDAcuda 11.3
    GPUNVIDIA RTX 3 090
    训练框架PyTorch 1.10.2
    内存128 GB
    编程语言Python 3.8
    下载: 导出CSV 
    | 显示表格
    表 3  模型训练超参数配置
    Table 3  Configuration of model training hyperparameter
    参数配置信息
    输入图像尺寸512 × 512 像素
    下采样倍数16
    初始学习率$5 \times 10^{-3}$
    最小学习率$5 \times 10^{-5}$
    优化器Adam
    权值衰减$5 \times 10^{-4}$
    批量大小12
    下载: 导出CSV 
    | 显示表格

    本文采用平均交并比、$ F_{1} $分数和每秒传输帧数三个指标对训练模型进行评价, 具体介绍如下:

    1) 平均交并比: 用于计算真实值和预测值两个集合的交集和并集之比, 计算方法为

    $$ {MIoU}=\frac{1}{k+1}\sum\limits_{i=0}^{k} \sum\limits_{j=0}^{k} \frac{p_{ii}}{p_{ij}-p_{ii}} $$ (10)

    其中, MIoU表示平均交并比值, $ { k} $表示类别数, $ { i} $表示真实值, $ { j} $表示预测值, $ {p_{ij}} $表示将$ { i} $预测为$ { j} $的像素点数量.

    2) $ F_{1} $分数: 用于平衡模型的精确率和召回率, 衡量模型在正负样本上的分割结果, 计算方法为

    $$ F_{1}=2\times \frac{pre \times rec}{pre + rec} $$ (11)

    其中, $ pre $表示模型的精确率, $ rec $表示模型的召回率.

    3) 每秒传输帧数: 用于评估模型在每秒内可以处理的图片数量或者处理一张图片所需时间, 进而评估模型的检测速度. 计算方法为

    $$ {FPS}=\frac{1}{t} $$ (12)

    其中, FPS表示每秒传输帧数, $ { t} $表示模型处理一张图片时消耗的时间.

    本文使用图像语义分割损失函数中评估样本相似性的度量函数Dice损失和交叉熵损失函数作为损失函数, 具体介绍如下:

    1) Dice损失: 用于评估真实值$ {T} $与预测值$ { P} $的相似性, 计算方法为

    $$ {L_{\rm dice}}=1-\frac{2\left | T \cap P \right|}{\left | T \right | + \left | P \right |} $$ (13)

    其中, $ {L_{\rm dice}} $表示样本相似值, $ {\left | T \cap P \right|} $表示真实标签T和预测标签P之间的交集元素个数, $ \left | T \right | $和$ \left | P \right | $分别表示真实标签和预测标签中元素的个数.

    2) 交叉熵损失函数: 用于衡量每个像素点的预测类别与真实类别之间的差异, 计算方法为

    $$ {L_{\rm ce}}=-\frac{1}{N}\sum\limits_{i=1}^{s}\left[t_{i}\lg_{}{p_{i}}+(1-t_{i})\lg(1-p_{i})\right] $$ (14)

    其中, $ {L_{\rm ce}} $表示交叉熵损失值, N表示一个批次中含有的特征图数量, $ { s} $表示图像中像素点的数量, $ { t_{i}} $表示第$ { i} $个像素点的真实标签, $ { p_{i}} $表示第$ { i} $个像素点的预测概率.

    为验证所提方法在化纤丝线网络度检测方面的有效性, 本文使用语义分割领域常用模型进行对比实验, 包括PSPNet[9], UNet[10], DeepLabV3+[11], BiSeNet[31], CGNet[32], HRNet[33]和SegFormer[34], 并计算其平均交并比、$ F_{1} $分数和每秒传输帧数三个评定指标, 并比较训练模型权重的参数, 比较结果如表4所示. 由表4可以看出, 本文提出的方法在平均交并比、$ F_{1} $分数和每秒传输帧数三个指标均优于其他几种方法, 特别是在模型的每秒传输帧数方面, 本文方法的提升更加显著. 此外, 在模型参数量方面, 所提方法相对于对比实验中的大部分模型具有优势. 其中, BiSeNet和CGNet使用相对简单的轻量级结构, 模型运算时的处理速度较高. DeepLabV3+、PSPNet和SegFormer中使用到运算较为复杂的多尺度特征融合模块与特征金字塔模块, 使得模型权重参数量较大. 本文提出的网络度检测算法使用语义信息增强的方式对特征图进行处理, 同时使用交叉注意力的方法对特征图进行加权赋值, 增强了对特征信息的提取能力. 为直观展示本文所提模型的识别效果, 根据丝线在水中呈现的样态频率, 选择了四种不同类型的化纤丝线的样本图像, 如图10所示. 使用不同的模型检测这四种化纤丝线图像, 实验结果如图11 ~ 14所示.

    表 4  不同方法的评价指标比较
    Table 4  Comparison of evaluation indicators for different methods
    方法 平均交并比
    (%)
    $F_{1}$分数
    (%)
    每秒传输
    帧数(帧/s)
    参数量
    (MB)
    BiSeNet 78.95 86.76 63.84 48.93
    CGNet 79.00 86.79 33.17 2.08
    DeepLabV3+ 79.50 87.35 43.11 209.70
    HRNet 78.74 86.69 12.43 37.53
    PSPNet 73.58 82.46 49.80 178.51
    SegFormer 79.04 86.84 40.87 14.34
    UNet 79.83 87.63 22.54 94.07
    本文方法 81.52 88.12 76.16 7.98
    注: 加粗字体表示各列最优结果.
    下载: 导出CSV 
    | 显示表格
    图 10  四种丝线样本图像
    Fig. 10  Sample images for four types of filament yarns
    图 11  丝线散开大于20 mm时的图像检测结果
    Fig. 11  Detection results of images with filament yarn spreading greater than 20 mm

    图11所示为丝线散开大于20 mm时的图像检测结果, 此类图像中丝线与背景区域具有明显的对比度, 使得网络结点的位置容易区分. 由实验结果可以看出, 多数模型能够识别出网络结点的位置. 然而, 经过BiSeNet、CGNet、HRNet和SegFormer四个模型检测后得到的结果图中, 矩形框标记位置处出现了像素预测区域不连续的情况. 此外, 在PSPNet模型的检测结果图中, 圆形框标记位置处出现了漏检.

    图12所示为丝线散开小于10 mm时的图像检测结果, 其中误检结点区域均已在图中标注. 在此类图像中, 网络结点区域和丝线主干区域的对比度较低, 而且存在许多易混淆的结点, 容易导致漏检. SegFormer模型中使用到了自注意力机制, 从结果可以看出识别效果相对较好. PSPNet模型中使用金字塔池化提取语义信息, 然而在检测结果中, 容易将网络结点附近的背景区域误判为感兴趣区域.

    图 12  丝线散开小于10 mm时的图像检测结果
    Fig. 12  Detection results of images with filament yarn spreading less than 10 mm

    图13所示为含倾斜丝线的图像检测结果. 实验结果表明, 当图像存在一定倾斜角度时, 能够准确识别明显的网络结点像素区域. 针对图中标注矩形框的位置区域, 在BiSeNet和CGNet的识别结果中, 部分结点像素未完全识别. 当识别图中框选出来的不明显区域时, 采用本文提出的语义信息增强方法能够很好地识别出结点区域图像. 而HRNet, SegFormer和DeepLabV3+ 模型虽能识别出结点信息, 但是识别区域不完整, 且有断续现象.

    图 13  含倾斜丝线的图像检测结果
    Fig. 13  Detection results of images with inclined filament yarn

    图14所示为图像中含不明显结点的图像检测结果, 如图中矩形框标注位置所示. 实验结果表明, 视野中存在不同尺寸大小的网络结点时, 容易在模型识别上存在混淆, 但网络结点位置的整体识别情况较好. 针对图中第三根丝线, 使用BiSeNet, CGNet, DeepLabV3+, HRNet和SegFormer模型进行检测时均忽略了小网络结点, 使用PSPNet识别像素不完整, 体现出本文模型在细节信息提取上效果较好.

    图 14  含不明显网络结点的图像检测结果
    Fig. 14  Detection results of images with indistinct interlacing nodes

    综上所述, 当图像中存在不同网络散开程度的丝线, 以及丝线倾斜与不明显结点等异常情况时, 与常用的语义分割模型相比, 使用本文提出的模型能够较好地获得网络结点区域, 且准确率较高.

    3.6.1   模块有效性验证

    本实验针对提出的模块进行有效性验证, 设计了8种实验方案, 分别是: 1) 仅使用主干网络; 2) 使用特征图$ x_{4} $和所提语义信息增强模块直接融合; 3) 使用特征图$ x_{2} $和所提多级特征扩张模块直接融合; 4) 使用特征图$ x_{2} $, $ x_{4} $和所提阶段性特征融合模块; 5) 使用特征图$ x_{2} $、所提多级特征扩张和阶段性特征融合模块; 6) 使用特征图$ x_{4} $、所提语义信息增强和阶段性特征融合模块; 7) 使用所提语义信息增强和多级特征扩张模块直接融合; 8) 使用本文所提方法. 实验结果如表5所示.

    表 5  模块有效性验证实验结果
    Table 5  Results of module validity verification experimental
    方案序号 语义信息增强模块 多级特征扩张模块 阶段性特征融合模块 MIoU (%) FPS (帧/s)
    1 $\times$ $\times$ $\times$ 77.18 72.75
    2 $\surd$ $\times$ $\times$ 79.91 72.15
    3 $\times$ $\surd$ $\times$ 79.85 66.32
    4 $\times$ $\times$ $\surd$ 79.33 68.31
    5 $\times$ $\surd$ $\surd$ 80.71 55.30
    6 $\surd$ $\times$ $\surd$ 81.15 61.48
    7 $\surd$ $\surd$ $\times$ 80.25 78.16
    8 $\surd$ $\surd$ $\surd$ 81.52 76.16
    注: $\surd$指使用此模块, $\times$指不使用此模块.
    下载: 导出CSV 
    | 显示表格

    表5第5行和第8行可知, 当主干网络的浅层特征缺少语义信息增强模块时, MIoU值下降了0.81%, FPS值下降了20.86帧/s. 当主干网络的深层特征缺少语义信息增强模块时, MIoU值下降了0.37%, FPS值下降了14.68帧/s. 由此可见, 本文提出的全局注意力机制与扩张卷积方法能够增强模型对语义信息的提取能力, 同时改善了模型的运算速度. 由表5的第7行和第8行可知, 使用本文提出的阶段性特征融合模块使得MIoU值增加1.27%, 说明本文提出的阶段性特征提取方式能够提高检测结果的准确性.

    3.6.2   主干网络提取效率实验比较

    本文采用6种主干网络与本文所提主干网络进行对比实验, 包括FCN, MobileNetV2, Xception, VGGNet, ResNet18和ResNet50. 实验结果如表6所示. 结果表明, 使用本文提出的主干网络在检测结果准确性方面均有提升.

    表 6  不同主干网络提取效率比较
    Table 6  Comparison of extraction efficiency of different backbone networks
    方案序号 主干网络 MIoU (%) FPS (帧/s)
    1 FCN 79.65 33.45
    2 MobileNetV2 80.25 43.11
    3 Xception 79.61 27.45
    4 VGGNet 77.45 30.12
    5 ResNet18 77.52 45.21
    6 ResNet50 78.01 47.06
    7 本文方法 81.52 76.16
    下载: 导出CSV 
    | 显示表格
    3.6.3   语义信息提取方法实验

    提取主干网络浅层特征图的语义信息时, 本实验设计4种实验方案与所提方法进行对比, 分别是: 1) 只使用空间注意力机制SA (Spatial attention); 2) 使用注意力机制SE (Squeeze-and-excitation); 3) 使用空间注意力机制SA与通道注意力机制CA (Channel attention)串行的注意力机制CBAM (Convolutional block attention module); 4) 使用通道注意力机制ECA (Efficient channel attention). 实验结果如表7所示. 结果表明, 只使用一种通道注意力机制的方法, 提取特征的效果相对较弱. 使用通道注意力机制ECA进行特征提取后,MIoU值低于原通道注意力机制处理后的结果, 说明在特征提取时只关注局部注意力容易减少网络结点特征的提取效果. 将空间注意力机制SA与通道注意力机制CA串行处理后, 检测结果得到提升, 证明了多注意力机制的有效性.

    表 7  不同语义信息提取方法结果比较
    Table 7  Comparison results of extraction method for different context information
    方案序号 注意力选择 MIoU (%)
    1 SA 80.36
    2 SE 80.44
    3 CBAM 80.83
    4 ECA 79.89
    5 本文方法 81.52
    下载: 导出CSV 
    | 显示表格
    3.6.4   扩张卷积模块实验比较

    提取主干网络深层特征中的语义信息时, 针对主干网络处理后输出的最后两级特征图$ {x_{3}} $和$ {x_{4}} $, 设计4种扩张卷积提取方案, 分别是: 1) 不使用扩张卷积模块; 2) 只使用特征图$ x_{3} $进行扩张卷积; 3) 只使用特征图$ x_{4} $进行扩张卷积; 4) 使用本文所提方法. 实验结果如表8所示. 结果表明, 使用扩张卷积后, MIoU指标提升0.96%, 使用特征图$ {x_{3}} $进行辅助特征提取能够有效增强扩张卷积的效果.

    表 8  不同扩张卷积提取方式结果比较
    Table 8  Comparison results of different dilated convolution extraction methods
    方案序号 $x_{3}$ $x_{4}$ MIoU (%)
    1 $\times$ $\times$ 80.56
    2 $\surd$ $\times$ 81.02
    3 $\times$ $\surd$ 81.13
    4 $\surd$ $\surd$ 81.52
    注: $\surd$指使用此模块, $\times$指不使用此模块.
    下载: 导出CSV 
    | 显示表格
    3.6.5   阶段性特征融合方法实验

    对语义信息增强模块与多级语义信息扩张卷积模块使用通道注意力权重融合时, 设计4种方案, 分别是: 1) 只使用全局平均池化方法; 2) 只使用逐点卷积方法; 3) 使用全局平均池化方法和逐点卷积方法串行处理; 4) 使用全局平均池化方法和逐点卷积方法并行处理. 实验结果如表9所示. 实验结果表明, 将全局平均池化与逐点卷积方法进行串行连接时, 导致图像原有特征信息丢失严重. 而使用并行连接时, 能够更有效地保留图像的特征信息.

    表 9  阶段性特征融合方法实验比较
    Table 9  Comparison results of staged feature fusion module
    方案序号 全局平均池化 逐点卷积 组合方法 MIoU (%)
    1 $\surd$ $\times$ 80.91
    2 $\times$ $\surd$ 80.65
    3 $\surd$ $\surd$ 串行 78.91
    4 $\surd$ $\surd$ 并行 81.52
    注: $\surd$指使用此模块, $\times$指不使用此模块.
    下载: 导出CSV 
    | 显示表格

    针对人工检测化纤丝线网络度过程中存在误检率高的问题, 本文提出一种基于语义信息增强的化纤丝线网络度检测方法, 同时研制网络度检测设备, 实现网络度的自动化视觉精准检测. 其中, 为解决丝线网络结点这一小目标检测问题, 设计语义信息增强模块和多级特征扩张模块, 增强结点信息的提取能力, 并设计阶段性特征融合模块减少特征融合时造成的语义信息丢失. 为实现多根丝线网络度的批量快速检测, 基于掩膜提取与检测算法并行处理机制设计了一种网络度并行检测方法. 利用自主研发的网络度检测装备对所提方法进行了实验验证. 结果表明, 本文所提方法能够有效地增强化纤丝线网络结点的提取能力, 同时提高目标识别的准确性. 下一步工作主要针对化纤工业现场环境进行实验验证, 从检测效率方面进一步对本文提出的检测方法和设备进行迭代更新.

  • 图  1  人类对于交通场景量测数据的层次化智能感知示意图

    Fig.  1  Humans' hierarchical intelligent perception of a traffic scene

    图  2  深度网络的捷径学习(Shortcut learning)现象示例图[21]

    Fig.  2  Examples of “Shortcut Learning” in DNNs[21]

    图  3  决策空间示意图[21]

    Fig.  3  Taxonomy of decision rules[21]

    图  4  人类视网膜瞥视过程图[60]

    Fig.  4  Illustration of the retinal transformation[60]

    图  5  模型架构设计图[64]

    Fig.  5  AIR framework[64]

    图  6  深度梯形网络模型图

    Fig.  6  Deep ladder network models

    图  7  简易树形变分自编码模型示意图[73]

    Fig.  7  Structure of a simple latent tree variational auto-encoders[73]

    图  8  RCN模型示意图[74]

    Fig.  8  Structure of the RCN[74]

    图  9  遥感舰船图像组数据示例图

    Fig.  9  Samples from remote sensing ship group images

    图  10  GSL模型[78]用在遥感舰船图像组数据集中对应的网络架构示意图

    Fig.  10  The structure of GSL model[78] when it is used in the remote sensing ship image group data set

    图  11  人类想象泛化能力示意图[87]

    Fig.  11  An example of human imagination generalization ability[87]

    图  12  堆栈胶囊自编码网络(SCAE)模型架构图[92]

    Fig.  12  Architecture of stacked capsule autoencoders (SCAE)[92]

    图  13  多目标场景去遮掩实现过程示意图[87]

    Fig.  13  The framework of the de-occlusion completion for multi-objective scene[87]

    图  14  Factor-VAE[51]算法在3D chairs[103]以及3D faces[104]数据集上的解耦性能展示图. 每一行代表仅有左侧标注的潜在表征取值发生改变时所对应的重构图像变化

    Fig.  14  The disentangled performance of Factor-VAE[51] for 3D chairs[103] and 3D faces[104] data sets. Each row represents the change in the image reconstruction when only the specific latent marked on the left change

    图  15  AAE[48]算法对于MNIST[99]和SVHN[100]数字数据集中类别与风格属性的解耦表征结果展示图. 图中每一行代表风格类潜在表征保持不变的情况下, 改变类别类潜在表征取值所对应的重构图像变化; 每一列代表类别类潜在表征保持不变的情况下, 改变风格类潜在表征取值所对应的重构图像变化

    Fig.  15  The disentangled performance of AAE[48] in the MNIST[99] and SVHN[100] data set. Each row represents the change of the reconstructed images corresponding to the category latent while the style latent remains unchanged; when each column represents the change of the reconstructed images corresponding to the style latent while the category latent is unchanged

    图  16  SQAIR[66]用于视频目标检测、跟踪实验结果图. 其中不同颜色的标注框代表网络递归过程中所检测、跟踪到的不同目标

    Fig.  16  The video target detection and tracking results of SQAIR[66], where the bounding boxes with different colors represent different objects

    图  17  RCN[74]用于字符分割识别的实验结果展示图. 其中左侧图像中黄色轮廓线为字符分割结果, 右侧第一列为输入遮掩数字, 第二列为网络预测的去遮掩掩码图

    Fig.  17  Scene-text parsing results with RCN[74]. The yellow outline in the left image shows segmentations, the first column on the right is the occlusion input, and the second column shows the predicted occlusion mask

    图  18  文献[73]所提算法的聚类实验结果图

    Fig.  18  The clustering results of the algorithm proposed in the reference [73]

    图  19  GSL[78]算法所实现的图像属性迁移实验结果图

    Fig.  19  The image synthesis qualitative performance by GSL[78]

    图  20  文献[83]所提算法在人类关节动作识别以及部分关节风格转换后生成图像的实验结果图

    Fig.  20  The human action recognition and swapping part appearance results of the algorithm proposed in the reference [83]

    图  21  文献[87]所提算法在自然场景下按照人类偏好重组目标位置以及遮盖顺序后的实验结果图

    Fig.  21  The generation results of the algorithm proposed in the reference [87] after reorganizing the target position and the masking order in a natural scene

    图  22  文献[98]所提方法应用在CLEVR[128]数据集上的智能知识问答实验结果图

    Fig.  22  The VQA results on the CLEVR[128] data set using the method proposed in the reference [98]

    表  1  非结构化表征先验归纳偏好方法对比

    Table  1  Comparison of unstructured representation priori induction preference methods

    工作 正则项 优点 缺点
    $\beta$-VAE[46] $-\beta {D_{\mathrm{KL}}}\left( {{q_\phi }(\boldsymbol{z}|\boldsymbol{x})\;{\rm{||}}\;p(\boldsymbol{z})} \right)$ 高$\beta$值促使网络所学到的后验分布与先验分布尽可能服从相似的独立统计特性, 提升解耦性能. 高$\beta$值在提升解耦性能的同时会限制网络的数据表征能力, 直观反映为重构性能降低, 无法很好权衡二者.
    Understanding
    disentangling in
    $\beta$-VAE[47]
    $ -\gamma \left| {\mathrm{KL}\left( {q(\boldsymbol{z}|\boldsymbol{x})\;{\rm{||}}\;p(\boldsymbol{z})} \right) - C} \right| $ 从信息瓶颈角度分析$\beta$-VAE, 在训练过程中渐进增大潜在变量的信息容量$ C $, 能够在一定程度上改善了网络对于数据表征能力与解耦能力间的权衡. 该设计下的潜在变量依旧缺乏明确的物理语义, 且网络增加了信息容量$ C $这一超参数, 需要人为设计其渐进增长趋势.
    Joint-VAE[53] $- \gamma \left| {\mathrm{KL}\left( { {q_\phi }(\boldsymbol{z}|\boldsymbol{x})\;{\rm{||} }\;p(\boldsymbol{z})} \right) - {C_{ {z} } } } \right|\\- \gamma \left| {\mathrm{KL}\left( { {q_\phi }(\boldsymbol{c}|\boldsymbol{x})\;{\rm{||} }\;p(\boldsymbol{c})} \right) - {C_{ {c} } } } \right|\;$ 运用 Concrete 分布[54] 解决离散型潜在变量的解耦问题. 潜在变量缺乏明确物理语义.
    AAE[48] ${D_\mathrm{JS} }\left[ { {{\rm{E}}_\phi }\left( \boldsymbol{z} \right)||p\left( \boldsymbol{z} \right)} \right]$ 利用对抗网络完成累积后验分布与先验分布间的相似性度量, 使得潜在变量的表达空间更大, 表达能力更强. 面临对抗网络所存在的鞍点等训练问题[50].
    DIP-VAE[49] $- {\lambda _{od} }\sum\nolimits_{i \ne j} {\left[ {Co{v_{ {q_\phi }\left( \boldsymbol{z} \right)} }\left[ \boldsymbol{z} \right]} \right]} _{ij}^2\\- {\lambda _d}\sum\nolimits_i { { {\left( { { {\left[ {Co{v_{ {q_\phi }\left( \boldsymbol{z} \right)} }\left[ \boldsymbol{z} \right]} \right]}_{ii} } - {1 } } \right)}^2} }$ 设计更简便的矩估计项替代 AAE[48] 中对抗网络的设计, 计算更为简洁有效. 该设计仅适用于潜在变量服从高斯分布的情况且并未限制均值矩或更高阶矩, 适用范围有限.
    Factor-VAE[51] ${D_\mathrm{JS}}(q(\boldsymbol{z})||\prod\nolimits_{i = 1}^d {q({z_i})})$ 设计对抗网络直接鼓励累积后验分布$q({\boldsymbol{z}})$服从因子分布, 进一步改善了网络在强表征能力与强解耦能力间的权衡. 面临对抗网络所存在的鞍点等训练问题[50].
    RF-VAE[56] ${D_\mathrm{JS}}(q(\boldsymbol{r} \circ \boldsymbol{z})||\prod\nolimits_{i = 1}^d {q({r_i \circ z_i})})$ 引入相关性指标${\boldsymbol{r}}$使得网络对于无关隐变量间的解耦程度不作约束. 相关性指标${\boldsymbol{r}}$也需要由网络学习得到, 加深了网络训练的复杂性.
    $\beta $-TCVAE[52] $- \alpha {I_q}(\boldsymbol{x};\boldsymbol{z}) -\\ \beta \mathrm{KL}\left( {q\left( \boldsymbol{z} \right)||\prod\nolimits_{i = 1}^d {q\left( { {z_i} } \right)} } \right)\\- \gamma \sum\nolimits_j {{\rm{KL}}(q({z_j})||p({z_i}))}$ 证明了TC总相关项$\mathrm{KL}(q(\boldsymbol{z})||\prod\nolimits_{i = 1}^d q({z_i}) )$
    的重要性并赋予各个正则项不同的权重值构成新的优化函数使其具有更强的表示能力.
    引入更多的超参需要人为调试.
    下载: 导出CSV

    表  2  不同归纳偏好方法对比

    Table  2  Comparisons of methods based on different inductive bias

    归纳偏好分类 模型 简要描述 适用范围 数据集
    非结构化表征先验 $ \beta $-VAE[46]
    InfoGAN[55]
    文献 [47]
    Joint-VAE[53]
    AAE[48]
    DIP-VAE[49]
    Factor-VAE[51]
    RF-VAE[56]
    $ \beta $-TCVAE[52]
    在网络优化过程中施加表1中不同的先验正则项, 能够促使网络学习到的潜在表征具备一定的解耦性能. 但该类方法并未涉及足够的显式物理语义约束, 网络不一定按照人类理解的方式进行解耦, 因此该类方法一般用于规律性较强的简易数据集中. 适用于解耦表征存在显著可分离属性的简易数据集, 如人脸数据集、数字数据集等. MNIST[99]; SVHN[100]; CelebA[101]; 2D Shapes[102]; 3D Chairs[103]; dSprites[102]; 3D Faces[104]
    结构化模型
    先验
    顺序深度递归网络 DRAW[62]
    AIR[64]
    SQAIR[66]
    通过构建顺序深度递归网络架构, 可以在执行决策时反复结合历史状态特征, 实现如简易场景下的检测、跟踪等. 适用于需要关联记忆的多次决策任务场景. 3D scenes[64]; Multi-MNIST[64]; dSprites[102]; Moving-MNIST[66]; Omniglot[105]; Pedestrian CCTV data[106]
    层次深度梯形网络 VLAE[70]
    文献 [71]
    HFVAE[72]
    使用层次梯形网络模拟人类由浅入深的层次化认知过程, 促使每层潜在变量代表着不同的涵义, 可用作聚类等任务. 适用于简易数据集下由浅入深的属性挖掘. MNIST[99]; CelebA[101]; SVHN[100]; dSprites[102]
    树形网络 RCN[74]
    LTVAE[73]
    使用树形网络模拟人类高级神经元间的横向交互过程, 完成底层特征解耦的同时高层特征语义交互, 可用作聚类、自然场景文本识别等任务. 适用于底层特征解耦共享, 高级特征耦合交互的场景任务. CAPTCHA[107]; ICDAR-13 Robust Reading[107]; MNIST[99]; HHAR[73]; Reuters[108]; STL-10[73]
    物理知识
    先验
    分组数据的相关性 MLVAE[75]
    文献 [77]
    GSL[78]
    文献 [81]
    文献 [82]
    文献 [83]
    文献 [85]
    文献 [86]
    通过交换、共享潜在表征、限制互信息相关性、循环回归等方式, 实现分组数据相关因子的解耦表征. 后续可单独利用有效因子表征实现分类、分割、属性迁移数据集生成等任务. 适用于分组数据的相关有效属性挖掘. MNIST[99]; RaFD[109]; Fonts[78]; CelebA[101]; Colored-MNIST[81]; dSprites[102]; MS-Celeb-1M[110]; CUB birds[111]; ShapeNet[112]; iLab-20M[113]; 3D Shapes[81]; IAM[114]; PKU vehicle id[115]; Sentinel-2[116]; Norb[117]; BBC Pose dataset[118]; NTU[119]; KTH[120]; Deep fashion[121]; Cat head[122]; Human3.6M[123]; Penn action[124]; 3D cars[125]
    基于对象的物理空间组合关系 MixNMatch[89] 结合数据组件化、层次化生成过程实现单目标场景的背景、姿态、纹理、形状解耦表征. 适用于单目标场景属性迁移的数据集生成. CUB birds[111]; Stanford dogs[126]; Stanford cars[125]
    文献 [83] 考虑单目标多部件间的组合关系. 适用于人类特定部位、面部表情转换等数据生成. Cat head[122]; Human 3.6M[123]; Penn action[124]
    SCAE[92] 提出了胶囊网络的新思想, 考虑多目标、多部件间的组合关联关系. 适用于简易数据集的目标、部件挖掘. MNIST[99]; SVHN[100]; CIFAR10
    TAGGER[88]
    IODINE[95]
    MONET[96]
    考虑多目标场景的逐次单目标解耦表征方式. 适用于简易多目标场景的目标自主解译任务. Shapes[127]; Textured MNIST[88]; CLEVR[128]; dSprites[102]; Tetris[95]; Objects room[96]
    文献 [87] 引入目标空间逻辑树状图, 解耦多目标复杂场景的遮掩关系, 可用于去遮挡等任务. 适用于自然复杂场景下少量目标的去遮挡任务. KINS[129]; COCOA[112]
    文献 [98] 将目标三维本体特征视为目标内禀不变属性进行挖掘, 解决视角、尺度大差异问题, 有望实现检测、识别、智能问答等高级场景理解任务. 适用于简易数据集的高级场景理解. CLEVR[128]
    下载: 导出CSV
  • [1] 段艳杰, 吕宜生, 张杰, 赵学亮, 王飞跃. 深度学习在控制领域的研究现状与展望. 自动化学报, 2016, 42(5): 643−654

    Duan Yan-Jie, Lv Yi-Sheng, Zhang Jie, Zhao Xue-Liang, Wang Fei-Yue. Deep learning for control: The state of the art and prospects. Acta Automatica Sinica, 2016, 42(5): 634−654
    [2] 王晓峰, 杨亚东. 基于生态演化的通用智能系统结构模型研究. 自动化学报, 2020, 46(5): 1017−1030

    Wang Xiao-Feng, Yang Ya-Dong. Research on structure model of general intelligent system based on ecological evolution. Acta Automatica Sinica, 2020, 46(5): 1017−1030
    [3] Amizadeh S, Palangi H, Polozov O, Huang Y C, Koishida K. Neuro-Symbolic visual reasoning: Disentangling “visual” from “reasoning”. In: Proceedings of the 37th International Conference on Machine Learning. Vienna, Austria: PMLR, 2020. 279−290
    [4] Adel T, Zhao H, Turner R E. Continual learning with adaptive weights (CLAW). In: Proceedings of the 8th International Conference on Learning Representations. Addis Ababa, Ethiopia: ICLR, 2020.
    [5] Hinton G E, Salakhutdinov R R. Reducing the dimensionality of data with neural networks. Science, 2006, 313(5786): 504−507 doi: 10.1126/science.1127647
    [6] Lee G, Li H Z. Modeling code-switch languages using bilingual parallel corpus. In: Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics. Stroudsburg, PA, USA: ACL, 2020. 860−870
    [7] Chen X H. Simulation of English speech emotion recognition based on transfer learning and CNN neural network. Journal of Intelligent & Fuzzy Systems, 2021, 40(2): 2349−2360
    [8] Lü Y, Lin H, Wu P P, Chen Y T. Feature compensation based on independent noise estimation for robust speech recognition. EURASIP Journal on Audio, Speech, and Music Processing, 2021, 2021(1): Article No. 22 doi: 10.1186/s13636-021-00213-8
    [9] Torfi A, Shirvani R A, Keneshloo Y, Tavaf N, Fox E A. Natural language processing advancements by deep learning: A survey. [Online], available: https://arxiv.org/abs/2003.01200, February 27, 2020
    [10] Stoll S, Camgoz N C, Hadfield S, Bowden R. Text2Sign: Towards sign language production using neural machine translation and generative adversarial networks. International Journal of Computer Vision, 2020, 128(4): 891−908 doi: 10.1007/s11263-019-01281-2
    [11] He P C, Liu X D, Gao J F, Chen W Z. DeBERTa: Decoding-enhanced Bert with disentangled attention. In: Proceedings of the 9th International Conference on Learning Representations. Austria: ICLR, 2021.
    [12] Shi Y C, Yu X, Sohn K, Chandraker M, Jain A K. Towards universal representation learning for deep face recognition. In: Proceedings of the 2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). Seattle, USA: IEEE, 2020. 6816−6825
    [13] Ni T G, Gu X Q, Zhang C, Wang W B, Fan Y Q. Multi-Task deep metric learning with boundary discriminative information for cross-age face verification. Journal of Grid Computing, 2020, 18(2): 197−210 doi: 10.1007/s10723-019-09495-x
    [14] Shi X, Yang C X, Xia X, Chai X J. Deep cross-species feature learning for animal face recognition via residual interspecies equivariant network. In: Proceedings of the 16th European Conference on Computer Vision. Glasgow, UK: Springer, 2020. 667−682
    [15] Chen J T, Lei B W, Song Q Y, Ying H C, Chen D Z, Wu J. A hierarchical graph network for 3D object detection on point clouds. In: Proceedings of the 2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). Seattle, USA: IEEE, 2020. 389−398
    [16] 蒋弘毅, 王永娟, 康锦煜. 目标检测模型及其优化方法综述. 自动化学报, 2021, 47(6): 1232−1255

    Jiang Hong-Yi, Wang Yong-Juan, Kang Jin-Yu. A survey of object detection models and its optimization methods. Acta Automatica Sinica, 2021, 47(6): 1232−1255
    [17] Xu Z J, Hrustic E, Vivet D. CenterNet heatmap propagation for real-time video object detection. In: Proceedings of the 16th European Conference on Computer Vision. Glasgow, UK: Springer, 2020. 220−234
    [18] Zhang D W, Tian H B, Han J G. Few-cost salient object detection with adversarial-paced learning. [Online], available: https://arxiv.org/abs/2104.01928, April 5, 2021
    [19] 张慧, 王坤峰, 王飞跃. 深度学习在目标视觉检测中的应用进展与展望. 自动化学报, 2017, 43(8): 1289−1305

    Zhang Hui, Wang Kun-Feng, Wang Fei-Yue. Advances and perspectives on applications of deep learning in visual object detection. Acta Automatica Sinica, 2017, 43(8): 1289−1305
    [20] LeCun Y, Bengio Y, Hinton G. Deep learning. Nature, 2015, 521(7553): 436−444 doi: 10.1038/nature14539
    [21] Geirhos R, Jacobsen J H, Michaelis C, Zemel R, Brendel W, Bethge M, et al. Shortcut learning in deep neural networks. Nature Machine Intelligence, 2020, 2(11): 665−673 doi: 10.1038/s42256-020-00257-z
    [22] Minderer M, Bachem O, Houlsby N, Tschannen M. Automatic shortcut removal for self-supervised representation learning. In: Proceedings of the 37th International Conference on Machine Learning. San Diego, USA: JMLR, 2020. 6927−6937
    [23] Ran X M, Xu M K, Mei L R, Xu Q, Liu Q Y. Detecting out-of-distribution samples via variational auto-encoder with reliable uncertainty estimation. [Online], available: https://arxiv.org/abs/2007.08128v3, November 1, 2020
    [24] Charakorn R, Thawornwattana Y, Itthipuripat S, Pawlowski N, Manoonpong P, Dilokthanakul N. An explicit local and global representation disentanglement framework with applications in deep clustering and unsupervised object detection. [Online], available: https://arxiv.org/abs/2001.08957, February 24, 2020
    [25] 张钹, 朱军, 苏航. 迈向第三代人工智能. 中国科学: 信息科学, 2020, 50(9): 1281−1302 doi: 10.1360/SSI-2020-0204

    Zhang Bo, Zhu Jun, Su Hang. Toward the third generation of artificial intelligence. Scientia Sinica Informationis, 2020, 50(9): 1281−1302 doi: 10.1360/SSI-2020-0204
    [26] Lake B M, Ullman T D, Tenenbaum J B, Gershman S J. Building machines that learn and think like people. Behavioral and Brain Sciences, 2017, 40: Article No. e253 doi: 10.1017/S0140525X16001837
    [27] Geirhos R, Meding K, Wichmann F A. Beyond accuracy: Quantifying trial-by-trial behaviour of CNNs and humans by measuring error consistency. [Online], available: https://arxiv.org/abs/2006.16736v3, December 18, 2020
    [28] Regazzoni C S, Marcenaro L, Campo D, Rinner B. Multisensorial generative and descriptive self-awareness models for autonomous systems. Proceedings of the IEEE, 2020, 108(7): 987−1010 doi: 10.1109/JPROC.2020.2986602
    [29] Wang T, Huang J Q, Zhang H W, Sun Q R. Visual commonsense R-CNN. In: Proceedings of the 2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). Seattle, USA: IEEE, 2020. 10757−10767
    [30] Wang T, Huang J Q, Zhang H W, Sun Q R. Visual commonsense representation learning via causal inference. In: Proceedings of the 2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition Workshops (CVPRW). Seattle, USA: IEEE, 2020. 1547−1550
    [31] Schölkopf B, Locatello F, Bauer S, Ke N R, Kalchbrenner N, Goyal A, et al. Toward causal representation learning. Proceedings of the IEEE, 2021, 109(5): 612−634 doi: 10.1109/JPROC.2021.3058954
    [32] Locatello F, Tschannen M, Bauer S, Rätsch G, Schölkopf B, Bachem O. Disentangling factors of variations using few labels. In: Proceedings of the 8th International Conference on Learning Representations. Addis Ababa, Ethiopia: ICLR, 2020.
    [33] Dittadi A, Träuble F, Locatello F, Wüthrich M, Agrawal V, Winther O, et al. On the transfer of disentangled representations in realistic settings. In: Proceedings of the 9th International Conference on Learning Representations. Austria: ICLR, 2021.
    [34] Tschannen M, Bachem O, Lucic M. Recent advances in autoencoder-based representation learning. [Online], available: https://arxiv.org/abs/1812.05069, December 12, 2018
    [35] Shu R, Chen Y N, Kumar A, Ermon S, Poole B. Weakly supervised disentanglement with guarantees. In: Proceedings of the 8th International Conference on Learning Representations. Addis Ababa, Ethiopia: ICLR, 2020.
    [36] Kim H, Shin S, Jang J, Song K, Joo W, Kang W, et al. Counterfactual fairness with disentangled causal effect variational autoencoder. In: Proceedings of the 35th Conference on Artificial Intelligence. Palo Alto, USA, 2021. 8128−8136
    [37] Locatello F, Bauer S, Lucic M, Rätsch G, Gelly S, Schölkopf B, et al. Challenging common assumptions in the unsupervised learning of disentangled representations. In: Proceedings of the 36th International Conference on Machine Learning. JMLR, 2019. 4114−4124
    [38] Bengio Y, Courville A, Vincent P. Representation learning: A review and new perspectives. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2013, 35(8): 1798−1828 doi: 10.1109/TPAMI.2013.50
    [39] Sikka H. A Deeper Look at the unsupervised learning of disentangled representations in Beta-VAE from the perspective of core object recognition. [Online], available: https://arxiv.org/abs/2005.07114, April 25, 2020.
    [40] Locatello F, Poole B, Rätsch G, Schölkopf B, Bachem O, Tschannen M. Weakly-supervised disentanglement without compromises. In: Proceedings of the 37th International Conference on Machine Learning. San Diego, USA: JMLR, 2020. 6348−6359
    [41] 翟正利, 梁振明, 周炜, 孙霞. 变分自编码器模型综述. 计算机工程与应用, 2019, 55(3): 1−9 doi: 10.3778/j.issn.1002-8331.1810-0284

    Zhai Zheng-Li, Liang Zhen-Ming, Zhou Wei, Sun Xia. Research overview of variational auto-encoders models. Computer Engineering and Applications, 2019, 55(3): 1−9 doi: 10.3778/j.issn.1002-8331.1810-0284
    [42] Schmidhuber J. Learning factorial codes by predictability minimization. Neural Computation, 1992, 4(6): 863−879 doi: 10.1162/neco.1992.4.6.863
    [43] Kingma D P, Welling M. Auto-encoding variational Bayes. [Online], available: https://arxiv.org/abs/1312.6114, May 1, 2014
    [44] Goodfellow I J, Pouget-Abadie J, Mirza M, Xu B, Warde-Farley D, Ozair S, et al. Generative adversarial nets. In: Proceedings of the 27th International Conference on Neural Information Processing Systems. Montreal, Canada: NIPS, 2014. 2672−2680
    [45] 林懿伦, 戴星原, 李力, 王晓, 王飞跃. 人工智能研究的新前线: 生成式对抗网络. 自动化学报, 2018, 44(5): 775−792

    Lin Yi-Lun, Dai Xing-Yuan, Li Li, Wang Xiao, Wang Fei-Yue. The new frontier of AI research: Generative adversarial networks. Acta Automatica Sinica, 2018, 44(5): 775−792
    [46] Higgins I, Matthey L, Pal A, Burgess C, Glorot X, Botvinick M, et al. Beta-vae: Learning basic visual concepts with a constrained variational framework. In: Proceedings of the 5th International Conference on Learning Representations. Toulon, France: ICLR, 2017.
    [47] Burgess C P, Higgins I, Pal A, Matthey L, Watters N, Desjardins G, et al. Understanding disentangling in Beta-VAE. [Online], available: https://arxiv.org/abs/1804.03599, April 10, 2018
    [48] Makhzani A, Shlens J, Jaitly N, Goodfellow I, Frey B. Adversarial autoencoders. [Online], available: https://arxiv.org/abs/1511.05644, May 25, 2016.
    [49] Kumar A, Sattigeri P, Balakrishnan A. Variational inference of disentangled latent concepts from unlabeled observations. In: Proceedings of the 6th International Conference on Learning Representations. Vancouver, Canada: ICLR, 2018.
    [50] Arjovsky M, Bottou L. Towards principled methods for training generative adversarial networks. [Online], available: https://arxiv.org/abs/1701.04862, January 17, 2017
    [51] Kim H, Mnih A. Disentangling by factorising. In: Proceedings of the 35th International Conference on Machine Learning. Stockholm, Sweden: JMLR, 2018. 2649−2658
    [52] Chen T Q, Li X C, Grosse R B, Duvenaud D. Isolating sources of disentanglement in variational autoencoders. In: Proceedings of the 32nd International Conference on Neural Information Processing Systems. Montréal, Canada: NIPS, 2018. 2615−2625
    [53] Dupont E. Learning disentangled joint continuous and discrete representations. [Online], available: https://arxiv.org/abs/1804.00104v3, October 22, 2018.
    [54] Maddison C J, Mnih A, Teh Y W. The concrete distribution: A continuous relaxation of discrete random variables. [Online], available: https://arxiv.org/abs/1611.00712, March 5, 2017.
    [55] Chen X, Duan Y, Houthooft R, Schulman J, Sutskever I, Abbeel P. Infogan: Interpretable representation learning by information maximizing generative adversarial nets. In: Proceedings of the 30th International Conference on Neural Information Processing Systems. NIPS, 2016. 2180−2188
    [56] Kim M, Wang Y T, Sahu P, Pavlovic V. Relevance factor VAE: Learning and identifying disentangled factors. [Online], available: https://arxiv.org/abs/1902.01568, February 5, 2019.
    [57] Grathwohl W, Wilson A. Disentangling space and time in video with hierarchical variational auto-encoders. [Online], available: https://arxiv.org/abs/1612.04440, December 19, 2016.
    [58] Kim M, Wang Y T, Sahu P, Pavlovic V. Bayes-factor-VAE: Hierarchical Bayesian deep auto-encoder models for factor disentanglement. In: Proceedings of the 2019 IEEE/CVF International Conference on Computer Vision (ICCV). Seoul, Korea: IEEE, 2019. 2979−2987
    [59] Montero M L, Ludwig C J H, Costa R P, Malhotra G, Bowers J S. The role of disentanglement in generalisation. In: Proceedings of the 9th International Conference on Learning Representations. Austria: ICLR, 2021.
    [60] Larochelle H, Hinton G E. Learning to combine foveal glimpses with a third-order boltzmann machine. Advances in Neural Information Processing Systems, 2010, 23: 1243−1251
    [61] Mnih V, Heess N, Graves A, Kavukcuoglu K. Recurrent models of visual attention. In: Proceedings of the 27th International Conference on Neural Information Processing Systems. Montreal, Canada: NIPS, 2014. 2204−2212
    [62] Gregor K, Danihelka I, Graves A, Rezende D J, Wierstra D. DRAW: A recurrent neural network for image generation. In: Proceedings of the 32nd International Conference on Machine Learning. Lille, France: JMLR, 2015. 1462−1471
    [63] Henderson J M, Hollingworth A. High-level scene perception. Annual Review of Psychology, 1999, 50(1): 243−271 doi: 10.1146/annurev.psych.50.1.243
    [64] Eslami S M A, Heess N, Weber T, Tassa Y, Szepesvari D, Kavukcuoglu K, et al. Attend, infer, repeat: Fast scene understanding with generative models. In: Proceedings of the 30th International Conference on Neural Information Processing Systems. Barcelona, Spain: NIPS, 2016. 3233−3241
    [65] Crawford E, Pineau J. Spatially invariant unsupervised object detection with convolutional neural networks. In: Proceedings of the 33rd Conference on Artificial Intelligence. California, USA: AAAI, 2019. 3412−3420
    [66] Kosiorek A R, Kim H, Posner I, Teh Y W. Sequential attend, infer, repeat: Generative modelling of moving objects. In: Proceedings of the 32nd International Conference on Neural Information Processing Systems. Montréal, Canada: NIPS, 2018. 8615−8625
    [67] Santoro A, Raposo D, Barrett D G T, Malinowski M, Pascanu R, Battaglia P W, et al. A simple neural network module for relational reasoning. In: Proceedings of the 31th International Conference on Neural Information Processing Systems. Long Beach, USA: NIPS, 2017. 4967−4976
    [68] Massague A C, Zhang C, Feric Z, Camps O I, Yu R. Learning disentangled representations of video with missing data. In: Proceedings of the 34th Conference on Neural Information Processing Systems. Vancouver, Canada: California, USA, 2020. 3625−3635
    [69] Sønderby C K, Raiko T, Maaløe L, Sønderby S K, Winther O. Ladder variational autoencoders. In: Proceedings of the 30th International Conference on Neural Information Processing Systems. Barcelona, Spain: NIPS, 2016. 3745−3753
    [70] Zhao S J, Song J M, Ermon S. Learning hierarchical features from deep generative models. In: Proceedings of the 34th International Conference on Machine Learning. Sydney, Australia: JMLR, 2017. 4091−4099
    [71] Willetts M, Roberts S, Holmes C. Disentangling to cluster: Gaussian mixture variational Ladder autoencoders. [Online], available: https://arxiv.org/abs/1909.11501, December 4, 2019.
    [72] Esmaeili B, Wu H, Jain S, Bozkurt A, Siddharth N, Paige B, et al. Structured disentangled representations. In: Proceedings of the 22nd International Conference on Artificial Intelligence and Statistics. Okinawa, Japan: AISTATS, 2019. 2525−2534
    [73] Li X P, Chen Z R, Poon L K M, Zhang N L. Learning latent superstructures in variational autoencoders for deep multidimensional clustering. In: Proceedings of the 7th International Conference on Learning Representations. New Orleans, USA: ICLR, 2019.
    [74] George D, Lehrach W, Kansky K, Lázaro-Gredilla M, Laan C, Marthi B, et al. A generative vision model that trains with high data efficiency and breaks text-based CAPTCHAs. Science, 2017, 358(6368): eaag2612 doi: 10.1126/science.aag2612
    [75] Bouchacourt D, Tomioka R, Nowozin S. Multi-level variational autoencoder: Learning disentangled representations from grouped observations. In: Proceedings of the 32nd AAAI Conference on Artificial Intelligence. New Orleans, USA: AAAI, 2018. 2095−2102
    [76] Hwang H J, Kim G H, Hong S, Kim K E. Variational interaction information maximization for cross-domain disentanglement. In: Proceedings of the 34th Conference on Neural Information Processing Systems. Vancouver, Canada: California, USA, 2020. 22479−22491
    [77] Szabó A, Hu Q Y, Portenier T, Zwicker M, Favaro P. Understanding degeneracies and ambiguities in attribute transfer. In: Proceedings of the 15th European Conference on Computer Vision. Munich, Germany: Springer, 2018. 721−736
    [78] Ge Y H, Abu-El-Haija S, Xin G, Itti L. Zero-shot synthesis with group-supervised learning. In: Proceedings of the 9th International Conference on Learning Representations. Austria: ICLR, 2021.
    [79] Lee S, Cho S, Im S. DRANet: Disentangling representation and adaptation networks for unsupervised cross-domain adaptation. In: Proceedings of the 2021 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). Nashville, USA: IEEE, 2021. 15247−15256
    [80] Zhu J Y, Park T, Isola P, Efros A A. Unpaired image-to-image translation using cycle-consistent adversarial networks. In: Proceedings of the 2017 IEEE International Conference on Computer Vision (ICCV). Venice, Italy: IEEE, 2017: 2242−2251
    [81] Sanchez E H, Serrurier M, Ortner M. Learning disentangled representations via mutual information estimation. In: Proceedings of the 16th European Conference on Computer Vision. Glasgow, UK: Springer, 2020. 205−221
    [82] Esser P, Haux J, Ommer B. Unsupervised robust disentangling of latent characteristics for image synthesis. In: Proceedings of the 2019 IEEE/CVF International Conference on Computer Vision (ICCV). Seoul, Korea: IEEE, 2019. 2699−2709
    [83] Lorenz D, Bereska L, Milbich T, Ommer B. Unsupervised part-based disentangling of object shape and appearance. In: Proceedings of the 2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). Long Beach, USA: IEEE, 2019. 10947−10956
    [84] Liu S L, Zhang L, Yang X, Su H, Zhu J. Unsupervised part segmentation through disentangling appearance and shape. In: Proceedings of the 2021 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). Nashville, USA: IEEE, 2021. 8351−8360
    [85] Dundar A, Shih K, Garg A, Pottorff R, Tao A, Catanzaro B. Unsupervised disentanglement of pose, appearance and background from images and videos. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2021, DOI: 10.1109/TPAMI.2021.3055560
    [86] Vowels M J, Camgoz N C, Bowden R. Gated variational autoencoders: Incorporating weak supervision to encourage disentanglement. In: Proceedings of the 15th IEEE International Conference on Automatic Face and Gesture Recognition (FG 2020). Buenos Aires, Argentina: IEEE, 2020. 125−132
    [87] Zhan X H, Pan X G, Dai B, Liu Z W, Lin D H, Loy C C. Self-supervised scene de-occlusion. In: Proceedings of the 2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). Seattle, USA: IEEE, 2020. 3783−3791
    [88] Greff K, Rasmus A, Berglund M, Hao T H, Schmidhuber J, Valpola H. Tagger: Deep unsupervised perceptual grouping. In: Proceedings of the 30th International Conference on Neural Information Processing Systems. Barcelona, Spain: NIPS, 2016. 4491−4499
    [89] Li Y H, Singh K K, Ojha U, Lee Y J. MixNMatch: Multifactor disentanglement and encoding for conditional image generation. In: Proceedings of the 2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). Seattle, USA: IEEE, 2020. 8036−8045
    [90] Singh K K, Ojha U, Lee Y J. FineGAN: Unsupervised hierarchical disentanglement for fine-grained object generation and discovery. In: Proceedings of the 2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). Long Beach, USA: IEEE, 2019. 6483−6492
    [91] Ojha U, Singh K K, Lee Y J. Generating furry cars: Disentangling object shape & Appearance across Multiple Domains. In: Proceedings of the 9th International Conference on Learning Representations. Austria: ICLR, 2021.
    [92] Kosiorek A R, Sabour S, Teh Y W, Hinton G E. Stacked capsule autoencoders. In: Proceedings of the 33rd International Conference on Neural Information Processing Systems. Vancouver, Canada: NIPS, 2019. 15512−15522
    [93] Lee J, Lee Y, Kim J, Kosiorek A R, Choi S, Teh Y W. Set transformer: A framework for attention-based permutation-invariant neural networks. In: Proceedings of the 36th International Conference on Machine Learning. Long Beach, USA: JMLR, 2019. 3744−3753
    [94] Yang M Y, Liu F R, Chen Z T, Shen X W, Hao J Y, Wang J. CausalVAE: Disentangled representation learning via neural structural causal models. In: Proceedings of the 2021 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). Nashville, USA: IEEE, 2021. 9588−9597
    [95] Greff K, Kaufman R L, Kabra R, Watters N, Burgess C, Zoran D, et al. Multi-object representation learning with iterative variational inference. In: Proceedings of the 36th International Conference on Machine Learning. Long Beach, USA: JMLR, 2019. 2424−2433
    [96] Burgess C P, Matthey L, Watters N, Kabra R, Higgins I, Botvinick M, et al. MONet: Unsupervised scene decomposition and representation. [Online], available: https://arxiv.org/abs/1901.11390, January 22, 2019
    [97] Marino J, Yue Y, Mandt S. Iterative amortized inference. In: Proceedings of the 35th International Conference on Machine Learning. Stockholm, Sweden: JMLR, 2018. 3400−3409
    [98] Prabhudesai M, Lal S, Patil D, Tung H Y, Harley A W, Fragkiadaki K. Disentangling 3D prototypical networks for few-shot concept learning. [Online], available: https://arxiv.org/abs/2011.03367, July 20, 2021
    [99] Lecun Y, Bottou L, Bengio Y, Haffner P. Gradient-based learning applied to document recognition. Proceedings of the IEEE, 1998, 86(11): 2278−2324 doi: 10.1109/5.726791
    [100] Netzer Y, Wang T, Coates A, Bissacco A, Wu B, Ng A Y. Reading digits in natural images with unsupervised feature learning. In: Proceedings of Advances in Neural Information Processing Systems. Workshop on Deep Learning and Unsupervised Feature Learning. Granada, Spain: NIPS, 2011. 1−9
    [101] Liu Z W, Luo P, Wang X G, Tang X O. Deep learning face attributes in the wild. In: Proceedings of the 2015 IEEE International Conference on Computer Vision (ICCV). Santiago, Chile: IEEE, 2015. 3730−3738
    [102] Matthey L, Higgins I, Hassabis D, Lerchner A. dSprites: Disentanglement testing sprites dataset [Online], available: https://github.com/deepmind/dsprites-dataset, Jun 2, 2017
    [103] Aubry M, Maturana D, Efros A A, Russell B C, Sivic J. Seeing 3D chairs: Exemplar part-based 2D-3D alignment using a large dataset of CAD models. In: Proceedings of the 2014 IEEE Conference on Computer Vision and Pattern Recognition. Columbus, USA: IEEE, 2014. 3762−3769
    [104] Paysan P, Knothe R, Amberg B, Romdhani S, Vetter T. A 3D face model for pose and illumination invariant face recognition. In: Proceedings of the 6th IEEE International Conference on Advanced Video and Signal Based Surveillance. Genova, Italy: IEEE, 2009. 296−301
    [105] Lake B M, Salakhutdinov R, Tenenbaum J B. Human-level concept learning through probabilistic program induction. Science, 2015, 350(6266): 1332−1338 doi: 10.1126/science.aab3050
    [106] Ristani E, Solera F, Zou R S, Cucchiara R, Tomasi C. Performance measures and a data set for multi-target, multi-camera tracking. In: Proceedings of the 14th European Conference on Computer Vision. Amsterdam, The Netherlands: Springer, 2016. 17−35
    [107] Karatzas D, Shafait F, Uchida S, Iwamura M, Bigorda L G I, Mestre S R, et al. ICDAR 2013 robust reading competition. In: Proceedings of the 12th International Conference on Document Analysis and Recognition. Washington, USA: IEEE, 2013. 1484−1493
    [108] Xie J Y, Girshick R B, Farhadi A. Unsupervised deep embedding for clustering analysis. In: Proceedings of the 33rd International Conference on Machine Learning. New York, USA: JMLR, 2016. 478−487
    [109] Langner O, Dotsch R, Bijlstra G, Wigboldus D H J, Hawk S T, Van Knippenberg A. Presentation and validation of the Radboud Faces Database. Cognition and Emotion, 2010, 24(8): 1377−1388 doi: 10.1080/02699930903485076
    [110] Guo Y D, Zhang L, Hu Y X, He X D, Gao J F. MS-Celeb-1M: A dataset and benchmark for large-scale face recognition. In: Proceedings of the 14th European Conference on Computer Vision. Amsterdam, The Netherlands: Springer, 2016. 87−102
    [111] Wah C, Branson S, Welinder P, Perona P, Belongie S. The Caltech-UCSD birds-200-2011 dataset [Online], available: http://www.vision.caltech.edu/visipedia/CUB-200-2011.html, November 6, 2011
    [112] Zhu Y, Tian Y D, Metaxas D, Dollár P. Semantic amodal segmentation. In: Proceedings of the 2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Honolulu, USA: IEEE, 2017. 3001−3009
    [113] Borji A, Izadi S, Itti L. iLab-20M: A large-scale controlled object dataset to investigate deep learning. In: Proceedings of the 2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Las Vegas, USA: IEEE, 2016. 2221−2230
    [114] Marti U V, Bunke H. The IAM-database: An English sentence database for offline handwriting recognition. International Journal on Document Analysis and Recognition, 2002, 5(1): 39−46 doi: 10.1007/s100320200071
    [115] Liu H Y, Tian Y H, Wang Y W, Pang L, Huang T J. Deep relative distance learning: Tell the difference between similar vehicles. In: Proceedings of the 2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Las Vegas, USA: IEEE, 2016. 2167−2175
    [116] Drusch M, Del Bello U, Carlier S, Colin O, Fernandez V, Gascon F, et al. Sentinel-2: ESA’s optical high-resolution mission for GMES operational services. Remote Sensing of Environment, 2012, 120: 25−36 doi: 10.1016/j.rse.2011.11.026
    [117] LeCun Y, Huang F J, Bottou L. Learning methods for generic object recognition with invariance to pose and lighting. In: Proceedings of the 2004 IEEE Computer Society Conference on Computer Vision and Pattern Recognition, 2004. CVPR 2004. Washington, USA: IEEE, 2004. II−104
    [118] Charles J, Pfister T, Everingham M, Zisserman A. Automatic and efficient human pose estimation for sign language videos. International Journal of Computer Vision, 2014, 110(1): 70−90 doi: 10.1007/s11263-013-0672-6
    [119] Shahroudy A, Liu J, Ng T T, Wang G. NTU RGB+D: A large scale dataset for 3D human activity analysis. In: Proceedings of the 2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Las Vegas, USA: IEEE, 2016. 1010−1019
    [120] Schuldt C, Laptev I, Caputo B. Recognizing human actions: A local SVM approach. In: Proceedings of the 17th International Conference on Pattern Recognition, 2004. ICPR 2004. Cambridge, UK: IEEE, 2004. 32−36
    [121] Liu Z W, Luo P, Qiu S, Wang X G, Tang X O. DeepFashion: Powering robust clothes recognition and retrieval with rich annotations. In: Proceedings of the 2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Las Vegas, USA: IEEE, 2016. 1096−1104
    [122] Zhang W W, Sun J, Tang X O. Cat head detection - how to effectively exploit shape and texture features. In: Proceedings of the 10th European Conference on Computer Vision. Marseille, France: Springer, 2008. 802−816
    [123] Ionescu C, Papava D, Olaru V, Sminchisescu C. Human3.6M: Large scale datasets and predictive methods for 3D human sensing in natural environments. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2013, 36(7): 1325−1339
    [124] Zhang W Y, Zhu M L, Derpanis K G. From actemes to action: A strongly-supervised representation for detailed action understanding. In: Proceedings of the 2013 IEEE International Conference on Computer Vision. Sydney, Australia: IEEE, 2013. 2248−2255
    [125] Krause J, Stark M, Deng J, Li F F. 3D object representations for fine-grained categorization. In: Proceedings of the 2013 IEEE International Conference on Computer Vision Workshops. Sydney, Australia: IEEE, 2013. 554−561
    [126] Khosla A, Jayadevaprakash N, Yao B, Li F F. Novel dataset for fine-grained image categorization: Stanford dogs. In: Proceedings of the 1st Workshop on Fine-Grained Visual Categorization. Colorado Springs, USA: IEEE, 2011. 1−2
    [127] Reichert D P, Seriès P, Storkey A J. A hierarchical generative model of recurrent object-based attention in the visual cortex. In: Proceedings of the 21st International Conference on Artificial Neural Networks. Espoo, Finland: ICANN, 2011. 18−25
    [128] Johnson J, Hariharan B, Van Der Maaten L, Li F F, Zitnick C L, Girshick R. CLEVR: A diagnostic dataset for compositional language and elementary visual reasoning. In: Proceedings of the 2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Honolulu, USA: IEEE, 2017. 1988−1997
    [129] Qi L, Jiang L, Liu S, Shen X Y, Jia J Y. Amodal instance segmentation with KINS dataset. In: Proceedings of the 2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). Long Beach, USA: IEEE, 2019. 3009−3018
    [130] Eastwood C, Williams C K I. A framework for the quantitative evaluation of disentangled representations. In: Proceedings of the 6th International Conference on Learning Representations. Vancouver, Canada: ICLR, 2018.
    [131] Wu Z Z, Lischinski D, Shechtman E. StyleSpace analysis: Disentangled controls for StyleGAN image generation. In: Proceedings of the 2021 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). Nashville, USA: IEEE, 2021. 12858−12867
  • 期刊类型引用(9)

    1. 马路遥,罗晓清,张战成. 基于信息瓶颈孪生自编码网络的红外与可见光图像融合. 红外技术. 2024(03): 314-324 . 百度学术
    2. 王培龙,苗壮,王家宝,李阳,李允臣. 基于GAN网络的目标图像生成方法综述. 软件导刊. 2024(09): 10-19 . 百度学术
    3. 王帅炜,雷杰,冯尊磊,梁荣华. 视觉表征学习综述. 计算机科学. 2024(11): 112-132 . 百度学术
    4. 赵春晖,陈旭. 从分解视角出发:基于多元统计方法的工业时序建模与过程监测综述. 控制与决策. 2024(11): 3521-3546 . 百度学术
    5. 王雪松,王荣荣,程玉虎. 安全强化学习综述. 自动化学报. 2023(09): 1813-1835 . 本站查看
    6. 曾俊杰,秦龙,徐浩添,张琪,胡越,尹全军. 基于内在动机的深度强化学习探索方法综述. 计算机研究与发展. 2023(10): 2359-2382 . 百度学术
    7. 陈亚瑞,胡世凯,徐肖阳,张奇. 全相关约束下的变分层次自编码模型. 天津科技大学学报. 2023(05): 64-73 . 百度学术
    8. 汤红忠,王蔚,王涛,陆旺达,黄向红,章兢. 一种基于课程学习的胚胎图像语义分割方法. 电子学报. 2023(11): 3365-3376 . 百度学术
    9. 郁钱,路金晓,柏基权,范洪辉. 基于深度学习的三维物体重建方法研究综述. 江苏理工学院学报. 2022(04): 31-41 . 百度学术

    其他类型引用(38)

  • 加载中
图(22) / 表(2)
计量
  • 文章访问数:  9293
  • HTML全文浏览量:  5647
  • PDF下载量:  2916
  • 被引次数: 47
出版历程
  • 收稿日期:  2021-01-28
  • 录用日期:  2021-06-18
  • 网络出版日期:  2021-07-26
  • 刊出日期:  2022-02-18

目录

/

返回文章
返回