2.845

2023影响因子

(CJCR)

  • 中文核心
  • EI
  • 中国科技核心
  • Scopus
  • CSCD
  • 英国科学文摘

留言板

尊敬的读者、作者、审稿人, 关于本刊的投稿、审稿、编辑和出版的任何问题, 您可以本页添加留言。我们将尽快给您答复。谢谢您的支持!

姓名
邮箱
手机号码
标题
留言内容
验证码

基于双模型交互学习的半监督医学图像分割

方超伟 李雪 李钟毓 焦李成 张鼎文

方超伟, 李雪, 李钟毓, 焦李成, 张鼎文. 基于双模型交互学习的半监督医学图像分割. 自动化学报, 2023, 49(4): 805−819 doi: 10.16383/j.aas.c210667
引用本文: 方超伟, 李雪, 李钟毓, 焦李成, 张鼎文. 基于双模型交互学习的半监督医学图像分割. 自动化学报, 2023, 49(4): 805−819 doi: 10.16383/j.aas.c210667
Fang Chao-Wei, Li Xue, Li Zhong-Yu, Jiao Li-Cheng, Zhang Ding-Wen. Interactive dual-model learning for semi-supervised medical image segmentation. Acta Automatica Sinica, 2023, 49(4): 805−819 doi: 10.16383/j.aas.c210667
Citation: Fang Chao-Wei, Li Xue, Li Zhong-Yu, Jiao Li-Cheng, Zhang Ding-Wen. Interactive dual-model learning for semi-supervised medical image segmentation. Acta Automatica Sinica, 2023, 49(4): 805−819 doi: 10.16383/j.aas.c210667

基于双模型交互学习的半监督医学图像分割

doi: 10.16383/j.aas.c210667
基金项目: 国家自然科学基金(62003256, 61876140, U21B2048) 资助
详细信息
    作者简介:

    方超伟:西安电子科技大学人工智能学院讲师. 2019年获得香港大学博士学位, 2013年获得西安交通大学学士学位. 主要研究方向为图像处理, 医学影像分析, 计算机视觉, 机器学习. E-mail: chaoweifang@outlook.com

    李雪:西安电子科技大学机电工程学院硕士研究生. 2020年获得西安理工大学自动化学院学士学位. 主要研究方向为医学影像分析, 计算机视觉. E-mail: lixue@stu.xidian.edu.cn

    李钟毓:西安交通大学软件学院副教授. 2018年获得美国北卡罗来纳大学夏洛特分校博士学位, 2015年和2012年分别获得西安交通大学硕士和学士学位. 主要研究方向为计算视觉, 医学影像分析. E-mail: zhongyuli@xjtu.edu.cn

    焦李成:西安电子科技大学智能感知与图像理解教育部重点实验室教授. 1982 年获得上海交通大学学士学位, 1984年和1990年分别获得西安交通大学硕士和博士学位. 主要研究方向为图像处理, 自然计算, 机器学习和智能信息处理. E-mail: lchjiao@mail.xidian.edu.cn

    张鼎文:西北工业大学脑与人工智能实验室教授. 2018年获得西北工业大学博士学位. 主要研究方向为计算机视觉和多媒体处理, 显著性检测, 视频物体分割和弱监督学习. 本文通信作者.E-mail: zhangdingwen2006yyy@gmail.com

Interactive Dual-model Learning for Semi-supervised Medical Image Segmentation

Funds: Supported by National Natural Science Foundation of China (62003256, 61876140, U21B2048)
More Information
    Author Bio:

    FANG Chao-Wei Lecturer at the School of Artificial Intelligence, Xidian University. He received his Ph.D. degree from University of Hong Kong in 2019. He received his bachelor degree from Xi'an Jiaotong University in 2013. His research interest covers image processing, medical image analysis, computer vision, and machine learning

    LI Xue Master student at the School of Mechano-Electronic Engineering, Xidian University. She received her bachelor degree from the School of Automation, Xi'an University of Technology in 2020. Her research interest covers medical image analysis and computer vision

    LI Zhong-Yu Associate professor at the School of Software Engineering, Xi'an Jiaotong University. He received his Ph.D. degree from the University of North Carolina at Charlotte, USA in 2018. He received his master degree and bachelor degree from Xi'an Jiaotong University in 2015 and 2012, respectively. His research interest covers computer vision and medical image analysis

    JIAO Li-Cheng Professor at the Key Laboratory of Intelligent Perception and Image Understanding, Ministry of Education, Xidian University. He received his bachelor degree from Shanghai Jiao Tong University in 1982, his master and Ph.D. degrees from Xi'an Jiaotong University in 1984 and 1990, respectively. His research interest covers image processing, natural computation, machine learning, and intelligent information processing

    ZHANG Ding-Wen Professor at the Brain and Artificial Intelligence Laboratory, Northwestern Polytechnical University. He received his Ph.D. degree from Northwestern Polytechnical University in 2018. His research interest covers computer vision and multimedia processing, especially on saliency detection, video object segmentation, and weakly supervised learning. Corresponding author of thispaper

  • 摘要: 在医学图像中, 器官或病变区域的精准分割对疾病诊断等临床应用有着至关重要的作用, 然而分割模型的训练依赖于大量标注数据. 为减少对标注数据的需求, 本文主要研究针对医学图像分割的半监督学习任务. 现有半监督学习方法广泛采用平均教师模型, 其缺点在于, 基于指数移动平均(Exponential moving average, EMA)的参数更新方式使得老师模型累积学生模型的错误知识. 为避免上述问题, 提出一种双模型交互学习方法, 引入像素稳定性判断机制, 利用一个模型中预测结果更稳定的像素监督另一个模型的学习, 从而缓解了单个模型的错误经验的累积和传播. 提出的方法在心脏结构分割、肝脏肿瘤分割和脑肿瘤分割三个数据集中取得优于前沿半监督方法的结果. 在仅采用30%的标注比例时, 该方法在三个数据集上的戴斯相似指标(Dice similarity coefficient, DSC)分别达到89.13%, 94.15%, 87.02%.
  • 卷积神经网络已经在图像分类[1-3]、目标检测[4-6]、图像分割[7-9]等视觉计算机任务中取得了显著的成功. 虽然通过利用精细标记的数据进行全监督训练, 卷积神经网络在多种医学图像分割任务(如神经元结构、息肉、肝脏、胰腺分割等)中已取得了非常高的性能[10-13], 但是全监督训练需要大量的像素级标注数据. 对于自然图像语义分割任务而言, 其像素级标签可通过非专业人士进行标注, 但在医学图像分割中, 采集精确的像素级标签需要医学专家花费大量的时间进行标注, 因此医学图像标注数据的获取往往成本更加昂贵且耗时. 除此之外, 由于不同病例样本的病灶区域、器官等形状差异大, 对模型泛化性能提出更高的要求. 为降低标记成本、提高模型的泛化能力, 近年来, 研究人员尝试利用较少的标记数据建立高性能的医学图像分割模型, 比如自监督[14]、弱监督[15-17]、域适应[18-19]、半监督[20-22]等方法. 本文主要研究半监督医学图像分割, 即利用少量的标记数据和大量的未标记数据学习分割模型, 获得高质量的分割结果.

    近期提出的许多半监督学习方法主要可以分成单模型[23-27]和平均教师模型[21, 28-29]两类方法. 单模型方法主要利用一致性约束或对抗训练来学习无标注数据的信息. 基于对抗训练的单模型方法[23, 25-26]将分割模型当成生成器, 并构建判别器用于区分生成的分割掩膜和真实的分割掩膜, 生成器和判别器之间的对抗学习使得分割结果服从真实掩膜的形状分布. 但对抗学习通用性不好, 尤其是对目标形状多样化较高的分割任务. 如图1(c)所示, 基于一致性约束的单模型方法[24, 27, 30-31]在输入层或者特征层引入扰动, 这样对同一个无标签样本实施两次前向传播会得到两个不同的预测结果, 最后在两个预测结果之间施加一致性正则, 即两个预测结果尽可能保持一致. 但是单模型在训练集上的学习能力有限, 当模型学习能力趋于饱和状态时, 单模型会保留认为“正确”的错误预测信息, 因此单模型一致性对错误预测的纠正能力弱. 在此基础上, 为提高模型对错误预测的纠错能力, 更多学者将注意力集中到了如图1(b)所示的平均教师模型方法上[21, 28, 32], 在该方法中, 通常创建两个角色: 老师模型和学生模型(即师生结构). 具体地, 平均教师模型的通常做法是: 1)对学生的输入层或特征层加入小扰动(如高斯噪声); 2)在学生和老师模型的预测之间施加一致性约束. 在平均教师模型参数更新过程中, 老师模型参数由学生模型参数的指数移动平均(Exponential moving average, EMA)生成. 然而, 随着迭代次数的增加, 指数移动平均的更新方式导致老师模型累积学生模型所学到的所有知识, 而对错误知识的累积不能保障老师模型为学生模型提供更好的监督信息, 因此阻碍了学生模型的进一步优化.

    图 1  模型框架的对比图 ((a)基于双模型交互学习的半监督分割框架; (b)基于平均教师模型[22]的半监督分割框架; (c)基于一致性约束的单模型半监督分割框架. 实线箭头表示训练数据的传递和模型的更新, 虚线箭头表示无标注数据监督信息的来源)
    Fig. 1  Comparison of the model framework ((a) Semi-supervised segmentation framework based on dual-model interactive learning; (b) Semi-supervised segmentation framework based on the mean teacher model[22]; (c) Semi-supervised segmentation framework based on single model. Solid arrows represent the propagation of training data and the update of models. Dashed arrows point out the origin of the supervisions on unlabeled images)

    为解决上述问题, 受双学生分类模型[25]的启发, 提出了基于双模型交互学习的半监督医学图像分割方法(图1(a)). 首先, 两个模型各自受约束于有标注数据的全监督损失. 其次, 在模型对图像不同变体(即原图和被噪声干扰后的图像)的预测之间增加无监督一致性约束, 以充分利用训练数据, 尤其是无标注图像. 最后, 考虑到双模型的容错性较强, 在两个模型之间构建了相互学习机制, 并引入基于像素稳定性判断的伪标签筛选策略, 利用一个模型中更稳定的像素信息去监督另一个模型. 对比图1(a)、图1(b)和图1(c)可知, 双模型既保证了单模型一致性正则化方法的学习能力, 又通过相互监督学习弥补了单模型纠错能力不足的问题; 同时, 不同于平均教师模型中的EMA更新方式, 在训练时双模型相互为对方提供无标注数据的监督信息, 同时稳定像素的筛选阻断了错误监督信息的传递和累积. 因此, 本文的主要贡献有: 1)提出了一个面向医学图像分割的双模型交互学习模型; 2)为减少多个模型之间误差的传播和累积, 基于U-Net网络框架[11]设计算法用于鉴定并筛除预测结果不稳定的像素; 3)经大量实验验证, 所提出的方法在心脏结构分割[33]、肝脏肿瘤分割[34]和脑肿瘤分割[35]三个数据集中取得优于前沿半监督方法的结果. 在30%的标注下, 本文方法在三个数据集上的戴斯相似指标分别达到89.13%, 94.15%, 87.02%.

    对于图像分割, 传统方法主要是利用人工设计的特征知识构建模型, 包括基于先验的模型[36]和基于聚类的模型[37]. 传统的图像分割模型的性能通常依赖于手工制作的特征表示. 例如, 在医学图像分割领域中, 基于先验的模型[36]需要针对不同的器官设计特定的先验信息, 很难推广到其他器官. 基于聚类的模型[37]往往参数敏感且鲁棒性不足, 对形状变化较大的目标预测效果较差.

    由于卷积神经网络(Convolutional neural networks, CNN)具有自动学习高级语义特征的能力, 因此国内外的科研工作者提出了一系列的基于CNN的语义分割模型. 全卷积网络[7] (Fully convolutional networks, FCN)是首个全卷积语义分割模型, 使用插值或者去卷积运算将高层卷积特征进行放大, 并融合多层特征实现像素级别的语义预测. 文献[8]提出了一个编解码网络, 在解码网络中, 借助编码网络的池化索引, 自顶往下逐层放大卷积特征. U形网络 (U-Net)[11]会在顶层特征放大的过程中, 逐步吸收底层的卷积特征, 这一思想已广泛应用于医学图像分析[22, 38]和自然图像的语义理解[9, 39-41]. 除此之外, 在U-Net的基础上发展了密集连接U形网络 (DenseU-Net)[42]、嵌套式U形网络 (U-Net++)[43]和以轻量级移动网络 (Mobilenet)[44]为骨干的U-Net网络, 以及用于3D医学图像分割的三维U形网络 (3D U-Net)[45]和V形网络 (Vnet)[46]等网络.

    医学图像分割在病理分析和协助医生临床诊断中发挥着重要作用, 但在进行医学图像分割时需要大量的像素级标签. 特别地, 医学图像的标签需要医学专家标注, 因此需要大量的人力和时间成本. 基于上述问题, 利用大量无标签数据和少量标签的半监督医学图像分割方法吸引了学者们的注意力.

    目前大部分前沿半监督图像分割算法采用基于端到端的深度学习[21, 25, 47]网络框架. 基于一致性约束的单模型方法[27, 30-31]主要通过对无标签样本引入扰动, 在无标签样本及其扰动样本之间施加一致性约束来优化模型. 例如, 文献[30]提出对不同未标注样本的输入进行插值, 通过鼓励在未标注样本及其插值样本之间的预测来设计一致性约束. 文献[27]设计了一个编码器、一个主解码器和多个辅助解码器, 将编码器输出的不同扰动版本作为辅助解码器的输入, 实现主解码器预测和辅助解码器预测之间的一致性. 文献[31]主要采用了一个多任务网络结构, 即同时进行图像分割和水平集函数回归, 最后利用两个任务之间的表示差异来构建一致性. 基于平均教师模型的这类方法[21, 28, 46, 48]主要是在学生和老师模型的预测之间施加一致性约束. 例如, 文献[21]结合平均教师模型[28]和不确定性估计来设计半监督的左心房分割方法, 具体地, 计算老师模型预测的熵值来评估预测的不确定性, 利用老师模型获得的不确定性图来指导学生模型在未标注数据上的学习. 文献[48]在平均教师的基础上引入了更多的数据扰动(翻转、随机旋转、尺度变化、噪声等)和模型扰动(神经元擦除)来构建同一输入在不同扰动下的一致性约束. 文献[46]采用平均教师分别鼓励无标注数据在局部和全局结构上的预测一致性, 使无标注数据获得较高质量的伪标签. 除此之外, 还有基于最小熵和基于对抗训练的单模型方法. 文献[47]是直接采用熵最小化的方法, 让模型产生高置信度的预测. 文献[25]中提出了一种新的用于医学图像分割的深度对抗网络模型, 该模型鼓励未标注图像的分割与标注图像的分割具有相似的分布. 因此在半监督学习领域中, 主要是对未标注数据通过生成伪标签进行指导, 半监督模型训练方法的关键在于伪标签的质量. 然而, 由于单模型仅能从自身学习训练过程中获取监督信息, 这导致随着模型不断地更新, 对无标签样本的错误预测会不断累积, 因此基于一致性约束的单模型方法的纠错能力差. 在基于一致性约束的单模型基础上发展起来的平均教师模型[28]对于无标签样本主要通过老师监督指导从学生模型中获取伪标签, 教师模型的权重被更新为学生权重的指数移动平均值(EMA), 然而随着模型的不断训练和更新, EMA更新方式使得老师模型对学生模型的错误经验也会进行累积, 无法为学生模型提供较鲁棒的伪标签. 因此, 限制了学生模型的进一步提高. 在半监督图像分类领域, 近期的研究思路避免构建显式的师生框架, 而采用两个模型相互监督的学习方式, 如共同教学[49-50]、双学生[51]. 然而在半监督图像分割领域, 该思路处于待研究状态, 受双学生[51]分类模型的启发, 本文提出基于双模型交互学习的半监督医学图像分割模型.

    双模型虽然在半监督医学图像分割领域处于待研究的状态, 但在全监督下的图像分类和知识蒸馏任务中已得到广泛研究. 例如, 文献[29]提出了一种“深度互学习” (Deep mutual learning, DML)策略, 使得小网络之间能够互相学习、共同进步. 具体来说, 每个网络在学习过程中有两个损失函数, 一个是传统的监督损失函数, 采用交叉熵损失(Cross-entropy, CE)来度量网络预测的目标类别与真实标签之间的差异, 另一个是网络间的交互损失函数, 采用相对熵(Kullback-Leibler divergence, KL)来度量两个网络预测概率分布之间的差异. 文献[52]在文献[29]基础上引入对抗训练的学习方式, 进一步学习特征的分布以及提升分类的精度, 即特征级对抗学习(Feature-map-level, FML). 文献[53]提出双分支网络(DualNet, D-N)模型, 每个分支单独提取特征并通过辅助分类器做出预测. 除此之外, 还将两个分支网络提取的特征进行融合, 并通过融合分类器得到整体分类结果. 本文双模型方法与上述文献双模型类似, 都是采用两个各自独立的网络模型进行交互学习, 但是在解决各自任务时存在明显的差异, 如表1所示.

    表 1  本文双模型方法与其他双模型方法的比较
    Table 1  Compared with other dual-model methods
    方法任务网络损失函数主要贡献
    DML[29]图像分类残差网络
    移动网络
    宽残差网络
    谷歌网络
    相对熵损失函数
    交叉熵损失函数
    提出双模型, 两个小网络实现交互学习. 用 KL 散度评估两个模型网络预测结果之间的差异
    FML[52]图像分类残差网络
    宽残差网络
    相对熵损失函数
    交叉熵损失函数
    对抗损失函数
    提出双模型, 在 DML 基础上, 在两个网络模型输出预测结果之间引入对抗学习
    D-N[53]图像分类计算机视觉组网络
    残差网络
    交叉熵损失函数
    学生与老师之间的知识提取损失函数
    提出双模型, 每个模型提取特征并通过辅助分类器做出预测.同时将两个分支提取的特征进行融合, 通过融合分类器得到整体分类结果
    本文方法半监督医学
    图像分割
    U 形网络
    密集 U 形网络
    三维 U 形网络
    交叉熵损失函数
    戴斯损失函数
    均方误差函数
    提出双模型, 引入稳定伪标签判断机制, 用一个模型的稳定像素约束另一个模型的不稳定像素
    下载: 导出CSV 
    | 显示表格

    除此之外, 有学者提出用于半监督任务的双模型方法. 文献[54]提出一种对偶关系半监督多标签学习方法, 作者设计了与两个分类器相关联的映射器来对齐分布空间. 因为文献[54]中双模型在特征提取部分共享网络, 不是完全独立的两个模型, 因此不是严格意义上的双模型. 文献[55]提出用于解决机器翻译任务的模型级双学习方法. 上述文献[54-55]是针对特定问题提出的双模型策略, 比如文献[54]是针对多标签以及长尾分布任务提出的基于对偶关系的双模型方法; 文献[55]是针对机器翻译任务提出的双循环交互学习模型. 因此不适用于半监督医学图像分割任务.

    半监督医学分割任务的目的是: 利用少量有标注医学图像和大量无标注医学图像组成的数据集训练出性能良好的分割模型. 在本文中, 假设训练集$ D $包括标签数据集$ {D}^{l} $和无标签数据集$ {D}^{u} $, 即$ D= \{{D}^{l},{D}^{u}\} $, 其中, $ {D}^{l} $由图像及其标签组成, 即${D}^{l}=\{{{\boldsymbol{I}}}^{{{l}}}, {\boldsymbol{Y}}\}$, $ {{\boldsymbol{I}}}^{{{l}}} $表示有标签图像, $ {\boldsymbol{Y}} $表示有标签图像对应的真实标签; $ {D}^{u} $表示数据集中仅包括无标签的图像, 即$ {D}^{u}=\left\{{{\boldsymbol{I}}}^{{{u}}}\right\},{{\boldsymbol{I}}}^{{{u}}} $表示无标签图像. 假设所有图像和真实标注大小均为$ H\times W $.

    本文提出的双模型框架由结构相同、参数独立的两个模型组成(见图2). 网络结构采用医学图像分割中常用的U-Net网络[11], U-Net网络主要由编码器、解码器和跳跃连接三部分组成. 编码器和解码器分别包含4个子模块, 编码器中的每个子模块包含两个卷积层和一个下采样层, 解码器中的每个子模块包含一个上采样层和两个卷积层. 跳跃连接的作用是将编码器的中间特征融入具有相同分辨率输入的解码模块中.

    图 2  双模型交互学习框架图. MSE、CE 和 DICE 分别表示均方误差函数、交叉熵函数和戴斯函数. 单向实线箭头表示原始图像($ {{\boldsymbol{I}}}^{{{l}}} $$ {{\boldsymbol{I}}}^{{{u}}} $)在各模型中的前向计算过程, 单向虚线箭头表示噪声图像($ {{\bar{{\boldsymbol{I}}}}}^{{{l}}} $$ {{\bar{{\boldsymbol{I}}}}}^{{{u}}} $)在各模型中的前向计算过程
    Fig. 2  Framework of interactive learning of dual-models. MSE, CE and DICE represent mean square error function, cross entropy function and DICE function, respectively. The solid single-directional arrow represents the forward calculation process of the original image ($ {{\boldsymbol{I}}}^{{{l}}} $ and $ {{\boldsymbol{I}}}^{{{u}}} $) in each model. The dashed single-directional arrow represents the forward calculation process of noise images (${{\bar{{{{\boldsymbol{I}}}}}}}^{{{l}}}$ and ${{\bar{{\boldsymbol{I}}}}}^{{{u}}}$) in each model

    在双模型训练框架中, 给定输入图像, 每个模型的最后一个卷积层输出两个变量: 分割结果$ {\boldsymbol{P}} $和双模型交互学习的伴随变量$ {\boldsymbol{Q}} $. 在模型训练过程中, $ {\boldsymbol{Q}} $为无标签图像提供监督信号, 即伪标签, 其主要作用是缓解错误伪标签对模型学习过程的影响. 定义$ {{\boldsymbol{I}}}^{{{l}}} $在模型$ i $中的分割结果和伴随变量分别为$ {{\boldsymbol{P}}}_{{{i}}}^{{{l}}} $$ {{\boldsymbol{Q}}}_{{{i}}}^{{{l}}} $; $ {{\boldsymbol{I}}}^{{{u}}} $在模型$ i $中的分割结果和伴随变量分别为$ {{\boldsymbol{P}}}_{{{i}}}^{{{u}}} $$ {{\boldsymbol{Q}}}_{{{i}}}^{{{u}}} $. 为保证每个模型充分探索和学习有标签和无标签图像中的知识, 引入监督损失和无监督一致性损失. 同时, 考虑到单个模型对无标签图像生成的伪标签存在错误预测, 为防止错误的预测结果在两个模型之间相互传播和累积, 设计了基于像素稳定性判断的伪标签生成模块, 该模块使一个模型能够从另一个模型中学习更稳定和更准确的预测, 具体将在第2.3节进行详细的介绍.

    为保证双模型中的每个模型自身可以充分探索和学习有标注图像的知识, 直接利用它们的实际标注构建有监督约束. 本文采用交叉熵(Cross-entropy, CE)和戴斯函数(DICE)构建模型分割结果$ {{\boldsymbol{P}}}_{{{i}}}^{{{l}}} $和真实标签$ {\boldsymbol{Y}} $之间的损失, 计算表达式为

    $$ L_{{\rm{ce}}}^{\left( i \right)} = -\frac{{ 1}}{{HW}} \mathop {\mathop \sum \limits^H }\limits_{x = 1} \mathop {\mathop \sum \limits^W }\limits_{y = 1} \mathop {\mathop \sum \limits^C }\limits_{c = 1} Y( {x,y,c} ){\rm{ln}}P_i^l( {x,y,c} ) $$ (1)
    $$ L_{{\rm{dice}}}^{(i)} = 1 - \sum\limits_{c = 1}^C {\frac{{2\sum\limits_{x = 1}^H {\sum\limits_{y = 1}^W {P_i^l} } (x,y,c)Y(x,y,c)}}{{\sum\limits_{x = 1}^H {\sum\limits_{y = 1}^W {\left[ {P_i^l(x,y,c) + Y(x,y,c)} \right]} } }}} $$ (2)
    $$ {L}_{{\rm{seg}}}^{\left(i\right)}=\frac{1}{2}\left({L}_{{\rm{ce}}}^{i}+{L}_{{\rm{dice}}}^{i}\right) $$ (3)

    其中, $ C $表示待分割的类别数, ${L}_{{\rm{ce}}}^{\left(i\right)}$${L}_{{\rm{dice}}}^{\left(i\right)}$分别表示模型$ i $的交叉熵损失和戴斯损失, ${L}_{{\rm{seg}}}^{\left(i\right)}$表示模型$ i $的监督损失. $ {P}_{i}^{l}\left(x,y,c\right) $ 表示模型$ i $预测像素$ {I}^{l}\left(x,y\right) $属于$ c $类别的概率. $ Y(x,y,c) $表示像素$ {I}^{l}\left(x,y\right) $真实标签是否是$ c $类, 如果$ Y\left(x,y,c\right)=1 $, 表示像素$ {I}^{l}\left(x,y\right) $真实标签是$ c $类; 如果$ Y\left(x,y,c\right)=0 $, 表示像素$ {I}^{l}\left(x,y\right) $真实标签不是$ c $类.

    在监督损失的基础上, 为进一步学习和利用无标注图像的知识, 在原始图像和噪声图像之间引入无监督一致性约束. 具体方法如下:

    对所有输入图像$ {\boldsymbol{I}} $(其为有标签图像$ {{\boldsymbol{I}}}^{{{l}}} $或无标签图像$ {{\boldsymbol{I}}}^{{{u}}} $)加入噪声干扰$ {\boldsymbol{Z}}\in {\mathbf{R}}^{H\times W} $, 得到噪声数据$ {\bar{{\boldsymbol{I}}}} $ (包括有标签噪声图像$ {{\bar{{\boldsymbol{I}}}}}^{{{l}}} $和无标签噪声图像$ {{\bar{{\boldsymbol{I}}}}}^{{{u}}} $), 具体表示为

    $$ {\bar{{\boldsymbol{I}}}}={\boldsymbol{I}}+{\boldsymbol{I}}\cdot {\boldsymbol{Z}} $$ (4)

    其中, “·”表示逐点乘法; 在$ {\boldsymbol{Z}} $中处于位置$ (x,y) $上的$ Z(x,y) $服从均匀分布, 即$ Z(x,y) \sim {\rm{U}}(-u,u) $, $ u= 0.2 $. 根据式(4)对$ {{\boldsymbol{I}}}^{{{l}}} $$ {{\boldsymbol{I}}}^{{{u}}} $进行干扰, 分别得到噪声图像$ {{\bar{{\boldsymbol{I}}}}}^{{{l}}} $$ {{\bar{{\boldsymbol{I}}}}}^{{{u}}} $. 将$ {{\bar{{\boldsymbol{I}}}}}^{{{l}}}/{{\bar{{\boldsymbol{I}}}}}^{{{u}}} $输入模型$ i $中, 得到分割结果$ {\bar{{\boldsymbol{P}}}}_{{{i}}}^{{{l}}}/{\bar{{\boldsymbol{P}}}}_{{{i}}}^{{{u}}} $和伴随变量$ {\bar{{\boldsymbol{Q}}}}_{{{i}}}^{{{l}}}/{\bar{{\boldsymbol{Q}}}}_{{{i}}}^{{{u}}} $.

    对有标签图像, 考虑到真实标签被用于直接监督$ {{\boldsymbol{P}}}_{{{i}}}^{{{l}}} $, $ {{\boldsymbol{P}}}_{{{i}}}^{{{l}}} $具有高可信度, 因此利用$ {{\boldsymbol{P}}}_{{{i}}}^{{{l}}} $监督$ {{\boldsymbol{Q}}}_{{{i}}}^{{{l}}} $$ {\bar{{\boldsymbol{Q}}}}_{{{i}}}^{{{l}}} $, 即在$ {{\boldsymbol{P}}}_{{{i}}}^{{{l}}} $$ {{\boldsymbol{Q}}}_{{{i}}}^{{{l}}} $$ {{\boldsymbol{P}}}_{{{i}}}^{{{l}}} $$ {\bar{{\boldsymbol{Q}}}}_{{{i}}}^{{{l}}} $中引入一致性正则化. 通过采用均方误差函数(Mean squared error, MSE)计算$ {{\boldsymbol{P}}}_{{{i}}}^{{{l}}} $$ {{\boldsymbol{Q}}}_{{{i}}}^{{{l}}} $$ {{\boldsymbol{P}}}_{{{i}}}^{{{l}}} $$ {\bar{{\boldsymbol{Q}}}}_{{{i}}}^{{{l}}} $之间的一致性损失, 具体表示为

    $$ {L}_{{\rm{con}}\_Q}^{\left(i\right)}=\frac{1}{HWC}\left({\left\|{{{\boldsymbol{Q}}}_{{{i}}}^{{{l}}}-{\boldsymbol{P}}}_{{{i}}}^{{{l}}}\right\|}_{{\rm{F}}}^{2}+{\left\|{{\bar{{\boldsymbol{Q}}}}_{{{i}}}^{{{l}}}-{\boldsymbol{P}}}_{{{i}}}^{{{l}}}\right\|}_{{\rm{F}}}^{2}\right) $$ (5)

    其中, ${L}_{{\rm{con}}\_Q}^{\left(i\right)}$表示模型$ i $对伴随变量$ {\boldsymbol{Q}} $的一致性约束. 优化过程中, $ {{\boldsymbol{P}}}_{{{i}}}^{{{l}}} $不参与误差的反向传播, 即不参与梯度计算.

    对无标签图像, 将基于分割结果($ {{\boldsymbol{P}}}_{{{i}}}^{{{u}}} $$ {\bar{{\boldsymbol{P}}}}_{{{i}}}^{{{u}}} $)分配伪标签(详细过程见第2.3节), 并利用伪标签对伴随变量$ {{\boldsymbol{Q}}}_{{{i}}}^{{{u}}} $进行监督(见式(10)和式(11)). 最后, 将$ {{\boldsymbol{Q}}}_{{{i}}}^{{{u}}} $作为分割结果$ {{\boldsymbol{P}}}_{{{i}}}^{{{u}}} $$ {\bar{{\boldsymbol{P}}}}_{{{i}}}^{{{u}}} $的监督信息, 采用均方误差(MSE)计算$ {{\boldsymbol{P}}}_{{{i}}}^{{{u}}}\mathrm{和}{{\boldsymbol{Q}}}_{{{i}}}^{{{u}}} $$ {\bar{{\boldsymbol{P}}}}_{{{i}}}^{{{u}}} $$ {{\boldsymbol{Q}}}_{{{i}}}^{{{u}}} $之间的一致性损失, 具体表示为

    $$ {L}_{{\rm{con}}\_P}^{\left(i\right)}=\frac{1}{HWC}\left({\left\|{{{\boldsymbol{P}}}_{{{i}}}^{{{u}}}-{\boldsymbol{Q}}}_{{{i}}}^{{{u}}}\right\|}_{{\rm{F}}}^{2}+{\left\|{{\bar{{\boldsymbol{P}}}}_{{{i}}}^{{{u}}}-{\boldsymbol{Q}}}_{{{i}}}^{{{u}}}\right\|}_{{\rm{F}}}^{2}\right) $$ (6)

    其中, ${L}_{{\rm{con}}\_P}^{\left(i\right)}$表示模型$ i $对分割结果$ {\boldsymbol{P}} $的一致性约束. 优化过程中, $ {{\boldsymbol{Q}}}_{{{i}}}^{{{u}}} $不参与误差的反向传播, 即不参与梯度计算. 考虑分割结果中往往存在错误预测, 其生成的伪标签存在噪声. 如果直接利用伪标签对$ {{\boldsymbol{P}}}_{i}^{u} $$ {\bar{{\boldsymbol{P}}}}_{{{i}}}^{{{u}}} $施加监督, 模型训练会受到干扰. 根据文献[13], 网络在优化过程中更易学习干净数据. 因此, 引入伴随变量作为监督信息的中间状态, 用于防止模型过拟合错误标签, 缓解错误标签对模型学习的影响.

    除此之外, 单个模型对无标签图像的预测存在错误预测, 随着训练不断进行, 单个模型会不断积累认为“正确”的错误预测信息, 对错误预测的纠正能力弱. 因此本文对两个模型建立相互学习机制, 第2.3节将详细介绍该机制.

    本文的双模型交互学习是基于像素稳定性判断的伪标签生成模块. 首先该模块对像素在两个模型中的稳定性进行判断; 然后利用一个模型中更稳定的像素信息去监督另一个模型训练.

    假设$ {I}^{u}(x,y) $$ {\bar{I}}^{u}(x,y) $分别表示在图像$ {{\boldsymbol{I}}}^{{{u}}} $$ {{\bar{{\boldsymbol{I}}}}}^{u} $位置$ (x,y) $上的像素, 则模型$ i $对像素$ {I}^{u}(x,y) $$ {\bar{I}}^{u}(x,y) $属于$ c $类的预测概率分别为$ {P}_{i}^{u}(x,y,c) $$ {\bar{P}}_{i}^{u}(x,y,c) $. 将最大预测概率所在的类别作为该像素的伪标签类别, 具体可表示为

    $$ {c}_{i}\left(x,y\right)={{\rm{argmax}}}_{c}\left|{P}_{i}^{u}\left(x,y,c\right)\right| $$ (7)
    $$ {\bar{c}}_{i}\left(x,y\right)={{\rm{argmax}}}_{c}\left|{\bar{P}}_{i}^{u}(x,y,c)\right| $$ (8)

    其中, $ {c}_{i}(x,y) $为模型$ i $对像素$ {I}^{u}(x,y) $的预测标签, $ {\bar{c}}_{i}(x,y) $为模型$ i $对像素$ {\bar{I}}^{u}(x,y) $的预测标签.

    然后, 根据式(7)和式(8)得到的像素级伪标签类别, 以及像素预测标签的概率值, 定义一个稳定像素必须满足两个条件: 1) 一定限度的噪声干扰不影响分割结果; 2) 像素的预测概率值应该远离决策边界, 即像素的预测标签有一个高概率值. 因此, 具体地, 像素$ {I}^{u}(x,y) $在模型$ i $中的预测结果稳定判断条件为:

    1) 原图像素的预测标签类别和扰动后像素的预测标签类别一致, 具体表示为 $ {c}_{i}(x,y)={\bar{c}}_{i}(x,y) $.

    2) 像素预测标签为c类时, 对应地在c类上预测的概率值大于阈值$ \epsilon \in \left(\mathrm{0,1}\right) $. 具体表示为${P}_{i}^{u}(x,y, c) > \epsilon\; {\rm{or}}\;{\bar{P}}_{i}^{u}\left(x,y,c\right) > \epsilon$.

    在本文中, 利用$ {M}_{i}^{u}(x,y) $表示像素$ {I}^{u}(x,y) $在模型$ i $中预测结果的稳定性. 如果像素满足以上条件, 表明像素是稳定像素, 即$ {M}_{i}^{u}\left(x,y\right)=1 $; 否则表明像素为不稳定像素, 即$ {M}_{i}^{u}\left(x,y\right)=0 $.

    除了对像素稳定性进行判断外, 同时对像素在模型$ i $中的稳定性程度进行了评估. 具体地, 本文利用均方误差衡量模型$ i $对像素$ {I}^{u}(x,y) $预测的稳定性程度, 具体数学表达式为

    $$ d_i^u(x,y) = \frac{1}{C}\mathop {\mathop \sum \limits^C }\limits_{c = 1} {\left( {P_i^u\left( {x,y,c} \right) - \bar P_i^u\left( {x,y,c} \right)} \right)^2} $$ (9)

    其中, $ {d}_{i}^{u}(x,y) $越小说明像素在模型$ i $中更稳定, $ C $表示待分割的类别数.

    通过上述对像素$ {I}^{u}\left(x,y\right) $在模型$ i $中稳定性的判断, 以及对其稳定性程度的评估可知, 一个像素在两个模型之中的稳定性关系存在三种情况: 1) 像素$ {I}^{u}\left(x,y\right) $ 在一个模型中稳定, 在另一个模型中不稳定; 2) 像素$ {I}^{u}\left(x,y\right) $ 在两个模型中都稳定, 并且在一个模型中的稳定性高于在另一个模型中的稳定性; 3) 像素$ {I}^{u}\left(x,y\right) $ 在两个模型中都不稳定. 当满足情况1)或情况2)时, 利用一个模型中稳定/更稳定的像素信息去监督另一个模型中不稳定/稳定的像素信息的学习; 当满足情况3)时, 说明像素在两个模型中的预测结果均不准确, 因此两个模型之间不进行交互学习. 具体做法为: 首先对模型1和模型2分别定义伪标签变量$ {\widehat{{\boldsymbol{Y}}}}_{1}^{{{u}}} $$ {\widehat{{\boldsymbol{Y}}}}_{2}^{{{u}}} $, 并将它们分别初始化为$ {{\boldsymbol{Q}}}_{1}^{{{u}}} $$ {{\boldsymbol{Q}}}_{2}^{{{u}}} $. 以模型1为例, 对像素$ {I}^{u}(x,y) $分以下两种情况更新伪标签$ {\widehat{{\boldsymbol{Y}}}}_{1}^{{{u}}} $:

    1) 如果${M}_{1}^{u}(x,y)=0,{M}_{2}^{u}(x,y)=1$, 则$ {\widehat{Y}}_{1}^{u}(x,y) $ $={P}_{2}^{u}(x,y) ; $

    2) 如果${M}_{1}^{u}(x,y) = {M}_{2}^{u}(x,y) = 1$, 而且${{d}}_{1}^{u}(x,y) > {d}_{2}^{u}(x,y)$, 则$ {\widehat{Y}}_{1}^{u}(x,y)={P}_{2}^{u}(x,y) $.

    考虑到筛选的稳定像素仍然会包含少量错误标签, 为缓解其对模型学习的影响, 将所获得的伪标签$ {\widehat{{\boldsymbol{Y}}}}_{1}^{{{u}}} $$ {\widehat{{\boldsymbol{Y}}}}_{2}^{{{u}}} $用于监督伴随变量$ {{\boldsymbol{Q}}}_{1}^{{{u}}} $$ {{\boldsymbol{Q}}}_{2}^{{{u}}} $. 具体地, 利用MSE函数计算更新后的$ {\widehat{{\boldsymbol{Y}}}}_{1}^{{{u}}}\mathrm{和}\,{{\boldsymbol{Q}}}_{1}^{{{u}}} $之间的稳定损失, 具体表达式为

    $$ {L}_{{\rm{sta}}}^{\left(1\right)}=\frac{1}{HWC}{\left\|{{\boldsymbol{Q}}}_{1}^{{{u}}}-{\widehat{{\boldsymbol{Y}}}}_{1}^{{{u}}}\right\|}_{{\rm{F}}}^{2} $$ (10)

    同理, 对模型2采取相同的伪标签更新策略. 即当像素在模型1和模型2中均稳定, 且像素在模型1比在模型2更稳定时, 用模型1的预测$ {P}_{1}^{u}\left(x,y\right) $去更新$ {\widehat{Y}}_{2}^{u}\left(x,y\right) $; 当像素在模型2中不稳定, 在模型1中稳定时, 用模型1的预测$ {P}_{1}^{u}\left(x,y\right) $去更新$ {\widehat{Y}}_{2}^{u}\left(x,y\right) $. 最终利用MSE函数计算更新后的$ {\widehat{{\boldsymbol{Y}}}}_{2}^{{{u}}} \,\mathrm{和}\,{{\boldsymbol{Q}}}_{2}^{{{u}}} $之间的稳定损失, 具体表达式为

    $$ {L}_{{\rm{sta}}}^{\left(2\right)}=\frac{1}{HWC}{\|{{\boldsymbol{Q}}}_{2}^{{{u}}}-{\widehat{{\boldsymbol{Y}}}}_{2}^{{{u}}}\|}_{{\rm{F}}}^{2} $$ (11)

    综上所述, 由式(10)和式(11)可知, 稳定约束根据两个模型的输出动态变化, 用一个模型中更稳定的像素信息去监督另一个模型的学习.

    根据第2.2节和第2.3节的描述, 模型1的最终约束由式(3)、式(5)、式(6)和式(10)组成, 模型2的最终约束由式(3)、式(5)、式(6)和式(11)组成. 模型1和模型2总的目标函数分别为

    $$ {L}_{1}={L}_{{\rm{seg}}}^{\left(1\right)}+{\alpha }_{1}{L}_{{\rm{con}}\_Q}^{\left(1\right)}+{\alpha }_{2}{L}_{{\rm{con}}\_P}^{\left(1\right)}+{\alpha }_{3}{L}_{\rm{sta}}^{\left(1\right)} $$ (12)
    $$ {L}_{2}={L}_{{\rm{seg}}}^{\left(2\right)}+{\alpha }_{1}{L}_{{\rm{con}}\_Q}^{\left(2\right)}+{\alpha }_{2}{L}_{{\rm{con}}\_P}^{\left(2\right)}+{\alpha }_{3}{L}_{{\rm{sta}}}^{\left(2\right)} $$ (13)

    其中, $ {\alpha }_{1} $$ {\alpha }_{2} $$ {\alpha }_{3} $ 为各项损失的权重. ${\alpha }_{1}\;=\;0.05, {\alpha }_{2}= {\alpha }_{3}= {{\rm{e}}}^{-0.5\times{(1.0-{t}/{T})}^{2}},t$表示当前训练的周期数, $ T $表示训练的总周期数. 在训练阶段初期, 模型对无标签数据存在大量错误预测, 为避免错误学习, 给予$ {\alpha }_{2} $$ {\alpha }_{3} $小权重值. 当已经充分学习了标签数据的知识后, 模型对无标签数据预测结果的错误率降低, 此时引入无标签学习约束, 即给予$ {\alpha }_{2} $$ {\alpha }_{3} $ 大权重值.

    本文中的所有实验代码均在Python 3.7中完成. 为验证双模型的有效性, 分别在两个2D数据集(心脏结构分割数据集[33]和肝肿瘤分割数据集[34])和一个3D数据集(脑肿瘤分割数据集[35])上完成了测试. 本文将在验证集上表现较好的模型作为最终的分割模型.

    关于数据集、评价指标、实验参数的设置和网络模型结构细节将在第3.1.1节 ~ 第3.1.3节中详细介绍.

    3.1.1   数据集

    1)心脏结构分割数据集. 心脏结构分割(Cardiac structure segmentation, CSS)数据集[33]包含200幅公开的心脏核磁共振3D图像, 由两台不同的核磁共振图像(Magnetic resonance imaging, MRI)扫描仪分别对100个心肌病人进行扫描得到. 临床专家对该数据集手动标注了4个类别, 包括左室腔(Left ventricle cavity, LV Cavity)、右室腔(Right ventricle cavity, RV Cavity)、左室心肌(Left ventricle myocardium, LV Myo)和背景. 在本文的实验中, 数据集划分为三个子集: 训练集、验证集和测试集, 样本个数分别为140、20、40. 在训练过程中, 将200个3D样本进行了2D切片化处理, 所有的核磁共振图像被重采样成256×256像素, 最终总的切片数量为1902, 训练集、验证集和测试集的切片数量分别为1312、210和380.

    2)肝肿瘤分割数据集. 肝肿瘤分割(Liver tumor segmentation, LiTS)数据集[34]由131幅CT (Computed tomography)训练图像和70幅测试图像组成. 临床专家对该数据集手动标注了2个类别, 包括肝脏和肝脏肿瘤. 本文实验任务是对肝脏进行分割. 将131幅CT训练图像进行了2D切片化处理, 所有的图像被重采样为256×256像素. 最终总的切片数量为19211, 训练集、验证集和测试集的切片数量分别为15227、1593和2391.

    3)脑肿瘤数据集. 脑肿瘤分割(Brain tumor segmentation, BraTS)数据集[35]共有335个病例序列图像, 每个病例有4个序列, 每个序列的图像大小为150×240×240像素. 在本文实验中, 采用液体衰减反转回复序列的图像对整个肿瘤进行分割, 将数据集分为训练集、验证集和测试集, 样本数分别为250、25、60. 同时将图像大小重采样为96×96×96像素.

    3.1.2   度量指标

    在医学图像分割中最常用的分割度量指标是: 戴斯相似指标(Dice similarity coefficient, DSC)、平均表面距离(Average surface distance, ASD)和豪斯多夫距离(Hausdorff distance, HD).

    1) 戴斯相似指标(DSC). 该指标是一种集合相似度度量指标, 通常用于计算两个样本的相似度, 可衡量每个类别的分割结果及其真实标签的重叠面积的占比.

    2) 平均表面距离(ASD). 该指标是预测结果中所有边界像素到真实表面的平均距离. 常被用来评估模型在边界处的性能, ASD越低表示分割结果越好.

    3) 豪斯多夫距离(HD). 该指标衡量分割结果及其真值之间的最大表面距离. 为了排除离群值之间的影响, 取第95个百分位的豪斯多夫距离, 记为HD95.

    3.1.3   参数和网络

    在实验中, 采用的优化器是随机梯度下降(Stochastic gradient descent, SGD), 学习衰减率0.0001, 迭代次数设置为30000次, 滑动平均衰减率为0.99, 批次大小为8, 其中有标签图像和无标签图像各占4个. 阈值$ \epsilon $设置为0.4. 除此之外, 两个模型采用相同的网络模型结构, 但初始状态不同. 在训练2D数据集(CSS数据集和LiTS数据集)时采用U-Net[11]或DenseU-Net[42]作为分割模型, 在训练3D数据集(BraTS数据集)时采用3D U-Net[45]作为分割模型.

    为验证本文提出的半监督双模型在医学图像上的分割性能, 在CSS、LiTS和BraTS数据集上开展了大量的对比实验, 对本文提出的方法和以下方法进行了比较: 平均教师(Mean teacher, MT)[28]、不确定性感知自集成模型(Uncertainty-aware self-ensembling, UAMT)[21]、深度对抗模型(Deep adversarial networks, DAN)[25]、对抗熵最小化模型 (Entropy minimization, EM)[47]、插值一致性训练模型(Interpolation consistency training, ICT)[30]、转换一致性自集成模型(Transformation-consistent self-ensembling, TCSM)[48]、双学生模型(Dual student, DS)[51]、深度互学习(Deep mutual learning, DML)[29]、特征级对抗学习(Feature-map-level, FML)[52]、双网络(DualNet, D-N)[53]. 其中, 平均教师模型作为基准模型.

    1) CSS数据集实验结果. 在CSS数据集的对比实验中, 将数据集按标签比例划分为5%、10%、20%、30%、50%. 表2展示了在使用不同标签比例和不同网络结构时各个方法[21, 25, 28-30, 47-48, 51-53]的实验结果. 由表2可知, 在U-Net和DenseU-Net网络结构中, 双模型的预测结果要优于其他方法的预测结果, 尤其是当标签数据比例越小时, 双模型的优势越明显. 当采用U-Net网络时, 在5%、10%、20%、30%、50%的数据标签比例下, 本文方法与其他方法中的最好分割结果相比, DSC指标分别提升了8.76%、5.68%、1.60%、0.95%、0.66%. 当采用DenseU-Net网络时, 在5%、10%、20%、30%、50%的标签比例下分割性能与其他方法中的最好分割结果相比, DSC指标分别提升了10.24%、4.04%、2.30%、0.46%、0.97%. 以30%的标签比例为例, 并采用U-Net作为分割网络, 在图3中展示了不同半监督方法的分割结果. 由表2图3中的对比结果可知, 本文的双模型在心脏结构任务中的分割性能比前沿半监督方法的分割性能更好.

    表 2  采用U-Net和DenseU-Net网络结构时, 在不同标签比例的CSS数据集下与其他方法的对比结果
    Table 2  Comparison with other methods on the CSS dataset when different training images are annotated. The baseline segmentation network is U-Net or DenseU-Net
    基准模型方法5%10%20%30%50%
    DSC (%)HD95ASDDSC (%)HD95ASDDSC (%)HD95ASDDSC (%)HD95ASDDSC (%)HD95ASD
    U-NetMT[28]57.9835.8113.7180.7010.752.9385.327.632.2587.406.771.8588.655.601.62
    DAN[25]53.8235.7214.6179.359.642.6984.677.562.2886.316.702.0588.403.691.10
    TCSM[48]50.8223.269.0279.7114.273.5985.516.901.9587.217.101.7789.035.191.46
    EM[47]59.9512.683.7782.288.322.5684.727.602.3687.755.981.8989.129.922.51
    UAMT[21]55.0825.248.2380.048.042.2184.856.351.9987.526.592.0189.304.761.30
    ICT[30]53.7514.464.9581.368.662.4085.686.802.1088.175.671.4589.454.781.57
    DS[51]68.185.781.5481.856.262.0687.075.571.3988.185.821.3889.243.370.97
    DML[29]59.9210.962.1677.235.611.9882.618.413.0786.488.291.8988.203.861.21
    FML[52]60.1310.011.8479.965.481.9083.047.872.8987.137.281.6988.273.671.19
    D-N[53]57.6115.265.3675.0610.493.0182.138.713.4186.418.051.7688.084.081.27
    双模型76.945.381.4787.533.201.1188.675.281.3589.135.641.4790.112.510.86
    DenseU-NetMT[28]51.9134.6911.5675.1919.395.5783.629.563.0686.975.201.4588.244.241.55
    UAMT[21]59.7323.337.0778.2012.953.6683.1210.033.0487.075.842.0588.085.121.57
    ICT[30]71.1013.253.8983.4114.063.5185.687.832.4587.744.391.4188.634.801.39
    双模型81.343.691.1487.453.931.4787.985.151.1888.203.460.9889.603.030.95
    下载: 导出CSV 
    | 显示表格
    图 3  在 CSS 数据集中, 双模型与其他半监督方法分割结果图, 图中黑色区域代表背景, 深灰色区域代表左室腔,浅灰色区域代表左室心肌, 白色区域代表右室腔
    Fig. 3  Segmentation results of our method and other semi-supervised methods on the CSS dataset. The black, dark gray, light gray, and white represents the background, left ventricle cavity (LV Cavity), left ventricular myocardium (LV Myo), and right ventricle cavity (RV Cavity), respectively

    此外, 相比于平均教师模型, 本文方法可有效防止错误知识的积累(如图4所示). 由表2可知, 当采用5%、10%、20%、30%、50%标签比例时, 本文方法在CSS数据集上的DSC指标比平均教师模型高出18.96%、6.83%、3.85%、1.73%、1.46%.

    图 4  在训练过程, 平均教师模型和双模型的输出结果对比图
    Fig. 4  Comparison between the mean teacher method and our proposed dual-model learning method

    2) LiTS数据集实验结果. 在LiTS数据集对比实验中, 表3展示了在30%标签比例下采用U-Net和DenseU-Net网络结构时, 本文提出的双模型与其他前沿半监督方法[21, 25, 28-30, 47-48, 51-53]的对比结果. 本文模型在该数据集中的表现整体优于其他的方法. 当采用U-Net网络时, 与基于平均教师模型的方法[21, 28, 48]的实验结果对比, 双模型与UAMT、MT和TCSM相比, DSC指标分别提升了8.46%、7.17%、9.38%. 与基于单模型约束方法[34, 36-37]相比, 在30%的标签比例下双模型与DAN、EM和ICT相比, DSC指标分别提升了8.00%、6.94%、5.73%. 与基于知识提取和图像分类中的双模型方法[25, 49-51]相比, 在30%的标签比例下双模型与DS、DML、FML和D-N相比, DSC指标分别提升了7.25%、9.23%、9.01%、9.98%. 图5展示了不同模型在测试集中的分割结果. 当采用DenseU-Net网络时, 与MT、UAMT和ICT相比, DSC指标分别提升了0.74%、0.52%、0.53%.

    表 3  采用U-Net和DenseU-Net网络结构, 在30%标签比例的LiTS数据集下与其他方法的对比结果
    Table 3  Comparison with other methods on LiTS when 30% training images are annotated. The baseline segmentation network is U-Net or DenseU-Net
    网络结构方法DSC (%)HD95ASD
    U-NetMT[28]86.980.880.17
    DAN[25]86.152.540.62
    TCSM[48]84.770.960.20
    EM[47]87.210.700.17
    UAMT[21]85.690.970.20
    ICT[30]88.420.990.21
    DS[51]86.901.230.61
    DML[29]84.921.260.92
    FML[52]85.140.970.25
    D-N[53]84.171.330.95
    双模型94.150.090.03
    DenseU-NetMT[28]93.690.170.04
    UAMT[31]93.910.180.05
    ICT[30]93.900.110.04
    双模型94.430.120.05
    下载: 导出CSV 
    | 显示表格
    图 5  双模型与其他半监督方法在 LiTS 数据集中的分割结果, 其中白色区域为肝脏区域
    Fig. 5  Liver segmentation results of our method and other semi-supervised methods on the LiTS dataset. The white is the liver region

    3) BraTS数据集实验结果. 在BraTS数据集对比实验中, 表4展示了在30%标签比例下采用3D U-Net网络结构时, 本文提出的双模型与其他方法[21, 25, 28-30, 47, 51-53]的对比结果. 由表4可知, 本文模型的预测结果要优于其他方法的预测结果. 在30%的标签比例下双模型与 UAMT和MT相比, DSC指标分别提升了2.16%、3.06%. 与基于单模型约束的方法[25, 30, 47]相比, 在30%的标签比例下双模型与DAN、EM和ICT相比, DSC指标分别提升了2.32%、2.67%、4.63%. 与基于知识提取和图像分类中的双模型方法[29, 50-53]相比, 在30%的标签比例下双模型与DS、DML、FML和D-N相比, DSC指标分别提升了0.82%、2.42%、2.19%、3.00%. 图6展示了不同模型在测试集中的分割结果. 该实验验证了所提出方法在3D数集上的有效性.

    表 4  采用3D U-Net网络, 在30%标签比例的BraTS数据集下与其他方法的对比结果
    Table 4  Comparison with other methods on the BraTS dataset when 30% training images are annotated. The baseline network is 3D U-Net
    方法DSC (%)HD95ASD
    MT[28]83.969.972.29
    DAN[25]84.7010.122.10
    EM[47]84.359.012.21
    UAMT[21]84.868.762.18
    ICT[30]82.399.412.56
    DS[51]86.207.442.14
    DML[29]84.608.082.17
    FML[52]84.837.992.06
    D-N[53]84.0210.772.25
    双模型87.027.001.83
    下载: 导出CSV 
    | 显示表格
    图 6  双模型与其他半监督方法在 BraTS 数据集中的分割结果, 其中白色区域为整个肿瘤区域
    Fig. 6  The whole tumor segmentation results of our method and other semi-supervised methods on the BraTS dataset. The white is the whole tumor region

    本文设计了4组消融实验, 分别验证双模型中各模块的有效性、模型数量、损失函数和网络共享程度对分割结果的影响.

    3.3.1   内部模块的作用

    为验证双模型中各个约束对模型分割性能的影响, 选取标签比例为10%的CSS数据进行消融实验. 在表5中, 方法1和方法2采用单个分割网络进行训练, 方法1表示仅用标签图像训练模型, 在真实标签和预测标签之间添加监督约束; 方法2表示同时引入监督约束和无监督一致性约束. 方法1和方法2的实验结果说明了无监督一致性约束可以帮助单模型学习无标签图像的有用知识. 方法3 ~ 6均采用双模型结构, 方法6为本文提出的最终解决方案. 方法3表示引入双模型交互学习, 但不考虑像素在两个模型之间的稳定性, 直接利用一个模型的预测结果作为伪标签监督另一个模型的学习. 在利用无标签数据进行优化时, 与方法2相比较, 方法3可以提升对单模型中错误预测的鲁棒性, 由实验结果可知, 方法3在DSC指标上提升了1.10%. 方法4表示在双模型学习中引入像素的稳定性判断, 但仅考虑稳定性情况1), 即用一个模型中的稳定性像素监督另一个模型的不稳定性像素(见第2.3节). 由实验结果可知, 相较于方法3, 方法4在DSC上取得了1.10%的提升, 表明方法4可以在双模型交互学习中提高伪标签的质量. 方法6将两种稳定性情况均考虑进来, 实验结果表明情况2) (即在两个模型的结果均稳定时, 根据稳定性程度决定伪标签的传播方向)可以带来进一步的性能提升. 为了验证在模型输出中使用伴随变量的意义, 尝试将预测结果直接作为伴随变量, 实验结果如方法5所示, 表明通过引入伴随变量间接监督分割结果是有效的. 除此之外, 图7展示了随着迭代次数的增加, 不使用伴随变量和使用伴随变量时, 模型分别在验证集上的分割性能变化趋势. 由图7可知, 在两个模型之间进行交互学习时, 若不使用伴随变量而直接将伪标签用于监督分割结果, 模型更容易产生过拟合.

    表 5  采用U-Net网络, 在标签比例为10%的CSS数据上验证不同变体对结果的影响
    Table 5  Performance of different variants of our method on the CSS dataset when 10% training images are annotated. The baseline segmentation network is U-Net
    序号有监督约束无监督一致性交互学习稳定性选择策略不使用伴随变量QDSC (%)HD95ASD
    176.4110.463.12
    283.425.841.64
    385.525.471.57
    4情况1)86.624.921.44
    5情况1)和情况2)86.213.841.33
    6情况1)和情况2)87.533.201.11
    下载: 导出CSV 
    | 显示表格
    图 7  不使用伴随变量Q和使用伴随变量Q时, 模型在验证集上的分割性能变化趋势
    Fig. 7  The segmentation performance variation trend of the model on the validation set when the adjoint variable Q is not used and when the adjoint variable Q is used

    表5可知, 在双模型的交互学习中传播更稳定像素的预测结果, 可以有效地减少错误预测在模型之间的传播和累积. 双模型中稳定约束可在全监督模型的基础上提升11.12%的DSC指标. 同时, 在每个模型自身内部引入监督约束和无监督一致性约束也使模型分割性能得到了提升.

    3.3.2   模型数量的影响

    为验证模型数量对模型分割性能的影响, 选取标签比例为10%的CSS数据进行消融实验, 模型数量分别设置为2、4、8. 由表6可知, 模型数量为2、4、8时, 实验结果相近. 因此, 当模型数量超过2时, 模型的分割结果已经达到饱和, 增加模型的数量不会进一步提升模型的分割性能.

    表 6  采用U-Net网络, 在标签比例为10%的CSS数据上验证模型数量对结果的影响
    Table 6  Performance of number of model on the CSS dataset when 10% training images are annotated. The baseline network is U-Net
    学生数量 DSC (%)
    2 87.53
    4 87.32
    6 87.46
    下载: 导出CSV 
    | 显示表格
    3.3.3   损失函数的影响

    为验证不同损失函数对模型分割性能的影响, 选取标签比例为10%的CSS数据进行消融实验. 在表7中分别展示了引入监督损失函数$ {L}_{{\rm{seg}}} $($ {L}_{{\rm{dice}}} $$ {L}_{{\rm{ce}}} $)、一致性损失函数$ {L}_{{\rm{con}}} $($ {L}_{{\rm{con}}\_P} $$ {L}_{{\rm{con}}\_Q} $)和稳定性损失函数$ {L}_{{\rm{sta}}} $的实验结果. 表7$ {L}_{{\rm{seg}}} $表示同时引入$ {L}_{{\rm{dice}}} $$ {L}_{{\rm{ce}}} $损失函数, $ {L}_{{\rm{con}}} $表示同时引入$ {L}_{{\rm{con}}\_P} $$ {L}_{{\rm{con}}\_Q} $损失函数. 由表7可知, DICE损失函数要比交叉熵CE损失函数效果更好, 但因为DICE损失函数在训练过程中不稳定, 因此本文对DICE损失函数和CE损失函数取均值作为最终的监督损失函数. 除此之外, 引入一致性损失函数和稳定性损失函数进一步提高了模型的分割性能. 特别地, 当引入稳定性损失函数时, 双模型在一致性损失的基础上进一步提升4.11%的DSC指标. 实验结果表明, 本文提出的伪标签稳定性判断模块有效地提升了伪标签的质量, 促进双模型更有效地学习无标签知识, 提高模型的分割性能.

    表 7  采用U-Net网络, 在标签比例为10%的CSS数据上验证损失函数对结果的影响
    Table 7  Performance of different loss function of our method on the CSS dataset when 10% training images are annotated. The baseline network is U-Net
    损失函数DSC (%)HD95ASD
    ${L}_{{\rm{ce}}}$73.2312.514.19
    $ {L}_{{\rm{dice}}} $75.0010.943.63
    $ {L}_{{\rm{seg}}} $76.4110.463.12
    $ {L}_{{\rm{seg}}}+{L}_{{\rm{con}}\_P} $80.627.352.66
    $ {L}_{{\rm{seg}}}+{L}_{{\rm{con}}\text{­}} $83.425.841.64
    ${L}_{ {\rm{seg} } }+{L}_{ {\rm{con} } }+{L}_{{\rm{sta}}}$87.533.201.61
    下载: 导出CSV 
    | 显示表格
    3.3.4   模型共享的影响

    为验证双模型之间共享网络对模型分割性能的影响, 选取标签比例为10%的CSS数据进行消融实验, 分别设置3组实验: 单模型、编码器、双模型. 其中, 单模型表示两个模型共享网络参数信息; 编码器表示两个模型只共享编码器的参数, 解码器相互独立; 双模型即本文方法, 两个模型网络相互独立, 两个模型的网络参数信息不共享.

    表8可知, 当双模型互相独立时, 本文提出的模型分割性能最好, 在单模型和编码器的基础上分别提升了4.49%、2.48%的DSC指标. 单模型和编码器由于共享参数信息, 导致两个模型之间快速耦合、收敛, 两个模型之间的输出结果趋于一致, 此时本文提出的伪标签判断机制不能很好地筛选出高质量的伪标签, 不能及时纠正错误信息. 最终, 随着模型不断训练, 错误信息不断累积, 限制了模型分割性能的提升.

    表 8  采用U-Net网络, 在标签比例为10%的CSS数据集上验证损失函数对结果的影响
    Table 8  Performance of network sharing of our method on the CSS dataset when 10% training images are annotated. The baseline network is U-Net
    共享网络DSC (%)HD95ASD
    单模型83.046.024.13
    编码器85.054.412.65
    双模型87.533.201.61
    下载: 导出CSV 
    | 显示表格

    在本文中, 针对半监督医学图像提出了一个双模型交互学习方法. 每个模型自身充分学习标签数据和无标签数据中的知识. 除此之外, 为提高对无标签数据的伪标质量, 在双模型之间引入双模型交互学习, 通过一个模型学习另一个模型中更稳定的像素信息. 对比实验证明, 本文提出的双模型在医学图像分割任务上展现了优于前沿半监督方法的分割性能. 在验证模型数量对分割性能影响的消融实验中, 本文发现当模型数量继续增加时, 分割结果没有得到提升, 此时模型预测达到饱和状态. 在未来工作中, 继续将探索无标签数据的知识和生成高质量伪标签作为我们的主要研究任务. 在双模型中, 可以考虑对无标签数据集或者特征层引入不同的数据增强, 在数据增强的辅助下, 在双模型的交互学习中引入不同的约束能否提高模型的分割性能是值得探讨的.

  • 图  1  模型框架的对比图 ((a)基于双模型交互学习的半监督分割框架; (b)基于平均教师模型[22]的半监督分割框架; (c)基于一致性约束的单模型半监督分割框架. 实线箭头表示训练数据的传递和模型的更新, 虚线箭头表示无标注数据监督信息的来源)

    Fig.  1  Comparison of the model framework ((a) Semi-supervised segmentation framework based on dual-model interactive learning; (b) Semi-supervised segmentation framework based on the mean teacher model[22]; (c) Semi-supervised segmentation framework based on single model. Solid arrows represent the propagation of training data and the update of models. Dashed arrows point out the origin of the supervisions on unlabeled images)

    图  2  双模型交互学习框架图. MSE、CE 和 DICE 分别表示均方误差函数、交叉熵函数和戴斯函数. 单向实线箭头表示原始图像($ {{\boldsymbol{I}}}^{{{l}}} $$ {{\boldsymbol{I}}}^{{{u}}} $)在各模型中的前向计算过程, 单向虚线箭头表示噪声图像($ {{\bar{{\boldsymbol{I}}}}}^{{{l}}} $$ {{\bar{{\boldsymbol{I}}}}}^{{{u}}} $)在各模型中的前向计算过程

    Fig.  2  Framework of interactive learning of dual-models. MSE, CE and DICE represent mean square error function, cross entropy function and DICE function, respectively. The solid single-directional arrow represents the forward calculation process of the original image ($ {{\boldsymbol{I}}}^{{{l}}} $ and $ {{\boldsymbol{I}}}^{{{u}}} $) in each model. The dashed single-directional arrow represents the forward calculation process of noise images (${{\bar{{{{\boldsymbol{I}}}}}}}^{{{l}}}$ and ${{\bar{{\boldsymbol{I}}}}}^{{{u}}}$) in each model

    图  3  在 CSS 数据集中, 双模型与其他半监督方法分割结果图, 图中黑色区域代表背景, 深灰色区域代表左室腔,浅灰色区域代表左室心肌, 白色区域代表右室腔

    Fig.  3  Segmentation results of our method and other semi-supervised methods on the CSS dataset. The black, dark gray, light gray, and white represents the background, left ventricle cavity (LV Cavity), left ventricular myocardium (LV Myo), and right ventricle cavity (RV Cavity), respectively

    图  4  在训练过程, 平均教师模型和双模型的输出结果对比图

    Fig.  4  Comparison between the mean teacher method and our proposed dual-model learning method

    图  5  双模型与其他半监督方法在 LiTS 数据集中的分割结果, 其中白色区域为肝脏区域

    Fig.  5  Liver segmentation results of our method and other semi-supervised methods on the LiTS dataset. The white is the liver region

    图  6  双模型与其他半监督方法在 BraTS 数据集中的分割结果, 其中白色区域为整个肿瘤区域

    Fig.  6  The whole tumor segmentation results of our method and other semi-supervised methods on the BraTS dataset. The white is the whole tumor region

    图  7  不使用伴随变量Q和使用伴随变量Q时, 模型在验证集上的分割性能变化趋势

    Fig.  7  The segmentation performance variation trend of the model on the validation set when the adjoint variable Q is not used and when the adjoint variable Q is used

    表  1  本文双模型方法与其他双模型方法的比较

    Table  1  Compared with other dual-model methods

    方法任务网络损失函数主要贡献
    DML[29]图像分类残差网络
    移动网络
    宽残差网络
    谷歌网络
    相对熵损失函数
    交叉熵损失函数
    提出双模型, 两个小网络实现交互学习. 用 KL 散度评估两个模型网络预测结果之间的差异
    FML[52]图像分类残差网络
    宽残差网络
    相对熵损失函数
    交叉熵损失函数
    对抗损失函数
    提出双模型, 在 DML 基础上, 在两个网络模型输出预测结果之间引入对抗学习
    D-N[53]图像分类计算机视觉组网络
    残差网络
    交叉熵损失函数
    学生与老师之间的知识提取损失函数
    提出双模型, 每个模型提取特征并通过辅助分类器做出预测.同时将两个分支提取的特征进行融合, 通过融合分类器得到整体分类结果
    本文方法半监督医学
    图像分割
    U 形网络
    密集 U 形网络
    三维 U 形网络
    交叉熵损失函数
    戴斯损失函数
    均方误差函数
    提出双模型, 引入稳定伪标签判断机制, 用一个模型的稳定像素约束另一个模型的不稳定像素
    下载: 导出CSV

    表  2  采用U-Net和DenseU-Net网络结构时, 在不同标签比例的CSS数据集下与其他方法的对比结果

    Table  2  Comparison with other methods on the CSS dataset when different training images are annotated. The baseline segmentation network is U-Net or DenseU-Net

    基准模型方法5%10%20%30%50%
    DSC (%)HD95ASDDSC (%)HD95ASDDSC (%)HD95ASDDSC (%)HD95ASDDSC (%)HD95ASD
    U-NetMT[28]57.9835.8113.7180.7010.752.9385.327.632.2587.406.771.8588.655.601.62
    DAN[25]53.8235.7214.6179.359.642.6984.677.562.2886.316.702.0588.403.691.10
    TCSM[48]50.8223.269.0279.7114.273.5985.516.901.9587.217.101.7789.035.191.46
    EM[47]59.9512.683.7782.288.322.5684.727.602.3687.755.981.8989.129.922.51
    UAMT[21]55.0825.248.2380.048.042.2184.856.351.9987.526.592.0189.304.761.30
    ICT[30]53.7514.464.9581.368.662.4085.686.802.1088.175.671.4589.454.781.57
    DS[51]68.185.781.5481.856.262.0687.075.571.3988.185.821.3889.243.370.97
    DML[29]59.9210.962.1677.235.611.9882.618.413.0786.488.291.8988.203.861.21
    FML[52]60.1310.011.8479.965.481.9083.047.872.8987.137.281.6988.273.671.19
    D-N[53]57.6115.265.3675.0610.493.0182.138.713.4186.418.051.7688.084.081.27
    双模型76.945.381.4787.533.201.1188.675.281.3589.135.641.4790.112.510.86
    DenseU-NetMT[28]51.9134.6911.5675.1919.395.5783.629.563.0686.975.201.4588.244.241.55
    UAMT[21]59.7323.337.0778.2012.953.6683.1210.033.0487.075.842.0588.085.121.57
    ICT[30]71.1013.253.8983.4114.063.5185.687.832.4587.744.391.4188.634.801.39
    双模型81.343.691.1487.453.931.4787.985.151.1888.203.460.9889.603.030.95
    下载: 导出CSV

    表  3  采用U-Net和DenseU-Net网络结构, 在30%标签比例的LiTS数据集下与其他方法的对比结果

    Table  3  Comparison with other methods on LiTS when 30% training images are annotated. The baseline segmentation network is U-Net or DenseU-Net

    网络结构方法DSC (%)HD95ASD
    U-NetMT[28]86.980.880.17
    DAN[25]86.152.540.62
    TCSM[48]84.770.960.20
    EM[47]87.210.700.17
    UAMT[21]85.690.970.20
    ICT[30]88.420.990.21
    DS[51]86.901.230.61
    DML[29]84.921.260.92
    FML[52]85.140.970.25
    D-N[53]84.171.330.95
    双模型94.150.090.03
    DenseU-NetMT[28]93.690.170.04
    UAMT[31]93.910.180.05
    ICT[30]93.900.110.04
    双模型94.430.120.05
    下载: 导出CSV

    表  4  采用3D U-Net网络, 在30%标签比例的BraTS数据集下与其他方法的对比结果

    Table  4  Comparison with other methods on the BraTS dataset when 30% training images are annotated. The baseline network is 3D U-Net

    方法DSC (%)HD95ASD
    MT[28]83.969.972.29
    DAN[25]84.7010.122.10
    EM[47]84.359.012.21
    UAMT[21]84.868.762.18
    ICT[30]82.399.412.56
    DS[51]86.207.442.14
    DML[29]84.608.082.17
    FML[52]84.837.992.06
    D-N[53]84.0210.772.25
    双模型87.027.001.83
    下载: 导出CSV

    表  5  采用U-Net网络, 在标签比例为10%的CSS数据上验证不同变体对结果的影响

    Table  5  Performance of different variants of our method on the CSS dataset when 10% training images are annotated. The baseline segmentation network is U-Net

    序号有监督约束无监督一致性交互学习稳定性选择策略不使用伴随变量QDSC (%)HD95ASD
    176.4110.463.12
    283.425.841.64
    385.525.471.57
    4情况1)86.624.921.44
    5情况1)和情况2)86.213.841.33
    6情况1)和情况2)87.533.201.11
    下载: 导出CSV

    表  6  采用U-Net网络, 在标签比例为10%的CSS数据上验证模型数量对结果的影响

    Table  6  Performance of number of model on the CSS dataset when 10% training images are annotated. The baseline network is U-Net

    学生数量 DSC (%)
    2 87.53
    4 87.32
    6 87.46
    下载: 导出CSV

    表  7  采用U-Net网络, 在标签比例为10%的CSS数据上验证损失函数对结果的影响

    Table  7  Performance of different loss function of our method on the CSS dataset when 10% training images are annotated. The baseline network is U-Net

    损失函数DSC (%)HD95ASD
    ${L}_{{\rm{ce}}}$73.2312.514.19
    $ {L}_{{\rm{dice}}} $75.0010.943.63
    $ {L}_{{\rm{seg}}} $76.4110.463.12
    $ {L}_{{\rm{seg}}}+{L}_{{\rm{con}}\_P} $80.627.352.66
    $ {L}_{{\rm{seg}}}+{L}_{{\rm{con}}\text{­}} $83.425.841.64
    ${L}_{ {\rm{seg} } }+{L}_{ {\rm{con} } }+{L}_{{\rm{sta}}}$87.533.201.61
    下载: 导出CSV

    表  8  采用U-Net网络, 在标签比例为10%的CSS数据集上验证损失函数对结果的影响

    Table  8  Performance of network sharing of our method on the CSS dataset when 10% training images are annotated. The baseline network is U-Net

    共享网络DSC (%)HD95ASD
    单模型83.046.024.13
    编码器85.054.412.65
    双模型87.533.201.61
    下载: 导出CSV
  • [1] Krizhevsky A, Sutskever I, Hinton G E. ImageNet classification with deep convolutional neural networks. In: Proceedings of the 25th International Conference on Neural Information Processing Systems. Lake Tahoe, Nevada, USA: ACM, 2012. 1097−1105
    [2] 罗建豪, 吴建鑫. 基于深度卷积特征的细粒度图像分类研究综述. 自动化学报, 2017, 43(8): 1306-1318

    Luo Jian-Hao, Wu Jian-Xin. A survey on fine-grained image categorization using deep convolutional features. Acta Automatica Sinica, 2017, 43(8): 1306-1318
    [3] He K M, Zhang X Y, Ren S Q, Sun J. Deep residual learning for image recognition. In: Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas, USA: IEEE, 2016. 770−778
    [4] Zhang D W, Zeng W Y, Yao J R, Han J W. Weakly supervised object detection using proposal- and semantic-level relationships. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2022, 44(6): 3349-3363 doi: 10.1109/TPAMI.2020.3046647
    [5] Zhang D W, Han J W, Guo G Y, Zhao L. Learning object detectors with semi-annotated weak labels. IEEE Transactions on Circuits and Systems for Video Technology, 2019, 29(12): 3622-3635 doi: 10.1109/TCSVT.2018.2884173
    [6] 刘小波, 刘鹏, 蔡之华, 乔禹霖, 王凌, 汪敏. 基于深度学习的光学遥感图像目标检测研究进展. 自动化学报, 2021, 47(9): 2078-2089

    Liu Xiao-Bo, Liu Peng, Cai Zhi-Hua, Qiao Yu-Lin, Wang Ling, Wang Min. Research progress of optical remote sensing image object detection based on deep learning. Acta Automatica Sinica, 2021, 47(9): 2078-2089
    [7] Long J, Shelhamer E, Darrell T. Fully convolutional networks for semantic segmentation. In: Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Boston, USA: IEEE, 2015. 3431−3440
    [8] Badrinarayanan V, Kendall A, Cipolla R. SegNet: A deep convolutional encoder-decoder architecture for image segmentation. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2017, 39(12): 2481-2495 doi: 10.1109/TPAMI.2016.2644615
    [9] Li S L, Zhang C Y, He X M. Shape-aware semi-supervised 3D semantic segmentation for medical images. In: Proceedings of the 23rd International Conference on Medical Image Computing and Computer Assisted Intervention. Lima, Peru: Springer, 2020. 552−561
    [10] Fang C W, Li G B, Pan C W, Li Y M, Yu Y Z. Globally guided progressive fusion network for 3D pancreas segmentation. In: Proceedings of the 22nd International Conference on Medical Image Computing and Computer Assisted Intervention. Shenzhen, China: Springer, 2019. 210−218
    [11] Ronneberger O, Fischer P, Brox T. U-Net: Convolutional networks for biomedical image segmentation. In: Proceedings of the 18th International Conference on Medical Image Computing and Computer Assisted Intervention. Munich, Germany: Springer, 2015. 234−241
    [12] Zhou Z W, Siddiquee M M R, Tajbakhsh N, Liang J M. UNet++: A nested U-Net architecture for medical image segmentation. In: Proceedings of the 4th International Workshop on Deep Learning in Medical Image Analysis and Multimodal Learning for Clinical Decision Support. Granada, Spain: Springer, 2018. 3−11
    [13] 田娟秀, 刘国才, 谷珊珊, 鞠忠建, 刘劲光, 顾冬冬. 医学图像分析深度学习方法研究与挑战. 自动化学报, 2018, 44(3): 401-424

    Tian Juan-Xiu, Liu Guo-Cai, Gu Shan-Shan, Ju Zhong-Jian, Liu Jin-Guang, Gu Dong-Dong. Deep learning in medical image analysis and its challenges. Acta Automatica Sinica, 2018, 44(3): 401-424
    [14] Zhu J W, Li Y X, Hu Y F, Ma K, Zhou S K, Zheng Y F. Rubik's Cube+: A self-supervised feature learning framework for 3D medical image analysis. Medical Image Analysis, 2020, 64: Article No. 101746
    [15] Dai J F, He K M, Sun J. BoxSup: Exploiting bounding boxes to supervise convolutional networks for semantic segmentation. In: Proceedings of the IEEE International Conference on Computer Vision. Santiago, Chile: IEEE, 2015. 1635−1643
    [16] Lin D, Dai J F, Jia J Y, He K M, Sun J. ScribbleSup: Scribble-supervised convolutional networks for semantic segmentation. In: Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas, USA: IEEE, 2016. 3159−3167
    [17] Lee J, Kim E, Lee S, Lee J, Yoon S. FickleNet: Weakly and semi-supervised semantic image segmentation using stochastic inference. In: Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. Long Beach, USA: IEEE, 2019. 5262−5271
    [18] Chen C, Dou Q, Chen H, Heng P A. Semantic-aware generative adversarial nets for unsupervised domain adaptation in chest X-ray segmentation. In: Proceedings of the 9th International Workshop on Machine Learning in Medical Imaging. Granada, Spain: Springer, 2018. 143−151
    [19] Ghafoorian M, Mehrtash A, Kapur T, Karssemeijer N, Marchiori E, Pesteie M, et al. Transfer learning for domain adaptation in MRI: Application in brain lesion segmentation. In: Proceedings of the 20th International Conference on Medical Image Computing and Computer Assisted Intervention. Quebec City, Canada: Springer, 2017. 516−524
    [20] Li X M, Yu L Q, Chen H, Fu C W, Xing L, Heng P A. Semi-supervised skin lesion segmentation via transformation consistent self-ensembling model. In: Proceedings of the 29th British Machine Vision Conference. Newcastle, UK: BMVC, 2018.
    [21] Yu L Q, Wang S J, Li X M, Fu C W, Heng P A. Uncertainty-aware self-ensembling model for semi-supervised 3D left atrium segmentation. In: Proceedings of the 22nd International Conference on Medical Image Computing and Computer Assisted Intervention. Shenzhen, China: Springer, 2019. 605−613
    [22] Nie D, Gao Y Z, Wang L, Shen D G. ASDNet: Attention based semi-supervised deep networks for medical image segmentation. In: Proceedings of the 21st International Conference on Medical Image Computing and Computer Assisted Intervention. Granada, Spain: Springer, 2018. 370−378
    [23] Miyato T, Maeda S I, Koyama M, Ishii S. Virtual adversarial training: A regularization method for supervised and semi-supervised learning. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2019, 41(8): 1979-1993 doi: 10.1109/TPAMI.2018.2858821
    [24] Laine S, Aila T. Temporal ensembling for semi-supervised learning. In: Proceedings of the International Conference on Learning Representations. Toulon, France: ICLR, 2017.
    [25] Zhang Y Z, Yang L, Chen J X, Fredericksen M, Hughes D P, Chen D Z. Deep adversarial networks for biomedical image segmentation utilizing unannotated images. In: Proceedings of the 20th International Conference on Medical Image Computing and Computer Assisted Intervention. Quebec City, Canada: Springer, 2017. 408−416
    [26] Zheng H, Lin L F, Hu H J, Zhang Q W, Chen Q Q, Iwamoto Y, et al. Semi-supervised segmentation of liver using adversarial learning with deep atlas prior. In: Proceedings of the 22nd International Conference on Medical Image Computing and Computer Assisted Intervention. Shenzhen, China: Springer, 2019. 148−156
    [27] Ouali Y, Hudelot C, Tami M. Semi-supervised semantic segmentation with cross-consistency training. In: Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. Seattle, USA: IEEE, 2020. 12671−12681
    [28] Tarvainen A, Valpola H. Mean teachers are better role models: Weight-averaged consistency targets improve semi-supervised deep learning results. In: Proceedings of the 31st International Conference on Neural Information Processing Systems. Long Beach, USA: ACM, 2017. 1195−1204
    [29] Zhang Y, Xiang T, Hospedales T M, Lu H C. Deep mutual learning. In: Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. Salt Lake City, USA: IEEE, 2018. 4320−4328
    [30] Verma V, Kawaguchi K, Lamb A, Kannala J, Solin A, Bengio Y, et al. Interpolation consistency training for semi-supervised learning. Neural Networks, 2022, 145: 90-106 doi: 10.1016/j.neunet.2021.10.008
    [31] Luo X D, Chen J N, Song T, Wang G T. Semi-supervised medical image segmentation through dual-task consistency. In: Proceedings of the 35th AAAI Conference on Artificial Intelligence. Palo Alto, USA: AAAI, 2021. 8801−8809
    [32] Cui W H, Liu Y L, Li Y X, Guo M H, Li Y M, Li X L, et al. Semi-supervised brain lesion segmentation with an adapted mean teacher model. In: Proceedings of the 26th International Conference on Information Processing in Medical Imaging. Hong Kong, China: Springer, 2019. 554−565
    [33] Bernard O, Lalande A, Zotti C, Cervenansky F, Yang X, Heng P A, et al. Deep learning techniques for automatic MRI cardiac multi-structures segmentation and diagnosis: Is the problem solved? IEEE Transactions on Medical Imaging, 2018, 37(11): 2514-2525 doi: 10.1109/TMI.2018.2837502
    [34] Bilic P, Christ P F, Vorontsov E, Chlebus G, Chen H, Dou Q, et al. The liver tumor segmentation benchmark (LiTS). arXiv: 1901.04056, 2019.
    [35] Menze B H, Jakab A, Bauer S, Kalpathy-Cramer J, Farahani K, Kirby J, et al. The multimodal brain tumor image segmentation benchmark (BRATS). IEEE Transactions on Medical Imaging, 2015, 34(10): 1993-2024 doi: 10.1109/TMI.2014.2377694
    [36] You X G, Peng Q M, Yuan Y, Cheung Y M, Lei J J. Segmentation of retinal blood vessels using the radial projection and semi-supervised approach. Pattern Recognition, 2011, 44(10-11): 2314-2324 doi: 10.1016/j.patcog.2011.01.007
    [37] Portela N M, Cavalcanti G D C, Ren T I. Semi-supervised clustering for MR brain image segmentation. Expert Systems With Applications, 2014, 41(4): 1492-1497 doi: 10.1016/j.eswa.2013.08.046
    [38] Kohl S A A, Romera-Paredes B, Meyer C, De Fauw J, Ledsam J R, Maier-Hein K H, et al. A probabilistic U-Net for segmentation of ambiguous images. In: Proceedings of the 32nd International Conference on Neural Information Processing Systems. Montréal, Canada: ACM, 2018. 6965−6975
    [39] Zhang Y, Zhou Z X, David P, Yue X Y, Xi Z R, Gong B Q, et al. PolarNet: An improved grid representation for online LiDAR point clouds semantic segmentation. In: Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. Seattle, USA: IEEE, 2020. 9598−9607
    [40] Isola P, Zhu J Y, Zhou T H, Efros A A. Image-to-image translation with conditional adversarial networks. In: Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Honolulu, USA: IEEE, 2017. 5967−5976
    [41] Lin T Y, Dollár P, Girshick R, He K M, Hariharan B, Belongie S. Feature pyramid networks for object detection. In: Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Honolulu, USA: IEEE, 2017. 936−944
    [42] Li X M, Chen H, Qi X J, Dou Q, Fu C W, Heng P A. H-DenseUNet: Hybrid densely connected UNet for liver and tumor segmentation from CT volumes. IEEE Transactions on Medical Imaging, 2018, 37(12): 2663-2674 doi: 10.1109/TMI.2018.2845918
    [43] Milletari F, Navab N, Ahmadi S A. V-Net: Fully convolutional neural networks for volumetric medical image segmentation. In: Proceedings of the 4th International Conference on 3D Vision. Stanford, USA: IEEE, 2016. 565−571
    [44] Howard A G, Zhu M L, Chen B, Kalenichenko D, Wang W J, Weyand T, et al. MobileNets: Efficient convolutional neural networks for mobile vision applications. arXiv: 1704.04861, 2017.
    [45] Ćićek Ö, Abdulkadir A, Lienkamp S S, Brox T, Ronneberger O. 3D U-Net: Learning dense volumetric segmentation from sparse annotation. In: Proceedings of the 19th International Conference on Medical Image Computing and Computer-Assisted Intervention. Athens, Greece: Springer, 2016. 424−432
    [46] Hang W L, Feng W, Liang S, Yu L Q, Wang Q, Choi K S, et al. Local and global structure-aware entropy regularized mean teacher model for 3D left atrium segmentation. In: Proceedings of the 23rd International Conference on Medical Image Computing and Computer Assisted Intervention. Lima, Peru: Springer, 2020. 562−571
    [47] Vu T H, Jain H, Bucher M, Cord M, Pérez P. ADVENT: Adversarial entropy minimization for domain adaptation in semantic segmentation. In: Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. Long Beach, USA: IEEE, 2019. 2512−2521
    [48] Li X M, Yu L Q, Chen H, Fu C W, Xing L, Heng P A. Transformation-consistent self-ensembling model for semisupervised medical image segmentation. IEEE Transactions on Neural Networks and Learning Systems, 2021, 32(2): 523−534
    [49] Yu X R, Han B, Yao J C, Niu G, Tsang I W, Sugiyama M. How does disagreement help generalization against label corruption? In: Proceedings of the 36th International Conference on Machine Learning. Long Beach, USA: PMLR, 2019. 7164−7173
    [50] Han B, Yao Q M, Yu X R, Niu G, Xu M, Hu W H, et al. Co-teaching: Robust training of deep neural networks with extremely noisy labels. In: Proceedings of the 32nd International Conference on Neural Information Processing Systems. Montréal, Canada: ACM, 2018. 8536−8546
    [51] Ke Z H, Wang D Y, Yan Q, Ren J, Lau R. Dual student: Breaking the limits of the teacher in semi-supervised learning. In: Proceedings of the IEEE/CVF International Conference on Computer Vision. Seoul, South Korea: IEEE, 2019. 6727−6735
    [52] Chung I, Park S, Kim J, Kwak N. Feature-map-level online adversarial knowledge distillation. In: Proceedings of the 37th International Conference on Machine Learning. Vienna, Austria: PMLR, 2020. 2006−2015
    [53] Hou S H, Liu X, Wang Z L. DualNet: Learn complementary features for image recognition. In: Proceedings of the IEEE International Conference on Computer Vision. Venice, Italy: IEEE, 2017. 502−510
    [54] Wang L C, Liu Y Y, Qin C, Sun G, Fu Y. Dual relation semi-supervised multi-label learning. In: Proceedings of the 34th AAAI Conference on Artificial Intelligence. New York, USA: AAAI, 2020. 6227−6234
    [55] Xia Y C, Tan X, Tian F, Qin T, Yu N H, Liu T Y. Model-level dual learning. In: Proceedings of the 35th International Conference on Machine Learning. Stockholm, Sweden: PMLR, 2018. 5383−5392
  • 期刊类型引用(4)

    1. 李飞翔,降爱莲. MSMVT:多尺度和多视图Transformer半监督医学图像分割框架. 计算机工程与应用. 2025(02): 273-282 . 百度学术
    2. 李方旭,徐望明,徐雪,贾云. 基于双模型互学习的半监督中医舌诊图像分割方法. 液晶与显示. 2024(08): 1014-1023 . 百度学术
    3. 宋文彪,许叶彤,王毅,杜晓刚,雷涛. 基于形状引导和不确定性估计的半监督三维医学图像分割. 计算技术与自动化. 2024(04): 110-116 . 百度学术
    4. 吴淞,蓝鑫,单靖杨,徐海文. 基于注意力机制和多尺度融合的U-Net改进算法. 计算机应用. 2024(S2): 24-28 . 百度学术

    其他类型引用(10)

  • 加载中
图(7) / 表(8)
计量
  • 文章访问数:  2371
  • HTML全文浏览量:  574
  • PDF下载量:  511
  • 被引次数: 14
出版历程
  • 收稿日期:  2021-07-16
  • 录用日期:  2022-01-11
  • 网络出版日期:  2022-05-04
  • 刊出日期:  2023-04-20

目录

/

返回文章
返回