2.845

2023影响因子

(CJCR)

  • 中文核心
  • EI
  • 中国科技核心
  • Scopus
  • CSCD
  • 英国科学文摘

留言板

尊敬的读者、作者、审稿人, 关于本刊的投稿、审稿、编辑和出版的任何问题, 您可以本页添加留言。我们将尽快给您答复。谢谢您的支持!

姓名
邮箱
手机号码
标题
留言内容
验证码

基于CE TransNet的腹部CT图像多器官分割

廖苗 杨睿新 赵于前 邸拴虎 杨振

陈波, 张辉, 江一鸣, 钟杭, 王耀南. 基于分层仿生神经网络的多机器人协同区域搜索算法. 自动化学报, 2025, 51(4): 1−13 doi: 10.16383/j.aas.c240458
引用本文: 廖苗, 杨睿新, 赵于前, 邸拴虎, 杨振. 基于CE TransNet的腹部CT图像多器官分割. 自动化学报, xxxx, xx(x): x−xx doi: 10.16383/j.aas.c240489
Chen Bo, Zhang Hui, Jiang Yi-Ming, Zhong Hang, Wang Yao-Nan. A hierarchical bio-inspired neural network based multi-robot cooperative area search algorithm. Acta Automatica Sinica, 2025, 51(4): 1−13 doi: 10.16383/j.aas.c240458
Citation: Liao Miao, Yang Rui-Xin, Zhao Yu-Qian, Di Shuan-Hu, Yang Zhen. Multi-organ segmentation from abdominal CT images based on CE TransNet. Acta Automatica Sinica, xxxx, xx(x): x−xx doi: 10.16383/j.aas.c240489

基于CE TransNet的腹部CT图像多器官分割

doi: 10.16383/j.aas.c240489 cstr: 32138.14.j.aas.c240489
基金项目: 国家自然科学基金 (62272161, U23B2063, 62076256), 湖南省科技创新计划 (2024RC3216), 湖南省教育厅资助科研项目 (24A0356)资助
详细信息
    作者简介:

    廖苗:湖南科技大学计算机科学与工程学院副教授. 主要研究方向为图像处理与模式识别. E-mail: mliao@hnust.edu.cn

    杨睿新:湖南科技大学计算机科学与工程学院硕士研究生. 主要研究方向为医学图像处理, 图像分割. E-mail: 22020501025@mail.hnust.edu.cn

    赵于前:中南大学自动化学院教授. 主要研究方向为图像处理, 模式识别, 机器学习. 本文通信作者. E-mail: zyq@csu.edu.cn

    邸拴虎:国防科技大学智能科学学院讲师. 主要研究方向为模式识别和持续学习. E-mail: dishuanhu@nudt.edu.cn

    杨振:中南大学湘雅医院副主任医师, 研究方向为医学影像学, 计算机辅助放疗. E-mail: yangzhen@188.com

Multi-organ Segmentation From Abdominal CT Images Based on CE TransNet

Funds: Supported by National Natural Science Foundation of China (62272161, U23B2063, and 62076256), Science and Technology Innovation Program of Hunan Province (2024RC3216), and Scientific Research Fund of Hunan Provincial Education Department (24A0356)
More Information
    Author Bio:

    LIAO Miao Associate professor at the School of Computer Science and Engineering, Hunan University of Science and Technology. Her research interest covers image processing and pattern recognition

    YANG Rui-Xin Master student at the School of Computer Science and Engineering, Hunan University of Science and Technology. His research interest covers medical image processing and image segmentation

    ZHAO Yu-Qian Professor at the School of Automation, Central South University. His research interest covers image processing, pattern recognition and machine learning. Corresponding author of this paper

    Di Shuan-Hu Lecturer at the College of Intelligence Science and Technology, National University of Defense Technology. His research interest covers pattern recognition and continual learning

    YANG Zhen Associate chief physician in Xiangya Hospital, Central South University. His research interest covers medical image science and computer-assisted radiotherapy

  • 摘要: 受限于局部感受野, 卷积神经网络无法建立足够的长距离依赖关系. 一些方法通过将Transformer部署至卷积网络的某些特定部位来缓解这个问题, 如网络编码器、解码器或跳跃连接层. 但这些方法只能为某些特定特征建立长距离依赖关系, 难以捕获大小、形态多样的腹部器官之间的复杂依赖关系. 针对该问题, 提出了一种交叉增强Transformer (Cross-connection enhanced transformer, CE transformer)结构, 并用它作为特征提取单元构建了一种新的多层级编-解码分割网络CE TransNet. CE transformer采用双路径设计, 深度融合Transformer与卷积结构, 可同时对长、短距离依赖关系进行建模. 在双路径中, 引入密集交叉连接促进不同粒度信息的交互与融合, 提高模型整体特征捕获能力. 将CE transformer部署于CE TransNet的整个编解码路径中, 可有效捕捉多器官的复杂上下文关系. 实验结果表明, 提出方法在WORD和Synapse腹部CT多器官数据集上的平均DSC值分别高达82.42%和81.94%, 显著高于多种当前先进方法.
  • 腹部计算机断层扫描 (Computed tomography, CT)图像中的多器官分割有助于器官的形态分析、疾病诊断、治疗方案制定等任务, 可为手术导航、器官移植、放射治疗等提供有价值的定量评估[1]. 目前, 临床上腹部多器官分割主要由医生手动勾画完成. 由于每个病人包含的切片数量巨大, 手动勾画过程繁琐、效率低、可重复性差[2]. 此外, 腹部是人体最复杂的区域之一. CT图像中腹部器官通常具有结构复杂、边界模糊、形态多样等特点[3], 人工手动勾画的主观性大, 其准确性严重依赖于临床医生的经验和技巧[4]. 因此, 研究腹部CT图像多器官的自动分割对于提高计算机辅助诊疗的精度和效率具有重要意义.

    近年来, 由于强大的非线性特征提取能力, 深度学习技术, 尤其是深度卷积神经网络 (Convolutional neural network, CNN)在医学图像分割任务上取得了显著的进展[5, 6]. 这些进展极大地推动了医学影像分析的自动化与精准化. 特别是在器官识别、病灶检测、病理分级等关键应用中, CNN展现出了超越传统方法的性能[7, 8]. Long等[9]提出全卷积网络 (Full convolutional neural network, FCN), 该网络利用编码器-解码器架构以及跳跃连接促进了抽象特征信息与次级细节信息的融合, 显著提高了模型的分割性能. U-Net[10], 一种呈U形的全卷积网络, 可有效保留空间细节信息, 在医学图像分割任务中展现出了强大的分割能力, 是医学图像分割领域的一个重要里程碑[11]. 尽管基于CNN的模型取得了相当的成功, 但受限于局部感受野、归纳偏置等, 这些基于CNN的方法难以建立图像中长距离目标之间的依赖关系, 其分割性能仍无法满足临床要求.

    为了克服CNN在建模全局语义特征方面的局限, 基于多头自注意力[12] (Multi-head self-attention, MHSA)机制的Transformer[13] (Vision transformer, ViT)被提出. 在Transformer层中, 所有输入序列被并行处理, 模型能够一次性获得整个图像的全局视图, 无需依赖逐层递增的感受野[14, 15]. 这使得模型能更高效地处理长距离依赖关系, 在视觉任务中识别跨越多个尺度的结构[16, 17]. 最近, Kirillov等[18]提出了一种基于ViT的大模型, 称为SAM (Segmentation anything model). SAM在大规模视觉数据上进行训练, 对自然图像展现出强大的分割能力. 然而, SAM在分割对象之前需要输入提示词, 无法实现全自动分割. 它在各种医学图像和任务中的准确性也存在显著差异[19], 尤其是在处理小尺寸、低对比度和不规则形状的目标区域时面临挑战[20, 21].

    鉴于Transformer在视觉任务上展现出的巨大潜能, 不少专家学者将其引入了医学图像分割领域[22]. Chen等[23]首次将Transformer嵌入U-Net编码器深层, 构建了TransUNet分割模型, 以捕获图像长距离依赖关系. 类似地, TransBTS[24]、UCTransNet[25]和SegTran[26]同样以CNN作为骨干网络, 并将Transformer部署于网络的局部结构中, 例如编码器、解码器或跳跃连接等. 上述方法在CNN框架的某些特定部分引入Transformer, 两者之间缺乏信息交互和融合机制. CNN通过卷积操作来捕捉局部特征, 强调空间结构和局部特征[6, 7]. Transformers则利用自注意力机制捕捉长距离依赖关系, 将输入视为序列而不是结构化的像素网格[13, 15]. 这种差异导致CNN提取的局部特征与Transformer捕捉的全局语义之间出现不匹配, 这种不匹配导致特征表示不一致, 限制了模型的性能, 无法实现预期的优势互补与协同效应[27]. 此外, 也有一些完全基于Transformer的分割网络提出, 如Swin Unet[28]、MedT[29]和MISSFormer[30]. 上述网络过分依赖于长距离建模能力, 而对小目标、边界等局部信息的关注有限, 而这些局部信息对于医学图像分割至关重要.

    为了克服CNN和Transformer特征表示不一致的问题, 近期的研究尝试探索更加紧密的融合策略, 以充分利用两者优势. 例如, ScribFormer[31]、SSNet[32]和HAFormer[33]均采用CNN-Transformer双编码器, 并引入交互模块实现特征融合. ScribFormer利用特征耦合单元 (Feature compling units, FCU)建立双编码器之间的信息通路, 以整合全局和局部特征. SSNet采用特征融合模块 (Feature fuse module, FFM)和特征注入模块 (Feature inject module, FIM)来融合CNN-Transformer双编码器之间的信息. 然而, FCU、FFM和FIM部署于每个阶段的末端, 其发挥的特征融合作用有限. HAFormer将一种相关性加权融合 (correlation-weighted Fusion, cwF)模块部署于编码路径的最后阶段, 忽略了浅层网络的特征融合, 在建模多器官的复杂依赖关系方面仍存在挑战.

    为了深度融合CNN-Transformer, 实现全局和局部特征的渐进式、深入融合, 本文提出一种基于密集交叉连接的混合特征提取模块CE transformer. 不同于现有特征提取模块, CE transformer采用双路径结构并行提取图像局部和全局特征, 以捕获多器官的上下文关系, 并引入密集交叉连接, 构建双流信息通道, 促进不同粒度特征的深度交互与融合. 以CE transformer为基础特征提取模块, 本文构建了一种编码-解码结构的腹部CT图像多器官分割模型CE TransNet. 编码器通过级联多个下采样和CE transformer结构, 获取图像多尺度特征, 解码器利用门控注意力模块和CE transformer逐步融合编码端特征, 生成分割图. 本文的主要贡献如下:

    1)提出了一种新的交叉增强Transformer结构, 可全面、深入提取图像全局及局部特征. CE transformer以多头自注意力机制和深度可分离卷积为基础, 采用双路径设计, 并引入密集交叉连接促进不同模块之间的特征交互, 为模型提供了更丰富的上下文信息, 使模型具备同时捕获长-短范围目标之间依赖关系的能力.

    2)以CE transformer为核心, 提出了一种多层级编-解码网络架构CE-TransNet. 不同于现有网络直接将Transformer部署于某些特定结构, CE-TransNet将CE transformer贯穿于整个网络的编解码路径, 显著提高了模型从全局和局部视角提取图像特征的能力, 可充分、深入捕获各器官内部结构及不同器官间的相对关系, 实现腹部CT多器官同时准确分割.

    3)在多个腹部CT多器官图像数据集上评估了提出网络的分割性能, 结果表明, 与目前先进方法相比, 提出的CE TransNet在Dice相似系数 (Dice similarity coefficient, DSC)、平均交并比 (Mean intersection over union, mIoU)、归一化表面Dice (Normalized surface dice, NSD)、豪斯多夫距离 (Hausdorff distance, HD)、平均表面距离 (Average surface distance, ASD)和准确率等多个分割指标上表现出明显优势, 大大提升了十二指肠、结肠和胆囊等等形态复杂器官的分割精度.

    提出的CE TransNet分割模型结构如图1所示, 包含一个四阶段编码器和一个解码器. 编码器中, 每个阶段均由一个卷积下采样和一个CE块组成, 卷积下采样模块2倍下采样输入图像的同时扩增其通道数, CE块由$ N $个CE transformer模块串联组成, 用于提取下采样图像的特征. 解码器包含3个门控注意力模块、3个卷积上采样层、4个CE transformer、4个1$ \times $1的卷积层和一个sigmoid层. 它以编码器的多尺度特征作为输入, 逐步生成分割图. 具体地, 该解码器以前一阶段的解码特征作为指导, 利用门控注意力模块抑制当前编码端输入中的不相关信息, 并将门控注意力结果与前一阶段的解码特征进行相加融合, 输入至CE transformer进行解码, 随后通过1$ \times $1的卷积和上采样操作获取当前阶段的分割特征. 该级联解码过程将生成四个分割特征图, 并通过相加融合和sigmoid激活函数得到最终的分割结果.

    图 1  CE TransNet网络结构示意图
    Fig. 1  The network architecture of CE TransNet

    与自然场景图像相比, 医学图像呈现复杂的器官分布以及对微小差异的高度敏感性[14, 34]. 这要求分割模型具备综合理解微观组织和宏观结构的能力. 对此, 近年来研究者们积极探索高效模型设计, 以期克服上述挑战. 特别地, Transformer架构由于其在捕捉长距离依赖关系方面具备天然优势, 被逐步引入到医学图像分割领域. 然而, 现有方法通常简单地将Transformer模块与传统的卷积神经网络 (CNNs)进行简单结合, 忽略了深层次的融合机制[22]. 为了深度融合CNN-和Transformer, 本文提出一种基于密集交叉连接的混合特征提取模块CE transformer. CE transformer采用双路径结构并行提取图像局部和全局特征, 以捕获腹部器官的复杂上下文关系, 并通过引入密集交叉连接, 建立多层级信息交换通道, 促进全局和局部信息的深度交互与融合, 增强模型对复杂结构的综合理解. CE transformer结构如图2所示, 由两条平行的支路构成, 主要包含一个自注意力 (Self-attention, SA)模块、一个焦点聚合 (Focal-aggregation, FA)模块、一对通道级融合 (Channel-wise fusion, CF)模块和一对像素级融合 (Pixel-wise fusion, PF)模块. 首先, 将输入特征$ X\in {\bf{R}}^{H\times W \times 2C} $按通道数平均分成$ X^0 \in {\bf{R}}^{H\times W \times C} $和$ X^1 \in {\bf{R}}^{H\times W \times C} $两组, 并输入至两条平行支路. 然后, 分别采用SA和FA模块捕获图像的长、短距离依赖关系. 随后, 依次采用CF和PF模块对SA和FA的输出进行非线性特征提取, 并在CF和PF中引入了密集交叉连接, 促进不同模块之间的特征交互, 使模型产生更综合、全面的特征. 为了方便表示, 图2中$ p\in \{1,\;2\} $代指两条支路. SA、FA、CF和PF等各子模块的详细结构将在下面进行描述.

    图 2  CE transformer结构
    Fig. 2  The structure of CE transformer
    1.1.1   自注意力模块 (SA)

    近年来, Transformer架构在视觉任务中取得极具竞争力的结果[13, 35, 36]. 尽管Transformer拥有强大的长距离上下文建模能力, 但其计算成本随输入参数规模增大成二次方增长, 即计算复杂度高达$ O (n^2) $. 针对该问题, Liu等[35]将注意区域限制在图像局部窗口内, 该操作可提高计算效率, 但限制了注意力感受野. 为了扩大感受野、捕获足够的长距离依赖关系, 本文采用十字形窗口多头自注意力 (Cross-window based multi-head self-attention, CSW-MHSA)机制[36]构建SA模块.

    图2所示, SA模块包含归一化层、CSW-MHSA层和残差连接. 不同于W-MSA (Window based multi-head self-attention, W-MSA)[35]、SW-MSA (Shift-window based multi-head self-attention, SW-MSA)[35]等基于矩形窗口的注意力结构, CSW-MHSA分别从水平和垂直方向计算注意力, 其注意区域范围更大. 对于输入特征图像$ X\in {\bf{R}}^{H\times W \times 2C} $, 根据通道数平均分成两组$ X_h \in {\bf{R}}^{H\times W \times C} $和$ X_v\in{\bf{R}}^{H\times W \times C} $, 并分别从水平和垂直方向计算其注意力权重. 首先, 将$ X_h $均匀分成$ M $个宽为$ \omega $的不重叠水平条状区域 ($ [X^1,\;X^2,\;\cdots,\;X^M] $). 由于多头自注意力仅接受序列向量作为输入, 本文将每个水平条状区域平坦化为一个长度为$ \omega \times W $的序列. 然后, 将这些序列输入至多头自注意力模块, 获取水平方向上的注意力特征, 记为$ Y_h $, 具体计算过程如下:

    $$ \begin{equation} X_h = [X^1,\;X^2,\;\cdots,\;X^M] \end{equation} $$ (1)
    $$ \begin{equation} Y^i = MultiHead (Flatten (X^i)) \end{equation} $$ (2)
    $$ \begin{equation} Y_h = [Y^1,\;Y^2,\;\cdots,\;Y^M] \end{equation} $$ (3)

    其中$ M $为水平条状区域的数目, $ M = \frac{H}{\omega} $. $ \omega $为水平条状区域的宽度, 通过调整$ \omega $可以权衡计算效率和感受野. $ Flatten (\cdot) $表示平坦化操作, 将条状区域平坦化为序列向量. $ MultiHead (\cdot) $为多头自注意力模块, 其以序列向量为输入, 通过矩阵乘法学习序列内每个特征之间的依赖关系, 计算过程可表示为:

    $$ \begin{equation} Q = X\cdot W_k^Q,\; K = X\cdot W_k^K,\; V = X\cdot W_k^V \end{equation} $$ (4)
    $$ \begin{equation} head_k = SoftMax \left(\frac{QK^T}{\sqrt{D}}\right)V + \text{LePE} (V) \end{equation} $$ (5)
    $$ \begin{split} MultiHead (X) =\;& Concate (head_1,\;\\ &head_2,\;\cdots,\;head_h) \end{split} $$ (6)

    其中, $ Concate (\cdot) $表示拼接操作, $ h $为多头自注意力模块中注意力头的个数, $ head_k $为第$ k $个注意力头. $ W_k^Q \in {\bf{R}}^{C\times d_k},\; W_k^K\in {\bf{R}}^{C\times d_k},\; W_k^V\in {\bf{R}}^{C\times d_k} $分别代表$ Q $,$ K $,$ V $的投影矩阵, $ d_k $为投影维度. LePE (Local-enhanced position embedding, LePE)[36]用于提供编码特征的位置信息.

    对于特征图$ X_v \in {\bf{R}}^{H\times W\times C} $, 同样采用上述方式从垂直方向计算其注意力权重, 获取注意力特征$ Y_v $. 通过拼接$ Y_h $和$ Y_v $, 即可得到CSW-MHSA层输出的注意力特征图:

    $$ \begin{equation} \text{CSW-MHSA} (X) = Concate (Y_h,\;Y_v) \end{equation} $$ (7)
    1.1.2   焦点聚合模块 (FA)

    自注意力模块 (SA)通过为序列中的每一个特征与其他所有特征建立联系来增强模型捕获长距离依赖关系的能力. 然而, 最近的研究表明, 局部上下文在视觉建模中也起着至关重要的作用[37, 38]. 为了增强局部特征, 本文在CE transformer中构建了一个焦点聚合模块. FA模块采用多层级深度卷积逐步增强局部特征, 并利用基于门控的上下文聚合机制动态融合不同层级的特征信息, 进而提升模型对重要区域的聚焦能力. 如图2所示, FA模块由一个归一化层和一个焦点调制层 (Focal modulation, FM)组成. 焦点调制层通过线性投影和上下文聚合操作加强短距离依赖关系和增强局部特征, 其具体结构如图3所示. 对于输入特征图像$ X \in {\bf{R}}^{H\times W\times C} $, 焦点调制层的输出$ Y \in {\bf{R}}^{H\times W\times C} $可由下式获取:

    图 3  焦点调制层结构
    Fig. 3  The structure of focal modulation layer
    $$ \begin{equation} Y = q\odot m \end{equation} $$ (8)
    $$ \begin{equation} q = X\cdot W^Q \end{equation} $$ (9)

    其中, $ q $表示通过投影矩阵$ W^Q \in {\bf{R}}^{C\times C} $获取到的线性投影, $ \odot $表示逐元素乘法, $ m $表示对上下文聚合结果进行线性投影获得的特征, 具体操作如下:

    $$ \begin{equation} m = Z_{out} \cdot W^M \end{equation} $$ (10)

    其中, $ W^M\in{\bf{R}}^{C\times C} $为投影矩阵, $ Z^{out}\in{\bf{R}}^{H\times W\times C} $为通过分层深度卷积获取的上下文聚合特征, 可表示为:

    $$ \begin{equation} Z^{out} = \sum\limits_{l = 1}^{L}G^l\odot Z^l \end{equation} $$ (11)
    $$ \begin{equation} Z^0 = X \cdot W^Z \end{equation} $$ (12)
    $$ \begin{equation} Z^l = \sigma (DWConv (Z^{ (l-1)})) \end{equation} $$ (13)
    $$ \begin{equation} G = X\cdot W^G \end{equation} $$ (14)

    其中, $ L $表示聚合层数, $ Z^0\in{\bf{R}}^{H\times W\times C} $表示对输入特征$ X $, 采用矩阵$ W^Z\in {\bf{R}}^{C\times C} $进行投影获取的特征, $ Z^l\in{\bf{R}}^{H\times W\times C} (l\in\{1,\;2,\;\cdots,\;L\}) $为上下文聚合操作中第$ l $层上的特征, 通过对$ Z^{ (l-1)} $进行深度卷积$ DWConv (\cdot) $和GeLU激活函数$ \sigma (\cdot) $获得. $ G \in {\bf{R}}^{H\times W\times (L+1)} $表示对输入$ X $采用投影矩阵$ W^G\in {\bf{R}}^{C\times (L+1)} $进行投影获取的特征, $ G^l \in {\bf{R}}^{H\times W} $是$ G $中的第$ l $个切片. $ G^l $作为门控函数, 通过广播机制, 获取不同聚合层的上下文特征.

    1.1.3   通道级融合 (CF)和像素级融合 (PF)模块

    为了促进CE transformer中两个分支之间的特征交互, 本文在每个分支上均构建了一个通道级融合 (Channel-wise fusion, CF)模块和一个像素级融合 (Pixel-wise fusion, PF)模块. 如图2所示, CF接受两个输入, 即当前分支中SA (或FA)的输出$ A^p $和另一个分支的输入$ X^{ (1-p)} $. CF在通道方向上对特征图进行加权融合, 以捕获通道间的依赖关系. 首先, 对两个输入进行拼接及归一化. 随后, 设计跨区域学习函数 (CRL), 生成交互图. 最后, 引入残差连接以保留原路径中的重要特征. CF的输出$ \Gamma^p \in{\bf{R}}^{H\times W\times C} $可由下式获取:

    $$ \begin{equation} \Gamma^p = \text{CRL} (Y^p) + A^p \end{equation} $$ (15)
    $$ \begin{equation} Y^p = LN (Concate (A^p,\;X^{ (1-p)})) \end{equation} $$ (16)
    $$ \begin{equation} A^0 = \text{SA} (X^0) \end{equation} $$ (17)
    $$ \begin{equation} A^1 = {\text FA} (X^1) \end{equation} $$ (18)

    其中, $ A^0\in {\bf{R}}^{H\times W\times C} $为自注意力模块 (SA)的输出, $ A^1\in {\bf{R}}^{H\times W\times C} $为焦点调制模块 (FA)的输出, $ Concate (\cdot) $表示拼接操作, $ LN (\cdot) $表示层归一化, CRL表示跨区域学习函数. 设$ \Psi^p = \text{CLR} (Y^p) $, $ \Psi^p $的具体计算过程可表示为:

    $$ \begin{equation} \Psi^p = \{\psi_i^p| i = 1,\;2,\;\cdots,\;C\} \end{equation} $$ (19)
    $$ \begin{equation} Y^p = \{y_j^p| j = 1,\;2,\;\cdots,\;2C\} \end{equation} $$ (20)
    $$ \begin{equation} \psi_i^p = \sigma \left(\sum\limits_{j = 1}^{2C}\Omega_{ij}\cdot y_j^p + b_i\right) \end{equation} $$ (21)

    其中, $ \Psi^p\in {\bf{R}}^{H\times W \times C} $为CRL函数生成的交互图, $ \psi_i^p \in {\bf{R}}^{H\times W} $为交互图$ \Psi^p $的第$ i $个通道特征, $ y_j^p \in {\bf{R}}^{H\times W} $为输入特征$ Y^p\in {\bf{R}}^{H\times W \times 2C} $的第$ j $个通道特征, $ \sigma (\cdot) $表示GeLU激活函数, $ \Omega_{ij} $和$ b_i $分别为可训练权重和偏置.

    与CF模块结构类似, PF模块也包含两个输入, 一个为当前分支CF的输出, 一个为另一分支SA (或FA)的输出. PF与CF的区别在于, PF使用全连接前馈网络 (Feed Forward Network, FFN)生成交互图. FFN对特征图不同位置的像素信息进行融合, 学习像素间的依赖关系. PF的输出$ T^p \in {\bf{R}}^{H\times W\times C} $可由下式获取:

    $$ \begin{equation} \begin{split} T^p & = \mathrm{FFN} (Y^p) + \Gamma^p\\ \end{split} \end{equation} $$ (22)
    $$ \begin{equation} Y^p = LN (Concate (\Gamma^p,\; A^{ (1-p)})) \end{equation} $$ (23)

    其中, $ \Gamma^p $代表CF模块的输出, $ Concate (\cdot) $表示拼接操作, $ LN (\cdot) $表示层归一化, FFN表示全连接前馈网络. 基于上述模块, 由SA、FA、CF和PF构成的CE transformer可由算法1表示.

      算法1: CE transformer

    Input:

     $ X \in {\bf{R}}^{H\times W\times 2C} $;

    Output:

     $ Y \in {\bf{R}}^{H\times W \times 2C} $;

    1: $ p\in\{0,\;1\} $表示两个分支;

    2: $ X^p \gets Split (X) $;

    3: $ A^0 \gets SA (LN (X^0)) + X^0 $;

    4: $ A^1 \gets FA (LN (X^1)) + X^1 $;

    5: $ \Gamma^p \gets \text{CRL} (LN (Concate (A^p,\;X^{ (1-p)}))) + A^p $;

    6: $ T^p \gets \text{FFN} (LN (Concate (\Gamma^p,\;A^{ (1-p)}))) + \Gamma^p $;

    7: $ Y \gets Concate (T^0,\;T^1) $;

    卷积下采样模块位于编码端, 用于2倍下采样输入图像并扩增通道数, 其详细结构如图4所示. 首先, 一个3$ \times $3的卷积层扩增输入图像的通道数, 随后利用池化层2倍下采样其空间分辨率. 具体计算过程如下:

    图 4  卷积下采样模块
    Fig. 4  Convolutional downsampling module
    $$ \begin{equation} y = MaxPool (\sigma (BN (Conv_{3\times3} (x)))) \end{equation} $$ (24)

    其中, $ Conv_{3\times3} (\cdot) $表示3$ \times $3的卷积层, $ BN (\cdot) $表示批归一化, $ \sigma (\cdot) $为ReLU激活函数, $ MaxPool (\cdot) $表示最大池化层.

    门控注意力模块通过引入门控信号, 对跳跃连接传递的特征进行加权, 以强调重要特征并抑制不相关信息, 其详细结构如图5所示. 首先, 利用$ 1\times1 $卷积层和ReLU激活函数, 将编码特征$ x $和解码特征$ y $映射到共同的特征空间进行相加, 得到门控信号$ g $. 然后, 使用$ 1\times1 $卷积层和Sigmoid激活函数生成注意力权重图, 将编码特征$ x $与注意力权重图进行逐元素相乘得到加权后的输出特征. 具体计算过程如下:

    $$ \begin{equation} g (x,\;y) = \sigma (BN (Conv_{1\times1} (x))) + \sigma (BN (Conv_{1\times1} (y))) \end{equation} $$ (25)
    $$ \begin{equation} z = x\odot \xi (BN (Conv_{1\times1} (g (x,\;y)))) \end{equation} $$ (26)

    其中, $ x $为来自编码端的特征, $ y $为解码端特征, $ g (x,\;y) $表示门控信号, $ Conv_{1\times1} (\cdot) $表示1$ \times $1的卷积层, $ BN (\cdot) $表示批归一化, $ \odot $表示逐元素乘法, $ \sigma (\cdot) $和$ \xi (\cdot) $分别表示ReLU和Sigmoid激活函数.

    图 5  门控注意力模块
    Fig. 5  Attention gate module

    卷积上采样模块位于解码端, 用于增大特征图像的空间分辨率与压缩通道数, 其详细结构如图6所示. 首先对输入特征进行2倍上采样, 随后利用深度可分离卷积压缩特征图像的通道数. 深度可分离卷积由3$ \times $3深度卷积、归一化、ReLU激活、和1$ \times $1逐点卷积层依次连接组成. 具体计算过程如下:

    图 6  卷积上采样模块
    Fig. 6  Convolutional upsampling module
    $$ \begin{equation} y = Conv_{1\times1} (\sigma (BN (DWConv_{3\times3} (UP_{2} (x))))) \end{equation} $$ (27)

    其中$ UP_2 (\cdot) $表示上采样, $ DWConv_{3\times3} (\cdot) $表示3$ \times $3的深度卷积. $ BN (\cdot) $表示批归一化, $ \sigma (\cdot) $为ReLU激活函数, $ Conv_{1\times1} (\cdot) $表示1$ \times $1逐点卷积层.

    本文利用交叉熵损失 (Cross-entropy loss)和Dice损失 (Dice loss)构成混合损失函数$ L_{total} $:

    $$ \begin{equation} L_{total} = \alpha L_{ce} + (1-\alpha)L_{dice} \end{equation} $$ (28)

    其中, $ \alpha $为超参数, 用于平衡交叉熵损失和Dice损失. $ L_{ce} $表示交叉熵损失, 计算公式如下:

    $$ \begin{equation} L_{ce} = -\frac{1}{N}\sum\limits_{i = 1}^{N}\sum\limits_{j = 1}^{C}y_{i,\;j} \log (p_{i,\;j}) \end{equation} $$ (29)

    其中$ N $表示样本数量$ i = 1,\;2,\;\cdots,\;N $, $ C $表示类别数量$ j = 1,\;2,\;\cdots,\;C $, $ y_{i,\;j} $表示样本$ i $标记为类别$ j $的值, $ p_{i,\;j} $表示样本$ i $预测为类别$ j $的概率. $ L_{dice} $表示Dice损失, 计算公式如下:

    $$ \begin{equation} L_{dice} = 1- \frac{1}{C}\sum\limits_{j = 1}^{C}\frac{2\sum\nolimits_{i = 1}^{N}y_{i,\;j} \overline{y_{i,\;j}}}{\sum\nolimits_{i = 1}^{N}y_{i,\;j} + \sum\nolimits_{i = 1}^{N}\overline{y_{i,\;j}}} \end{equation} $$ (30)

    其中$ N $为像素点总个数$ i = 1,\;2,\;\cdots,\;N $, $ C $为类别数量$ j = 1,\;2,\;\cdots,\;C $, $ y_{i,\;j} $表示第$ i $个像素标记为类别$ j $的值, $ \overline{y_{i,\;j}} $表示第$ i $个像素预测为类别$ j $的值.

    本文使用WORD[39]和Synapse[40]数据集进行实验. WORD数据集总共包含150个腹部CT序列和其对应的分割金标准, 单个序列的CT切片数为159 ~ 330张, 切片空间分辨率为512×512像素, 切片厚度在2.5到3 mm之间. 该数据集标注了腹部15个解剖学器官, 包括肝脏、脾脏、左肾、右肾、胃、胆囊、食管、胰腺、十二指肠、结肠、肠、直肠、膀胱、左股骨和右股骨. 本文随机选取105个序列用于训练, 剩余的45个序列用于测试. Synapse数据集规模较小, 仅包含30个腹部CT序列, 其中主动脉、胆囊、左肾、右肾、肝脏、胰腺、脾脏和胃等8个器官被手工标记. Synapse数据集中单个序列切片数在85 ~ 198之间, 切片空间分辨率为512×512像素, 切片厚度为2.5 ~ 5.0 mm. 本文随机选取18个CT病例用于训练, 剩下的12个用于测试.

    本文采用PyTorch 1.13.1框架. 实验环境为一台配备Windows10操作系统、AMD Ryzen 9 5900X中央处理器、32 GB内存和GeForce RTX 3090 GPU的计算机. 为了验证提出模型的有效性, 在WORD[39]和Synapse[40]数据集上进行了实验, 并与多种先进方法进行了比较, 包括UNet[10]、Att-Unet[41]、Crosslink-Net[42]、CPP-Net[43]、TransUNet[23]、UCTransNet[25]、SwinUnet[28]、TransNuSeg[44]、ScribFormer[31]、YOHO[45]、OUR[46]和CSSNet[47]. 实验分为训练和测试两个阶段. 在训练阶段, 将训练集中的CT图像输入CE TransNet模型, 生成预测结果, 并利用损失函数计算其与真实标签之间的误差. 然后, 运用反向传播算法, 将误差信息逐层传递回神经网络的每一层, 根据各层对总误差的贡献大小调整相应权重, 权重调整过程采用优化器实现. 在测试阶段, 采用已训练好的模型对测试集中的CT图像进行预测, 并结合真实标签, 采用不同的评估指标来评估模型的分割性能. 训练过程中, 模型的初始学习率 (lr)、批量大小 (bs)、最大训练轮数 (ep)、优化器 (opt) 和调度器 (sch)分别设置如下:

    WORD: lr = $ 6\times 10^{-5} $; bs = 6; ep = 150; opt = AdamW; sch = Cosine Annealing.

    Synapse: lr = $ 6\times 10^{-5} $; bs = 6; ep = 300; opt = AdamW; sch = Cosine Annealing.

    为了综合评价方法的分割性能, 本文采用Dice相似系数 (Dice similarity coefficient, DSC)、平均交并比 (Mean intersection over union, mIoU)、归一化表面Dice (Normalized surface dice, NSD)、平均表面距离 (Average surface distance, ASD)、豪斯多夫距离 (Hausdorff distance, HD)、召回率 (Recall)和准确率 (Precision)等多个指标对分割结果进行定量评价. DSC和mIoU是最常用的图像分割评价指标, 前者计算分割结果与分割金标准的面积重叠率, 后者计算平均交并比. NSD计算两者边界的重叠率, 常用于评估3D分割目标的表面定位精度[48]. HD计算分割结果边界与分割金标准边界之间的最大距离, 是评估两者轮廓一致性的重要指标, 其值越低表示两者轮廓越接近. ASD则计算两者边界的平均距离, 其值越低表示分割性能越好. 召回率和准确率能够反映分割结果的完整性和精确性.

    2.4.1   WORD数据集上的实验结果与比较

    表1 ~ 3给出了不同方法在WORD数据集上的分割性能比较. 其中, 表1显示了不同方法在所有器官上的综合性能表现, 表23则详细列举了不同方法在每个器官上获得的DSC和NSD值.

    表 1  不同方法在WORD数据集上的平均分割性能比较
    Table 1  Average segmentation performance comparison of different methods on the WORD dataset
    方法 出版/年份 DSC (%)$ \uparrow $ mIoU (%)$ \uparrow $ NSD (%)$ \uparrow $ HD (mm)$ \downarrow $ ASD (mm)$ \downarrow $ Recall (%)$ \uparrow $ Precision (%)$ \uparrow $
    UNet[10] MICCAI/2015 76.93 65.35 62.03 17.16 4.44 85.13 78.53
    Att-Unet[41] Elsevier MIA/2019 77.83 66.74 65.41 16.43 3.91 84.05 83.86
    TransUNet[23] arXiv/2021 80.32 69.95 69.29 20.31 5.51 87.98 80.92
    UCTransNet[25] AAAI/2022 81.64 71.34 69.78 11.30 2.67 86.10 84.16
    Crosslink-Net[42] IEEE TIP/2022 78.99 68.15 65.33 13.13 2.88 81.62 83.10
    CPP-Net[43] IEEE TIP/2023 80.36 70.04 70.76 12.82 2.98 85.31 84.53
    SwinUnet[28] ECCV/2022 80.64 69.82 69.09 15.23 4.12 82.93 80.40
    TransNuSeg[44] MICCAI/2023 78.63 68.31 67.73 14.41 2.89 85.78 80.06
    ScribFormer[31] IEEE TMI/2024 81.21 71.07 73.08 11.78 2.91 85.34 84.43
    YOHO[45] IEEE TIP/2024 78.23 67.45 65.67 13.68 3.29 81.86 81.97
    OUR[46] MBEC/2023 80.71 70.06 71.38 12.06 2.92 87.38 84.77
    CSSNet[47] CMB/2024 79.41 69.02 67.29 14.69 3.16 86.38 80.32
    本文方法 82.42 72.48 74.34 10.91 2.62 86.47 85.35
    下载: 导出CSV 
    | 显示表格
    表 3  不同方法在WORD数据集各器官上的NSD (%)比较
    Table 3  NSD (%) score comparison of different methods on the WORD dataset
    方法肝脏脾脏左肾右肾胆囊食管胰腺十二指肠 结肠 直肠膀胱左股骨右股骨
    UNet[10]74.1370.2468.6669.6657.0947.4350.9958.9341.2155.6360.8554.8672.7072.1075.94
    Att-UNet[41]81.0182.4574.5277.7264.7342.4566.9261.3744.5657.8063.4953.6770.7565.9073.88
    TransUNet[23]82.3686.5581.2381.5471.6736.1269.8665.2323.7162.0667.1560.1881.9784.8084.97
    UCTransNet[25]89.2786.5284.8577.4173.7750.3858.7468.6330.8164.4554.6161.1576.7985.0684.27
    Crosslink-Net[42]79.6584.0279.9580.5265.0935.6766.8831.5538.2560.1263.8256.3277.1379.6681.33
    CPP-Net[43]81.2483.7780.1681.4271.8548.9770.8060.5945.1963.4867.2159.6079.7983.8883.44
    SwinUnet[28]83.1385.7981.8373.9661.2943.8668.5068.0049.5863.7158.2560.6478.3079.4280.33
    TransNuSeg[44]79.7877.3778.1878.5060.6545.1570.9668.3547.7861.6960.9858.8975.9975.2376.48
    ScribFormer[31]82.3484.1983.1981.5170.1447.8871.3166.4948.5163.5966.8660.2580.0284.4384.86
    YOHO[45]77.1480.1676.2377.7562.8849.1361.6253.6048.5753.5759.2653.0174.2179.3078.65
    OUR[46]82.6584.5582.2181.8170.0747.5770.1665.8848.5164.5066.1860.0279.6182.6984.32
    CSSNet[47]81.3382.8380.4580.4168.1945.7068.8663.6947.7462.6564.1059.1875.0078.6776.56
    本文方法84.0286.7082.1282.9173.9364.3870.6469.1450.8765.1468.1261.9782.3486.5086.29
    下载: 导出CSV 
    | 显示表格
    表 2  不同方法在WORD数据集各器官上的DSC (%)比较
    Table 2  DSC (%) score comparison of different methods on the WORD dataset
    方法肝脏脾脏左肾右肾胆囊食管胰腺十二指肠 结肠 直肠膀胱左股骨右股骨
    UNet[10]93.0988.0587.7989.1779.2752.6359.2570.0552.9671.6276.4471.5985.5487.5388.99
    Att-Unet[41]94.6792.2888.0989.3582.4343.5370.1269.3254.9074.1177.8072.1085.1685.2888.33
    TransUNet[23]94.8093.1990.0990.2587.0448.3072.6673.2652.2177.1180.0074.4089.3190.9791.24
    UCTransNet[25]94.6392.5890.1989.3887.3460.7873.9575.0959.3376.7478.7174.6089.0791.0091.15
    Crosslink-Net[42]94.5292.9890.8191.5383.8956.4470.7165.1548.0075.2177.4472.4785.3889.8090.56
    CPP-Net[43]94.5692.3589.7590.5987.4250.2273.0170.3656.7577.6179.8373.2888.3790.5590.74
    SwinUnet[28]94.9293.9989.2690.8285.1756.7168.0272.4857.5475.5679.5574.8188.8690.4691.40
    TransNuSeg[44]94.7892.9689.3487.8079.5853.3669.0471.4457.3775.6076.7776.2886.5583.8684.77
    ScribFormer[31]95.0093.2390.9890.1186.6257.5271.2973.6956.6677.8680.2474.1488.8490.7991.20
    YOHO[45]93.9291.8589.5990.1383.2051.0367.6065.1958.0671.3574.6071.2286.0889.7189.89
    OUR[46]95.0893.6090.2890.1086.4558.9268.6673.4155.0876.8678.5373.6288.5290.4191.22
    CSSNet[47]94.9692.8288.9287.5382.7055.7667.4573.1054.1676.6377.7772.0087.6889.6090.06
    本文方法95.4394.2091.2691.6787.0863.5272.1475.8059.8978.0580.8374.9388.3991.4391.75
    下载: 导出CSV 
    | 显示表格

    UNet[10]、Att-Unet[41]、Crosslink-Net[42]、CPP-Net[45]和YOHO[43]均为基于CNN的分割模型. Att-Unet通过在U-Net跳跃连接部分引入门控注意力模块, 提高模型对器官边界的感知能力. 相较于U-Net, Att-Unet在所有器官上的平均DSC值提升了0.9%. Crosslink-Net提出采用垂直和水平卷积核对长距离依赖关系进行建模. YOHO采用边界增强模块 (Boundary enhance block, BE)和边缘注意力模块 (Edge attention block, EA)提高模型捕获边缘特征的能力. 而CPP-Net则利用上下文增强模块 (Context enhancement module, CEM)和置信加权模块 (Confidence-based weighting module, CWM)扩大网络感受野及提高网络预测精度. 上述模型的表征能力受限于固定大小的卷积核, 无法建立足够的长距离依赖关系, 难以捕获形态复杂器官的特征. 从表2可以看到, 这些方法在胆囊、胰腺、十二指肠和结肠等形态复杂器官上取得的DSC值普遍较低. 为了增强模型的长距离建模能力, TransUnet[23]和UCTransNet[25]在CNN框架中引入了Transformer模块. 相较UNet[10]、Att-Unet[41]、Crosslink-Net[42], TransUnet[43]在多器官分割上的平均DSC值有所提升, 达80.32%. 然而, TransUNet仅在UNet架构的最深层引入Transformer, 缺乏对浅层细节信息的关注, 难以捕获目标边缘、小目标等细节信息. 从表3可以看到, TransUNet在轮廓一致性方面表现不佳, 在胆囊和十二指肠上取得的NSD值仅为36.12%和23.71%.

    图7给出了不同方法在WORD数据集上的部分2D切片结果比较. TransUnet缺乏对浅层结构中的边界、小目标等细节信息建立长距离依赖关系. 从图中可以看到, TransUnet易将胰腺误分割为十二指肠, 且其获取的器官分割边缘与金标准差异较大. 与TransUnet不同, UCTransNet在每层跳跃连接中均引入Transformer, 以提高网络的全局信息提取能力, 其在所有目标器官上的平均DSC、mIoU和NSD分别为81.64%、71.34%和69.78%. 在UCTransNet网络中, 卷积层与Transformer采用串联方式依次对输入特征建立局部和全局依赖关系. Transformer与卷积层的独立执行, 导致图像局部与全局信息无法进行深度交互与融合. 该串联结构难以充分挖掘形态复杂器官的内在联系, 使模型的整体特征捕获能力受限, 导致其无法生成综合、全面的特征. ScribFormer[31]和OUR[46]采用Transformer和CNN双编码器, 分别利用特征耦合单元 (Feature coupling units, FCU)和基于卷积注意的融合模块 (Fusion module, FM)构建网络间的信息通路, 融合全局和局部特征. 然而, FCU单元和FM模块仅在每一阶段的末端执行. Transformer和CNN之间缺乏深度信息交互, 易导致特征融合不充分及特征冗余, 难以捕捉器官间的复杂模式. 从表2 ~ 3可以看到, ScribFormer在胆囊、胰腺和十二指肠等结构复杂的器官上表现出较差分割精度. SwinUnet[28]、TransNuSeg[44]和CSSNet[47]则是完全基于Transformer的方法. 这类方法利用自注意力机制捕获全局特征, 缺乏对局部特征的充分关注, 难以综合、全面提取腹部CT图像的特征. 现有的一些研究也表明, 局部特征对视觉任务的理解十分重要[37, 38]. 从表1可以看到, SwinUnet和TransNuSeg的分割精度低于CNN-Transformer混合网络.

    图 7  不同方法在WORD数据集上的部分2D分割结果比较
    Fig. 7  Some segmentation results comparison of different models on the WORD dataset

    为了对腹部各器官的复杂依赖关系进行全面、综合建模, 本文提出了一种可同时捕获长、短距离依赖关系的交叉增强Transformer模块. CE transformer采用双路径结构同时提取图像局部和全局信息, 并引入密集交叉连接促进不同粒度信息的交互, 使模型生成更综合、全面的语义特征, 提高形状不规则、边界模糊、对比度低的器官的识别精度. 本文将CE transformer部署于整个网络的编解码路径中, 极大提高了模型同时从全局和局部视角对图像特征进行建模的能力. 如表1所示, 本文方法在WORD数据集15个腹部器官上取得的平均DSC、mIoU、NSD、HD、ASD和准确率均最优, 平均召回率次优, 表明本文方法获得的分割结果在轮廓和表面一致性上具有明显优势. 从表2 ~ 3可以看到, 这种优势对于形态复杂的器官如胆囊、胰腺和十二指肠更为明显. 如, 提出方法在胆囊上获得的DSC和NSD相较于UC TransNet分别提高了2.74%和14%, 在胰腺上分别提高了0.71% 和0.51%, 在十二指肠上则分别提高了0.56%和20.06%. 从图7中可以明显看到, 本文方法可有效分割十二指肠、胰腺等尺寸较小、形态复杂的器官, 分割结果与金标准的边界轮廓较为一致. 图8给出了本文方法分割结果的3D可视化显示. 本文方法通过深度融合不同粒度的特征信息, 能够建模器官内与器官间的复杂依赖关系, 可有效分个十二指肠、胰腺和胆囊等尺寸较小、褶皱繁多、结构交错的器官, 获取精细的解剖结构.

    图 8  本文方法在WORD数据集上的部分3D结果可视化展示
    Fig. 8  3D visualization of some segmentation results of our method on the WORD dataset
    2.4.2   Synapse数据集上的实验结果与比较

    Synapse数据集规模相对较小, 其分割目标包含主动脉、胆囊、左肾、右肾、肝脏、胰腺、脾脏和胃等8个器官. 表4列举了不同方法在所有目标器官上获得的平均DSC、HD和mIoU, 以及在各器官上取得的DSC值. 本文提出的CETransNet在平均DSC和mIoU上表现最佳. 此外, 提出方法在主动脉、胆囊、左肾、右肾、肝脏和脾脏分割中获得了最高的DSC值. 图9为不同方法在Synapse数据集上的部分2D切片结果比较. 本文方法将CE transformer部署于整个编解码路径中, 实现CT图像多层次特征提取, 有效捕获不同器官之间的复杂依赖关系, 提高对边界模糊和结构复杂器官的识别能力. 从图9中可以看到, 本文方法获取的分割目标更接近于分割金标准. 图10给出了本文方法分割结果的3D可视化展示. 可以看到, 其中的目标器官均被有效分割.

    表 4  不同方法在Synapse数据上的分割性能比较
    Table 4  Segmentation performance comparison of different methods on the Synapse dataset
    方法 出版/年份 平均 各器官DSC (%)
    DSC (%)$ \uparrow $ HD (mm)$ \downarrow $ mIoU (%)$ \uparrow $ 主动脉 胆囊 左肾 右肾 肝脏 胰腺 脾脏
    UNet[10] MICCAI/2015 70.11 44.69 59.39 84.00 56.70 72.41 62.64 86.98 48.73 81.48 67.96
    Att-Unet[41] Elsevier MIA/2019 71.70 34.47 61.38 82.61 61.94 76.07 70.42 87.54 46.70 80.67 67.66
    TransUNet[23] arXiv/2021 77.62 26.90 67.32 86.56 60.43 80.54 78.53 94.33 58.47 87.06 75.00
    UCTransNet[25] AAAI/2022 80.21 23.33 70.46 87.36 66.49 83.77 79.95 94.23 63.72 89.38 76.75
    Crosslink-Net[42] IEEE TIP/2022 76.60 18.20 64.83 86.25 53.35 84.62 79.63 92.72 58.56 86.17 71.49
    CPP-Net[43] IEEE TIP/2023 80.11 26.41 71.23 87.59 67.14 83.09 82.31 94.03 67.34 87.53 71.81
    SwinUnet[28] ECCV/2022 79.13 21.55 68.81 85.47 66.53 83.28 79.61 94.29 56.58 90.66 76.60
    TransNuSeg[44] MICCAI/2023 78.06 28.69 69.03 82.47 65.94 79.05 79.11 93.12 58.40 88.85 77.49
    ScribFormer[31] IEEE TMI/2024 80.08 20.78 70.63 87.48 65.15 86.90 82.09 94.26 60.48 88.93 75.37
    YOHO[45] IEEE TIP/2024 76.85 27.41 67.79 85.34 66.33 83.38 73.66 93.82 55.57 82.65 74.07
    OUR[46] MBEC/2023 80.06 27.54 69.72 88.32 65.96 87.02 82.50 94.31 60.23 88.41 73.76
    CSSNet[47] CMB/2024 78.75 29.81 68.01 86.80 64.12 82.54 79.04 94.05 58.98 89.47 75.04
    本文方法 81.94 22.54 71.42 89.79 67.97 88.54 84.12 94.56 63.09 91.56 75.90
    下载: 导出CSV 
    | 显示表格
    图 9  不同方法在Synapse数据集上的2D分割结果比较
    Fig. 9  Segmentation results comparison of different methods on the Synapse dataset
    图 10  本文方法在Synapse数据集上的一些3D结果可视化展示
    Fig. 10  3D visualization of some segmentation results of our method on the Synapse dataset

    为了验证提出方法的优势是否具有统计学意义, 本文在WORD数据集上重复了三次独立实验, 并采用独立样本t检验[49]对实验结果进行显著性检验. $ t $检验是一种统计学方法, 用于判断两个方法之间是否存在显著性差异. 在这个过程中, 假设两个方法的总体均值相等, 并计算该假设成立条件下的概率值, 即$ p $值. 当$ p $值小于显著性水平$ \alpha $时, 表示两个方法具有显著性差异. 此时需要考虑两类错误: 一类错误和二类错误. 一类错误指两个方法实际没有差异, 却认为存在差异. 二类错误指实际存在差异, 却认为不存在差异. 显著性水平α表示犯第一类错误的风险, 值越小表示第一类错误风险越小, 一般可取0.001、0.01、0.05或0.1等. 然而, $ \alpha $取值过小时, 会增加犯第二类错误的风险[49]. 为了平衡一类错误和二类错误, 本文参考同领域现有研究[25, 45, 50], 同样选择$ \alpha = 0.05 $作为显著性水平. 图11给出了不同方法的平均DSC得分及其标准偏差, 其中红色星号表示提出的模型与对应比较模型之间存在显著性差异 ($ p < 0.05 $). 可以看到, 相较于U-Net[10]、AttUNet[41]、TransUNet[23]、Crosslink-Net[42]、CPP-Net[43]、Swin-Unet[28]、TransNuSeg[44]、ScribFormer[31]、YOHO[45]、OUR[46]和CSSNet[47], 提出方法在DSC指标上具有显著优势. UCTransNet的$ p $值为0.097. 尽管提出方法与UCTransNet的分割性能之间未达到$ p<0.05 $的显著性差异, 两者的平均DSC值分别为82.42%和81.72%, 本文方法仍明显高于UCTransNet.

    图 11  不同方法在WORD数据集上的分割结果统计性能比较. 红色星号表示提出方法显著优于对比方法($ p < 0.05 $)
    Fig. 11  Statistical performance comparison of segmentation results on WORD database by different methods. The red star denotes that the proposed method significantly outperforms the comparison method($ p < 0.05 $)

    CE transformer在双路径结构中引入交叉连接以促进不同粒度信息的交互, 充分发挥了自注意力机制和卷积的优势. 为了验证CE transformer的有效性, 本文将其与其他特征提取模块进行比较, 包括Swin transformer[35]、CSWin transformer[36]、普通的$ 3\times 3 $卷积块以及ConvNeXt[51]块, 其具体结构如图12所示.

    图 12  不同特征提取模块的结构
    Fig. 12  The Structure of different feature extraction module

    为了评估CE transformer的性能, 在保持网络框架和训练条件不变的情况下, 将其替换为不同特征提取模块进行对比实验. 表5展示了采用不同特征提取模块的模型在Synapse数据集上的分割性能比较. 可以看到, 采用CE transformer的模型可在保持最低计算成本的同时获取最高的分割准确性. 这主要归因于CE transformer的双路径结构. 该结构通过特征分组有效减少网络的可训练参数. 此外, 在双路径结构中引入了密集交叉连接, 通过融合不同粒度的信息, 促使模型产生更综合、全面的特征表示, 提升模型对于结构复杂、形态多样器官的识别能力.

    表 5  不同特征提取模块的分割性能比较
    Table 5  Segmentation performance comparison on different feature extraction module
    特征提取模块FLOPS (G)$ \downarrow $Params (M)$ \downarrow $DSC (%)$ \uparrow $HD (mm)$ \downarrow $
    CE transformer6.546.2381.9422.54
    Swin transformer[35]11.2815.8479.9727.42
    CSWin transformer[36]11.2915.8780.3324.31
    卷积块15.2622.8479.5128.01
    ConvNeXt块[51]8.7511.3080.4823.39
    下载: 导出CSV 
    | 显示表格

    为进一步验证CE transformer的有效性, 对不同特征提取模块生成的特征图在目标和背景区域的响应强度进行了统计. 统计结果如图13图14所示. 从图中可以观察到, CE transformer在目标区域内可得到显著增强且更为一致的特征响应, 绝大多数像素的响应值均超过0.5, 而在背景区域的响应值则主要集中在0到0.4区间. 表明CE transformer具备更强的图像特征综合理解能力, 可有效区分目标和背景.

    图 13  不同特征提取模块生成的特征图在目标区域的强度分布
    Fig. 13  Intensity distribution of the target regions in the feature maps produced by applying different feature extraction modules
    图 14  不同特征提取模块生成的特征图在背景区域的强度分布
    Fig. 14  Intensity distribution of the background regions in the feature maps produced by applying different feature extraction modules

    图15给出了不同特征提取模块获得的一些特征图示例. 基于卷积的特征提取模块具有有限的感受野, 并且难以捕获狭长形器官的特征, 如列 (e)和 (f)所示. 虽然基于Transformer的模块, 如CSwin transformer和Swin transformer, 可以捕获长距离依赖关系, 但它们缺乏对局部细微特征的足够关注, 如列 (c)和 (d)所示. 本文提出的CE transformer可以充分利用卷积和自注意力机制的优势, 并通过引入双路径策略和密集交叉连接, 实现局部和全局特征的综合提取和深度融合. 从图15可以看到, CE transformer可以更有效地捕获具有不同形状和大小的器官特征, 并在目标器官上获得更强的响应.

    图 15  不同特征提取模块获取的特征图示例
    Fig. 15  Examples of feature maps extracted by different feature extraction modules

    为了讨论CE块中CE transformer的数目$ N $对模型性能的影响, 本文对网络编码器不同阶段采用不同$ N $值的情况进行了实验. 分割性能和计算成本如表6所示. 可以看到, 当$ N $值设置为0时, 编码器仅包含卷积下采样模块, 网络无法有效提取图像特征, 导致分割性能急剧下降. 在一定范围内, 随着$ N $值的增加, 模型学习能力与分割准确性提升, 但也带来了参数和浮点运算次数 (FLOPS)的增加. 随着参数量的增加, 模型的拟合能力也会增强, 且当$ N $值过大时, 容易导致过拟合, 即模型在训练数据上表现良好, 但在测试数据上表现较差. 从表6可以看到, 当$ N $值过高时, 模型的参数量和计算量急剧增加, 但性能却未见提升. 为了平衡性能和计算资源, 本文将阶段1 ~ 4中的$ N $值分别设置为1、2、4和2.

    表 6  采用不同$ N $值的分割性能比较
    Table 6  Segmentation performance comparison of applying different $ N $
    $ N $ FLOPS (G)$ \downarrow $ Params (M)$ \downarrow $ DSC (%)$ \uparrow $ HD (mm)$ \downarrow $
    阶段1 阶段2 阶段3 阶段4
    0 0 0 0 4.17 3.16 73.26 43.46
    1 1 1 1 5.16 4.59 77.43 35.78
    2 2 2 2 6.12 6.02 79.52 24.22
    1 2 4 2 6.54 6.23 81.94 22.54
    1 3 6 3 7.15 8.22 81.33 24.89
    2 4 8 4 8.33 9.92 81.43 25.42
    2 6 12 6 10.10 13.28 81.67 23.11
    下载: 导出CSV 
    | 显示表格

    CE transformer引入密集交叉连接促进双路径结构之间不同粒度信息的交互. 为了讨论交叉连接对分割性能的影响, 我们比较了多种不同的连接策略, 包括:

    1) 不引入交叉连接, 即无连接, 如图16(a)所示.

    图 16  采用不同交叉连接的CE transformer结构
    Fig. 16  The CE transformer with different cross-connection configurations

    2) 仅在CF模块上引入交叉连接, 即CF连接, 如图16(b)所示.

    3) 仅在PF模块上引入交叉连接, 即PF连接, 如图16(c)所示.

    4) 在CF和PF模块上同时引入交叉连接, 即全连接, 如图16(d)所示.

    表7展示了不同交叉连接策略在Synapse数据集上的分割性能比较. 在没有采用任何交叉连接的情况下, 模型表现最差, 仅获得79.97%的平均DSC值. 密集交叉连接允许不同路径特征在多个层级上进行信息交换, 确保全局和局部特征的充分交互与融合. 从表7中可以看到, 将交叉连接分别引入CF或PF模块时, 模型的性能有所提升. 而当交叉连接同时引入CF和PF时, 模型性能最佳.

    表 7  不同交叉连接策略的分割性能比较
    Table 7  Segmentation performance comparison of different cross-connection configurations
    交叉连接策略DSC (%)$ \uparrow $HD (mm)$ \downarrow $mIoU (%)$ \uparrow $
    无连接79.9727.8170.04
    CF连接80.8723.0770.83
    PF连接80.1924.2870.76
    全连接81.9422.5471.42
    下载: 导出CSV 
    | 显示表格

    CE transformer由SA、FA、CF和PF模块组成, 采用双路径结构同时提取局部和全局特征, 并通过引入密集交叉连接促进不同粒度信息的深度交互与融合. 为了验证CE transformer中各子模块的有效性, 本文设计了4组消融实验进行比较. 第1组实验中的模型采用仅包含SA模块的CE transformer作为特征提取单元, 而第2 ~ 4组实验则向模型中的CE transformer逐步增加FA、CF和PF模块, 所有实验均在Synapse数据集上执行, 实验结果如表8所示. 当CE transformer中仅包括SA模块时, 模型过分依赖于自注意力机制建模全局上下文, 缺乏对小目标、边界等局部信息的关注, 表现出较高的边界误差, 平均HD指标高达40.70 mm. 引入FA模块后, 模型增强了局部特征的提取能力, 性能得到大幅提升, 但全局和局部信息缺乏交互与融合, 难以捕捉多器官的复杂依赖关系. CF模块在不同路径之间建立了交叉连接机制, 可促进全局和局部特征交互与融合, 提高模型对复杂上下文关系的建模能力, 从表8可以看到, 随着CF模块的引入, 模型的平均DSC指标提高了1.83%. 进一步增加PF模块, 可形成多层级、密集的交叉连接机制, 促进不同粒度信息的深度融合, 增强模型对复杂结构的综合理解, 模型取得最优性能.

    表 8  CE transformer中各子模块对网络性能的影响
    Table 8  Impact of each sub-module in CE transformer on network performance
    实验序号SAFACFPFDSC (%)$ \uparrow $HD (mm)$ \downarrow $
    1$ \checkmark$74.5940.70
    2$ \checkmark$$ \checkmark$78.4826.13
    3$ \checkmark$$ \checkmark$$ \checkmark$80.3123.31
    4$ \checkmark$$ \checkmark$$ \checkmark$$ \checkmark$81.9222.54
    下载: 导出CSV 
    | 显示表格

    CNN模型在处理形态复杂器官时, 受限于固定大小卷积核, 难以建立足够的长距离依赖关系. 鉴于Transformer在全局信息提取上的优势, 一些方法将其引入CNN模型的编码、解码或跳跃连接等结构. 由于卷积层与Transformer的独立执行, 图像局部与全局信息无法进行深度融合, 从而限制了模型综合特征的捕获能力. 针对上述问题, 本文提出了一种基于交叉增强Transformer的腹部多器官分割网络CE TransNet. CE transformer采用双路径结构, 结合卷积与Transformer优势, 同时建模特征的长、短距离依赖关系, 提高模型对复杂依赖关系的表征能力. 在双路径结构中, 引入密集交叉连接促进不同粒度信息的交互与融合, 促使模型产生更综合、全面的特征. CE transformer部署于CE TransNet整个编解码路径, 全面捕获CT图像复杂的上下文关系. 通过在WORD和Synapse两个腹部CT多器官数据集上进行评估发现, 本文方法表现出明显优势, 取得更精确和稳定的分割结果, 超过现有最先进的卷积与Transformer分割网络.

  • 图  1  CE TransNet网络结构示意图

    Fig.  1  The network architecture of CE TransNet

    图  2  CE transformer结构

    Fig.  2  The structure of CE transformer

    图  3  焦点调制层结构

    Fig.  3  The structure of focal modulation layer

    图  4  卷积下采样模块

    Fig.  4  Convolutional downsampling module

    图  5  门控注意力模块

    Fig.  5  Attention gate module

    图  6  卷积上采样模块

    Fig.  6  Convolutional upsampling module

    图  7  不同方法在WORD数据集上的部分2D分割结果比较

    Fig.  7  Some segmentation results comparison of different models on the WORD dataset

    图  8  本文方法在WORD数据集上的部分3D结果可视化展示

    Fig.  8  3D visualization of some segmentation results of our method on the WORD dataset

    图  9  不同方法在Synapse数据集上的2D分割结果比较

    Fig.  9  Segmentation results comparison of different methods on the Synapse dataset

    图  10  本文方法在Synapse数据集上的一些3D结果可视化展示

    Fig.  10  3D visualization of some segmentation results of our method on the Synapse dataset

    图  11  不同方法在WORD数据集上的分割结果统计性能比较. 红色星号表示提出方法显著优于对比方法($ p < 0.05 $)

    Fig.  11  Statistical performance comparison of segmentation results on WORD database by different methods. The red star denotes that the proposed method significantly outperforms the comparison method($ p < 0.05 $)

    图  12  不同特征提取模块的结构

    Fig.  12  The Structure of different feature extraction module

    图  13  不同特征提取模块生成的特征图在目标区域的强度分布

    Fig.  13  Intensity distribution of the target regions in the feature maps produced by applying different feature extraction modules

    图  14  不同特征提取模块生成的特征图在背景区域的强度分布

    Fig.  14  Intensity distribution of the background regions in the feature maps produced by applying different feature extraction modules

    图  15  不同特征提取模块获取的特征图示例

    Fig.  15  Examples of feature maps extracted by different feature extraction modules

    图  16  采用不同交叉连接的CE transformer结构

    Fig.  16  The CE transformer with different cross-connection configurations

    表  1  不同方法在WORD数据集上的平均分割性能比较

    Table  1  Average segmentation performance comparison of different methods on the WORD dataset

    方法 出版/年份 DSC (%)$ \uparrow $ mIoU (%)$ \uparrow $ NSD (%)$ \uparrow $ HD (mm)$ \downarrow $ ASD (mm)$ \downarrow $ Recall (%)$ \uparrow $ Precision (%)$ \uparrow $
    UNet[10] MICCAI/2015 76.93 65.35 62.03 17.16 4.44 85.13 78.53
    Att-Unet[41] Elsevier MIA/2019 77.83 66.74 65.41 16.43 3.91 84.05 83.86
    TransUNet[23] arXiv/2021 80.32 69.95 69.29 20.31 5.51 87.98 80.92
    UCTransNet[25] AAAI/2022 81.64 71.34 69.78 11.30 2.67 86.10 84.16
    Crosslink-Net[42] IEEE TIP/2022 78.99 68.15 65.33 13.13 2.88 81.62 83.10
    CPP-Net[43] IEEE TIP/2023 80.36 70.04 70.76 12.82 2.98 85.31 84.53
    SwinUnet[28] ECCV/2022 80.64 69.82 69.09 15.23 4.12 82.93 80.40
    TransNuSeg[44] MICCAI/2023 78.63 68.31 67.73 14.41 2.89 85.78 80.06
    ScribFormer[31] IEEE TMI/2024 81.21 71.07 73.08 11.78 2.91 85.34 84.43
    YOHO[45] IEEE TIP/2024 78.23 67.45 65.67 13.68 3.29 81.86 81.97
    OUR[46] MBEC/2023 80.71 70.06 71.38 12.06 2.92 87.38 84.77
    CSSNet[47] CMB/2024 79.41 69.02 67.29 14.69 3.16 86.38 80.32
    本文方法 82.42 72.48 74.34 10.91 2.62 86.47 85.35
    下载: 导出CSV

    表  3  不同方法在WORD数据集各器官上的NSD (%)比较

    Table  3  NSD (%) score comparison of different methods on the WORD dataset

    方法肝脏脾脏左肾右肾胆囊食管胰腺十二指肠 结肠 直肠膀胱左股骨右股骨
    UNet[10]74.1370.2468.6669.6657.0947.4350.9958.9341.2155.6360.8554.8672.7072.1075.94
    Att-UNet[41]81.0182.4574.5277.7264.7342.4566.9261.3744.5657.8063.4953.6770.7565.9073.88
    TransUNet[23]82.3686.5581.2381.5471.6736.1269.8665.2323.7162.0667.1560.1881.9784.8084.97
    UCTransNet[25]89.2786.5284.8577.4173.7750.3858.7468.6330.8164.4554.6161.1576.7985.0684.27
    Crosslink-Net[42]79.6584.0279.9580.5265.0935.6766.8831.5538.2560.1263.8256.3277.1379.6681.33
    CPP-Net[43]81.2483.7780.1681.4271.8548.9770.8060.5945.1963.4867.2159.6079.7983.8883.44
    SwinUnet[28]83.1385.7981.8373.9661.2943.8668.5068.0049.5863.7158.2560.6478.3079.4280.33
    TransNuSeg[44]79.7877.3778.1878.5060.6545.1570.9668.3547.7861.6960.9858.8975.9975.2376.48
    ScribFormer[31]82.3484.1983.1981.5170.1447.8871.3166.4948.5163.5966.8660.2580.0284.4384.86
    YOHO[45]77.1480.1676.2377.7562.8849.1361.6253.6048.5753.5759.2653.0174.2179.3078.65
    OUR[46]82.6584.5582.2181.8170.0747.5770.1665.8848.5164.5066.1860.0279.6182.6984.32
    CSSNet[47]81.3382.8380.4580.4168.1945.7068.8663.6947.7462.6564.1059.1875.0078.6776.56
    本文方法84.0286.7082.1282.9173.9364.3870.6469.1450.8765.1468.1261.9782.3486.5086.29
    下载: 导出CSV

    表  2  不同方法在WORD数据集各器官上的DSC (%)比较

    Table  2  DSC (%) score comparison of different methods on the WORD dataset

    方法肝脏脾脏左肾右肾胆囊食管胰腺十二指肠 结肠 直肠膀胱左股骨右股骨
    UNet[10]93.0988.0587.7989.1779.2752.6359.2570.0552.9671.6276.4471.5985.5487.5388.99
    Att-Unet[41]94.6792.2888.0989.3582.4343.5370.1269.3254.9074.1177.8072.1085.1685.2888.33
    TransUNet[23]94.8093.1990.0990.2587.0448.3072.6673.2652.2177.1180.0074.4089.3190.9791.24
    UCTransNet[25]94.6392.5890.1989.3887.3460.7873.9575.0959.3376.7478.7174.6089.0791.0091.15
    Crosslink-Net[42]94.5292.9890.8191.5383.8956.4470.7165.1548.0075.2177.4472.4785.3889.8090.56
    CPP-Net[43]94.5692.3589.7590.5987.4250.2273.0170.3656.7577.6179.8373.2888.3790.5590.74
    SwinUnet[28]94.9293.9989.2690.8285.1756.7168.0272.4857.5475.5679.5574.8188.8690.4691.40
    TransNuSeg[44]94.7892.9689.3487.8079.5853.3669.0471.4457.3775.6076.7776.2886.5583.8684.77
    ScribFormer[31]95.0093.2390.9890.1186.6257.5271.2973.6956.6677.8680.2474.1488.8490.7991.20
    YOHO[45]93.9291.8589.5990.1383.2051.0367.6065.1958.0671.3574.6071.2286.0889.7189.89
    OUR[46]95.0893.6090.2890.1086.4558.9268.6673.4155.0876.8678.5373.6288.5290.4191.22
    CSSNet[47]94.9692.8288.9287.5382.7055.7667.4573.1054.1676.6377.7772.0087.6889.6090.06
    本文方法95.4394.2091.2691.6787.0863.5272.1475.8059.8978.0580.8374.9388.3991.4391.75
    下载: 导出CSV

    表  4  不同方法在Synapse数据上的分割性能比较

    Table  4  Segmentation performance comparison of different methods on the Synapse dataset

    方法 出版/年份 平均 各器官DSC (%)
    DSC (%)$ \uparrow $ HD (mm)$ \downarrow $ mIoU (%)$ \uparrow $ 主动脉 胆囊 左肾 右肾 肝脏 胰腺 脾脏
    UNet[10] MICCAI/2015 70.11 44.69 59.39 84.00 56.70 72.41 62.64 86.98 48.73 81.48 67.96
    Att-Unet[41] Elsevier MIA/2019 71.70 34.47 61.38 82.61 61.94 76.07 70.42 87.54 46.70 80.67 67.66
    TransUNet[23] arXiv/2021 77.62 26.90 67.32 86.56 60.43 80.54 78.53 94.33 58.47 87.06 75.00
    UCTransNet[25] AAAI/2022 80.21 23.33 70.46 87.36 66.49 83.77 79.95 94.23 63.72 89.38 76.75
    Crosslink-Net[42] IEEE TIP/2022 76.60 18.20 64.83 86.25 53.35 84.62 79.63 92.72 58.56 86.17 71.49
    CPP-Net[43] IEEE TIP/2023 80.11 26.41 71.23 87.59 67.14 83.09 82.31 94.03 67.34 87.53 71.81
    SwinUnet[28] ECCV/2022 79.13 21.55 68.81 85.47 66.53 83.28 79.61 94.29 56.58 90.66 76.60
    TransNuSeg[44] MICCAI/2023 78.06 28.69 69.03 82.47 65.94 79.05 79.11 93.12 58.40 88.85 77.49
    ScribFormer[31] IEEE TMI/2024 80.08 20.78 70.63 87.48 65.15 86.90 82.09 94.26 60.48 88.93 75.37
    YOHO[45] IEEE TIP/2024 76.85 27.41 67.79 85.34 66.33 83.38 73.66 93.82 55.57 82.65 74.07
    OUR[46] MBEC/2023 80.06 27.54 69.72 88.32 65.96 87.02 82.50 94.31 60.23 88.41 73.76
    CSSNet[47] CMB/2024 78.75 29.81 68.01 86.80 64.12 82.54 79.04 94.05 58.98 89.47 75.04
    本文方法 81.94 22.54 71.42 89.79 67.97 88.54 84.12 94.56 63.09 91.56 75.90
    下载: 导出CSV

    表  5  不同特征提取模块的分割性能比较

    Table  5  Segmentation performance comparison on different feature extraction module

    特征提取模块FLOPS (G)$ \downarrow $Params (M)$ \downarrow $DSC (%)$ \uparrow $HD (mm)$ \downarrow $
    CE transformer6.546.2381.9422.54
    Swin transformer[35]11.2815.8479.9727.42
    CSWin transformer[36]11.2915.8780.3324.31
    卷积块15.2622.8479.5128.01
    ConvNeXt块[51]8.7511.3080.4823.39
    下载: 导出CSV

    表  6  采用不同$ N $值的分割性能比较

    Table  6  Segmentation performance comparison of applying different $ N $

    $ N $ FLOPS (G)$ \downarrow $ Params (M)$ \downarrow $ DSC (%)$ \uparrow $ HD (mm)$ \downarrow $
    阶段1 阶段2 阶段3 阶段4
    0 0 0 0 4.17 3.16 73.26 43.46
    1 1 1 1 5.16 4.59 77.43 35.78
    2 2 2 2 6.12 6.02 79.52 24.22
    1 2 4 2 6.54 6.23 81.94 22.54
    1 3 6 3 7.15 8.22 81.33 24.89
    2 4 8 4 8.33 9.92 81.43 25.42
    2 6 12 6 10.10 13.28 81.67 23.11
    下载: 导出CSV

    表  7  不同交叉连接策略的分割性能比较

    Table  7  Segmentation performance comparison of different cross-connection configurations

    交叉连接策略DSC (%)$ \uparrow $HD (mm)$ \downarrow $mIoU (%)$ \uparrow $
    无连接79.9727.8170.04
    CF连接80.8723.0770.83
    PF连接80.1924.2870.76
    全连接81.9422.5471.42
    下载: 导出CSV

    表  8  CE transformer中各子模块对网络性能的影响

    Table  8  Impact of each sub-module in CE transformer on network performance

    实验序号SAFACFPFDSC (%)$ \uparrow $HD (mm)$ \downarrow $
    1$ \checkmark$74.5940.70
    2$ \checkmark$$ \checkmark$78.4826.13
    3$ \checkmark$$ \checkmark$$ \checkmark$80.3123.31
    4$ \checkmark$$ \checkmark$$ \checkmark$$ \checkmark$81.9222.54
    下载: 导出CSV
  • [1] 方超伟, 李雪, 李钟毓, 焦李成, 张鼎文. 基于双模型交互学习的半监督医学图像分割. 自动化学报, 2023, 49(4): 805−819

    Fang Chao-Wei, Li Xue, Li Zhong-Yu, Jiao Li-Cheng, Zhang Ding-Wen. Interactive dual-model learning for semi-supervised medical image segmentation. Acta Automatica Sinica, 2023, 49(4): 805−819
    [2] Ji Y F, Bai H T, Ge C J, Yang J, Zhu Y, Zhang R M, et al. AMOS: A large-scale abdominal multi-organ benchmark for versatile medical image segmentation. In: Proceedings of the 36th International Conference on Neural Information Processing Systems. New Orleans, USA: Curran Associates Inc., 2019. Article No. 2661
    [3] Ma J, Zhang Y, Gu S, Zhu C, Ge C, Zhang Y C, et al. AbdomenCT-1K: Is abdominal organ segmentation a solved problem?. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2022, 44(10): 6695−6714 doi: 10.1109/TPAMI.2021.3100536
    [4] 毕秀丽, 陆猛, 肖斌, 李伟生. 基于双解码U型卷积神经网络的胰腺分割. 软件学报, 2022, 33(5): 1947−1958

    Bi Xiu-Li, Lu Meng, Xiao Bin, Li Wei-Sheng. Pancreas segmentation based on dual-decoding U-net. Journal of Software, 2022, 33(5): 1947−1958
    [5] Rayed E, Islam S M S, Niha S I, Jim J R, Kabir M, Mridha M F. Deep learning for medical image segmentation: State-of-the-art advancements and challenges. Informatics in Medicine Unlocked, 2024, 47: Article No. 101504 doi: 10.1016/j.imu.2024.101504
    [6] Li Z W, Liu F, Yang W J, Peng S H, Zhou J. A survey of convolutional neural networks: Analysis, applications, and prospects. IEEE Transactions on Neural Networks and Learning Systems, 2022, 33(12): 6999−7019 doi: 10.1109/TNNLS.2021.3084827
    [7] Yao X J, Wang X Y, Wang S H, Zhang Y D. A comprehensive survey on convolutional neural network in medical image analysis. Multimedia Tools and Applications, 2022, 81(29): 41361−41405 doi: 10.1007/s11042-020-09634-7
    [8] Sarvamangala D R, Kulkarni R V. Convolutional neural networks in medical image understanding: A survey. Evolutionary Intelligence, 2022, 15(1): 1−22 doi: 10.1007/s12065-020-00540-3
    [9] Long J, Shelhamer E, Darrell T. Fully convolutional networks for semantic segmentation. In: Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Boston, USA: IEEE, 2015. 3431−3440
    [10] Ronneberger O, Fischer P, Brox T. U-Net: Convolutional networks for biomedical image segmentation. In: Proceedings of the 18th International Conference on Medical Image Computing and Computer-Assisted Intervention. Munich, Germany: Springer, 2015. 234−241
    [11] 殷晓航, 王永才, 李德英. 基于U-Net结构改进的医学影像分割技术综述. 软件学报, 2021, 32(2): 519−550

    Yin Xiao-Hang, Wang Yong-Cai, Li De-Ying. Suvery of medical image segmentation technology based on U-Net structure improvement. Journal of Software, 2021, 32(2): 519−550
    [12] Vaswani A, Shazeer N, Parmar N, Uszkoreit J, Jones L, Gomez A N, et al. Attention is all you need. In: Proceedings of the 31st International Conference on Neural Information Processing Systems. Long Beach, USA: Curran Associates Inc., 2017. 6000−6010
    [13] Dosovitskiy A, Beyer L, Kolesnikov A, Weissenborn D, Zhai X H, Unterthiner T, et al. An image is worth 16x16 words: Transformers for image recognition at scale. In: Proceedings of the 9th International Conference on Learning Representations. OpenReview.net, 2021. (查阅网上资料, 未找到对应的出版地信息, 请确认)
    [14] Conze P H, Andrade-Miranda G, Singh V K, Jaouen V, Visvikis D. Current and emerging trends in medical image segmentation with deep learning. IEEE Transactions on Radiation and Plasma Medical Sciences, 2023, 7(6): 545−569 doi: 10.1109/TRPMS.2023.3265863
    [15] Yao W J, Bai J J, Liao W, Chen Y H, Liu M J, Xie Y. From CNN to transformer: A review of medical image segmentation models. Journal of Imaging Informatics in Medicine, 2024, 37(4): 1529−1547 doi: 10.1007/s10278-024-00981-7
    [16] Han K, Wang Y H, Chen H T, Chen X H, Guo J Y, Liu Z H, et al. A survey on vision transformer. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2023, 45(1): 87−110 doi: 10.1109/TPAMI.2022.3152247
    [17] Parvaiz A, Khalid M A, Zafar R, Ameer H, Ali M, Fraz M M. Vision Transformers in medical computer vision-A contemplative retrospection. Engineering Applications of Artificial Intelligence, 2023, 122: Article No. 106126 doi: 10.1016/j.engappai.2023.106126
    [18] Kirillov A, Mintun E, Ravi N, Mao H Z, Rolland C, Gustafson L, et al. Segment anything. arXiv preprint arXiv: 2304.02643, 2023.
    [19] Mazurowski M A, Dong H Y, Gu H X, Yang J C, Konz N, Zhang Y X. Segment anything model for medical image analysis: An experimental study. Medical Image Analysis, 2023, 89: Article No. 102918 doi: 10.1016/j.media.2023.102918
    [20] He S, Bao R N, Li J P, Grant P E, Ou Y M. Accuracy of segment-anything model (SAM) in medical image segmentation tasks. arXiv preprint arXiv: 2304.09324v1, 2023.
    [21] Zhang K D, Liu D. Customized segment anything model for medical image segmentation. arXiv preprint arXiv: 2304.13785, 2023.
    [22] Xiao H G, Li L, Liu Q Y, Zhu X H, Zhang Q H. Transformers in medical image segmentation: A review. Biomedical Signal Processing and Control, 2023, 84: Article No. 104791 doi: 10.1016/j.bspc.2023.104791
    [23] Chen J N, Lu Y Y, Yu Q H, Luo X D, Adeli E, Wang Y, et al. TransUNet: Transformers make strong encoders for medical image segmentation. arXiv preprint arXiv: 2102.04306, 2021.
    [24] Wang W X, Chen C, Ding M, Yu H, Zha S, Li J Y. TransBTS: Multimodal brain tumor segmentation using transformer. In: Proceedings of the 24th International Conference on Medical Image Computing and Computer Assisted Intervention. Strasbourg, France: Springer, 2021. 109−119
    [25] Wang H N, Cao P, Wang J Q, Zaiane O R. UCTransNet: Rethinking the skip connections in U-Net from a channel-wise perspective with transformer. In: Proceedings of the 36th AAAI Conference on Artificial Intelligence. Vancouver, Canada: AAAI, 2022. 2441−2449 (查阅网上资料, 未找到对应的出版地信息, 请确认)
    [26] Xie E Z, Wang W H, Yu Z D, Anandkumar A, Alvarez J M, Luo P. SegFormer: Simple and efficient design for semantic segmentation with transformers. In: Proceedings of the 35th International Conference on Neural Information Processing Systems. New Orleans, USA: Curran Associates Inc., 2021. Article No. 924 (查阅网上资料, 未找到对应的出版地信息, 请确认)
    [27] Rahman M, Marculescu R. Medical image segmentation via cascaded attention decoding. In: Proceedings of the IEEE/CVF Winter Conference on Applications of Computer Vision. Waikoloa, USA: IEEE, 2023. 6222−6231
    [28] Cao H, Wang Y Y, Chen J, Jiang D S, Zhang X P, Tian Q, et al. Swin-unet: Unet-like pure transformer for medical image segmentation. In: Proceedings of the Computer Vision – ECCV 2022 Workshops. Tel Aviv, Israel: Springer, 2023. 205−218
    [29] Valanarasu J M J, Oza P, Hacihaliloglu I, Patel V M. Medical transformer: Gated axial-attention for medical image segmentation. In: Proceedings of the 24th International Conference on Medical Image Computing and Computer Assisted Intervention. Strasbourg, France: Springer, 2021. 36−46
    [30] Huang X H, Deng Z F, Li D D, Yuan X G, Fu Y. MISSFormer: An effective transformer for 2D medical image segmentation. IEEE Transactions on Medical Imaging, 2023, 42(5): 1484−1494 doi: 10.1109/TMI.2022.3230943
    [31] Li Z H, Zheng Y, Shan D D, Yang S Z, Li Q D, Wang B Z, et al. ScribFormer: Transformer makes CNN work better for scribble-based medical image segmentation. IEEE Transactions on Medical Imaging, 2024, 43(6): 2254−2265 doi: 10.1109/TMI.2024.3363190
    [32] Yao M, Zhang Y Z, Liu G F, Pang D. SSNet: A novel transformer and CNN hybrid network for remote sensing semantic segmentation. IEEE Journal of Selected Topics in Applied Earth Observations and Remote Sensing, 2024, 17: 3023−3037 doi: 10.1109/JSTARS.2024.3349657
    [33] Xu G A, Jia W J, Wu T, Chen L G, Gao G W. HAFormer: Unleashing the power of hierarchy-aware features for lightweight semantic segmentation. IEEE Transactions on Image Processing, 2024, 33: 4202−4214 doi: 10.1109/TIP.2024.3425048
    [34] Panayides A S, Amini A, Filipovic N D, Sharma A, Tsaftaris S A, Young A, et al. AI in medical imaging informatics: Current challenges and future directions. IEEE Journal of Biomedical and Health Informatics, 2020, 24(7): 1837−1857 doi: 10.1109/JBHI.2020.2991043
    [35] Liu Z, Lin Y T, Cao Y, Hu H, Wei Y X, Zhang Z, et al. Swin transformer: Hierarchical vision transformer using shifted windows. In: Proceedings of the IEEE/CVF International Conference on Computer Vision. Montreal, Canada: IEEE, 2021. 10012−10022
    [36] Dong X Y, Bao J M, Chen D D, Zhang W M, Yu N H, Yuan L, et al. CSWin transformer: A general vision transformer backbone with cross-shaped windows. In: Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. New Orleans, USA: IEEE, 2022. 12124−12134
    [37] Yang J W, Li C Y, Dai X Y, Gao J F. Focal modulation networks. In: Proceedings of the 36th International Conference on Neural Information Processing Systems. New Orleans, USA: Curran Associates Inc., 2022. Article No. 304
    [38] Woo S, Debnath S, Hu R H, Chen X L, Liu Z, Kweon I S, et al. ConvNeXt V2: Co-designing and scaling ConvNets with masked autoencoders. In: Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. Vancouver, Canada: IEEE, 2023. 16133−16142
    [39] Luo X D, Liao W J, Xiao J H, Chen J N, Song T, Zhang X F, et al. WORD: A large scale dataset, benchmark and clinical applicable study for abdominal organ segmentation from CT image. Medical Image Analysis, 2022, 82: Article No. 102642 doi: 10.1016/j.media.2022.102642
    [40] Synapse多器官分割数据集[Online], available: https://www.synapse.org/#!Synapse:syn3193805/wiki/89480, 2023年5月13日. (查阅网上资料, 请核对网址与文献是否相符)

    Synapse multi-organ segmentation dataset [Online], available: https://www.synapse.org/#!Synapse:syn3193805/wiki/89480, May 13, 2023.
    [41] Oktay O, Schlemper J, Le Folgoc L, Lee M, Heinrich M, Misawa K, et al. Attention U-Net: Learning where to look for the pancreas. arXiv preprint arXiv: 1804.03999, 2018.
    [42] Yu Q, Qi L, Gao Y, Wang W Z, Shi Y H. Crosslink-Net: Double-branch encoder network via fusing vertical and horizontal convolutions for medical image segmentation. IEEE Transactions on Image Processing, 2022, 31: 5893−5908 doi: 10.1109/TIP.2022.3203223
    [43] Chen S C, Ding C X, Liu M F, Cheng J, Tao D C. CPP-net: Context-aware polygon proposal network for nucleus segmentation. IEEE Transactions on Image Processing, 2023, 32: 980−994 doi: 10.1109/TIP.2023.3237013
    [44] He Z Q, Unberath M, Ke J, Shen Y Q. TransNuSeg: A lightweight multi-task transformer for nuclei segmentation. In: Proceedings of the 26th International Conference on Medical Image Computing and Computer Assisted Intervention. Vancouver, Canada: Springer, 2023. 206−215
    [45] Li H P, Liu D R, Zeng Y, Liu S C, Gan T, Rao N N, et al. Single-image-based deep learning for segmentation of early esophageal cancer lesions. IEEE Transactions on Image Processing, 2024, 33: 2676−2688 doi: 10.1109/TIP.2024.3379902
    [46] Hong Z F, Chen M Z, Hu W J, Yan S Y, Qu A P, Chen L N, et al. Dual encoder network with transformer-CNN for multi-organ segmentation. Medical & Biological Engineering & Computing, 2023, 61(3): 661−671
    [47] Shao Y Q, Zhou K Y, Zhang L C. CSSNet: Cascaded spatial shift network for multi-organ segmentation. Computers in Biology and Medicine, 2024, 179: Article No. 107955
    [48] Seidlitz S, Sellner J, Odenthal J, Özdemir B, Studier-Fischer A, Knödler S, et al. Robust deep learning-based semantic organ segmentation in hyperspectral images. Medical Image Analysis, 2022, 80: Article No. 102488 doi: 10.1016/j.media.2022.102488
    [49] Gravetter F J, Wallnau L B, Forzano L A B, Witnauer J E. Essentials of Statistics for the Behavioral Sciences (Tenth edition). Australia: Cengage Learning, 2021. 326−333
    [50] Zhou H Y, Gou J S, Zhang Y H, Han X G, Yu L Q, Wang L S, et al. nnFormer: Volumetric medical image segmentation via a 3D transformer. IEEE Transactions on Image Processing, 2023, 32: 4036−4045 doi: 10.1109/TIP.2023.3293771
    [51] Liu Z, Mao H Z, Wu C Y, Feichtenhofer C, Darrell T, Xie S N. A ConvNet for the 2020s. In: Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. New Orleans, USA: IEEE, 2022. 11976−11986
  • 加载中
计量
  • 文章访问数:  80
  • HTML全文浏览量:  41
  • 被引次数: 0
出版历程
  • 收稿日期:  2024-07-15
  • 录用日期:  2024-12-23
  • 网络出版日期:  2025-01-24

目录

/

返回文章
返回