-
摘要: 基于深度学习的表面缺陷检测技术是工业上的一项重要应用, 而缺陷图像数据集质量对缺陷检测性能有重要影响. 为解决实际工业生产过程中缺陷样本获取成本高、缺陷数据量少的痛点, 提出了一种基于去噪扩散概率模型(Denoising diffusion probabilistic model, DDPM)的缺陷图像生成方法. 该方法在训练过程中加强了模型对缺陷部位和无缺陷背景的差异化学习. 在生成过程中通过缺陷控制模块对生成缺陷的类别、形态、显著性等特征进行精准控制, 通过背景融合模块, 能将缺陷在不同的无缺陷背景上进行迁移, 大大降低新背景上缺陷样本的获取难度. 实验验证了该模型的缺陷控制和缺陷迁移能力, 其生成结果能有效扩充训练数据集, 提升下游缺陷检测任务的准确率.Abstract: Surface defect detection technology based on deep learning is an important application in industry and the quality of defect image dataset has a significant impact on defect detection performance. A defect image generation method based on denoising diffusion probabilistic model (DDPM) is designed to address the pain points of high cost of obtaining defect samples and low amount of defect data in actual industrial production processes. This method enhances the model's differential learning of defect locations and defect free backgrounds during the training process. Through the defect control module during the generation process, this method accurately controls the category, morphology, saliency and other features of generated defects. Through the background fusion module, defects can be migrated on different defect free backgrounds, which greatly reducing the difficulty of obtaining defect samples on new backgrounds. The experiment has verified the defect control and defect migration capabilities of the model, and its generated results can effectively expand the training dataset and improve the accuracy of downstream defect detection tasks.
-
Key words:
- Data augmentation /
- dataset expansion /
- defect image generation /
- deep learning
-
近年来随着深度学习技术在计算机视觉领域的不断发展, 越来越多的行业开始使用该技术来解决一些譬如表面缺陷检测[1−3]、医学图像检测[4−6]、目标搜索识别[7−10]等的行业内问题. 深度学习摒弃了人工对图像的数据特征进行描述的过程, 转而使用大量的训练数据使模型自主学习到图像不同维度的特征, 进而完成对图像的感知. 但当训练数据较少时, 模型容易出现数据不均衡、过拟合等问题, 严重影响模型性能[11].
在工业缺陷检测领域, 缺陷数据集的收集与制作是不可规避的难题. 由于工业生产过程中良品率高, 表面有缺陷的样本数量总体偏少, 收集到的少量缺陷样本难以囊括足够的缺陷特征[12]. 此外相比于缺陷特征明显的样本, 形态较小、显著性较弱的临界缺陷在缺陷样本中占比更低[13], 且在人工判定时容易遗漏[14], 收集更为困难. 总而言之, 缺陷数据产生的不确定性, 缺陷形态、显著性强弱的不确定性, 加剧了缺陷样本的收集难度. 缺陷样本数量不足, 进一步严重制约了下游任务模型的工作性能.
解决缺陷样本不足问题最直接的方法, 就是生成缺陷样本[12, 14]. 近年来, 以自回归模型、变分自编码器(Variational autoencoders, VAE)、生成对抗网络(Generative adversarial network, GAN)、去噪扩散概率模型(Denoising diffusion probabilistic model, DDPM)为代表的一系列方法在图像生成领域表现出优越的性能, 一些研究人员已经成功使用GAN等方法生成大量缺陷图像用以扩充训练数据[13, 15−19]. DDPM通过加噪和去噪进行图像生成的方式能够更好地覆盖样本分布, 其优异性能使之成为现阶段图像生成领域最先进的技术方案(State-of-the-art, SOTA)模型[20]. 但是将DDPM应用于缺陷样本生成时, 尚存在以下问题:
1)工业生产过程中, 缺陷样本数量往往仅有几十个[12]. 而DDPM在该数量级的样本上训练后, 其生成的缺陷图像与训练集仅有像素级的微小差别, 模型发生过拟合[21]. 其生成结果显然无法满足生成多样性缺陷的需求, 无法对下游模型性能带来提升.
2)缺陷图像中往往缺陷部位占比较小, 大部分都是无缺陷的背景区域. DDPM在训练过程中学习到大量背景的分布后, 其生成结果的背景也与训练集有相似的趋势. 工业生产中广泛存在具有相似缺陷, 但是背景不同的样本, 例如不同纹理的织物、瓷砖等. DDPM在单一背景的训练集上训练后, 没有将缺陷迁移至训练集以外背景的能力.
基于上述问题, 本文提出了De-DDPM (Defect DDPM), 其简要流程如图1所示. De-DDPM在训练阶段通过由缺陷掩码$ x_{\rm{mask}} $和缺陷类别$ class $控制的特征Unet网络, 加强对缺陷部位细粒度特征的学习. 生成阶段在特征Unet引导缺陷生成的基础上, 通过调节缺陷控制模块中的引导系数$ \sigma $来控制缺陷显著性. 通过新背景$ y $和背景融合模块的作用, 将生成的缺陷和不同背景进行融合. 因此De-DDPM模型有以下两个特点:
1)缺陷特征可控. De-DDPM着重学习缺陷部位的细粒度特征, 减少了对训练数据量的需求. 模型通过缺陷控制模块中特征Unet的引导, 可以改变生成缺陷的类别、位置和形态, 通过调节缺陷语义信息引导系数$ \sigma $, 可以控制生成缺陷的显著性. 模型具有生成多样性缺陷, 尤其是多样性临界缺陷的能力, 其生成结果极大丰富了训练数据集.
2)缺陷可迁移. 在背景光滑、色彩单一的缺陷数据集进行简单的数据标注并完成训练后, 模型可以将譬如裂纹、擦痕、斑块等缺陷泛化至其他具有复杂背景的无缺陷样本中, 大大降低复杂背景上缺陷数据的获取难度.
与DDPM相比, De-DDPM模型引入更多的信息来加强对生成缺陷的控制. 值得注意的是, 训练阶段De-DDPM用$ x_{\rm{mask}} $区分缺陷和背景, 进而对缺陷和背景的数据分布进行差异化学习. 相比缺陷数据本身, 新的缺陷掩码更容易获取. 通过人工绘制、掩码中加入扰动、训练简单的网络进行生成等方式, 可以得到大量形态各异的缺陷掩码. 通过新掩码的引导, De-DDPM模型能够生成更加丰富的缺陷图像, 进而提升缺陷的多样性.
本文第1节介绍相关工作; 第2节详细阐述De-DDPM的整体结构; 第3节通过大量实验, 验证De-DDPM的有效性; 第4节对本文进行总结.
1. 相关工作
1.1 缺陷数据集扩充
本文的研究属于缺陷数据集扩充领域, 传统的扩充方法通过对已有样本进行随机裁剪、翻转、对比度调整等一系列操作[22], Mixup类型方法通过对不同图像的像素和标签进行一定比例混合, 进而提升数据集的特征多样性[23−25]. 该两类方法本质上都是对已有图像的再利用, 而不是直接生成全新的缺陷图像.
近些年随着GAN等一系列优秀的生成式模型展露风采, 缺陷图像生成方面的研究接连取得突破. Ren等[26]提出的方法基于GAN和高斯混合模型, 可以有效地增加训练样本的数量, 减少训练集和测试集之间的分布差异, 并且可以在一定程度上控制生成图像的特征. Isola等[27]提出的Pix2pix模型可以建立2个不同集合图像间的对应关系, 从而使用源图像来引导缺陷图像的生成. Zhang等[16]提出的Defect-GAN通过损坏和恢复过程进行学习, 能在各种图像背景中生成具有不同纹理和外观的逼真缺陷, 还可以模拟缺陷的随机变化, 并对生成的缺陷在图像背景中的位置和类型进行灵活控制. Niu等[13]提出的RSC-GAN使用掩码对原图进行遮罩后放入GAN中进行生成, 通过调整隐空间中的向量, 可以达到生成临界缺陷的目的. Duan等[28]提出的DFMGAN通过在主干网络中附着缺陷感知残差模块和映射网络, 成功生成了区域可控的缺陷图像.
1.2 去噪扩散概率模型
去噪扩散概率模型(DDPM)[29−30]是向原始图像$ x_{0} $中加入噪声强度$ \beta $随时间$ t $变化的共$ T $轮高斯噪声, 将输入的$ x_{0} $变为纯高斯噪声$ x_{T} $, 再通过模型预测每一时间步$ t $所加的噪声, 逐步从$ x_T $, $ x_{T-1} $, $ x_{T-2} $推导生成图像$ x_{0} $的过程[30], 其简要流程如图2所示.
在训练阶段, 给定真实图片$ \left.x_{0} \right. \sim q\left( x_{0} \right) $, 通过随时间$ t $变化的噪声强度$ \beta_{t} $, 按照式(1)将图像$ x_{0} $逐步加噪声, 该过程可以视为一个马尔科夫过程.
设$ \alpha_{t} = 1 - \beta_{t},\; \overline{\alpha_{t}} = {\prod\nolimits_{i=1}^{t}\alpha_{i}} $, 由$ x_{0} $逐项推导可得式(2). 其中噪声强度$ \beta_{t} $大于0且随时间$ t $逐渐增加, 则随$ \left.t\rightarrow T \right. ,\; \left.\overline{\alpha_{t}}\rightarrow 0 \right.$, 可得$ \overline{\alpha_{T}} \approx 0,\; \sqrt{1 - \overline{\alpha_{T}}} \approx 1 $, 由此可知$ \left.x_{T} \right. \sim {\mathrm{N}}\left( {0,\; \; {\boldsymbol{I}}} \right) $. 式(2)中$ \epsilon_{t} $需要在生成过程中使用, 故模型中训练了一个Unet网络对其进行预测. 训练该Unet时, 使用的损失函数为$ MSE\left( \epsilon_{t},\; \epsilon_{\theta}\left( {x_{t},\; t} \right)\right) $, 预测值表示为$ \epsilon_{\theta}\left( x_{t},\; t \right) $.
$$ \left.x_{t} = \sqrt{1 - \beta_{t}}x_{t - 1} + \sqrt{\beta_{t}}\epsilon\; ,\; \; \epsilon \right. \sim {\mathrm{N}}\left( {0,\; \; {\boldsymbol{I}}} \right) $$ (1) $$ \left.x_{t} = \sqrt{\overline{\alpha_{t}}}x_{0} + \sqrt{1 - \overline{\alpha_{t}}}\epsilon_{t}\; ,\; \; \epsilon_{t} \right. \sim {\mathrm{N}}\left( {0,\; \; {\boldsymbol{I}}} \right) $$ (2) $$ x_{0} = \frac{1}{\sqrt{\overline{\alpha_{t}}}}\left( x_{t} - \sqrt{1 - \overline{\alpha_{t}}}\epsilon_{t} \right) $$ (3) DDPM的生成过程需从$ x_{T} $逐步推导至$ x_{0} $, 由式(1)可得$ \left.q\left( x \right. _{t} \middle| x_{t - 1} \right)\sim {\mathrm{N}}\left( {\sqrt{\alpha_{t}}x_{t - 1},\; \left( {1 - \alpha_{t}} \right){\boldsymbol{I}}} \right) $, 由式(2)可得$ q\left( x_{t} \right)\sim {\mathrm{N}}\left( {\sqrt{\overline{\alpha_{t}}}x_{0},\; \left( {1 - \overline{\alpha_{t}}} \right){\boldsymbol{I}}} \right) $. 上述分布和式(3)可以推导出式(4). 使用训练好的Unet网络对式(4)中的$ \epsilon_{t} $进行预测, 可以进一步推导出$ \left.p_{\theta}\left( x_{t - 1} \middle| x_{t} \right) \right. \sim {\mathrm{N}}\left( \frac{1}{\sqrt{\alpha_{t}}}\left( {x_{t} - \frac{\beta_{t}}{\sqrt{1 - \overline{\alpha_{t}}}}\epsilon_{\theta}\left( {x_{t},\; t} \right)} \right),\; \frac{1 - \overline{\alpha_{t-1}}}{1 - \overline{\alpha_{t}}}\beta_{t} \right) $, 最后通过式(5)便可从纯高斯噪声$ x_{T} $中逐步生成$ x_{0} $.
$$ \begin{split} q&\left( x_{t - 1} \middle| x_{t} \right) = \; \frac{q\left( x_{t} \middle| x_{t - 1} \right)q\left( x_{t - 1} \right)}{q\left( x_{t} \right)} \sim \\ &\qquad{\mathrm{N}}\left( \frac{1}{\sqrt{\alpha_{t}}}\left( {x_{t} - \frac{\beta_{t}}{\sqrt{1 - \overline{\alpha_{t}}}}\epsilon_{t}} \right),\; \frac{1 - \overline{\alpha_{t-1}}}{1 - \overline{\alpha_{t}}}\beta_{t} \right) \end{split} $$ (4) $$ \begin{split} x_{t - 1} =\; &\frac{1}{\sqrt{\alpha_{t}}}\left( {x_{t} - \frac{\beta_{t}}{\sqrt{1 - \overline{\alpha_{t}}}}\epsilon_{\theta}\left( {x_{t},\; t} \right)} \right) + \\ &\sqrt{\frac{1 - \overline{\alpha_{t-1}}}{1 - \overline{\alpha_{t}}}\beta_{t}}\epsilon\; ,\; \; \epsilon \sim {\mathrm{N}}\left( {0,\; \; {\boldsymbol{I}}} \right) \end{split} $$ (5) 自从以加噪和去噪方式进行图像生成的DDPM提出后, 该模型的一系列研究不断取得丰硕成果. Ho等[31]在逆向过程中引入分类器的引导, 从而使模型具有条件生成的能力. Saharia等[32]提出了一种基于迭代修正的算法, 将DDPM成功应用于超分辨率的研究方向. Lugmayr等[33]提出的RePaint方法, 展现出强大的图像修复能力. Wang等[34]提出的模型在语义图像合成上取得了很好效果. GLIDE[35]、DALLE2[36]、Stable Diffusion[37]等一系列模型引入多模态, 并进一步提升图像生成效果, 开启了一波AI画图的流行风潮.
尽管在诸多领域, DDPM都大放异彩, 但该模型是基于大量的训练数据训练而成, 旨在学习数据的整体分布, 对局部特征分布的关注不够. 对缺陷图像的生成而言, 由于缺陷数据本身就很少, 缺陷部位在整幅图像中的占比有限, 模型难以学习到足够的局部缺陷特征. 即使采用Guided-DDPM[31]在生成过程中加入梯度信息引导的模型来生成缺陷图像, 缺陷的位置、形态、显著性等诸多细粒度特征也不可控制. 对于训练集中较少出现的显著性较弱的临界缺陷, 模型更加难以生成. 据我们所知, 针对缺陷数据集扩充这个细分领域, 现阶段暂未发表基于DDPM的研究文章.
2. 本文方法
De-DDPM是一个Diffusion-Based模型, 分为训练和生成两个阶段. 训练阶段通过特征Unet强化模型对缺陷类别、位置、形态等细粒度信息的学习; 生成阶段通过缺陷控制模块对缺陷特征进行调整, 并通过背景融合模块将缺陷泛化到其他背景. 下文对De-DDPM的整体结构进行详细介绍.
2.1 De-DDPM训练阶段
De-DDPM的加噪过程与DDPM一样, 按照式(1)不断进行, 逐步将$ x_{0} $变为纯高斯噪声$ x_{T} $. 由于DDPM难以在训练过程中对缺陷部位给与足够的关注, 本文在De-DDPM中引入缺陷类别$ class $作为条件, 引入像素级的缺陷掩码$ x_{\rm{mask}} $用以区分缺陷和背景. 同时对Unet网络的损失函数进行调整, 使模型在学习缺陷图像整体数据分布的基础上, 加强对缺陷区域数据分布的学习.
2.1.1 特征Unet网络
De-DDPM中使用的特征Unet网络结构如图3所示, 该网络输入为4通道, 输出为3通道. 将像素级标注的$ x_{\rm{mask}} $和加噪后的实际缺陷图像$ x_{t} $对齐后输入网络, 促使网络学习到图像和掩码之间的映射关系, 进而对缺陷和背景进行差异化学习, 更好地捕捉缺陷形态、位置等细粒度特征. 时间步$ t $和类别$ class $在每一个残差模块中嵌入网络, 通过不同$ class $的影响, 类别信息能够进一步引导特征Unet的预测结果.
从$ x_{0} $到$ x_{T} $的每一步加噪完成后, 都将本次加噪的结果$ x_{t} $和其对应的缺陷掩码$ x_{\rm{mask}} $在通道上进行合并, 变为4通道的$ x_{t+\rm{mask}} $. $ x_{t+\rm{mask}} $与缺陷类别$ class $、时间步$ t $一起送入特征Unet网络, 得到预测的$ \epsilon_{\theta}\left( {x_{t +{\rm{ mask}}},\; t,\; class} \right) $, 随后将该预测值与本次添加的噪声$ \epsilon_{t} $计算损失, 优化模型. 训练阶段本质上即是对改进后的特征Unet进行不断优化的过程, 旨在通过该网络拟合$ \epsilon_{t} $, 并在模型的生成过程中预测$ \epsilon_{\theta}\left( {x_{t +\rm{ mask}},\; t,\; class} \right) $的值, 进而不断迭代推导.
2.1.2 损失函数
传统的MSE (Mean square error)损失无法在训练时给与背景和缺陷不同的关注度. 由于$ x_{\rm{mask}} $的引入, 模型可以有效区分缺陷和背景区域, 本文按式(6)对特征Unet的损失函数进行修改, 其中$ LOSS $的第1部分是对整幅图像计算MSE损失, 第2部分是对$ x_{\rm{mask}} $代表的缺陷区域单独计算MSE损失, 系数$ \tau $控制缺陷区域的损失增加比例. 该$ LOSS $适当增加缺陷区域损失在总损失中的占比, 进一步增强了模型对缺陷部位特征的学习能力.
$$ \begin{split} LOSS =\;& MSE\left( \epsilon_{\theta}\left( {x_{t +\rm{ mask}},\; t,\; class} \right),\; \epsilon_{t} \right) + \\ &\tau{MSE}_{\rm{mask}}\left( \epsilon_{\theta}\left( {x_{t+ \rm{ mask}},\; t,\; class} \right),\; \epsilon_{t} \right) \end{split} $$ (6) 2.2 De-DDPM生成阶段
De-DDPM同样是从噪声图像$ x_{T} $中逐步迭代去噪, 最后生成缺陷图像. 每一步迭代过程中, 在特征Unet引导缺陷生成的基础上, 进一步设计了一个包含缺陷控制模块和背景融合模块的生成框架, 其结构如图4所示. 迭代开始时将上一步的结果$ x_{t+1} $和缺陷掩码$ x_{\rm{mask}} $、全黑掩码$ x_{\rm{black}} $送入缺陷控制模块, 完成缺陷的引导生成, 调整后得到$ x_{t}'' $. 随后将$ x_{t}'' $和无缺陷背景$ y $、缺陷掩码$ x_{\rm{mask}} $送入背景融合模块, 把生成的缺陷和无缺陷背景进行融合, 完成一步迭代. 下文将详细介绍缺陷控制和背景融合两个模块的结构.
2.2.1 缺陷控制模块
缺陷控制模块结构如图5所示. 将$ x_{t+1} $分别与缺陷掩码$ x_{\rm{mask}} $、全黑掩码$ x_{\rm{black}} $在通道上合并, 随后将得到的$ x_{(t+1) + \rm{mask}} $和$ x_{(t+1) + \rm{black}} $分别输入同一特征Unet网络进行预测. 对2个预测结果进行解耦计算后, 由引导系数$ \sigma $调整缺陷语义信息强度并注入$ x_{(t+1) + \rm{mask}} $的预测结果中, 最后采样得到$ x_{t}'' $.
根据Score-based[38]理论, DDPM生成过程中的每次迭代, 都是在计算$ S_{\theta}{\left( {x_{t},\; t} \right) \approx \nabla}_{x_{t}}{\log{p\left( x_{t} \right)}} $, 通过该梯度的引导, 不断改变$ x_{t} $的均值$ \mu $, 从而影响生成结果. 因DDPM中$ \left.x_{t} \right. \sim {\mathrm{N}}\left( {\sqrt{\overline{\alpha_{t}}}x_{0},\; \left( 1 - \overline{\alpha_{t}} \right)\; {\boldsymbol{I}}} \right) $, 所以有$ \nabla_{x_{t}}{\log{p\left( x_{t} \right) = - \frac{x_{t} - \sqrt{\overline{\alpha_{t}}}x_{0}}{1 - \overline{\alpha_{t}}}}} \propto {- \epsilon}_{\theta}\left( {x_{t},\; t} \right) $. De-DDPM的特征Unet加入$ x_{\rm{mask}} $和$ class $作为引导, 就是将score修改为$ \nabla_{x_{t}}{\log{p\left( x_{t} \middle| x_{\rm{mask}},\; class \right)}} \propto - \epsilon_{\theta}\left( {x_{t + \rm{mask}},\; t,\; class} \right) $. 记$ x_{\rm{mask}} = M $、$ class = C $, 由式(7)可知, 模型依据$ x_{\rm{mask}} $和$ class $生成缺陷的过程, 就是通过在原有$ S_{\theta}\left( {x_{t},\; t} \right) $上加入$ \nabla_{x_{t}}{\log{p\left( \left.MC \middle| x \right. _{t} \right)}} $进行引导的过程. 由此可见, 通过改变特征Unet中的$ class $和$ x_{\rm{mask}} $, 便能引导生成与之匹配的缺陷图像. 控制模块中对缺陷形态、位置、类别等特征的控制, 可由特征Unet完成.
由于$ x_{\rm{mask}} $的白色部分代表缺陷自身, 黑色部分代表背景, 若将引导的$ x_{\rm{mask}} $变为全黑的$ x_{\rm{black}} $, 记$ x_{\rm{black}} = \varnothing $, 则由式(8)和式(9)可知, 生成过程中由特征Unet预测的$ \epsilon_{\theta}\left( {x_{t + \rm{mask}},\, t,\, class} \right) $和$ \epsilon_{\theta}( x_{t + \varnothing}, t, class ) $之间的差值, 隐性地包含缺陷的语义信息. 通过计算该差值, 控制模块能将缺陷自身和背景进行解耦, 有效抽取缺陷语义信息.
根据式(10), 可以得到由$ x_{\rm{mask}} $和$ class $引导生成的$ x_{t}' $, 根据式(11)控制缺陷语义信息的注入, 能够进一步改变$ x_{t}' $的均值$ \mu_{x_{t}'} $, 得到调整了缺陷强度的$ x_{t}'' $. 由上述推导可知, 通过改变缺陷语义信息引导系数$ \sigma $, 控制模块可以进一步控制缺陷显著性. 从本文缺陷控制实验的结果可以看到不同$ x_{\rm{mask}} $、$ class $引导下, 改变$ \sigma $对缺陷显著性的影响.
$$ \begin{split} &\nabla_{x_{t}}{\lg{p\left( x_{t} \middle| MC \right)}} = \nabla_{x_{t}}{\lg\frac{p\left(MC \middle| x_{t} \right)p\left( x_{t} \right)}{p\left( {MC} \right)}} \propto \\ &\qquad\nabla_{x_{t}}{\lg{p\left(MC \middle| x_{t} \right)}} + \nabla_{x_{t}}{\lg{p\left( x_{t} \right)}} \end{split} $$ (7) $$ \begin{split} &\nabla_{x_{t}}{\lg{p\left( x_{t} \middle| \varnothing C \right)}} = \nabla_{x_{t}}{\lg\frac{p\left( \varnothing C \middle| x_{t} \right)p\left( x_{t} \right)}{p\left( {\varnothing C} \right)}} \propto \\ &\qquad\nabla_{x_{t}}{\lg{p\left( \varnothing C \middle| x_{t} \right)}} + \nabla_{x_{t}}{\lg{p\left( x_{t} \right)}} \end{split} $$ (8) $$ \begin{split} &\nabla_{x_{t}}{\lg{p\left( x_{t} \middle| MC \right)}} - \nabla_{x_{t}}{\lg{p\left( x_{t} \middle| \varnothing C \right)}} \propto \\ &\qquad\nabla_{x_{t}}{\lg{p\left( MC \middle| x_{t} \right)}} - \nabla_{x_{t}}{\lg{p\left( \varnothing C \middle| x_{t} \right)}}\propto \\ &\qquad- \epsilon_{\theta}\left( {x_{t + \rm{mask}},\; t,\; class} \right) + \epsilon_{\theta}\left( {x_{t + \rm{\varnothing}},\; t,\; class} \right) \end{split} $$ (9) $$ \begin{split} x_{t}' =\; &\frac{1}{\sqrt{\alpha_{t + 1}}} { \bigg( x_{t + 1}- \bigg.} \\ &\notag { \bigg.\frac{\beta_{t + 1}}{\sqrt{1 - \overline{\alpha_{t+1}}}}\epsilon_{\theta}\left( {x_{(t + 1) + \rm{mask}},\; t,\; class} \right) \bigg) }\;+\\ &\sqrt{\frac{1 - \overline{\alpha_{t}}}{1 - \overline{\alpha_{t+1}}}\beta_{t + 1}}\epsilon\; ,\; \; \epsilon \sim {\mathrm{N}}\left( {0,\; \; {\boldsymbol{I}}} \right) \end{split} $$ (10) $$ \begin{split} x_{t}'' =\; &- \frac{\beta_{t + 1}\sigma}{\sqrt{\alpha_{t + 1}}\sqrt{1 - \overline{\alpha_{t+1}}}} {\big( \epsilon_{\theta}\left( {x_{(t + 1) + \rm{mask}},\; t,\; class} \right) \big.}- \\ &\notag { \big. \epsilon_{\theta}\left( {x_{(t + 1) + \rm{\varnothing}},\; t,\; class} \right) \big)}+ x_{t}' \end{split} $$ (11) 值得注意的是, 缺陷语义信息引导系数$ \sigma $给De-DDPM模型带来更加多样的控制能力. $ \sigma $取0时, 可以生成缺陷显著性与训练集相似的图像. 将该系数设置为一定范围内的随机值, 便可以批量生成显著性变化大的缺陷样本. 特别是对显著性较弱的临界缺陷而言, 该类缺陷在视觉上难以分辨, 对缺陷分类、检测来说, 其难度更高, 通过适当降低引导系数$ \sigma $, De-DDPM模型有能力对其进行批量生成, 进一步提升缺陷数据的多样性.
2.2.2 背景融合模块
背景融合模块结构如图6所示, De-DDPM在每一个时间步$ t $, 按式(12)用$ \overline{x_{\rm{mask}}} $对加噪后的背景$ y_{t} $进行遮罩, 得到$ y_{t - {\rm{\overline{mask}}}} $. 同时使用$ x_{\rm{mask}} $对经过缺陷控制模块处理后的$ x_{t}'' $进行遮罩, 其结果与$ y_{t - {\rm{\overline{mask}}}} $按式(13)合成后, 即可得到融合了无缺陷背景信息的$ x_{t} $. 将该结果送入下一轮迭代, 即可使无缺陷的背景信息影响下一轮迭代时特征Unet网络的预测结果, 进而加强缺陷自身和背景的协调一致性, 避免由$ x_{\rm{mask}} $引导生成的缺陷与背景之间存在较强割裂感.
$$ y_{t - {\rm{\overline{mask}}}} = \overline{x_{\rm{mask}}} \odot \left( \sqrt{\overline{\alpha_{t}}}y + \sqrt{1 - \overline{\alpha_{t}}}\epsilon_{t} \right) $$ (12) $$ x_{t} = x''_{t} \odot x_{\rm{mask}}+ y_{t - {\rm{\overline{mask}}}} $$ (13) 由于该模块的存在, 生成过程的每一步迭代中背景信息均对缺陷的生成产生影响, 从而保证生成缺陷与背景的协调融合. 而在$ x_{\rm{mask}} $的黑色背景区域内, 模块直接将$ x_{t}'' $在该区域内的均值$ \mu_{x_{t}''} $替换为了$ y_{t - {\rm{\overline{mask}}}} $, 这就保证了缺陷区域外部和背景$ y $始终保持高度一致. 这种特性使De-DDPM能在不同的背景上对缺陷进行高质量迁移, 从本文缺陷迁移实验的结果可以看到缺陷在不同背景上的迁移效果.
3. 实验
本节主要从定量实验和定性实验两个方面评估本文的方法, 同时将其与其他优秀的生成式模型进行对比分析, 展示它作为一种新的数据增强方法, 在提高缺陷数据多样性、提升下游模型检测性能方面的能力.
3.1 数据集和训练细节
3.1.1 数据集
定量实验中, 采用KolektorSDD数据集[39]进行训练. 该数据集包含399幅金属表面图像, 其中, 52幅有可见缺陷, 347幅无缺陷, 且缺陷图像均有像素级掩码进行标注.
定性实验中, 我们抽取KolektorSDD、DAGM 2007[40]、NEU-DET[41]数据集中的裂纹、暗斑、划痕、表面不平整四种缺陷进行训练.
3.1.2 模型训练细节
本文采用Pix2pix[27]、StyleGAN2[42]、DFMGAN[28]、RePaint[33]模型与本文的De-DDPM方法进行对比. 定量实验中, 所有模型的缺陷训练数据均为裁剪成256$ \times $256像素的52幅缺陷图像及其对应的像素级掩码. GAN-Based方法的学习率从
0.0002 逐渐降低至0.00008 , Diffusion-Based方法的学习率为0.000001 , De-DDPM训练过程中$ \tau $取0.0001 . 所有模型均采用Adam优化器, 在Linux操作系统上使用单张2080ti GPU训练2500 轮.定性实验时所有训练数据均裁剪为256$ \times $256像素, 模型其他训练参数与定量实验时保持一致.
3.2 定量实验
本节分别从图像评价指标、平均灰度分布、数据集扩充效果三个方面, 对5个模型各生成的3 000幅缺陷图像进行定量分析.
3.2.1 指标分析
在本文中, 使用IS (Inception score)[43]、FID (Fréchet inception distance)[44]、KID (Kernel inception distance)[45]、MS-SSIM (Multiscale structure similarity)[46]、PSNR (Peak signal-to-noise ratio)[47]五个指标对各模型生成的缺陷图像进行评价, 各项指标数据见表1. IS指标评价生成图像质量, 得分越高越好(因为只有一类缺陷, 所以IS指标无法评估图像多样性); FID和KID指标评价生成图像真实性, 得分越低越好; MS-SSIM和PSNR指标评价生成图像和训练集的相似度, 相似度越高代表生成结果与训练集越接近, 图像缺乏多样性, 所以MS-SSIM、PSNR得分越低越好.
表 1 评价指标统计Table 1 Statistics of evaluation metrics评价指标 Pix2pix StyleGAN2 DFMGAN RePaint模型 所提方法 IS↑ 1.388 1.368 1.301 1.474 1.541 FID↓ 59.056 124.748 96.783 72.750 57.650 KID↓ 0.024 0.098 0.053 0.044 0.020 MS-SSIM↓ 0.189 0.161 0.174 0.187 0.159 PSNR↓ 28.308 28.284 28.357 28.273 28.223 注: 1) RePaint模型使用裂纹掩码生成缺陷效果差, 改为区块掩码; 2) 箭头标识评价指标得分更好的方向. 对比其他模型, De-DDPM在五个指标上均排名第一, 其中IS、FID、KID指标表明本文生成的缺陷图像在图像质量、真实性上优于其他模型. MS-SSIM、PSNR指标表明本文模型生成的缺陷在保证图像质量和真实性的基础上, 具有更好的多样性.
3.2.2 灰度分布分析
图像的平均灰度分布, 能很好地反映其亮度、对比度等统计特征. 生成的缺陷图像越真实, 其平均灰度分布就应越接近训练集. 图7中左侧表示Pix2pix、StyleGAN2、DFMGAN、RePaint模型所生成图像的统计结果, 右侧中黑色曲线为De-DDPM的统计结果, 两图中的红色曲线为训练集图像的平均灰度分布. 对比统计图可知, 相比其他模型, 由De-DDPM生成的缺陷图像, 其灰度分布与训练集最为接近. 因表1中的指标分析已表明本文的模型在生成结果与训练集的相似度上普遍低于其他模型, 故De-DDPM生成的缺陷图像能够同时保证与训练集的差异性和灰度分布的相似性, 生成效果最优.
3.2.3 数据集扩充实验
缺陷生成的最终目的是扩充训练数据集, 使下游模型学习到有用的缺陷信息, 进一步提升缺陷检测准确率. 为了检验不同模型生成的缺陷图像对下游模型的训练是否有帮助, 本文设计了数据集扩充实验进行验证.
数据集扩充实验流程如图8所示, 本文将3 000幅无缺陷图像与每个模型生成的3 000幅缺陷图像分别合并, 得到5个训练数据集. 使用同一个基于ResNet50的二分类网络, 在不同的训练数据集上进行训练, 得到5个权重不同的分类网络. 最后使用测试集测试不同分类网络的分类效果, 进而反推不同生成网络的生成结果对下游模型的训练是否有帮助. 本文使用2个不同测试集进行测试, 其组成如下:
1) D1测试集: 共计104幅图像, 一半为训练集缺陷图像, 一半为随机裁剪的无缺陷图像.
2) D2测试集: 共计10 000幅图像, 一半为5个模型各自重新生成的1 000幅缺陷图像组合而成, 一半为随机裁剪的无缺陷图像.
表2展示了2个测试集上的测试结果. 通过对比可知, 使用De-DDPM生成的缺陷图像进行训练的二分类网络, 在缺陷检出率、总正确率上均大幅领先其他生成模型. 这进一步表明本文模型的生成结果能够很好地模拟真实缺陷特征, 有效扩充缺陷数据, 提升下游网络的性能.
表 2 分类结果统计(%)Table 2 Statistics of classification results (%)测试集 Pix2pix StyleGAN2 DFMGAN RePaint模型 所提方法 缺陷检出率 总正确率 缺陷检出率 总正确率 缺陷检出率 总正确率 缺陷检出率 总正确率 缺陷检出率 总正确率 D1 30.77 65.38 26.92 63.46 7.69 53.85 13.46 54.81 88.46 94.23 D2 54.46 77.07 49.94 74.97 32.26 66.13 45.76 70.99 88.32 93.76 注: RePaint模型使用裂纹掩码生成缺陷效果差, 改为区块掩码. 3.3 定性实验
定性实验中, 首先对各模型生成的缺陷图像进行对比. 同时由于De-DDPM中加入了缺陷控制和背景融合两个模块, 通过实验可以进一步验证De-DDPM具有其他模型所不具备的缺陷控制和缺陷迁移能力.
3.3.1 生成结果对比
如图9所示, 本文分别对比了De-DDPM和其他模型的生成效果. StyleGAN2和DFMGAN从噪声中生成缺陷, 通过其结果可以看出, 两个模型生成的缺陷图像在整体视觉效果上与真实图像有偏差, 且不同程度地存在缺陷生成失败、缺陷边缘模糊等问题. RePaint模型和De-DDPM均能从无缺陷背景中生成缺陷图像, 在相同的背景引导下, 可以看出RePaint模型同样存在缺陷生成失败、缺陷部位模糊的问题. De-DDPM在生成缺陷的形态、整体视觉效果上均优于上述三个模型. 在同一裂纹掩码引导下, Pix2pix模型和De-DDPM均生成了效果较好的缺陷图像, 但Pix2pix的生成结果中, 缺陷以外的背景部分较为相似, 图像与图像之间区别不大. 而De-DDPM模型能将不同背景和同一缺陷进行有效融合, 其生成结果显示出更好的多样性.
3.3.2 缺陷控制实验
生成过程中通过改变缺陷掩码$ x_{\rm{mask}} $和缺陷类别$ class $, 本文的模型能够对缺陷位置、形态和类别进行精准控制. 通过对缺陷和背景进行解耦, 本文的模型能够进一步在缺陷生成过程中控制缺陷语义信息的注入, 引导模型生成显著性更强或更弱的缺陷图像. 图10显示了不同缺陷掩码$ x_{\rm{mask}} 、$缺陷类别$ class $和缺陷语义信息引导系数$ \sigma $作用下的生成结果. 实验结果表明, De-DDPM的缺陷控制模块对缺陷形态、类别、显著性等特征有良好的控制效果. 使用该方法, 模型可以生成特征多样、显著性变化大的缺陷数据, 进一步扩充训练集, 增加缺陷多样性.
3.3.3 缺陷迁移实验
图11显示了不同缺陷在新背景图像中的迁移效果, 目标背景包含了石材、木材、布纹、皮革等与训练集完全不同的背景图像. 与简单地对缺陷区域进行复制粘贴不同, 通过背景融合模块的作用, De-DDPM能够在生成缺陷的同时, 充分考虑迁移目标的背景信息, 将缺陷与背景协调一致后融入无缺陷的背景图像中去, 缺陷迁移效果自然, 缺陷特征可控. 特别是从第4组缺陷的迁移结果可以看出, 该缺陷的训练集为灰色背景, 不平整区域也均为灰色, 迁移过程中所提方法的模型能够很好地适应不同于训练集的背景颜色, 引导生成的缺陷向目标背景色靠拢, 从而保持上下文一致性, 保证良好的缺陷迁移效果.
4. 结束语
本文提出了一种新的缺陷生成方法De-DDPM. 所提模型在训练阶段通过特征Unet差异化学习图像中缺陷部分和无缺陷部分的数据分布; 生成阶段通过缺陷控制模块, 模型能对生成缺陷的形态、位置、显著性等特征进行灵活控制, 通过背景融合模块, 模型能将缺陷泛化到不同风格的背景上. 实验表明, De-DDPM可以在大量无缺陷样本上生成逼真、可控的缺陷, 能够进一步显著提高下游缺陷检测网络的性能. 对不同于训练集的样本背景, 模型成功完成缺陷迁移, 效果良好.
-
表 1 评价指标统计
Table 1 Statistics of evaluation metrics
评价指标 Pix2pix StyleGAN2 DFMGAN RePaint模型 所提方法 IS↑ 1.388 1.368 1.301 1.474 1.541 FID↓ 59.056 124.748 96.783 72.750 57.650 KID↓ 0.024 0.098 0.053 0.044 0.020 MS-SSIM↓ 0.189 0.161 0.174 0.187 0.159 PSNR↓ 28.308 28.284 28.357 28.273 28.223 注: 1) RePaint模型使用裂纹掩码生成缺陷效果差, 改为区块掩码; 2) 箭头标识评价指标得分更好的方向. 表 2 分类结果统计(%)
Table 2 Statistics of classification results (%)
测试集 Pix2pix StyleGAN2 DFMGAN RePaint模型 所提方法 缺陷检出率 总正确率 缺陷检出率 总正确率 缺陷检出率 总正确率 缺陷检出率 总正确率 缺陷检出率 总正确率 D1 30.77 65.38 26.92 63.46 7.69 53.85 13.46 54.81 88.46 94.23 D2 54.46 77.07 49.94 74.97 32.26 66.13 45.76 70.99 88.32 93.76 注: RePaint模型使用裂纹掩码生成缺陷效果差, 改为区块掩码. -
[1] 张辉, 张邹铨, 陈煜嵘, 吴天月, 钟杭, 王耀南. 工业铸件缺陷无损检测技术的应用进展与展望. 自动化学报, 2022, 48(4): 935−956Zhang Hui, Zhang Zou-Quan, Chen Yu-Rong, Wu Tian-Yue, Zhong Hang, Wang Yao-Nan. Application advance and prospect of nondestructive testing technology for industrial casting defects. Acta Automatica Sinica, 2022, 48(4): 935−956 [2] 罗东亮, 蔡雨萱, 杨子豪, 章哲彦, 周瑜, 白翔. 工业缺陷检测深度学习方法综述. 中国科学: 信息科学, 2022, 52(6): 1002−1039 doi: 10.1360/SSI-2021-0336Luo Dong-Liang, Cai Yu-Xuan, Yang Zi-Hao, Zhang Zhe-Yan, Zhou Yu, Bai Xiang. Survey on industrial defect detection with deep learning. Scientia Sinica Informationis, 2022, 52(6): 1002−1039 doi: 10.1360/SSI-2021-0336 [3] 陶晓天, 何博侠, 张鹏辉, 田德旭. 基于深度学习的航天密封圈表面缺陷检测. 仪器仪表学报, 2021, 42(1): 199−206Tao Xiao-Tian, He Bo-Xia, Zhang Peng-Hui, Tian De-Xu. Surface defect detection of aerospace sealing rings based on deep learning. Chinese Journal of Scientific Instrument, 2021, 42(1): 199−206 [4] 田娟秀, 刘国才, 谷珊珊, 鞠忠建, 刘劲光, 顾冬冬. 医学图像分析深度学习方法研究与挑战. 自动化学报, 2018, 44(3): 401−424Tian Juan-Xiu, Liu Guo-Cai, Gu Shan-Shan, Ju Zhong-Jian, Liu Jin-Guang, Gu Dong-Dong. Deep learning in medical image analysis and its challenges. Acta Automatica Sinica, 2018, 44(3): 401−424 [5] 王国力, 孙宇, 魏本征. 医学图像图深度学习分割算法综述. 计算机工程与应用, 2022, 58(12): 37−50 doi: 10.3778/j.issn.1002-8331.2112-0225Wang Guo-Li, Sun Yu, Wei Ben-Zheng. Systematic review on graph deep learning in medical image segmentation. Computer Engineering and Applications, 2022, 58(12): 37−50 doi: 10.3778/j.issn.1002-8331.2112-0225 [6] 李书林, 冯朝路, 于鲲, 刘鑫, 江鑫, 赵大哲. 基于深度学习的心脏磁共振影像超分辨率前沿进展. 中国图象图形学报, 2022, 27(3): 704−721 doi: 10.11834/j.issn.1006-8961.2022.3.zgtxtxxb-a202203005Li Shu-Lin, Feng Chao-Lu, Yu Kun, Liu Xin, Jiang Xin, Zhao Da-Zhe. Critical review of human cardiac magnetic resonance image super resolution reconstruction based on deep learning method. Journal of Image and Graphics, 2022, 27(3): 704−721 doi: 10.11834/j.issn.1006-8961.2022.3.zgtxtxxb-a202203005 [7] Redmon J, Divvala S, Girshick R, Farhadi A. You only look once: Unified, real-time object detection. In: Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Las Vegas, USA: IEEE, 2016. 779−788 [8] Liu W, Anguelov D, Erhan D, Szegedy C, Reed S, Fu C Y, et al. SSD: Single shot MultiBox detector. In: Proceedings of the 14th European Conference on Computer Vision. Amsterdam, the Netherlands: Springer, 2016. 21−37 [9] Ren S Q, He K M, Girshick R, Sun J. Faster R-CNN: Towards real-time object detection with region proposal networks. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2017, 39(6): 1137−1149 doi: 10.1109/TPAMI.2016.2577031 [10] Redmon J, Farhadi A. YOLOv3: An incremental improvement. arXiv preprint arXiv: 1804.02767, 2018. [11] Santos C F G D, Papa J P. Avoiding overfitting: A survey on regularization methods for convolutional neural networks. ACM Computing Surveys (CSUR), 2022, 54(S10): Article No. 20 [12] 陶显, 侯伟, 徐德. 基于深度学习的表面缺陷检测方法综述. 自动化学报, 2021, 47(5): 1017−1034Tao Xian, Hou Wei, Xu De. A survey of surface defect detection methods based on deep learning. Acta Automatica Sinica, 2021, 47(5): 1017−1034 [13] Niu S L, Li B, Wang X G, Lin H. Defect image sample generation with GAN for improving defect recognition. IEEE Transactions on Automation Science and Engineering, 2020, 17(3): 1611−1622 [14] 伍麟, 郝鸿宇, 宋友. 基于计算机视觉的工业金属表面缺陷检测综述. 自动化学报, 2024, 50(7): 1261−1283Wu Lin, Hao Hong-Yu, Song You. A review of metal surface defect detection based on computer vision. Acta Automatica Sinica, 2024, 50(7): 1261−1283 [15] Rippel O, Müller M, Merhof D. GAN-based defect synthesis for anomaly detection in fabrics. In: Proceedings of the 25th IEEE International Conference on Emerging Technologies and Factory Automation (ETFA). Vienna, Austria: IEEE, 2020. 534−540 [16] Zhang G J, Cui K W, Hung T Y, Lu S J. Defect-GAN: High-fidelity defect synthesis for automated defect inspection. In: Proceedings of the IEEE Winter Conference on Applications of Computer Vision (WACV). Waikoloa, USA: IEEE, 2021. 2523−2533 [17] Zhang H B, Pan D, Liu J H, Jiang Z H. A novel MAS-GAN-based data synthesis method for object surface defect detection. Neurocomputing, 2022, 499: 106−114 doi: 10.1016/j.neucom.2022.05.021 [18] Wang R Y, Hoppe S, Monari E, Huber M F. Defect transfer GAN: Diverse defect synthesis for data augmentation. In: Proceedings of the 33rd British Machine Vision Conference. London, UK: BMVA Press, 2023. Article No. 445 [19] 丁鹏, 卢文壮, 刘杰, 袁志响. 基于生成对抗网络的叶片表面缺陷图像数据增强. 组合机床与自动化加工技术, 2022, (7): 18−21Ding Peng, Lu Wen-Zhuang, Liu Jie, Yuan Zhi-Xiang. Image data augmentation of blade surface defects based on generative adversarial network. Modular Machine Tool and Automatic Manufacturing Technique, 2022, (7): 18−21 [20] Dhariwal P, Nichol A. Diffusion models beat GANs on image synthesis. In: Proceedings of the 35th International Conference on Neural Information Processing Systems. Curran Associates Inc., 2021. Article No. 672Dhariwal P, Nichol A. Diffusion models beat GANs on image synthesis. In: Proceedings of the 35th International Conference on Neural Information Processing Systems. Curran Associates Inc., 2021. Article No. 672 [21] Carlini N, Hayes J, Nasr M, Jagielski M, Sehwag V, Tramér F, et al. Extracting training data from diffusion models. In: Proceedings of the 32nd USENIX Security Symposium. Anaheim, USA: USENIX Association, 2023. 5253−5270 [22] Jain S, Seth G, Paruthi A, Soni U, Kumar G. Synthetic data augmentation for surface defect detection and classification using deep learning. Journal of Intelligent Manufacturing, 2022, 33(4): 1007−1020 doi: 10.1007/s10845-020-01710-x [23] Zhang H Y, Cisse M, Dauphin Y N, Lopez-Paz D. mixup: Beyond empirical risk minimization. In: Proceedings of the 6th International Conference on Learning Representations. Vancouver, Canada: ICLR, 2018. [24] Zhang L J, Deng Z, Kawaguchi K, Ghorbani A, Zou J. How does mixup help with robustness and generalization? In: Proceedings of the 9th International Conference on Learning Representations. Austria: ICLR, 2021.Zhang L J, Deng Z, Kawaguchi K, Ghorbani A, Zou J. How does mixup help with robustness and generalization? In: Proceedings of the 9th International Conference on Learning Representations. Austria: ICLR, 2021. [25] Chou H P, Chang S C, Pan J Y, Wei W, Juan D C. Remix: Rebalanced mixup. In: Proceedings of the Computer Vision-ECCV 2020 Workshops. Glasgow, UK: Springer, 2020. 95−110 [26] Ren X Y, Lin W Y, Yang X Q, Yu X H, Gao H J. Data augmentation in defect detection of sanitary ceramics in small and non-i.i.d datasets. IEEE Transactions on Neural Networks and Learning Systems, 2023, 34(11): 8669−8678 doi: 10.1109/TNNLS.2022.3152245 [27] Isola P, Zhu J Y, Zhou T, Efros A A. Image-to-image translation with conditional adversarial networks. In: Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Honolulu, USA: IEEE, 2017. 5967−5976 [28] Duan Y X, Hong Y, Niu L, Zhang L Q. Few-shot defect image generation via defect-aware feature manipulation. In: Proceedings of the 37th AAAI Conference on Artificial Intelligence. Washington, USA: AAAI, 2023. 571−578 [29] Sohl-Dickstein J, Weiss E, Maheswaranathan N, Ganguli S. Deep unsupervised learning using nonequilibrium thermodynamics. In: Proceedings of the 32nd International Conference on Machine Learning. Lille, France: PMLR, 2015. 2256−2265 [30] Ho J, Jain A, Abbeel P. Denoising diffusion probabilistic models. In: Proceedings of the 34th International Conference on Neural Information Processing Systems. Vancouver, Canada: Curran Associates Inc., 2020. Article No. 574 [31] Ho J, Salimans T. Classifier-free diffusion guidance. arXiv preprint arXiv: 2207.12598, 2022.Ho J, Salimans T. Classifier-free diffusion guidance. arXiv preprint arXiv: 2207.12598, 2022. [32] Saharia C, Ho J, Chan W, Salimans T, Fleet D J, Norouzi M. Image super-resolution via iterative refinement. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2022, 45(4): 4713−4726 [33] Lugmayr A, Danelljan M, Romero A, Yu F, Timofte R, Van Gool L. RePaint: Inpainting using denoising diffusion probabilistic models. In: Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). New Orleans, USA: IEEE, 2022. 11451−11461 [34] Wang W L, Bao J M, Zhou W G, Chen D D, Chen D, Yuan L, et al. Semantic image synthesis via diffusion models. arXiv preprint arXiv: 2207.00050, 2022.Wang W L, Bao J M, Zhou W G, Chen D D, Chen D, Yuan L, et al. Semantic image synthesis via diffusion models. arXiv preprint arXiv: 2207.00050, 2022. [35] Nichol A Q, Dhariwal P, Ramesh A, Shyam P, Mishkin P, Mcgrew B, et al. GLIDE: Towards photorealistic image generation and editing with text-guided diffusion models. In: Proceedings of the 39th International Conference on Machine Learning. Baltimore, USA: PMLR, 2022. 16784−16804 [36] Ramesh A, Dhariwal P, Nichol A, Chu C, Chen M. Hierarchical text-conditional image generation with CLIP latents. arXiv preprint arXiv: 2204.06125, 2022.Ramesh A, Dhariwal P, Nichol A, Chu C, Chen M. Hierarchical text-conditional image generation with CLIP latents. arXiv preprint arXiv: 2204.06125, 2022. [37] Rombach R, Blattmann A, Lorenz D, Esser P, Ommer B. High-resolution image synthesis with latent diffusion models. In: Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). New Orleans, USA: IEEE, 2022. 10674−10685 [38] Song Y, Sohl-Dickstein J, Kingma D P, Kumar A, Ermon S, Poole B. Score-based generative modeling through stochastic differential equations. In: Proceedings of the 9th International Conference on Learning Representations. Austria: ICLR, 2020.Song Y, Sohl-Dickstein J, Kingma D P, Kumar A, Ermon S, Poole B. Score-based generative modeling through stochastic differential equations. In: Proceedings of the 9th International Conference on Learning Representations. Austria: ICLR, 2020. [39] Tabernik D, Šela S, Skvarč J, Skočaj D. Segmentation-based deep-learning approach for surface-defect detection. Journal of Intelligent Manufacturing, 2020, 31(3): 759−776 doi: 10.1007/s10845-019-01476-x [40] Wieler M, Hahn T, Hamprecht F A. Weakly supervised learning for industrial optical inspection [Online], available: https://hci.iwr.uni-heidelberg.de/content/weakly-supervised-learning-industrial-optical-inspection, February 20, 2024 [41] Song K C, Yan Y H. A noise robust method based on completed local binary patterns for hot-rolled steel strip surface defects. Applied Surface Science, 2013, 285: 858−864 doi: 10.1016/j.apsusc.2013.09.002 [42] Karras T, Laine S, Aittala M, Hellsten J, Lehtinen J, Aila T. Analyzing and improving the image quality of StyleGAN. In: Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). Seattle, USA: IEEE, 2020. 8107−8116 [43] Barratt S, Sharma R. A note on the inception score. arXiv preprint arXiv: 1801.01973, 2018.Barratt S, Sharma R. A note on the inception score. arXiv preprint arXiv: 1801.01973, 2018. [44] Heusel M, Ramsauer H, Unterthiner T, Nessler B, Hochreiter S. GANs trained by a two time-scale update rule converge to a local Nash equilibrium. In: Proceedings of the 31st International Conference on Neural Information Processing Systems. Long Beach, USA: Curran Associates Inc., 2017. 6629−6640 [45] Bińkowski M, Sutherland D J, Arbel M, Gretton A. Demystifying MMD GANs. In: Proceedings of the 6th International Conference on Learning Representations. Vancouver, Canada: ICLR, 2018. [46] Wang Z, Simoncelli E P, Bovik A C. Multiscale structural similarity for image quality assessment. In: Proceedings of the 37th Asilomar Conference on Signals, Systems and Computers. Pacific Grove, USA: IEEE, 2003. 1398−1402 [47] Huynh-Thu Q, Ghanbari M. Scope of validity of PSNR in image/video quality assessment. Electronics Letters, 2008, 44(13): 800−801 doi: 10.1049/el:20080522 -