2.845

2023影响因子

(CJCR)

  • 中文核心
  • EI
  • 中国科技核心
  • Scopus
  • CSCD
  • 英国科学文摘

留言板

尊敬的读者、作者、审稿人, 关于本刊的投稿、审稿、编辑和出版的任何问题, 您可以本页添加留言。我们将尽快给您答复。谢谢您的支持!

姓名
邮箱
手机号码
标题
留言内容
验证码

基于WCGAN的矿物浮选泡沫图像光照不变颜色提取

刘金平 何捷舟 唐朝晖 谢永芳 马天雨

刘金平, 何捷舟, 唐朝晖, 谢永芳, 马天雨. 基于WCGAN的矿物浮选泡沫图像光照不变颜色提取. 自动化学报, 2022, 48(9): 2301−2315 doi: 10.16383/j.aas.c190330
引用本文: 刘金平, 何捷舟, 唐朝晖, 谢永芳, 马天雨. 基于WCGAN的矿物浮选泡沫图像光照不变颜色提取. 自动化学报, 2022, 48(9): 2301−2315 doi: 10.16383/j.aas.c190330
Liu Jin-Ping, He Jie-Zhou, Tang Zhao-Hui, Xie Yong-Fang, Ma Tian-Yu. WCGAN-based illumination-invariant color measuring of mineral flotation froth images. Acta Automatica Sinica, 2022, 48(9): 2301−2315 doi: 10.16383/j.aas.c190330
Citation: Liu Jin-Ping, He Jie-Zhou, Tang Zhao-Hui, Xie Yong-Fang, Ma Tian-Yu. WCGAN-based illumination-invariant color measuring of mineral flotation froth images. Acta Automatica Sinica, 2022, 48(9): 2301−2315 doi: 10.16383/j.aas.c190330

基于WCGAN的矿物浮选泡沫图像光照不变颜色提取

doi: 10.16383/j.aas.c190330
基金项目: 国家自然科学基金(61971188, 61771492), 国家杰出青年科学基金(61725306), 国家自然科学基金−广东联合基金重点项目(U1701261), 湖南省自然科学基金(2018JJ3349), 湖南省研究生科研创新项目(CX2018B312, CX20190415)资助
详细信息
    作者简介:

    刘金平:湖南师范大学信息科学与工程学院副教授. 主要研究方向为智能信息处理. 本文通信作者.E-mail: ljp202518@163.com

    何捷舟:湖南师范大学信息科学与工程学院硕士研究生. 主要研究方向为计算机视觉和模式识别.E-mail: hdc@smail.hunnu.edu.cn

    唐朝晖:中南大学自动化学院教授. 2005年至2006年任德国杜伊斯堡−埃森大学访问学者. 主要研究方向为信号处理和工业过程故障诊断. E-mail: zhtang@csu.edu.cn

    谢永芳:中南大学自动化学院教授. 主要研究方向为复杂工业过程的建模与控制, 分散鲁棒控制, 故障诊断. E-mail: yfxie@csu.edu.cn

    马天雨:博士, 湖南师范大学物理与电子学院讲师. 主要研究方向为复杂工业过程建模及优化控制.E-mail: mty@hunnu.edu.cn

WCGAN-based Illumination-invariant Color Measuring of Mineral Flotation Froth Images

Funds: Supported by National Natural Science Foundation of China (61971188, 61771492), National Science Fund for Distinguished Yong Scholars (61725306), Joint Found of National Natural Science Foundation of China and Guangdong Provincial Government (U1701261), Hunan Natural Science Fund (2018JJ3349), and Hunan Postgraduate Research Innovation Project (CX2018B312, CX20190415)
More Information
    Author Bio:

    LIU Jin-Ping Associate professor at the College of Information Science and Engineering, Hunan Normal University. His research interest covers digital signal processing and pattern recognition. Corresponding author of this paper

    HE Jie-Zhou Master student at the College of Information Science and Engineering, Hunan Normal University. His research interest covers computer vision and pattern recognition

    TANG Zhao-Hui Professor at the School of Automation, Central South University. He was a visiting scholar at the University of Duisburg-Essen, Germany from 2005 to 2006. His research interest covers signal processing and industrial process fault diagnosis

    XIE Yong-Fang Professor at the School of Automation, Central South University. His research interest covers modeling and control of complex industrial processes, decentralized robust control, and fault diagnosis

    MA Tian-Yu Ph.D., lecturer at the College of Physics and Electronics, Hunan Normal University. His research interest covers complex industrial process modeling and optimal control

  • 摘要: 浮选泡沫表面颜色是选矿生产指标(精矿品位)最为快速便捷的直接指示器. 然而, 泡沫图像信号因受多种可变光照的交叉干扰而不可避免存在严重色偏, 导致浮选指标难以准确评估. 本文将传统的基于光照估计的图像颜色恒常问题转换为一种结构保持的图到图颜色(风格)转移问题, 提出一种基于Wasserstein距离的循环生成对抗网络(Wasserstein distance-based cycle generative adversarial network, WCGAN)用于泡沫图像光照不变颜色特征在线监测. 在标准颜色恒常数据集和实际的工业铝土矿浮选过程进行实验验证, 结果表明, WCGAN能有效实现各种未知光照条件下(色偏)图像到基准光照条件下的颜色转换, 转换速度快且具有模型在线更新功能. 与传统的基于生成对抗学习的颜色转换模型相比, WCGAN能更好地保持泡沫图像的轮廓和表面纹理等结构信息, 为基于机器视觉的矿物浮选过程生产指标的在线监测提供了有效的客观评价信息.
  • 泡沫浮选是应用最为广泛的一种矿物分选方法, 同时也是矿物加工中最不稳定和最不可预测的步骤之一[1]. 精矿品位是衡量精矿产品质量、判断选矿水平高低的关键性指标. 然而, 由于浮选工业过程是典型多相流复杂耦合系统, 系统中包含复杂的物理化学变化, 目前还难以实现浮选精矿品位的在线检测[2].

    研究表明浮选泡沫表面颜色是精矿品位最为快速便捷的直接指示器[3-5]. 有经验的生产工人正是通过观察泡沫表面颜色对精矿品位以及生产工况进行评判, 以便对生产进行操作调整. 因此, 近年来, 国内外许多专家学者对基于机器视觉浮选过程监控开展了一系列研究[4-7], 以期通过自动分析泡沫图像颜色、尺寸等特征, 实现精矿品位的在线监测.

    然而, 在实际的工业浮选过程监控中, 因为泡沫图像信号会受到多种可变光照的影响, 包括泡沫图像采集系统的光源衰减、自然光照强度和入射角度的变化以及选厂中各种灯光设备的照明变化等, 都会对泡沫图像的颜色的准确测量带来严重干扰[7]. 从而难以获得鲁棒的泡沫颜色特征, 进而也就难以基于所获得的泡沫颜色特征对精矿品位进行准确预报. 因此, 要保证基于机器视觉的矿物浮选过程监控系统的有效性和实用性, 获取开放环境下、不受光照影响的泡沫表面的颜色特征成为当务之急.

    为获取不受光照影响的图像恒常颜色特征, 一些研究者针对人类视觉所具有的可变光照颜色恒常感知能力, 对工业视觉检测中的颜色恒常计算模型和方法进行了大量的研究[8].

    传统的图像颜色恒常模型都是基于某种视觉感知假设(约束)对入射光进行全局分析与建模, 根据光照估计结果对非基准光照(色偏)图像进行颜色校正[9-10]. 然而, 由于人类视觉的颜色恒常感知机理目前还没有很好地掌握, 将一些简单的感知假设应用于颜色恒常计算时, 往往难以获得令人满意的校正结果[11]. 因而, 一些研究者期望直接从图像数据中对场景的真实光照或者真实颜色进行分析.

    自从有研究者将神经网络[12]等机器学习方法引入到图像的色度估计中之后, 基于机器学习的颜色恒常处理方法, 因其计算速度快、适应性强、可在线更新等优点, 引起国内外研究者广泛关注. 特别是近年来, 随着深度卷积网络的盛行, 基于深度学习的颜色恒常方法更是受到了学术界和工业界的高度关注[10, 13-14].

    Bianco等[14]首次采用深度卷积网络进行光照估计. Oh等[10]采用深度卷积神经网络将传统的颜色恒常中的光照估计问题转换为光照分类问题. 然而, 该方法所采用网络模型结构复杂, 无法满足工业监控实时性需求. 为了提高模型效率, Hu等[13]采用全卷积神经网络来取代全连接网络, 并采用更轻量级的SqueezeNet网络结构替换了AlexNet网络结构, 以缩减网络模型计算时长.

    在工业浮选过程监控中, 浮选泡沫图像光照情况复杂多变, 很难对这些相互干扰的、可变多光照进行有效估计或者分类. 因此, 传统的基于光照估计的颜色恒常方法会因光照估计的失败导致对泡沫图像颜色校正时出现模糊、伪色块等严重的图像失真问题, 难以满足工业浮选过程监控的实际需求.

    实际上, 在基于机器视觉的矿物浮选过程监控中, 更重要的是要能有效估计出各种未知光照条件下所采集到的泡沫图像在某种基准光照条件下的色域显示, 以获得能有效反映浮选工况或者精矿品位的泡沫颜色信息, 实现基于泡沫图像特征的工况鉴别和精矿品位在线监测.

    因此, 泡沫图像颜色恒常处理可以看作一种图像到图像的颜色(风格)转移, 也就是要将未知光照下的泡沫图像转换到某种特定光照下的颜色显示. 与传统图像风格转移目标不同的是, 在进行泡沫图像颜色转移时, 要能有效保持泡沫图像中复杂的气泡轮廓、表面纹理结构的不变性(因为泡沫的表面几何特征和表面纹理特征也与浮选生产工况, 比如加药健康状态[3, 7, 15], 有较大的相关性).

    生成对抗网络(Generative adversarial network, GAN)[16]及其改进模型, 比如Pixel2Pixel[17], CycleGAN[18]是目前常用的图像风格转移模型. 但是, 传统的基于GAN的图像生成方法是基于随机噪声进行图像生成无法实现图到图的颜色风格转移, 难以保证气泡轮廓和表面纹理的结构不变性, 无法直接应用于泡沫图像光照不变颜色特征监测.

    本文提出一种基于Wasserstein距离的循环生成式对抗网(Wasserstein distance-based cycle GAN, WCGAN)用于泡沫图像光照不变颜色特征检测. WCGAN由具有对称结构和循环一致性约束的两个GAN组成, 可获得各种未知光照条件下泡沫图像色域信息与基准光照下色域信息的非线性映射关系, 从而实现各种非恒定光照下色偏泡沫图像到基准光照下的颜色显示, 并有效保持颜色校正图像的结构不变性. 本文主要研究工作和创新点总结如下:

    1) 提出一种基于WCGAN的泡沫图像颜色校正方法, 将传统的基于光照估计的颜色恒常问题转换为一种结构保持的图像到图像的颜色(风格)转换问题, 以实现各种未知光照条件下的泡沫图像到基准色域下的颜色表示.

    2) WCGAN基于CycleGAN模型的循环对称结构和循环一致性约束, 采用Wasserstein距离对CycleGAN中的生成对抗损失函数进行优化修改, 并对其生成器结构进行改进, 使得WCGAN模型能在进行图像颜色转换的同时有效保持原始图像轮廓和纹理结构的不变性.

    实验表明, WCGAN具有收敛速度快、生成结果稳定的优点且具有在线修正功能, 可对各种复杂工况进行有效监测, 满足浮选过程监测时效性的要求, 为实现浮选过程精矿品位在线监测奠定基础.

    本节先回顾颜色恒常中的光照模型, 再简要介绍基于GAN的颜色恒常方法以及Wasserstein GAN (WGAN)的基本原理.

    光照是决定非源观测物质表面颜色的重要因素. 绝大多数的颜色恒常计算模型均是通过先计算出图像的入射光照颜色, 再通过某种转换规则将当前的入射光照下的图像颜色调整到标准白色光照下所呈现出来的颜色表示.

    设图像颜色数据为${f_c} = {\left( {{f_R}, {f_G}, {f_B}} \right)^{\rm{T}}}$, 对应的光源颜色为$I\left( {\lambda} \right)$, ${\lambda}$为入射光源的波长, 被照射物体表面的反射率为$S(x, {\lambda})$, 并假设物体表面为Lambertian表面(仅包括漫反射), 则图像颜色数据可表示为[9]

    $$ {f_c}(x) = {m_b}(x)\int\nolimits_w {I(\lambda )\rho (\lambda )S(x, \lambda ){\rm{d}}\lambda } $$ (1)

    其中, $w$代表可视光谱, ${m_b}$表示漫反射系数, $\rho ({\lambda}) = $${\left( {{\rho _R}({\lambda}), {\rho _G}({\lambda}), {\rho _B}({\lambda})} \right)^{\rm{T}}}$代表摄像设备的敏感函数.

    式(1)考虑了多种光照情况, 为降低模型复杂度, 可以将多种光照综合为单光照, 那么式(1)可以进一步简化为

    $$ {S_c} = {\left\{ {{c_R}, {c_G}, {c_B}} \right\}^{\rm{T}}} = \int_w {I({\rm{\lambda }})\rho ({\rm{\lambda }}){\rm{d}}{\rm{\lambda }}} $$ (2)

    由于$I(\lambda )$$\rho (\lambda )$均是未知量, 对光源颜色$I(\lambda)$估计是典型的非适定的问题. 为了研究方便, 入射光照的估计一般是在一定感知约束(假设)下计算得出.

    在对色偏图像进行颜色校正时, 一般基于入射光照(颜色)的估计结果, 采用线性变换对光照图像像素的颜色值进行转换.

    根据Beer-Lambert定律, 由两种不同的光照形成的图像可以通过对角矩阵转换模型进行颜色转换, 对角模型又称Von Kries模型[9]. 因此, 通常在估计出原图像中的入射光照后, 采用对角矩阵将原始图像转化为在标准白光$(R = G = B = 255)$下颜色显示, 转换公式为

    $$ {f_o} = {D_{u, f}}{f_u} $$ (3)

    其中, ${f_o}$${f_u}$分别表示校正后的和未知光源情况下获得的图像值, ${D_{u, f}}$是对角转换矩阵.

    上述方法实现简单, 然而, 仅凭一张没有任何来源的输入图像, 是很难精确计算出光照信息的, 也就是难以获得有效的${D_{u, f}}$.

    实际上, 在基于机器视觉的矿物浮选过程监测中, 并不需要显式地进行泡沫光照估计, 也不一定要将图像转换到标准白色下进行显示, 而仅需要将各种未知光照泡沫图像映射到某种基准光照下的色域显示, 以获得能有效反映精矿品位变化情况的泡沫颜色特征.

    因此, 可将泡沫图像颜色恒常问题转换成一个图到图的颜色风格转换问题, 采用某种机器学习模型获得非基准光照下泡沫图像色域信息与基准光照泡沫图像色域信息的非线性映射关系, 进而实现未知光照下泡沫图像的色域到基准色域下的颜色风格转换. 图1显示了本文进行光照不变泡沫颜色特征提取的基本思路.

    图 1  泡沫图像光照转换思想
    Fig. 1  Scheme of the color translation of froth images

    基于GAN的图像颜色转换基本思路为: 通过GAN框架中的两个基本模块(生成器($G$)和判别器($D$))的对抗训练, 学习一个有效的颜色转换映射, $G:X \to Y$, 以便能将任意未知光照下的图像颜色域$X$转换到某种基准光照下(比如白色基准光照)颜色域$Y$, 同时要求在色域转换时, 图像结构保持不变.

    在模型训练中, $G$的监督信息来自于$D$, 也就是需要将$G$的输出信息输入到$D$中, $D$来辨识这个输入信息是来自于真实的基准光照下图像还是来自于$G$的生成数据, 迫使$G$来进一步优化, 以便能生成更符合基准光照下图像色域分布的图像.

    传统的GAN采用随机输入来进行图像生成, 其能生成符合特定光照条件的(泡沫)图像, 却很难保留原图像复杂的几何轮廓、表面纹理等特征. 同时传统的GAN存在训练难、收敛慢的特点, 无法实现图到图的转换等问题. 因此, 本文采用CycleGAN[18]的循环对称结构来构建结构保持的图到图的颜色转移模型.

    CycleGAN采用两个对称的GAN, GAN1与GAN2, 进行循环训练. 两个GAN共享两个生成器$G $$F $, 并各自拥有一个独立的判别器, ${D_1} $${D_2} $. 生成器用来实现泡沫图像数据集$X $$Y $的颜色分布域之间的相互映射转换. 判别器${D_2} $ 用来判别图像是属于X 的真实图像还是来自于$\{ F(y)|y \in Y\} $的生成图像, ${D_1} $ 用来判别图像是属于$Y $的真实图像还是来自于$\{ G(x)|x \in X\} $的生成图像.

    为保证两个生成器是按照一定的映射关系进行转换而非随机生成, CycleGAN引入了一种循环一致性损失函数. 对于GAN1, 当图像$x\;(x \in X) $被生成器$G $映射到$Y $域上被${D_1} $判别为真时, 将生成图片再通过生成器$F $映射回$X $域, 并计算其与原始图像$x $的损失度, 即循环一致性损失, 试图使$\left\{ F\left( {G(x)} \right) \approx\right. $$\left. x{\rm{|}}x \in X \right\} $. 同理, 对于GAN2, 其一致性目标为 $\left\{ {G\left( {F(y)} \right) \approx y|y \in Y} \right\} $.

    其对抗损失的目标函数与原始GAN一致, GAN1的损失函数表示为[18]

    $$ \begin{split} &{L_{{\rm{GAN1}}}}\left( {G, {D_1}, X, Y} \right) = {{\rm{E}}_{y \sim {P_{{\rm{data}}\left( Y \right)}}}}\left[ {\log {D_1}(y)} \right]+ \\ &\qquad {{\rm{E}}_{x \sim {P_{{\rm{data}}\left( X \right)}}}}\left[ {\log \left[ {1 - {D_1}\left( {G(x)} \right)} \right]} \right] \end{split} $$ (4)

    其中, ${P_{{\rm{data}}}} $是代表数据的概率分布, ${\rm{E}}[\cdot]$表示数学期望.

    GAN2的损失函数表示为[18]

    $$ \begin{split}& {L_{{\rm{GAN2}}}}(F, {D_2}, Y, X) = {{\rm{E}}_{x \sim {P_{{\rm{data}}\left( X \right)}}}}\left[ {\log {D_2}\left( x \right)} \right]+\\ & \qquad{{\rm{E}}_{y \sim {P_{{\rm{data}}\left( Y \right)}}}}\left[ {\log \left[ {1 - {D_2}\left( {F\left( y \right)} \right)} \right]} \right] \end{split} $$ (5)

    循环一致性损失函数用于计算映射回来的图像和原图像的L1范数, 其定义为

    $$ \begin{split}{L_{{\rm{cyc}}}}\left( {G, F} \right) = &{{\rm{E}}_{x \sim {P_{{\rm{data}}\left( X \right)}}}}\left[ {{{\left\| {F\left( {G\left( x \right)} \right) - x} \right\|}_1}} \right]+\\ &{{\rm{E}}_{y \sim {P_{{\rm{data}}\left( Y \right)}}}}\left[ {{{\left\| {G\left( {F\left( y \right)} \right) - y} \right\|}_1}} \right] \end{split} $$ (6)

    其中, ${\left\| \cdot\right\|_1}$为1范数.

    因此, CycleGAN完整的目标函数为

    $$ \begin{split}& L(G, F, {D_1}, {D_2}) = {L_{{\rm{GAN1}}}}(G, {D_1}, X, Y)\;+\\ &\qquad {L_{{\rm{GAN2}}}}(F, {D_2}, Y, X) + \lambda {L_{{\rm{cyc}}}}(G, F) \end{split} $$ (7)

    其中, $\lambda $代表循环一致性损失函数在目标函数中的重要性.

    理论上, 通过CycleGAN能够有效实现不同颜色域图像的风格转换, 其训练模型结构如图2所示.

    图 2  CycleGAN结构图
    Fig. 2  CycleGAN structure

    传统的GAN或CycleGAN存在着以下问题: 1)模型坍塌. GAN在训练过程可能会出现生成器退化, 难以生成符合真实分布的数据; 2)难以收敛. GAN是在高维非凸的参数空间找到纳什均衡点, 但梯度下降法只有在凸函数的情况下才能有效获得纳什均衡点. 对于用神经网络表示的高维非凸函数, 极有可能存在无法收敛的现象.

    针对以上问题, 很多专家学者提出了不同的改进方法[19-20]. WGAN[19]的作者认为传统的GAN损失函数中采用JS (Jensen-Shannon)散度与KL (Kullback-Leibler)散度来衡量两个分布之间的差异(距离)会导致其判别器过于优化而生成器很难得到足够的梯度, 从而出现梯度消失、模型坍塌等问题.

    根据文献[21]的描述, 原始GAN的判别器在最优情况下, GAN的损失函数等价为最小化真实数据分布${P_{{\rm{data}}(x)}}$与生成数据分布${P_{G(x)}}$之间的JS散度. 当两个分布之间的差异越小时, JS散度越小, 从而可以通过优化JS散度来减小两个数据分布之间的差异, 生成符合真实数据分布的图像. 但是, 这一理论仅在两个分布有所重叠时成立.

    WGAN的作者证明当${P_{{\rm{data}}(x)}}$${P_{G(x)}}$分布之间不存在重叠或者重叠可忽略时, JS散度为固定常数$\log \left(2\right)$, 从而导致了梯度消失, 并证明了两个分布之间无重叠的可能性非常大[21]. 因此WGAN的作者提出了一种新的等价优化的距离衡量方法, 即Wassertein距离, 来衡量两个分布之间的距离与差异, 并对原GAN损失函数进行了修改.

    Wasserstein距离又称为Earth-Mover距离, 其表示为

    $$ W({P_r}, {P_g}) = \mathop {\inf }\limits_{\gamma \in \Pi \left( {{{\mathop{P}\nolimits} _r}, {{{P}}_g}} \right)} {{\rm{E}}_{\left( {x, y} \right) \sim \gamma }}\left[ {\left\| {x - y} \right\|}_1 \right] $$ (8)

    其中, $\Pi \left( {{{\mathop{{P}}\nolimits} _r}, {{{{P}}}_g}}\right)$表示边缘分布为${{{{P}}}_r}$${{{{P}}}_g}$的联合分布${(}{{{{P}}}_r}{, }{{{{P}}}_g})$的集合.

    式(8)中的下界计算无法直接求解, 因此, 根据Kantorovich-Rubinstein对偶原理, 将Wasserstein距离等价定义为

    $$ \begin{array}{r} W({{\mathop{P}\nolimits} _r}, {{{P}}_g}) = \dfrac{1}{K}\mathop {\sup }\limits_{\left\| f \right\|_{\rm{L}} \le K} {{\rm{E}}_{x \sim {P_r}}}\left[ {f\left( x \right)} \right] - {{\rm{E}}_{x \sim {P_g}}}\left[ {f\left( x \right)} \right] \end{array} $$ (9)

    其中, $K$为函数$f$的Lipschitz常数, 即

    $$ \left| {f({x_1}) - f({x_2})} \right| \le \left| {{x_1} - {x_2}} \right|\times{{{{K}}}} $$ (10)

    其中, ${x_1}, {x_2}$为函数$f$上的任意两个元素.

    则对于判别器$D$可以定义目标函数$L$

    $$ L = {{\rm{E}}_{x \sim {P_{{\rm{data}}\left( x \right)}}}}\left[ {{D_\beta }\left( x \right)} \right] - {{\rm{E}}_{x \sim {P_{G\left( x \right)}}}}\left[ {{D_\beta }\left( x \right)} \right] $$ (11)

    其中, $\beta $为判别器的参数集, 当$\beta $不超过某个范围的条件下$L$足够大时, L就近似等于真实分布与生成分布之间的Wasserstein距离, 而生成器$G$的优化目标是使$L$最小化.

    研究表明, 即使两个分布之间没有重叠, Wasserstein距离仍然能够有效测量它们之间的距离大小.因此, WGAN采用Wasserstein距离将传统GAN的对抗损失函数改写为

    $$ \begin{split}& \mathop {\min }\limits_G \mathop {\max }\limits_{D \in L} \left\{ {{{V}}(D, G)} \right\} = \\ &\qquad\mathop {\min }\limits_G \mathop {\max }\limits_{D \in L} \left\{ {{{\rm{E}}_{x \sim {P_{{\rm{data}}\left( x \right)}}}}\left[ {{D_\beta }(x)} \right]} \;-\right.\\ &\qquad\left. { {{\rm{E}}_{z \sim {P_{z\left( z \right)}}}}\left[ {{D_\beta }\left( {{G_\theta }(z)} \right)} \right]} \right\} \end{split} $$ (12)

    其中, ${G_\theta }(z)$为生成器基于随机噪声生成的样本, $\theta$为生成网络的参数集. ${D_\beta }( \cdot)$为判别器的判别结果, $\beta$为判别器网络参数集.

    研究表明该改进能有效的增强GAN的稳定性和鲁棒性, 解决原始GAN难以收敛以及模型容易坍塌等问题[22].

    本节详细介绍WCGAN的模型结构及基于WCGAN的图像颜色校正流程, 并对所提方法的复杂度进行分析.

    WCGAN采用与CycleGAN一样的对称循环网络结构, 由带循环一致损失约束的两个GAN构成. 两个GAN共享两个生成器, 分别为$G$$F$, 并具有各自独立的判别器${D_1}$${D_2}$. $G:X \to Y$, 用于实现从未知光照图像到参考光照下图像的颜色转换; 而$F:Y \to X$$F:G\left( X \right) \to X$, 通过引入循环一致损失约束. 能保证通过$G$进行颜色转换后的图像, 能通过$F$再转换回到其原始的色域空间. 也就是要满足$F\left( {G\left( x \right)} \right) \approx x$, 并且$G\left( {F\left( y \right)} \right) \approx y$, 其中$x \in X$, $y \in Y$.

    为保证模型的转换稳定和快速收敛, WCGAN采用Wasserstein距离取代传统CycleGAN中的JS散度与KL散度来优化其对抗损失函数. 同时, 对传统CycleGAN中的生成器结构进行改进, 使生成泡沫图像更加符合真实基准光照图像的颜色概率分布, 并能有效保持其轮廓和表面纹理结构特征的不变性.

    首先, 采用Wasserstein距离对CycleGAN的对抗损失函数进行优化, 则WCGAN中GAN1的对抗损失函数(4)优化为

    $$ \begin{split}& \mathop {\min }\limits_G \mathop {\max }\limits_{{D_1} \in {L_1}} \left\{ {{L_{{\rm{GAN1}}}}\left( {G, {D_1}, X, Y} \right) = } \right.\\ &\qquad\left. {{{\rm{E}}_{y \sim {P_{{\rm{data}}\left( Y \right)}}}}\left[ {{D_1}\left( y \right)} \right]{\rm{ - }}{{\rm{E}}_{x \sim {P_{{\rm{data}}\left( X \right)}}}}\left[ {{D_1}\left( {G\left( x \right)} \right)} \right]} \right\} \end{split} $$ (13)

    其中

    $$ {L_1} = {{\rm{E}}_{y \sim {P_{{\rm{data}}(y)}}}}\left[ {{D_1}(y)} \right] - {{\rm{E}}_{y \sim {P_{G(x)}}}}\left[ {{D_1}(y)} \right] $$ (14)

    WCGAN中GAN2的对抗损失函数(5)优化为

    $$ \begin{split} \mathop {\min }\limits_F \mathop {\max }\limits_{{D_2} \in {L_2}} &\{{{L_{{\rm{GAN2}}}}(F, {D_2}, Y, X) = } \\ &{{\rm{E}}_{{\rm{x}} \sim {P_{{\rm{data}}( X )}}}}( {{D_2}(x)}) -\qquad \\ & {{\rm{E}}_{y \sim {p_{{\rm{data}}(Y)}}}}[ {{D_2}( {F(y)} )}]\}\qquad \end{split} $$ (15)

    其中

    $$ {L_2} = {{\rm{E}}_{x \sim {P_{{\rm{data}}(x)}}}}\left[ {{D_2}(x)} \right] - {{\rm{E}}_{x \sim {P_{F(y)}}}}\left[ {{D_2}(x)} \right] $$ (16)

    WCGAN的整体目标损失函数为

    $$ \begin{split}& L\left( {G, F, {D_1}, {D_2}} \right) = {L_{{\rm{GAN1}}}}\left( {G, {D_1}, X, Y} \right) +\\ &\qquad {L_{{\rm{GAN2}}}}\left( {F, {D_2}, Y, X} \right) + \lambda {L_{{\rm{cyc}}}}\left( {G, F} \right) \end{split} $$ (17)

    其中, $\lambda $代表循环一致性损失在目标函数中的重要性.

    由于RMSProp优化算法具有收敛速度快, 摆动幅度小等优点, 本文采用RMSProp优化算法[23]对WCGAN中损失函数进行求解. RMSProp优化算法求解计算为

    $$ w = w - \alpha \dfrac{{\tfrac{\partial L}{\partial w}}}{{\sqrt {{L_{dw}} + \theta } }} $$ (18)

    其中, $w$为求解参数, $L$为求解的目标函数, $\alpha $为学习率, $\theta $为一小常数, 保证式(18)的分母项不为0, ${L_{dw}}$为参数$w$历史梯度的加权平方值, 即

    $$ {L_{d{{w}}}} = \beta {L_{d{{w}}}} + \left( {1 - \beta } \right){\left( {\frac{\partial J}{\partial w}} \right)^2} $$ (19)

    其中, ${\beta }$为衰减率.

    WCGAN的生成器网络结构如图3所示, 包括编码块(Encoding)、转换块(Transformation)和解码块(Decoding). 为减小原始图像的轮廓信息丢失, 编码块采用全卷积层进行轮廓特征提取, 不包含全连接层以及池化层. 通过全卷积操作得到原始图像表面结构信息的特征图, 但其颜色信息依旧符合输入图像的颜色分布. 因此本文采用转换块将输入泡沫颜色域的分布映射到基准颜色域上, 最后由3层反卷积网络构成的解码块, 生成符合基准颜色域分布同时拥有原图像轮廓信息的图像.

    图 3  WCGAN的生成器结构
    Fig. 3  Generator structure of WCGAN

    为保证转换块在对图像颜色域转换的同时尽可能保持其结构信息的不变, 本文采用多层ResNet[24]网络进行转换, 以保证转换后的图像和输入图像在轮廓信息上保持一致性.

    WCGAN中的辨别器和CycleGAN中辨别器保持一致, 为70×70的PathGANs[18]. 其输入为图像, 通过卷积网络提取图像中的关键特征, 输出为1维单变量, 表示图像是通过生成器生成还是真实色域图像.

    本文提出的基于WCGAN的泡沫图像颜色校正算法的主要步骤如下:

    步骤 1. 训练集准备. 准备未知光照泡沫图像数据$X$并选择某特定光照下的泡沫图像组成基准图像集$Y$.

    步骤 2. 随机初始化WCGAN所需的两个生成器$G$$F$, 以及判别器${D_1}, {D_2}$的网络参数, 设置迭代次数$n$, RMSProp优化算法的学习率$\alpha $等参数.

    步骤 3. 对${D_1}, {D_2}$进行预训练. 利用RMSProp优化算法对式(13)和式(15)所描述的判别器${D_1}, {D_2}$ 进行优化求解, 使得${D_1}(y) = 1$, ${D_1}(G(x)) = 0$, ${D_2}(F(y)) = 0$, ${D_2}(x) = 1$, 其具体计算为

    对于判别器${D_1}$

    $$ \begin{split} &{g{w_1} \leftarrow \nabla {w_1}\left[ {\frac{1}{m}\sum\limits_{i = 1}^m {{D_1}({y^{(i)}}) - {D_1}\left( {G({x^{(i)}})} \right)} } \right]}\\ &{{w_1} \leftarrow {w_1} + \alpha {\rm{RMSProp(}}{w_1}, g{w_1}{\rm{)}}} \end{split} $$

    其中, $x \in X, y \in Y$, $\alpha$为学习率, ${w_1}$为判别器${D_1}$的网络参数集, $g{w_1}$为在其目标函数上的偏导数.

    同理, 对于判别器${D_2}$

    $$ \begin{split} &{g{w_2} \leftarrow \nabla {w_2}\left[ {\frac{1}{m}\sum\limits_{i = 1}^m {{D_2}({x^{(i)}}) - {D_2}\left[ {F({y^{(i)}})} \right]} } \right]}\\ &{{w_2} \leftarrow {w_2} + \alpha {\rm{RMSProp(}}{w_2}, g{w_2}{\rm{)}}} \end{split} $$

    其中, ${w_2}$为判别器${D_2}$的网络参数, $g{w_2}$为在其目标函数上的偏导.

    步骤 4. 根据图2所示的结构, 基于式(17)对$G, F, {D_1}, {D_2}$, 进行n次迭代训练. 具体为

    步骤 4.1. 对于GAN1, 输入图像$\{ x|x \in X\}$, 通过生成器$G$转换为图像$G(x)$.

    步骤 4.2. 利用判别器${D_1}$进行判别, 根据判别结果采用式(18)根据式(13)对生成器$G$或者判别器${D_1}$进行反向修改.

    步骤 4.3. 将转换后的图片输入至生成器$F$, 生成图像$F\left({G(x)} \right)$, 根据$ {{{\rm{E}}}_{x \sim {P_{{\rm{data}}\left( X \right)}}}}\left[ \left\| F\left( {G\left( x \right)} \right) -\right.\right.$$ \left.\left. x\right\|_1\right]$计算循环一致性损失函数, 并采用式(18)对生成器$G$进行反向修改.

    步骤 4.4. 对于GAN2, 输入图像$\left\{ {y|y \in Y}\right\}$, 通过生成器$F$转换为图像$F(x)$.

    步骤 4.5. 利用${D_2}$进行判别, 对生成器$F$或者判别器${D_2}$进行反向修改.

    步骤4.6. 将转换后的图片输入生成器$F$, 生成图像$G\left({F(y)} \right)$, 根据${{\rm{E}}_{y \sim {p_{{\rm{data}}(Y)}}}}\left[\left\| G\left( {F(y)} \right) -\right.\right. $$\left.\left.y \right\|_1 \right]$计算循环一致性损失函数, 并采用式(18)对生成器$G$进行反向修改.

    步骤 4.7. 并发执行步骤4.1 ~ 4.3、步骤4.4 ~ 4.6, 循环$n$次, 结束训练.

    步骤 5. 将训练完成的模型用于工业过程监测. 对实时获得的泡沫图像, 采用生成器$G$进行校正后, 进行颜色特征提取, 获得光照不变颜色特征向量, 用于对工业过程的精矿品位预测或者工况状态识别.

    步骤 6. 实时采集图像按照步骤4.2和步骤4.3对GAN1网络生成器$G$${D_1}$进行在线更新, 保证颜色校正模型的泛化性能.

    WCGAN基于全卷积深度神经网络, 其训练过程需要经过两个生成器和两个判别器模块, 并且需要反向迭代修改. 而测试(实际工业校正)则只需生成器$G$将非恒定光源图像转为恒定光照情况下的图片即可.

    WCGAN的网络计算时间复杂度为

    $$ {\rm{O}}_{\rm{time}}\sim {\rm{O}}\left( {\sum\limits_{l = 1}^D {M_l^2K_l^2{C_{l - 1}}{C_l}} } \right)\left( {{\rm{FLOPs}}} \right) $$ (20)

    其中, $D$为卷积网络深度, ${C_l}$$l$层卷积核个数, $K$为卷积核的边长, $M$为卷积核输出特征图边长, 其由输入矩阵尺寸$X$、卷积核尺寸$K$、边界填充$P$、步长$S$决定, 其具体计算式为

    $$ M = {\frac{X - K + 2 \times P}{S }+ 1 }$$ (21)

    WCGAN的空间复杂度为

    $$ {\rm{O}}_{\rm{space}}\sim {\rm{O}}\left( {\sum\limits_{l = 1}^D {K_l^2{C_{l - 1}}{C_l} + \sum\limits_{l = 1}^D {{M^2}{C_l}} } } \right){\rm{ (Bytes)}} $$ (22)

    空间复杂度即访存量, 只与总参数量以及输出特征图有关, 与输入数据大小无关. 由式(20)和式(22)可计算出本文算法在训练集上的时间复杂度为175 GFLOPs, 空间复杂度为141 MB. 而在测试集上, 本算法时间复杂度为36 GFLOPs, 空间复杂度为30 MB.

    因此, 本文提出的泡沫图像颜色校正方法在结构上去除了传统深度卷积神经网络的池化层以及全连接层, 无论是训练还是测试都要比传统的GAN网络具有更快的表现. 根据Roof-line 模型理论[25]该算法在1080Ti的GPU环境下其测试能保证ms级的图像处理速度, 从而实现工业现场的实时图像校正.

    为验证本文所提方法的有效性, 首先在两个公共颜色恒常数据集上进行颜色校正验证和对比性实验.然后, 在一实际的工业铝土矿浮选过程, 通过收集相应的矿物浮选泡沫图像数据和相应的冶金过程参量和工艺指标参量, 分析并对比该段时间内所采集泡沫图像的原始颜色特征和经恒常处理后的颜色特征与其对应精矿品位之间的相关性, 验证所提方法的有效性.

    选用两大公共颜色恒常数据集Gehler-Shi 568data[26]和SFU 321 labimages[27]进行实验验证.

    数据集Gehler-Shi 568 data收集了568幅RAW格式的室内/室外图像, 并在每一个场景上放了一个色彩检验图, 用以测试光源和动态范围, 其中real_illum_568.mat文件记录了真实光照情况, 因此可以计算出正常光照下的图像作为基准数据.

    数据集SFU 321 lab images则是在11种光源下拍摄的31幅实验环境图像, 去除了20幅不规则图像, 其中包含三种不同的荧光灯、四种白炽灯和一种加了蓝色滤片的4个白炽灯图. 本文选择一种与日光接近的白炽灯图作为基准数据, 其他图像作为待矫正的图像数据.

    本文实验对以下两类算法进行性能对比: 1)传统的基于统计量的经典颜色恒常性算法, 包括: MAX-RGB[28], Gray-World[29], Gray-Edge[30], White-Patch[31]; 2)当前的基于机器学习的颜色恒常算法, 包括: 全卷积神经网络(FC4[13])、原始的CycleGAN[18]和WD + CycleGAN, 即原始的CycleGAN结构, 但采用Wasserstein距离对其对抗损失进行修正的模型.

    本文实验在i7-8750h CPU、GTX1080-Ti GPU、16 GB RAM硬件上进行训练和测试.

    3.1.1   评价指标

    本文引入角度误差和色度误差这两个颜色相关指标来客观评价颜色校正的准确度, 同时采用结构相似性(Structural similarity, SSIM)[32]标准来衡量基于深度学习的颜色转换模型对图像轮廓、纹理等结构特征的保持度.

    1)角度误差

    假设图像的真实光照为 ${e_a} = ({{\mathop{{R}}\nolimits} _a}, {G_a}, {B_a})$, 算法估计得到的光照值为${e_b} = ({{\mathop{{R}}\nolimits} _b}, {G_b}, {B_b})$, 角度误差${E_a}$定义为

    $$ {E_a} = angular({e_a}, {e_b}) = {{\rm{arccos}} }\left( {\dfrac{{{e_a} \cdot {e_b}}}{{\left| {{e_a}} \right|\left| {{e_b}} \right|}}} \right) $$ (23)

    其中, ${{\rm{arccos}} }$表示反余弦函数, “·”表示两个向量的内积运算.

    角度误差${E_a}$越小说明算法精确度越高. 假设共有$N$幅测试图像, 其中第$i$幅图像的角度误差为${E_a}(i)$, 本文采用$N$个角度误差值的平均值(Mean)、最大值(Max)、均方根(Root mean square, RMS)作为角度误差评定的3个指标. 其中, 均方根RMS定义为

    $$ RM{S_a} = \sqrt {\frac{1}{N}\sum\limits_{i = 1}^N {E_a^2(i)} } $$ (24)

    2)色度误差

    除了角度误差外, 色度误差也是颜色恒常性计算模型的一个重要评价指标. 为了消除颜色强度的影响, 可将颜色从$(R, G, B)$空间投影到平面$ R\; + $$G + B =1$上, 从而得到一种光照强度归一化后的色度空间$(r, g, b)$.

    由于色度$b$属于冗余的信息$b = 1 - r - g$, 因此一般采用$(r, g)$二维的色度值. 假设图像的真实光照色度值${c_a} =({r_a}, {g_a})$, 算法估计得到的光照色度值为${c_b} =({r_b}, {g_b})$, 那么色度的欧氏距离将作为色度误差${E_d}$, 即

    $$ {E_d} = \sqrt {{{({r_a} - {r_b})}^2} + {{({g_a} - {g_b})}^2}} $$ (25)

    类似于角度误差, 通过计算$N$帧测试集的色度误差中值(Median)、最大值(Max)以及均方根(RMS), 作为色度误差评判的指标.

    3) SSIM

    结构相似性(SSIM)是一种衡量两幅图像相似度的指标, 其表达式为

    $$ SSIM = \frac{{(2{u_X}{u_Y} + {C_1})(2{\sigma _{XY}} + {C_2})}}{{(u_X^2 + u_Y^2 + {C_1})(\sigma _X^2 + \sigma _Y^2 + {C_2})}} $$ (26)

    其中, ${u_X}$${u_Y}$为图像$X$$Y$的均值, ${\sigma _X}$${\sigma_Y}$为图像$X$$Y$的方差, ${\sigma _{XY}}$为图像$X$$Y$的协方差, ${C_1}, {C_{2}}$为常数, 防止分母为零, SSIM值越接近1则相似度越高. 本文通过计算$n$帧测试集的均值作为SSIM评判的指标.

    3.1.2   结构及分析

    图4显示了部分测试图像的颜色恒常校正效果, 图中的右下角数值为校正后的颜色特征与真实颜色特征的角度误差, 右上角度数为校正图像与原图像的结构相似度.

    图 4  图像颜色校正结果
    Fig. 4  Image color correction results

    图4的颜色校正视觉结果来看, WCGAN能很好地将色偏图像转换到基准色域上. 相比于另外6个颜色校正方法, 所获得的结果更符合人类视觉的感知. 原始的CycleGAN因其损失函数存在的梯度消失问题容易导致模型坍塌收敛速度慢, 图像转换时容易出现模糊、色块等问题. WD + CycleGAN虽然在一定程度上减少了校正图像中的模糊、色块的存在, 但其在颜色校正精度和结构保持上与本文的WCGAN有较大的差距.

    为了进一步客观评估颜色恒常算法的优劣, 采用10折交叉验证, 计算客观评价指标角度误差、色度误差和SSIM的平均值等统计量来进行对比.

    表1表2列出了颜色恒常算法在数据集Gehler-Shi 568 data上的结果. 从中可以看出, WCGAN角度误差的均值与均方根值最小, 虽然在最大值上并非最好, 但与最优的Gray-Edge算法只相差0.1. 总体来说, WCGAN生成的图像是最接近标准光照图像的. 相比于其他方法, WCGAN更能适应于不同光照条件下的颜色恒常, 并且在校正时间上也是最快的.

    表 1  基于统计量的颜色恒常方法在Gehler-Shi 568 data 上的对比结果
    Table 1  Comparison of statistics-based color constancy methods on Gehler-Shi 568 data
    方法色度误差角度误差测试时间 (s)
    MedianMaxRMSMeanMaxRMS
    Gray-Edge[30]0.621.350.736.310.46.50.9
    MAX-RGB[28]1.172.551.269.918.610.30.7
    Gray-World[29]0.781.470.887.617.98.40.8
    White-patch[31]0.731.560.817.514.78.30.9
    下载: 导出CSV 
    | 显示表格
    表 2  基于机器学习的颜色恒常方法在Gehler-Shi 568 data上的对比结果
    Table 2  Comparison of machine learning-based color constancy methods on Gehler-Shi 568 data
    方法SSIM色度误差角度误差训练时间 (s)测试时间 (s)
    MedianMaxRMSMeanMaxRMS
    FC4[13]0.85760.571.390.654.711.35.61.70.9
    Neural Gray[33]0.91660.691.920.775.713.46.51.40.5
    Based-SVR[34]0.89450.611.880.705.412.66.31.61.2
    CycleGAN[35]0.69180.983.111.076.316.57.43.00.12
    WD + CycleGAN0.83990.761.840.695.114.35.93.00.12
    WCGAN0.98970.421.310.504.310.55.41.50.06
    下载: 导出CSV 
    | 显示表格

    从色度误差上看, MAX-RGB算法结果最差, 其他算法接近. 但从均值、最大值和RMS上来看, WCGAN颜色误差更小, 更加稳定. 结合图4的颜色校正结果, 也能直观看出, WCGAN生成的图像颜色恒常结果是最符合人类视觉的颜色恒常感知的.

    在基于深度学习模型的颜色恒常算法中, WCGAN的SSIM值最大, 证明其在颜色转换的同时对原图像的轮廓结构保存度高. 能有效地保证其纹理特征等结构信息不变.

    在数据集SFU 321 lab images上的结果如表3表4所示. 相比较Gehler-Shi 568数据集, SFU 321 lab images更加轻量级, 且色偏种类多分布规律, 因此无论是在色度误差、角度误差、SSIM还是校正时长上, WCGAN都有更好的表现, 且与传统的基于统计以及基于机器学习的颜色恒常方法相比较, WCGAN依然具有极大的优势.

    表 3  基于统计量的颜色恒常方法在SFU 321 lab images上的对比结果
    Table 3  Comparison of statistics-based color constancy methods on SFU 321 lab images
    方法色度误差角度误差测试时间 (s)
    MedianMaxRMSMeanMaxRMS
    Gray-Edge[30]0.541.260.625.912.76.80.9
    MAX-RGB[28]1.162.461.2410.517.611.40.7
    Gray-World[29]0.741.430.837.918.28.70.8
    White-patch[31]0.641.490.727.115.37.90.9
    下载: 导出CSV 
    | 显示表格
    表 4  基于机器学习的颜色恒常方法在SFU 321 lab images上的对比结果
    Table 4  Comparison of machine learning-based color constancy methods on SFU 321 lab images
    方法SSIM色度误差角度误差训练时间 (s)测试时间 (s)
    MedianMaxRMSMeanMaxRMS
    FC4[13]0.87910.611.450.695.29.06.01.10.7
    Neural Gray[33]0.92860.711.870.806.412.17.30.90.4
    Based-SVR[34]0.91390.631.840.725.812.16.51.30.9
    CycleGAN[35]0.73470.842.110.926.215.77.92.70.09
    WD+CycleGAN0.91450.701.750.664.713.96.92.70.09
    WCGAN0.99360.391.280.453.112.24.11.20.05
    下载: 导出CSV 
    | 显示表格

    虽然在两个数据集上WCGAN的训练时长因其结构的复杂性而耗时较多, 但在实际的工业过程中, 转换仅需要其中的一个生成器, 因此能很好的满足工业过程中的实时监测. 同时其在线更新机制考虑到视频流临近帧节的图像相似度高, 因此可采用跨帧图像用于训练. 以保证训练速度不影响WCGAN的转换效率.

    在某工业铝土矿浮选现场搭建机器视觉监测系统, 对于各种未知光照下的色偏泡沫图像采用本文所提出的WCGAN模型进行颜色恒常处理, 对恒常处理后的泡沫图像进行颜色特征提取, 并用于最终精矿品位监测.

    3.2.1   工业铝土矿浮选过程描述

    该铝土矿浮选工艺流程如图5所示, 其目标是将入矿品位铝硅比(A/S) (5左右)提高至少1倍. 很明显, 铝土矿浮选回路是一个包含多个子回路的连续的复杂工业过程.

    图 5  铝土矿浮选回路
    Fig. 5  Bauxite flotation circuit

    该选厂的浮选回路包括粗选、精选(包括精选I和精选II)、扫选(包括粗扫和精扫)等3个基本子过程. 其中, 粗选泡沫被送入精选I进行再一步的浮选, 以提高浮选品位: 粗选的底流被泵入粗扫槽, 以再一次回收粗选中未被浮选出来的矿物粒子: 粗扫的产品——粗选泡沫被送入粗选再处理, 粗扫的底流作为尾矿排出. 精选I的泡沫层被送入精选II子过程, 精选II最终的精选泡沫经过浓密、烘干等一系列的后续处理作为浮选过程的氧化铝选矿产品. 精选I的底流被送入精扫, 以进一步回收未被回收的矿物粒子; 而精扫的矿浆底流作为尾矿被排出.

    本文将机器视觉引入到过程监测中. 为实现整个浮选流程的监控. 经对现场流程的细致分析, 在粗选首槽、粗扫末槽、精选II首槽分别安装了泡沫图像采集设备(设备安装位置如图5所示), 分别用来监视浮选过程的给矿、尾矿、精矿的性质, 实现整个浮选回路的全流程在线监控.

    由于精选II的泡沫层被回收后将作为最终的精矿, 精选II尾槽中的泡沫颜色与最终的精矿品位(A/S)直接相关. 因此, 本文重点关注该浮选槽泡沫颜色与选矿指标(A/S)间的关系.

    3.2.2   铝土矿泡沫图像颜色校正

    在实验中, 先选定某一特定光照条件下的图像作为基准光照下的泡沫图像, 采用WCGAN进行泡沫图像颜色恒常模型学习, 将训练好的WCGAN用于实际工业铝土矿浮选的泡沫图像校正, 以其能将任意未知光照下泡沫图像转换到该基准光照下进行颜色显示. 图6显示了实验中所选用的基准光照泡沫图像及其对应的CIELab颜色空间的直方图分布.

    图 6  基准光照泡沫图像及其Lab颜色分布
    Fig. 6  Reference light froth image and its Lab color distribution

    图7显示了5帧带有明显色偏的泡沫图像采用WCGAN以及CycleGAN、FC4进行颜色校正后的视觉效果, 以及Lab颜色空间分布图, 图像中的右下角数值为校正图像与原图像的结构相似度, 每个曲线图的横坐标表示 L, a, b 颜色通道值, 纵坐标表示频率.

    图 7  浮选泡沫图像颜色校正结果
    Fig. 7  Color correction result of flotation froth image

    WCGAN校正后, 泡沫图像的几何轮廓信息和表面纹理信息基本保持不变, 而泡沫图像的颜色具有明显的基准色域颜色特征; 而未改进的CycleGAN与FullCovNet算法的校正图像, 虽然在颜色分布上与基准光照图较为接近. 但其结构相似度较小. 难以保证校正后的图像其轮廓等信息不变.

    3.2.3   泡沫颜色特征与过程参量间的相关性

    本文进一步提取泡沫颜色的数字特征以分析泡沫颜色与生产指标间的关系. 由于HSV与CIE Lab等颜色空间更符合人类视觉的感知特性, 除了提取泡沫图像的RGB颜色特征, 还将泡沫图像转换到HSV与CIE Lab颜色空间上, 提取了R, G, H, S, a, b这6个通道上的数字特征. 其中, R和G通道为归一化的通道, 计算方式为$R = R/( R + G + B)$, $G = G/({R + G + B})$. 原始的H通道, 取值范围为 $\left[ {{0^ \circ },{{360}^ \circ }} \right]$, 随着取值的增大, 代表从红色、黄色、绿色、青色、蓝色、品红再回到红色, 即 H 为 0° 或者 360° 时表示最红. 因此, 将H通道颜色值, 调整为$H = | {H - 180} |/180$, 用来计算该颜色值的相对红色程度.

    然后, 本文分别计算了这6个颜色通道上的均值、标准差、偏度、峰度这4个统计量, 对每帧图像共获得24维统计量组成对应图像的颜色特征向量.

    图8显示对比了部分泡沫颜色特征与精矿品位间的相关性. 从中可以看出, 经WCGAN模型校正后的精矿(精选II尾槽)泡沫颜色特征与精矿品位有较明显的相关性.

    图 8  泡沫图像颜色特征与A/S间相关性 ((a1)和(a2)分别代表校正后和校正前H均值与A/S间的相关性;(b1)和(b2)分别代表校正后和校正前a通道的标准差与A/S的相关性; (c1)和(c2)分别代表校正后和校正前的归一化R通道均值与A/S之间的相关性)
    Fig. 8  The correlation between color characteristics of froth images and A/S ((a1) and (a2) represent the correlation between H-means and A/S after correction and before correction; (b1) and (b2) represent the correlation between standard deviation of a-channel and A/S after correction and before correction; (c1) and (c2) represent the correlation between normalized R-channel mean and A/S after correction and before correction, respectively)

    图8(a1)中可以看出, 精矿品位(A/S)有随着(修改后的) H通道均值上升而上升的趋势, 并且该趋势在H通道均值较小时候, A/S上升迅速, 当H均值大于某个值后, A/S变化比较平缓. 该特性与修改后的R通道均值与A/S之间的相关性有类似的变化趋势(如图8(c1)所示), 其原因是本文所提取的H通道特征值与R通道特征值均是用来表征泡沫图像的红色强度的, 因而这两个通道上的特征量与A/S的相关性具有基本相同的变化趋势. 而图像a通道颜色标准差与A/S的变化趋势则恰好相反(如图8(b1)所示), 也就是随着a通道颜色标准差的增大, A/S有下降的变化趋势.

    而原始的未校正的泡沫图像颜色特征因光照的影响, 色偏严重, 所提取的颜色特征缺乏鲁棒性, 因而无法有效体现其与精矿品位之间的相关性(如图8(a2)图8(b2)图8(c2)所示).

    因此, 由于本文所提出的WCGAN能将各种未知光照下的泡沫图像转换到基准光照下的色域显示, 因而可以获得能直接反映精矿品位变化或者工况变化的泡沫图像颜色特征参量. 进而基于泡沫颜色特征与A/S相关性, 有望实现生产工况或者A/S的在线监测.

    3.2.4   基于泡沫颜色的精矿品位监测

    在铝土矿浮选过程中, 精矿品位(A/S)目前还无法实现在线检测, 一般只能依靠离线采样和实验室化验. 实验室检测方法耗时耗力, 一般一天只能获得1个或2个检测值. 因此, 常因精矿品位在线监测值的缺失, 无法实现生产工况的有效评估, 也就是难以及时对生产做出有效的操作调整, 以保证生产的稳态优化运行.

    在实验中, 本文连续收集了28天的铝土矿浮选过程参量数据, 包括各种工况状态下的未知光照条件下的泡沫图像和对应的冶金过程参量以及人工采样化验的精矿品位数据. 每天人工采集精矿样品并化验A/S数据8条, 再加上去除现场设备故障整修时段数据, 共获得201条有效的人工化验的A/S数据. 随机选择其中的120条用于模型训练, 剩余的用作模型测试.

    基于所获取的泡沫图像颜色特征, 采用经典的回归分析模型对精矿品位(A/S)进行预测. 实验中采用的回归分析模型主要包括两种, 即高斯混合回归(Gaussian mixture regression, GMR)模型[36], 最小二乘支持向量机(Least square — support vector machines, LS-SVM)模型对精矿品位进行预测. 由于所提取的24维颜色特征具有较大的冗余性, 在实验中, 采用主成分分析方法(Principal component analysis, PCA)进行维数约简, 最终获得基于PCA降维的14维约简特征, 进行精矿品位预测. 图9显示了基于泡沫颜色特征的铝土矿精矿品位(A/S)的预测结果.

    图 9  基于泡沫图像颜色特征的精矿品位预测
    Fig. 9  Prediction of concentrate grade based on color characteristics of foam images

    图9中可以看出, A/S的预测结果与实际检测结果基本一致. 该结果表明, 本文所提出的WCGAN模型可以获得有效的反映精矿品位变化的泡沫颜色特征, 因而, 基于所获得的颜色特征可实现精矿品位的在线监测.

    在基于机器视觉的矿物浮选过程监测中, 泡沫图像信号因受多种可变光照的交叉干扰而不可避免存在严重色偏. 本文提出了一种基于WCGAN泡沫图像颜色校正方法. WCGAN通过学习基准色域的泡沫图像与真实工况环境下的泡沫图像色域的映射关系, 可以将各种未知光照条件下的泡沫图像转换到基准色域下颜色显示, 进而获得不受光照影响的泡沫颜色特征.

    在实际的铝土矿浮选过程中进行了工业验证, 结果表明, 所提方法能在进行泡沫图像颜色校正的同时, 有效保持图像的几何轮廓和表面纹理特性. 进而, 基于基准光照下的校正泡沫图像颜色特征, 能实现铝土矿浮选过程精矿品位有效预测, 为基于机器视觉的矿物浮选过程的自动化监测提供了技术支撑.

    下一步的工作是结合本文所提出的光照不变泡沫颜色特征提取方法融合泡沫图像其他视觉特征(如表面纹理、几何轮廓特征)和冶金过程参量(如流量、矿浆浓度、细度、pH值), 实现矿物浮选过程工况的准确鉴别和精矿品位的在线监测, 根据精矿品位或者工况的变化情况提出相应的过程加药量优化设定方法, 保证浮选过程的稳定优化运行, 为提高选矿产品质量和降低矿物资源消耗奠定基础.

  • 图  1  泡沫图像光照转换思想

    Fig.  1  Scheme of the color translation of froth images

    图  2  CycleGAN结构图

    Fig.  2  CycleGAN structure

    图  3  WCGAN的生成器结构

    Fig.  3  Generator structure of WCGAN

    图  4  图像颜色校正结果

    Fig.  4  Image color correction results

    图  5  铝土矿浮选回路

    Fig.  5  Bauxite flotation circuit

    图  6  基准光照泡沫图像及其Lab颜色分布

    Fig.  6  Reference light froth image and its Lab color distribution

    图  7  浮选泡沫图像颜色校正结果

    Fig.  7  Color correction result of flotation froth image

    图  8  泡沫图像颜色特征与A/S间相关性 ((a1)和(a2)分别代表校正后和校正前H均值与A/S间的相关性;(b1)和(b2)分别代表校正后和校正前a通道的标准差与A/S的相关性; (c1)和(c2)分别代表校正后和校正前的归一化R通道均值与A/S之间的相关性)

    Fig.  8  The correlation between color characteristics of froth images and A/S ((a1) and (a2) represent the correlation between H-means and A/S after correction and before correction; (b1) and (b2) represent the correlation between standard deviation of a-channel and A/S after correction and before correction; (c1) and (c2) represent the correlation between normalized R-channel mean and A/S after correction and before correction, respectively)

    图  9  基于泡沫图像颜色特征的精矿品位预测

    Fig.  9  Prediction of concentrate grade based on color characteristics of foam images

    表  1  基于统计量的颜色恒常方法在Gehler-Shi 568 data 上的对比结果

    Table  1  Comparison of statistics-based color constancy methods on Gehler-Shi 568 data

    方法色度误差角度误差测试时间 (s)
    MedianMaxRMSMeanMaxRMS
    Gray-Edge[30]0.621.350.736.310.46.50.9
    MAX-RGB[28]1.172.551.269.918.610.30.7
    Gray-World[29]0.781.470.887.617.98.40.8
    White-patch[31]0.731.560.817.514.78.30.9
    下载: 导出CSV

    表  2  基于机器学习的颜色恒常方法在Gehler-Shi 568 data上的对比结果

    Table  2  Comparison of machine learning-based color constancy methods on Gehler-Shi 568 data

    方法SSIM色度误差角度误差训练时间 (s)测试时间 (s)
    MedianMaxRMSMeanMaxRMS
    FC4[13]0.85760.571.390.654.711.35.61.70.9
    Neural Gray[33]0.91660.691.920.775.713.46.51.40.5
    Based-SVR[34]0.89450.611.880.705.412.66.31.61.2
    CycleGAN[35]0.69180.983.111.076.316.57.43.00.12
    WD + CycleGAN0.83990.761.840.695.114.35.93.00.12
    WCGAN0.98970.421.310.504.310.55.41.50.06
    下载: 导出CSV

    表  3  基于统计量的颜色恒常方法在SFU 321 lab images上的对比结果

    Table  3  Comparison of statistics-based color constancy methods on SFU 321 lab images

    方法色度误差角度误差测试时间 (s)
    MedianMaxRMSMeanMaxRMS
    Gray-Edge[30]0.541.260.625.912.76.80.9
    MAX-RGB[28]1.162.461.2410.517.611.40.7
    Gray-World[29]0.741.430.837.918.28.70.8
    White-patch[31]0.641.490.727.115.37.90.9
    下载: 导出CSV

    表  4  基于机器学习的颜色恒常方法在SFU 321 lab images上的对比结果

    Table  4  Comparison of machine learning-based color constancy methods on SFU 321 lab images

    方法SSIM色度误差角度误差训练时间 (s)测试时间 (s)
    MedianMaxRMSMeanMaxRMS
    FC4[13]0.87910.611.450.695.29.06.01.10.7
    Neural Gray[33]0.92860.711.870.806.412.17.30.90.4
    Based-SVR[34]0.91390.631.840.725.812.16.51.30.9
    CycleGAN[35]0.73470.842.110.926.215.77.92.70.09
    WD+CycleGAN0.91450.701.750.664.713.96.92.70.09
    WCGAN0.99360.391.280.453.112.24.11.20.05
    下载: 导出CSV
  • [1] Szczerkowska S, Wiertel-Pochopien A, Zawala J, Larsen E, Kowalczuk P B. Kinetics of froth flotation of naturally hydrophobic solids with different shapes. Minerals Engineering, 2018, 121: 90-99 doi: 10.1016/j.mineng.2018.03.006
    [2] 姜艺, 范家璐, 贾瑶, 柴天佑. 数据驱动的浮选过程运行反馈解耦控制方法. 自动化学报, 2019, 45(4): 759-770 doi: 10.16383/j.aas.2018.c170552

    Jiang Yi, Fan Jia-Lu, Jia Yao, Chai Tian-You. Data-driven flotation process operational feedback decoupling control. Acta Automatica Sinica, 2019, 45(4): 759-770 doi: 10.16383/j.aas.2018.c170552
    [3] 桂卫华, 阳春华, 徐德刚, 卢明, 谢永芳. 基于机器视觉的矿物浮选过程监控技术研究进展. 自动化学报, 2013, 39(11): 1879-1888 doi: 10.3724/SP.J.1004.2013.01879

    Gui Wei-Hua, Yang Chun-Hua, Xu De-Gang, Lu Ming, Xie Yong-Fang. Machine-vision-based online measuring and controlling technologies for mineral flotation——a review. Acta Automatica Sinica, 2013, 39(11): 1879-1888 doi: 10.3724/SP.J.1004.2013.01879
    [4] Jahedsaravani A, Massinaei M, Marhaban M H. Development of a machine vision system for real-time monitoring and control of batch flotation process. International Journal of Mineral Processing, 2017, 167: 16-26 doi: 10.1016/j.minpro.2017.07.011
    [5] Popli K, Maries V, Afacan A, Liu Q, Prasad V. Development of a vision-based online soft sensor for oil sands flotation using support vector regression and its application in the dynamic monitoring of bitumen extraction. The Canadian Journal of Chemical Engineering, 2018, 96(7): 1532-1540 doi: 10.1002/cjce.23164
    [6] Xie Y F, Wu J, Xu D G, Yang C H, Gui W H. Reagent addition control for stibium rougher flotation based on sensitive froth image features. IEEE Transactions on Industrial Electronics, 2017, 64(5): 4199-4206 doi: 10.1109/TIE.2016.2613499
    [7] Liu J P, Zhou J M, Tang Z H, Gui W H, Xie Y F, He J Z, et al. Toward flotation process operation-state identification via statistical modeling of biologically inspired Gabor filtering responses. IEEE Transactions on Cybernetics, 2020, 50(10): 4242-4255 doi: 10.1109/TCYB.2019.2909763
    [8] Reddick J F, Hesketh A H, Morar S H, Bradshaw D J. An evaluation of factors affecting the robustness of colour measurement and its potential to predict the grade of flotation concentrate. Minerals Engineering, 2009, 22(1): 64-69 doi: 10.1016/j.mineng.2008.03.018
    [9] Gijsenij A, Gevers T, Weijer J V D. Computational color constancy: Survey and experiments. IEEE Transactions on Image Processing, 2011, 20(9): 2475-2489 doi: 10.1109/TIP.2011.2118224
    [10] Oh S W, Kim S J. Approaching the computational color constancy as a classification problem through deep learning. Pattern Recognition, 2017, 61: 405-416 doi: 10.1016/j.patcog.2016.08.013
    [11] Gatta C, Farup I. Gamut mapping in RGB colour spaces with the iterative ratios diffusion algorithm. In: Proceedings of the 2017 S&T International Symposium on Electronic Imaging: Color Imaging XXII: Displaying, Processing, Hardcopy, and Applications. Burlingame, USA: Ingenta, 2017. 12−20
    [12] Bianco S, Cusano C, Schettini R. Single and multiple illuminant estimation using convolutional neural networks. IEEE Transactions on Image Processing, 2017, 26(9): 4347-4362 doi: 10.1109/TIP.2017.2713044
    [13] Hu Y M, Wang B Y, Lin S. FC.4: Fully convolutional color constancy with confidence-weighted pooling. In: Proceedings of the 2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Honolulu, USA: IEEE, 2017. 330−339
    [14] Wang C, Gao R, Wei W, Shafie-khah M, Bi T S, Catalão J P S. Risk-based distributionally robust optimal gas-power flow with Wasserstein distance. IEEE Transactions on Power Systems, 2019, 34(3): 2190-2204 doi: 10.1109/TPWRS.2018.2889942
    [15] 赵洪伟, 谢永芳, 蒋朝辉, 徐德刚, 阳春华, 桂卫华. 基于泡沫图像特征的浮选槽液位智能优化设定方法. 自动化学报, 2014, 40(6): 1086-1097

    Zhao Hong-Wei, Xie Yong-Fang, Jiang Zhao-Hui, Xu De-Gang, Yang Chun-Hua, Gui Wei-Hua. An intelligent optimal setting approach based on froth features for level of flotation cells. Acta Automatica Sinica, 2014, 40(6): 1086-1097
    [16] Goodfellow I J, Pouget-Abadie J, Mirza M, Xu B, Warde-Farley D, Ozair S, et al. Generative adversarial nets. In: Proceedings of the 27th International Conference on Neural Information Processing Systems. Montreal, Canada: MIT Press, 2014. 2672−2680
    [17] Isola P, Zhu J Y, Zhou T H, Efros A A. Image-to-image translation with conditional adversarial networks. In: Proceedings of the 2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Honolulu, USA: IEEE, 2017. 5967−5976
    [18] Kim T, Cha M, Kim H, Lee J K, Kim J. Learning to discover cross-domain relations with generative adversarial networks. In: Proceedings of the 34th International Conference on Machine Learning. Sydney, Australia: JMLR.org, 2017. 1857−1865
    [19] Arjovsky M, Chintala S, Bottou L. Wasserstein generative adversarial networks. In: Proceedings of the 34th International Conference on Machine Learning. Sydney, Australia: JMLR.org, 2017. 214−223
    [20] Nowozin S, Cseke B, Tomioka R. $f \text{-}{\rm{GAN}} :$Training generative neural samplers using variational divergence minimization. In: Proceedings of the 30th International Conference on Neural Information Processing Systems. Barcelona, Spain: Curran Associates Inc., 2016. 271−279
    [21] Arjovsky M, Bottou L. Towards principled methods for training generative adversarial networks. In: Proceedings of the 5th International Conference on Learning Representations (ICLR). Toulon, France: OpenReview.net, 2017. 1−17
    [22] 姚乃明, 郭清沛, 乔逢春, 陈辉, 王宏安. 基于生成式对抗网络的鲁棒人脸表情识别. 自动化学报, 2018, 44(5): 865-877 doi: 10.16383/j.aas.2018.c170477

    Yao Nai-Ming, Guo Qing-Pei, Qiao Feng-Chun, Chen Hui, Wang Hong-An. Robust facial expression recognition with generative adversarial networks. Acta Automatica Sinica, 2018, 44(5): 865-877 doi: 10.16383/j.aas.2018.c170477
    [23] Mukkamala M C, Hein M. Variants of RMSProp and Adagrad with logarithmic regret bounds. In: Proceedings of the 34th International Conference on Machine Learning. Sydney, Australia: JMLR.org, 2017. 2545−2553
    [24] Sultana N N, Mandal B, Puhan N B. Deep residual network with regularised fisher framework for detection of melanoma. IET Computer Vision, 2018, 12(8): 1096-1104 doi: 10.1049/iet-cvi.2018.5238
    [25] Chen G, Chacón L, Barnes D C. An efficient mixed-precision, hybrid CPU–GPU implementation of a nonlinearly implicit one-dimensional particle-in-cell algorithm. Journal of Computational Physics, 2012, 231(16): 5374-5388 doi: 10.1016/j.jcp.2012.04.040
    [26] Gehler P V, Rother C, Blake A, Minka T, Sharp T. Bayesian color constancy revisited. In: Proceedings of the 2008 IEEE Conference on Computer Vision and Pattern Recognition. Anchorage, USA: IEEE, 2008. 1−8
    [27] Barnard K, Martin L, Funt B, Coath A. A data set for color research. Color Research & Application, 2002, 27(3): 147-151
    [28] Hussain A, Akbari A S. Color constancy algorithm for mixed-illuminant scene images. IEEE Access, 2018, 6: 8964-8976 doi: 10.1109/ACCESS.2018.2808502
    [29] Sulistyo S B, Woo W L, Dlay S S. Regularized neural networks fusion and genetic algorithm based on-field nitrogen status estimation of wheat plants. IEEE Transactions on Industrial Informatics, 2017, 13(1): 103-114 doi: 10.1109/TII.2016.2628439
    [30] Yoo J H, Kyung W J, Choi J S, Ha Y H. Color image enhancement using weighted multi-scale compensation based on the gray world assumption. Journal of Imaging Science and Technology, 2017, 61(3): Article No. 030507
    [31] Joze H R V, Drew M S. White patch gamut mapping colour constancy. In: Proceedings of the 19th IEEE International Conference on Image Processing. Orlando, USA: IEEE, 2012. 801−804
    [32] Wang Z, Bovik A C, Sheikh H R, Simoncelli E P. Image quality assessment: From error visibility to structural similarity. IEEE Transactions on Image Processing, 2004, 13(4): 600-612 doi: 10.1109/TIP.2003.819861
    [33] Faghih M M, Moghaddam M E. Neural Gray: A color constancy technique using neural network. Color Research & Application, 2014, 39(6): 571-581
    [34] Zhang J X, Zhang P, Wu X L, Zhou Z Y, Yang C. Illumination compensation in textile colour constancy, based on an improved least-squares support vector regression and an improved GM(1,1) model of grey theory. Coloration Technology, 2017, 133(2): 128-134 doi: 10.1111/cote.12243
    [35] Zhu J Y, Park T, Isola P, Efros A A. Unpaired image-to-image translation using cycle-consistent adversarial networks. In: Proceedings of the 2017 IEEE International Conference on Computer Vision (ICCV). Venice, Italy: IEEE, 2017. 2242−2251
    [36] Yuan X F, Ge Z Q, Song Z H. Soft sensor model development in multiphase/multimode processes based on Gaussian mixture regression. Chemometrics and Intelligent Laboratory Systems, 2014, 138: 97-109 doi: 10.1016/j.chemolab.2014.07.013
  • 期刊类型引用(1)

    1. 张海洋,王旭,陆博,刘洋,宋涛. 浮选生产过程泡沫状态与药剂控制关系研究. 黄金. 2024(03): 32-36 . 百度学术

    其他类型引用(10)

  • 加载中
图(9) / 表(4)
计量
  • 文章访问数:  640
  • HTML全文浏览量:  57
  • PDF下载量:  160
  • 被引次数: 11
出版历程
  • 收稿日期:  2019-05-05
  • 录用日期:  2019-09-02
  • 网络出版日期:  2022-08-08
  • 刊出日期:  2022-09-16

目录

/

返回文章
返回