-
摘要: 针对一类分布参数系统(Distributed parameter system, DPS), 提出了源控制方法. 将构成分布参数系统的空间分成若干分, 每份为一个节点, 在所有的节点中, 将能产生量变源头的节点定义为源节点, 跟随源节点变化的节点为跟随节点, 以此构建分布参数系统模型. 对于源节点, 根据经验函数结合反馈偏差调节设计控制器, 对跟随节点考虑源节点控制的逸散作用控制. 利用Lyapunov稳定性理论并结合线性矩阵不等式(Linear matrix inequality, LMI)处理方法, 得出了分布式参数系统稳定源控制器存在的充分条件. 最后结合所给条件, 给出一个数值仿真说明其有效性.Abstract: The stability problem of distributed parameter systems (DPSs) is investigated. For this purpose, a source controller is developed for such a system. The space is divided into several parts, and each part is considered a node. The source of the node that produces quantitative changes is defined as the source node. The nodes that follow the change of source nodes are defined as the subsequent nodes. On the basis of these definitions, the distributed parameter system model is constructed. The designed controller for the source nodes is the empirical function combined with the feedback adjustment and that for the subsequent nodes considers the diffusion control action of the source nodes. Numerous sufficient conditions with stable source controller for distributed parameter systems are derived using Lyapunovs stability theory and the method of linear matrix inequality (LMI). A numerical simulation illustrates the effectiveness of the method under given conditions.
-
扫描仪、相机和摄像机等设备对纸质内容进行成像时, 背面信息常会透射叠加到正面文字内容中, 这不仅降低了图像内容的可读性, 还会影响图像的后续处理, 如电子阅卷、历史文档数字恢复[1]和场景文本识别[2]等. 透射图像恢复, 即透射去除, 是从含有背面和正面内容的混合图像中恢复出正面内容的过程, 可建立如式(1)所示模型.
$$ \begin{equation} I = \left( {1 - \alpha} \right)F + \alpha g\left( {T} \right) \end{equation} $$ (1) 其中, I表示有透射的混合图像, F表示正面图像,
$ \alpha $ 是透射混合参数, T表示背面图像,$g( \cdot) $ 为透射衰减函数. 因T、$ \alpha $ 和$ g(\cdot )$ 均未知, 从I中去除T、恢复F是一个不适定的NP (Non-deterministic polynomial)难问题. 而且, 背面图像的内容结构和属性常与正面图像相似, 导致难以在去除背面透射信息的同时恢复正面文档图像中的内容和细节.现有文档图像的恢复可以分为两大类: 基于阈值处理的方法和基于学习的方法. 阈值处理法是传统的文档图像恢复方法[3-5], 通过像素阈值判分正面或背面内容, 文献[6]提出了一种结合局部图像对比度和局部图像梯度的自适应对比度图, 采用局部区域中检测到的边缘来估计局部阈值, 但由于透射文档图像质量参差不齐, 在计算局部和全局阈值时需要大量的经验参数, 系统结构复杂、运行效率较低. 为减轻参数设计和调整的负担, 基于学习的方法通过训练的思路来获取图像恢复模型, 文献[7]和文献[8]通过引入不同的分类器直接对图像特征进行分类, 减少参数的数量, 提高了文档二值化方法的效率. 近几年神经网络在不少应用场景中取得良好性能, 基于深度学习透射图像恢复的方法[9-12]备受研究者的青睐, 这类方法能够实现端到端的从透射图像中恢复出正面内容, 但需要大量的成对数据集, 且常存在过拟合现象. 最近, 生成对抗网络(Generative adversarial networks, GAN)[12]在合成图像方面大放异彩, 并且一部分科研人员将其用于图像恢复相关处理任务, 文献[13]利用GAN扩充训练数据集, 处理图像二值化任务, 文献[14]使用Pix2Pix GAN去除了光学音乐识别的五线谱, 文献[15]引入了一种包含两个判别器网络的双判别器GAN结构, 以结合全局和局部信息, 而Castellanos[16]提出了一种使用无监督区域自适应的神经网络方法将文档图像进行二值化操作, 与其他学习的方法相比, 这些基于GAN的模型会产生更好的结果, 但是仍需要大量的成对数据进行训练, 难以泛化.
为了解决以上问题, 本文利用无需成对数据的循环一致性生成对抗网络(Cycle-consistent generative adversarial networks, CycleGAN)[17], 提出了一种基于自监督学习的单幅透射图像恢复方法(Self-supervised learning based on cycle-consistent generative adversarial networks, S-CycleGAN), 主要由特征提取模块和自学习模块组成, 特征提取模块通过跳跃链接融合全局和局部特征, 以增强去透射模型的表达能力, 自学习模块能对不同的特征映射赋予不同的权重并进行自适应学习, 进而实现透射图像的高质量恢复.
本文的主要创新概括为:
1) 将S-CycleGAN应用于文档图像恢复, 提出了一种基于自监督学习的单幅透射图像恢复方法, 并用于单幅图像中透射内容去除, 该方法不依赖于先验知识, 在训练过程中不需要成对数据集;
2) 设计了一种新颖的去透射生成器, 它结合了自学习模块和特征提取模块来自监督训练网络提取图像特征, 尽可能保留了图像的细节内容;
3) 通过设计特征提取模块、自学习模块和跳跃链接, 融合全局和局部特征, 增加了S-CycleGAN的深度, 提高了文本内容的表达能力, 产生视觉上满意的恢复效果.
1. 自监督学习的单幅透射图像恢复
S-CycleGAN是将未配对图像的去透射问题转化为图像到图像的生成问题, 利用自监督学习的循环一致性网络生成无透射的图像. S-CycleGAN整体网络架构如图1 所示, 涉及的核心内容包括: 生成器、判别器和损失函数.
图 1 S-CycleGAN的网络结构 (${G_y}$ 和$G_x$ 表示生成器,$D_y$ 和$D_x$ 表示判别器.$x$ 和$y$ 分别表示输入的透射图像和无透射图像,${\cal{L}}_{ {\rm{cycle}}}$ 和${\cal{L}}_{ {\rm{perceptual}}}$ 分别表示循环一致性损失和感知损失)Fig. 1 Structure of S-CycleGAN ($G_y$ and$G_x$ are generators while$D_y$ and$D_x$ are discriminators,$x$ and$y$ represent the input bleed-through image and non-bleed-through image respectively,${\cal{L}}_{ {\rm{cycle}}}$ and${\cal{L}}_{ {\rm{perceptual}}}$ represent cycle consistency loss and perceptual loss respectively)S-CycleGAN由两个分支组成: 1)透射−透射分支:
$ x\to G_y(x)\to G_x(G_y(x)) $ , 利用有透射图像$ x $ 生成无透射图像$ G_y(x) $ , 再重构成有透射图像$ G_x( G_y(x)) $ ; 2)无透射−无透射分支:$ y\to G_x(y)\to G_y(G_x(y)) $ , 利用无透射图像$ y $ 生成有透射图像$ G_x (y) $ , 再重构成无透射图像$ G_y ( G_x ( y)) $ .S-CycleGAN的两个分支中的每一个分支都有一个判别器, 分别是
$ D_y $ 和$ D_x $ , 这两个分支共享两个生成器$ G_y $ 和$ G_x $ .$ G_y $ 是将透射图像生成(恢复)为无透射图像, 而$ G_x $ 是将透射部分添加到无透射图像中生成有透射图像.1.1 生成器网络结构
生成器
$ G_x $ 采用与CycleGAN相似的编码器-解码器网络结构, 本文$ G_x $ 使用了6个残差块. 为了实现自监督学习以及增强特征表示, 本文方法在CycleGAN生成器$ G_x $ 的基础上构建生成器$ G_y $ , 在$ G_y $ 网络结构中加入特征提取模块和自学习模块, 从大规模的无标签数据中挖掘自身的监督信息, 从而得到更好的去透射结果. 生成器$ G_y $ 的作用是恢复正面的图像内容, 在去除透射过程中保留细节, 网络结构如图2所示.$ G_y $ 网络的输入是一幅带有透射的图像, 首先经过三层卷积来增强输入图像纹理细节, 提高正面图像与背面图像的对比度, 然后馈送到三个具有跳跃链接的特征提取模块(Feature extractor module, FEM)中, 以保留低层信息并将其传递到深层网络中, 三个特征提取模块的输出特征通过自学习模块(Self-learning module, SLM)以及两层卷积融合获得一个无透射的输出. 其中, 自学习模块的作用是获得的自适应权值, 使得S-CycleGAN更加关注混合内容中较严重区域和正面纹理等细节信息.1.1.1 特征提取模块-FEM
FEM的网络结构如图3所示, 包括卷积层、ReLU层和SLM. 在S-CycleGAN的设计中, 生成器
$ G_y $ 的目的是将带有透射的输入图像生成无透射的图像, 并且不需要估计中间参数, 为了实现这个目标, 生成器$ G_y $ 应该尽可能地保留正面图像内容和细节, 同时消除透射信息. 因此, 生成器$ G_y $ 中的特征提取模块应充分利用透射图像的特征信息.FEM由多个卷积、RELU和SLM的功能层组成, 以层次递进方式反复提取特征信息. 经过图3所示的由浅入深的功能层后, 会交换大量不必要的冗余信息, 从而导致一些有用特征信息丢失. 因此, 在特征提取块中增加了跳跃链接, 将浅层特征与深层特征融合, 使网络保留更多的有效特征信息, 从而更有利于恢复清晰的图像. 另外, 为了平衡网络性能和时间复杂度, 将FEM的所有卷积层的通道数设为64, 卷积核大小设为3
$ \times $ 3.1.1.2 自学习模块-SLM
SLM的网络结构如图4所示, 主要用于关注图像的不同特征. 输入的特征图
$ F $ 大小由$ C\times H\times W $ 变为$ C\times1\times1 $ , 其中$ C $ 表示通道数,$ H\times W $ 表示图像大小. 通过两个卷积层和ReLU、sigmoid激活函数来获取特征, 与输入的特征图$ F $ 做元素相乘操作得到$ F_ {\rm{c}} $ , 在这一阶段的卷积核大小为1$ \times $ 1, 通道数分别为8和64, 步长为1. 过程可如式(2)所示.图 4 SLM的网络结构 ($F$ 表示自学习模块的输入,$F_ {\rm{c}}$ 表示自学习模块的中间输出,$F_{ {\rm{result}}}$ 表示自学习模块的输出)Fig. 4 The network structure of SLM ($F$ is the input to the self-learning module.$F_ {\rm{c}}$ is the intermediate output of the self-learning module.$F_{ {\rm{result}}}$ is the output of the self-learning module)$$ \begin{equation} F_ {\rm{c}} = F\otimes\left[ \sigma\left( Conv\left(\delta\left( Conv \left( pool \left( F \right) \right) \right) \right) \right) \right] \end{equation} $$ (2) 其中,
$ pool(\cdot) $ 表示平均池化操作,$ Conv(\cdot) $ 表示卷积操作,$ \sigma(\cdot) $ 是sigmoid函数,$ \delta(\cdot) $ 是ReLU函数,$ \otimes $ 是元素相乘,$ F_ {\rm{c}} $ 表示此阶段的输出.考虑到透射到正面的背面内容“深浅不一”, 透射图像的背面内容常不均匀地叠加在正面图像上, 因此需要SLM能够捕捉特征图
$ F_ {\rm{c}} $ 中的高响应区域, 使模型更加关注相应区域并对此进行处理. 因此, 特征图$ F_ {\rm{c}} $ 通过池化、卷积和Sigmoid激活操作后, 大小由$ C\times H\times W $ 变为$ 1\times H\times W $ , 通道数降为1, 将会得到区域特征信息, 与输入特征图$ F_ {\rm{c}} $ 做乘法操作, 获得最终的关注不同相应区域的权重特征图, 在这一阶段的卷积核大小为3$ \times $ 3, 通道数为1, 步长为1. 处理过程如式(3)所示.$$ \begin{equation} F_{ {\rm{result}}} = F_ {\rm{c}}\otimes\left[ \sigma\left( Conv\left( pool \left( F_ {\rm{c}} \right) \right) \right) \right] \end{equation} $$ (3) 其中,
$ F_{ {\rm{result}}} $ 表示自学习模块的最终输出.为了解释自学习模块在网络中的有效性, 对特征提取模块结构输出的特征权重图进行可视化. 图5显示了尺寸为4
$ \times $ 64的特征图, 可以清楚地看到, 网络以不同的权重自适应地学习不同的特征映射.1.2 判别器网络结构
判别器用于区分生成图像的“真假”, 其输入是生成器网络生成的图像. 在S-CycleGAN中, 有两个判别器, 即
$ D_y $ 和$ D_x $ .$ D_y $ 用于区分生成的无透射图像和真实的无透射图像,$ D_x $ 用于区分生成的透射图像和真实的透射图像. 判别器$ D_y $ 和$ D_x $ 采用相同的网络结构, 如图6所示. 判别器的前4组模块用于提取特征, 最后一组模块用于确定生成图像的“真假”. 网络中5个卷积层通道数依次为64、128、256、512和1, 每一层的卷积核大小为4$ \times $ 4、步长为2.1.3 损失函数
由于采用非成对的数据来监督网络, 生成的图像无法保持图像中的颜色和结构信息, 故引入循环一致性损失[17]来最小化透射图像
$ x $ 和其重构的透射图像$ G_x( G_y(x)) $ 、无透射图像$ y $ 和其重构的无透射图像$ G_y( G_x(y)) $ . 循环一致性损失($ {\cal{L}}_{ {\rm{cycle}}} $ )定义为式(4).$$ \begin{equation} \begin{split} {\cal{L}}_{ {\rm{cycle}}} =\;& {\rm{E}}_{x\sim P_{data(x)}}[\|G_y( G_x(y))- x\|_1]+\\ & {\rm{E}}_{y\sim P_{data(y)}}[\|G_x( G_y(x))- y\|_1] \end{split} \end{equation} $$ (4) 其中,
$ x $ 和$ y $ 表示不需要配对的透射图像和无透射图像,$ {\rm{E}} $ 表示数学期望,$ x\sim P_{data(x)} $ 表示透射数据集中样本的概率分布,$ y\sim P_{data(y)} $ 表示无透射数据集中样本的概率分布,$ \|\cdot\|_1 $ 表示$ L_1 $ 范式.判别器
$ D_y $ 的作用是最大化损失, 并以此区分生成的无透射图像和真实的无透射图像, 而生成器$ G_y $ 要使损失最小化, 使生成的无透射图像接近真实的无透射图像. 因此,$ D_y $ 的对抗性损失($ {\cal{L}}_{D_y} $ )定义为式(5).$$ \begin{equation} \begin{split} {\cal{L}}_{D_y} =\;& {\rm{E}}_{y\sim P_{data(y)}}[\ln(D_y(y)]+\\ & {\rm{E}}_{x\sim P_{data(x)}}[\ln(1-D_y( G_y(x)))] \end{split} \end{equation} $$ (5) 同样, 判别器
$ D_x $ 的对抗损失($ {\cal{L}}_{D_x} $ )定义为式(6).$$ \begin{equation} \begin{split} {\cal{L}}_{D_x} =\;& {\rm{E}}_{x\sim P_{data(x)}}[\ln(D_x(x)]+\\ & {\rm{E}}_{y\sim P_{data(y)}}[\ln(1-D_x( G_x(y)))] \end{split} \end{equation} $$ (6) 循环一致性损失和对抗性损失能够约束图像中的颜色和结构信息, 但对文档图像的细节信息没有考虑. 因此, 本文使用感知损失[18]来使生成的图像在语义细节上更接近目标图像, 在生成器
$ G_y $ 和生成器$ G_x $ 的约束下的感知损失($ {\cal{L}}_{ {\rm{perceptual}}} $ )如式(7)所示.$$ \begin{equation} \begin{split} {\cal{L}}_{ {\rm{perceptual}}} =\;&\|\varphi(x)-\varphi(G_x( G_y(x)))\|_{2}^{2}+\\ &\|\varphi(y)-\varphi(G_y( G_x(y)))\|_{2}^{2} \end{split} \end{equation} $$ (7) 其中,
$ \|\cdot\|_{2} $ 表示$ L_2 $ 范数,$ \varphi $ 表示VGG-16网络[19]的特征提取器. 本文使用VGG-16网络的第2和第5个池化层中提取的特征按照式(7) 进行组合, VGG-16 网络是由ImageNet[20]预先训练的模型.通过综合循环一致性损失
$ {\cal{L}}_{ {\rm{cycle}}} $ 、对抗损失$ {\cal{L}}_{D_y} $ 和$ {\cal{L}}_{D_x} $ 以及感知损失$ {\cal{L}}_{ {\rm{perceptual}}} $ , 形成S-CycleGAN的最终目标损失函数($ {\cal{L}}_{ {\rm{total}}} $ )如式(8)所示.$$ \begin{equation} \begin{split} {\cal{L}}_{ {\rm{total}}} =\;&{\cal{L}}_{ {\rm{cycle}}}+{\cal{L}}_{D_y}+{\cal{L}}_{D_x}+\omega\times{\cal{L}}_{ {\rm{perceptual}}} \end{split} \end{equation} $$ (8) 其中,
$ \omega $ 是感知损失函数的权重系数.2. 实验结果与分析
2.1 实验设置
2.1.1 对比算法和数据集
为了充分测试S-CycleGAN的性能, 实验采用的数据集为: DIBCO 2013[21]、DIBCO 2012[22]、DIBCO 2014[23]、DIBCO 2017[24]、DIBCO 2011[25]、DIBCO 2009[26]、H-DIBCO 2016[27]和真实的透射图像. 仿真合成图像按照式(1)进行混合, 其中g
$ (\cdot )$ 为高斯模糊操作, 滤波器大小为5$ \times $ 5, 标准差为2,$ \alpha $ 在[0.15, 0.25]间随机选择, 以尽可能模拟实际透射情况.实验选择了6种具有代表性的文本图像恢复方法: 经典的Otsu[4]算法和Ntirogiannis[5]方法, 基于深度学习的SAGAN[28]、DD-GAN[15]、Castellanos[16]和Sungho[29]方法.
2.1.2 评价指标
为定量评价透射图像恢复效果, 使用文档图像二值化国际竞赛中的评估参数[21-27]: 峰值信噪比(Peak signal to noise ratio, PSNR)、F-measure (FM), pseudo-F-measure (pFM)和距离倒数失真(Distance reciprocal distortion, DRD). 其中, 前三个指标值越大说明算法准确性越高, DRD越小说明像素恢复差错越少.
1) PSNR
$$ \begin{equation} \begin{split} PSNR =10\lg\left(\frac{MAX_{I}^{2}}{MSE}\right) \end{split} \end{equation} $$ (9) 其中,
$MSE=\frac{1}{m\times n} \sum_{i=0}^{m-1} \sum_{j=0}^{n-1} \left[I\left(i,j\right)-B\left(i,j\right)\right]^{2}$ ,$ I $ 表示原始纯净图像,$ B $ 表示去透射图像,$ MAX_I $ 表示图片可能的最大像素值, 此处取255.$ \left(i,j\right) $ 表示对应像素的位置,$ m\times n $ 表示图像大小. PSNR越大, 表示去透射效果越好.2) FM
$$ \begin{equation} \begin{split} FM =\frac{2\times Precision\times Recall}{\left(Precision + Recall\right)} \end{split} \end{equation} $$ (10) 其中,
$ Recall=\frac{TP}{\left(TP+FN\right)} $ ,$ Precision=\frac{TP}{\left(TP+FP\right)} $ ,$ TP $ 、$ FP $ 和$ FN $ 分别表示真阳性、假阳性、假阴性值.3) pFM
$$ \begin{equation} \begin{split} pFM =\frac{2\times pRecall\times Precision}{\left(pRecall + Precision\right)} \end{split} \end{equation} $$ (11) 其中,
$ pRecall $ 表示生成的结果图像相比于标准二值化图像检测到文字信息完整性的百分比.4) DRD
$$ \begin{equation} \begin{split} DRD =\frac{\begin{matrix} \sum_{q} DRD_{q}\end{matrix}}{NUBN} \end{split} \end{equation} $$ (12) 其中, DRD用于测量二值图像中的视觉失真.
$ NUBN $ 是标准二值化结果图像中非均匀(并非所有黑色或白色像素) 8$ \times $ 8像素块的数量,$ DRD_{q} $ 表示在5$ \times $ 5像素块邻域内, 标准二值化图像与生成的结果图像第$ q $ 个翻转像素之间的权重加和的差值.2.1.3 参数敏感性分析
为了对比感知损失函数的权重系数
$ \omega $ 取值不同对文档图像透射去除效果的影响, 本节以合成透射数据集为例, 结合FM和pFM评价指标, 通过设置不同的权重系数$ \omega $ 进行参数敏感性分析实验.不同的权重系数
$ \omega $ 对FM和pFM评价指标的影响如图7所示, 可见当感知损失函数的权重系数$ \omega $ 越小时, FM和pFM评价指标的数值越小, 当$ \omega $ 在0.8附近时, FM和pFM的值达到最大, 此时文档图像透射去除效果最好, 所以本文设定$ \omega $ = 0.8.2.2 DIBCO数据集实验结果与分析
表1为3个DIBCO系列数据集的定量评价结果(获得的最佳结果用粗体标出). 与已有的方法相比, 本文的S-CycleGAN在4个评价指标中均有3项取得了最佳结果.
表 1 DIBCO数据集的文档透射图像恢复定量评价Table 1 Quantitative evaluation of document bleed-through image restoration of DIBCO datasets数据集 方法 PSNR (dB) FM (%) pFM (%) DRD Otsu 18.52 67.81 74.08 17.45 Ntirogiannis 16.34 85.34 86.06 8.18 SAGAN 21.55 87.47 92.28 5.97 DIBCO DD-GAN 22.67 88.90 91.19 5.53 2011 Castellanos 22.95 89.40 91.78 5.62 Sungho 23.54 89.67 91.03 5.59 S-CycleGAN 24.36 89.71 91.62 5.49 Otsu 14.90 72.57 73.51 23.67 Ntirogiannis 14.30 84.60 88.40 6.34 SAGAN 19.64 89.75 90.85 6.35 DIBCO DD-GAN 21.14 92.53 92.59 4.86 2009 Castellanos 21.95 90.00 91.68 6.03 Sungho 22.56 87.73 92.09 5.35 S-CycleGAN 22.83 90.98 92.65 4.54 Otsu 15.52 70.44 73.03 20.45 Ntirogiannis 18.14 83.72 87.49 10.98 SAGAN 20.35 91.64 92.71 5.64 DIBCO DD-GAN 21.54 90.48 93.63 3.17 2016 Castellanos 22.30 91.13 92.28 3.05 Sungho 21.96 90.27 92.69 2.63 S-CycleGAN 22.35 91.90 93.79 3.53 为了直观展示视觉对比效果, 图8给出了不同方法在DIBCO 2011[25]数据集中的一个样本图像的处理结果. 如图所示, 图8(a)中大面积背面内容叠加到正面图像中且右上部分透射内容较重(强透射区域). 因直方图没有明显的双峰特征, 且图像整体亮度偏低, Otsu[4]算法计算出的阈值较小, 从而导致计算输出的二值图像引入了大量噪声. Ntirogiannis[5]方法虽然能抑制一定的噪声, 但也丢失了部分文本内容. 基于深度学习的方法SAGAN[28]、DD-GAN[15]、Castellanos[16]和Sungho[29]方法的恢复结果要优于经典方法, 对文字的恢复较为准确, 但仍有较多背面内容在恢复过程中被当作正面的内容, 导致恢复结果出现了噪声误差. 本文方法S-CycleGAN给出了较好的视觉效果, 更加接近真值图像(Ground truth), 可以在不需要成对数据集的情况下, 无论是强透射区域还是弱透射区域都可以生成更为清晰的细节, 更好地恢复透射文档图像.
图9给出了不同方法对H-DIBCO 2016[27]数据集中的一个样本图像的恢复结果. Otsu[4]、DD-GAN[15]和Sungho[29]的实验结果中存在大量噪声信息. Ntirogiannis[5]方法可以更有效地去除阴影和类似正面文本的背面噪声, 但存在文本信息错分的情况. SAGAN[28]和Castellanos[16]方法恢复的实验结果中存在文字笔画不连续的现象. S-CycleGAN不仅能更好地去除阴影和噪声, 而且更好地保留了正面文本细节.
2.3 合成数据集和真实图像实验结果与分析
2.3.1 合成数据集实验结果
本文方法S-CycleGAN与其他几种去除透射算法在合成数据集上的定量评价如表2所示. 粗体为恢复方法中最佳的指标结果, 显然可见, S-CycleGAN在四个客观度量指标上均优于其他去除透射方法.
表 2 合成数据集的文档透射图像恢复定量评价Table 2 Quantitative evaluation of document bleed-through image restoration of synthetic datasets数据集 方法 PSNR (dB) FM (%) pFM (%) DRD Otsu 16.35 88.37 89.59 4.94 Ntirogiannis 19.30 89.21 90.68 8.87 SAGAN 16.05 87.61 91.28 5.21 合成数据集 DD-GAN 20.45 90.51 90.01 4.73 Castellanos 19.95 90.65 93.78 4.06 Sungho 21.03 90.53 92.67 3.86 S-CycleGAN 22.66 92.99 95.10 2.93 合成数据集中一个样本图像的恢复结果对比如图10所示, 可见经典的Otsu[4]和Ntirogiannis[5]方法无法消除文档的背面透射内容, 这是因为此类方法难以在正面和背面内容区分中找到一个有效阈值, 且Ntirogiannis[5]方法恢复的内容中标点符号严重缺失. Castellanos[16]正面的文档内容没有完全恢复且造成了一定的内容细节损失, 恢复效果不理想. DD-GAN[15]和Sungho[29]方法产生了相对较好的视觉效果, 但存在纹理细节不清晰等问题. 综合来看, S-CycleGAN生成的结果更为自然, 纹理细节也较为清晰.
2.3.2 真实透射图像实验结果
真实图像为“京瓷FS-1020MFP”扫描获取的全国大学英语六级试卷和某初中数学试卷的数字图像, 截取其中有明显透射的样本进行恢复, 各种对比方法的实验结果分别如图11和图12所示.
由视觉效果综合比较可见, Ntirogiannis[5]和Su-ngho[29]方法的恢复结果中存在部分内容缺失的问题, 例如图12(g)中“−6”的“−”丢失, 恢复的图像与原始文档内容不一致. Otsu[4]和DD-GAN[15]方法可以将透射内容进行一定程度的去除, 但存在恢复正面字迹不清晰、边缘不够平滑的问题. Castellanos[16] 和SAGAN[28]方法保留了正面文本内容但仍存在一定的背面噪声. 与其他方法相比, 本文方法S-CycleGAN不仅能更好地去除透射内容和噪声, 而且清晰、平滑、正确的保留了正面文本内容.
2.4 消融实验
第3.2节和第3.3节的对比实验结果表明, 基于S-CycleGAN的图像恢复方法取得了良好的性能. 为了更好地理解该方法中不同组成部分的作用, 测试每个组成部分在网络中的重要性, 进行了有无特定成分的消融实验, 以验证每个模块在S-CycleGAN的功能. 消融实验在合成数据集和H-DIBCO 2016[27]数据集上进行, 主要对比: CycleGAN、无SLM的S-CycleGAN和本文方法S-CycleGAN.
表3给出了S-CycleGAN及其两种消融变体在合成数据集和H-DIBCO 2016数据集上的客观度量指标计算结果. 由表3可见, 加入了本文设计的功能模块后的S-CycleGAN的实验指标得到较大提升, 结果最优, 且部分指标相差较大. 图13给出了S-CycleGAN及其两种消融变体在合成数据集中一个样本图像的恢复结果. 可以看出网络中加入自学习模块能够关注到图像的不同区域特征, 以“非均匀”的方式处理透射到正面的“深浅不一”内容, 更好的恢复出了正面图像内容的纹理、边缘等信息, 不仅有效地去除了透射内容, 还能完整保留正面图像的文字细节. 从表3的客观指标评价和图13的实验结果来看, 在CycleGAN中加入了特征提取模块和自学习模块对透射文档图像的恢复十分有效.
表 3 S-CycleGAN模块有效性客观评价指标对比Table 3 Objective evaluation indexes comparison for the modules in S-CycleGAN数据集 方法 PSNR (dB) FM (%) pFM (%) DRD CycleGAN 12.48 62.42 65.51 20.95 合成数据集 无SLM 19.75 88.80 92.50 3.95 S-CycleGAN 22.66 92.99 95.10 2.93 CycleGAN 11.41 69.71 71.33 16.31 H-DIBCO 无SLM 18.21 86.60 88.80 4.36 2016 S-CycleGAN 22.35 91.90 93.79 3.53 3. 结论
本文提出了一种自监督学习的单幅透射图像恢复网络(S-CycleGAN), 该网络可以直接对非配对的透射文档图像执行图像恢复任务, 且无需混合比例、阈值等任何先验参数. 通过设计有效的生成器网络, 针对文档图像中透射分布不均匀、文字印记深浅不一等问题, 在网络中加入自学习模块, 提高关注点的表示和感兴趣内容的表现力, 以获得更好的透射图像恢复效果和重建细节内容. 在合成数据集、DIBCO数据集和真实图像上与现有方法进行了实验对比, 结果表明S-CycleGAN在客观度量指标和视觉效果上均取得了较好的结果, 有望集成于扫描仪、相机等实际成像设备.
-
[1] Ray W H. Advanced Process Control. New York: McGraw-Hill, 1981. [2] Christofides P D. Nonlinear and Robust Control of PDE Systems. Boston: Birkhauser Boston, 2001. [3] Deng H, Li H X, Chen G R. Spectral approximation based intelligent modeling for distributed thermal processes[J]. IEEE Transactions on Control Systems Technology, 2005, 13:686-700. doi: 10.1109/TCST.2005.847329 [4] Padhi R, Ali S F. An account of chronological developments in control of distributed parameter systems[J]. Annual Reviews in Control, 2009, 33:59-68. doi: 10.1016/j.arcontrol.2009.01.003 [5] Baillieul J. Linearized models for the control of rotating beams. In: Proceedings of the 27th IEEE Conference on Decision and Control. Austim, TX, USA: IEEE, 1988: 1726−1731 [6] Najar F, Choura S, Abdelrahman E M, et al. Dynamic analysis of variable-geometry electrostatic microactuators[J]. Journal of Micromechanics Microengineering, 2006, 16:2449-2457. doi: 10.1088/0960-1317/16/11/028 [7] Ly C, Doiron B. Correction: Divisive Gain Modulation with Dynamic Stimuli in Integrate-and-Fire Neurons[J]. Plos Computational Biology, 2009, 5(4):e1000365. doi: 10.1371/journal.pcbi.1000365 [8] Lan Y H, Wu B, Shi Y X, et al. Iterative learning based consensus control for distributed parameter multi-agent systems with time-delay. Neurocomputing, 2019, 357(10): 77-85. [9] Lan Y H, Xia J J, Xia Y P, et al. Iterative learning consensus control for multi-agent systems with fractional order distributed parameter models. Int. J. Control Autom. Syst, 2019, 17(4): 1-11. [10] Luo Y P, Xia W H, Liu G R, et al. LMI Approach to Exponential Stabilization of Distributed Parameter Control Systems with Delay[J]. Acta Automatica Sinica, 2009, 35:299-304. [11] Ji H H, Cui B T, LiuX Z. Adaptive control of Markov jump distributed parameter systems via model reference[J]. Fuzzy Sets and Systems, 2019.https://doi.org/10.1016/j.fss.2019.06.016 doi: 10.1016/j.fss.2019.06.016 [12] Wang Z P, Wu H N. Finite dimensional guaranteed cost sampled-data fuzzy control for a class of nonlinear distributed parameter systems[J]. Information Sciences An International Journal, 2016, 327:21-39. doi: 10.1016/j.ins.2015.08.009 [13] Zhang X M, Wu H N. H∞ boundary control for a class of nonlinear stochastic parabolic distributed parameter systems[J]. International Journal of Robust and Nonlinear Control, 2019, 29(14):4665-4680. doi: 10.1002/rnc.4646 [14] 周延九, 崔宝同. 一类半线性抛物型偏微分方程描述的分布参数系统的边界控制. 控制与决策, 2019, 34(12): 2594−2602Zhou Yan-Jiu, Cui Bao-Tong. Boundary control of the distributed parameter systems described by a class of semi-linear parabolic partial differential equations. Control and Decision, 2019, 34(12): 2594−2602 [15] Wang J W, Wu H N, Sun C Y. Local exponential stabilization via boundary feedback controllers for a class of unstable semi-linear parabolic distributed parameter processes[J]. Journal of the Franklin Institute, 2017, 354(13): 5221-5244. doi: 10.1016/j.jfranklin.2017.05.044 [16] 栗小丽, 李凯, 刘飞. 双曲线型分布参数系统边界控制下的干扰解耦[J]. 控制与决策, 2016, 31(2): 256-260.Luan X L, Li K, Liu F. Disturbance decoupling for hyperbolic-type distributed parameter systems with boundary control[J]. Control and Decision, 2016, 31(2):256-260. [17] 周笔锋, 罗毅平. 时滞分布参数系统中和控制器设计[J]. 自动化学报, 2018, 44(12):2222-2227.Zhou B F, Luo Y P. Distributed parameter systems of neutralization control with delay[J]. Acta Automatica Sinica, 2018, 44(12):2222-2227. [18] 催宝同, 楼旭阳. 时滞分布参数系统理论及其应用. 北京: 国防工业出版社, 2009. 8−12Cui Bao-Tong, Lou Xu-Yang. Theory and Application of Time-delay Distributed Parameter System. Beijing: National Defense Industry press, 2009. 8−12 [19] Song Q, Cao J. On pinning synchronization of directed and undirected complex dynamical networks[J]. IEEE Transactions on Circuits Systems Part I Regular Papers, 2010, 57:672-680. doi: 10.1109/TCSI.2009.2024971 期刊类型引用(1)
1. 王峥,赵新辉. 去模糊网络复层运动图像恢复算法仿真. 计算机仿真. 2024(05): 264-269 . 百度学术
其他类型引用(5)
-