2.845

2023影响因子

(CJCR)

  • 中文核心
  • EI
  • 中国科技核心
  • Scopus
  • CSCD
  • 英国科学文摘

留言板

尊敬的读者、作者、审稿人, 关于本刊的投稿、审稿、编辑和出版的任何问题, 您可以本页添加留言。我们将尽快给您答复。谢谢您的支持!

姓名
邮箱
手机号码
标题
留言内容
验证码

基于半监督编码生成对抗网络的图像分类模型

付晓 沈远彤 李宏伟 程晓梅

秦超, 高晓光, 万开方. 深度卷积记忆网络时空数据模型. 自动化学报, 2020, 46(3): 451−462 doi: 10.16383/j.aas.c180788
引用本文: 付晓, 沈远彤, 李宏伟, 程晓梅. 基于半监督编码生成对抗网络的图像分类模型. 自动化学报, 2020, 46(3): 531-539. doi: 10.16383/j.aas.c180212
Qin Chao, Gao Xiao-Guang, Wan Kai-Fang. Deep spatio-temporal convolutional long-short memory network. Acta Automatica Sinica, 2020, 46(3): 451−462 doi: 10.16383/j.aas.c180788
Citation: FU Xiao, SHEN Yuan-Tong, LI Hong-Wei, CHENG Xiao-Mei. A Semi-supervised Encoder Generative Adversarial Networks Model for Image Classification. ACTA AUTOMATICA SINICA, 2020, 46(3): 531-539. doi: 10.16383/j.aas.c180212

基于半监督编码生成对抗网络的图像分类模型

doi: 10.16383/j.aas.c180212
基金项目: 

国家自然科学基金 61601417

详细信息
    作者简介:

    付晓  中国地质大学(武汉)数学与物理学院硕士研究生. 2015年获得中国地质大学(武汉)数学与物理学院学士学位.主要研究方向为深度学习与图像处理. E-mail: cugfuxiao@163.com

    李宏伟  中国地质大学(武汉)数学与物理学院教授.主要研究方向为信息处理与智能计算. E-mail: hwli@cug.edu.cn

    程晓梅  中国地质大学(武汉)数学与物理学院硕士研究生. 2016年获得山东大学(威海)数学与统计学院统计系学士学位.主要研究方向为深度学习与图像处理. E-mail: 13016471716@163.com

    通讯作者:

    沈远彤  中国地质大学(武汉)数学与物理学院教授.主要研究方向为小波分析理论与应用, 数字图像处理.本文通信作者. E-mail: whsyt@163.com

A Semi-supervised Encoder Generative Adversarial Networks Model for Image Classification

Funds: 

National Natural Science Foundation of China 61601417

More Information
    Author Bio:

    FU Xiao   Master student at the College of Mathematics and Physics, China University of Geosciences. She received her bachelor degree from China University of Geosciences in 2015. Her research interest covers deep learning and image processing.)

    LI Hong-Wei   Professor at the College of Mathematics and Physics, China University of Geosciences. His research interest covers information processing and intelligent computing.)

    CHENG Xiao-Mei   Master student at the College of Mathematics and Physics, China University of Geosciences. She received her bachelor degree from Shandong University in 2016. Her research interest covers deep learning and image processing.)

    Corresponding author: SHEN Yuan-Tong   Professor at the College of Mathematics and Physics, China University of Geosciences. His research interest covers theory and application of wavelet analysis
  • 摘要: 在实际应用中, 为分类模型提供大量的人工标签越来越困难, 因此, 近几年基于半监督的图像分类问题获得了越来越多的关注.而大量实验表明, 在生成对抗网络(Generative adversarial network, GANs)的训练过程中, 引入少量的标签数据能获得更好的分类效果, 但在该类模型的框架中并没有考虑用于提取图像特征的结构, 为了进一步利用其模型的学习能力, 本文提出一种新的半监督分类模型.该模型在原生成对抗网络模型中添加了一个编码器结构, 用于直接提取图像特征, 并构造了一种新的半监督训练方式, 获得了突出的分类效果.本模型分别在标准的手写体识别数据库MNIST、街牌号数据库SVHN和自然图像数据库CIFAR-10上完成了数值实验, 并与其他半监督模型进行了对比, 结果表明本文所提模型在使用少量带标数据情况下得到了更高的分类精度.
    Recommended by Associate Editor JIN Lian-Wen
  • 随着数据处理技术以及数据采集设备(如传感器或移动采集装置)的发展, 具备时间和位置属性的时空数据成为大数据时代典型的数据类型[1]. 设计时空数据模型, 用以对时空数据进行时间和空间维度的处理, 可以得到反映对象由于时间和空间改变而产生的行为状态变化的信息[2-4], 这类信息可以有效地预测对象未来的状态.

    交通信息数据与时间和空间两类属性的密切联系, 可以说是一类典型的时空数据. 并且交通信息数据不同属性之间具有不同程度耦合性, 处理起来比较复杂, 所以目前研究时空模型的学者们主要工作在于设计时空数据模型以便有效地处理交通信息数据. 对交通信息进行研究可以提供准确的公路状况信息给决策者, 从而使决策者对公路进行良性管理.

    处理交通数据的时空数据模型主要有两类, 系统仿真模型和数据分析模型.

    系统仿真模型的原理是分析交通系统的内部结构, 建立一个白盒用来模拟系统的运行, 预测未来某一时刻的数据[5]. Vlahogianni[6]通过分析交通系统内各个部分之间的关系, 设计了一个计算智能模型(Computational intelligence). 该模型可以解决由于交通数据输入维度增大导致解空间过大的问题, 并可以有效地处理大规模多目标数据. 由于系统仿真模型在处理诸如交通网络等复杂系统时不能有效地分析各个部分之间的隐藏关系, 所以学者们的关注点主要在对已经采集得到的交通数据设计数据分析模型.

    数据分析模型将统计学和机器学习相结合, 建立对交通系统的黑盒模拟[7]. Ahmed等[7]使用ARIMA (Autoregressive integrated moving average)模型将交通信息中的时空数据转化成时序数据, 通过数据差分将非平滑时间序列转化成平滑时间序列, 使输出变量仅对其滞后量以及随机误差项的当前值和滞后量进行回归处理, 从而建立数据分析模型. Williams等[8]在ARIMA基础上提出了S-ARIMA (Seasonal ARIMA)算法, 改变ARIMA模型滞后量的计算方法, 降低了对模式的识别能力和预测长时间间隔(Long-term)数据的预测误差. Lippi 等[9]在ARIMA的基础结构上加入了一个卡尔曼滤波器, 提高了模型在解决复杂问题时的准确率. Kumar 等[10]通过对动脉数据进行实验分析, 说明了S-ARIMA算法能够有效地处理对时间属性不敏感的数据信息. 由于ARIMA本质上是将交通信息当成一种时序数据使用差分方法处理, 使得算法对时间属性不敏感, 而且由于交通数据不同属性之间具有强耦合性, 模型容易产生一些非线性问题, 导致 ARIMA及其衍生模型在处理高速改变的交通数据流时具有一些局限性, 在预测短时间间隔(Short-term)数据时表现较差[10].

    学者们通过非参数(Non-parametric)的机器学习技巧, 尝试解决ARIMA很难解决的这些非线性问题, 提高模型预测短时间间隔数据的能力. 神经网络是典型的非参数机器学习网络. 相对于传统的ARIMA模型, 神经网络具有很多优势. 首先体现在神经网络可以扩展到上千节点, 使得模型以比较大的精度逼近真实模型. 其次, 神经网络中含有非参数结构, 可以更灵活地处理输入数据. 更重要的是由于神经网络没有对数据进行差分处理, 可以有效地处理高速改变的交通信息流. Dougherty 等[11]使用神经网络处理交通信息, 包括司机的行为信息、交通参数估计、交通信息的预测等, 在理论和实验这两方面说明了神经网络处理交通数据的可行性. Hua 等[12] 通过实验证明使用人工神经网络预测短时间间隔之后的汽车运行时间, 预测误差比传统的ARIMA的方法要小. Smith 等[13]使用BP(Back propagation)神经网络处理动态信息, 对比于传统的非参数回归模型和ARIMA模型, 在预测短时间间隔数据时预测误差得到了很大程度的降低. Chan 等[14]说明神经网络在预测交通流密度方面具有获取数据非线性特征的能力, 并说明神经网络在交通数据处理方面已经得到了广泛应用.

    Hinton等[15]改进了深度学习算法的训练机制, 使得深度学习算法受到学术界和工商界的广泛关注. 深度学习模型在图像处理、语音识别、文本翻译等领域取得了巨大成功[16]. 在交通信息领域, 由于深度学习算法可以从大数据集中学习到有效的特征, 许多学者尝试使用该算法对海量的交通数据进行处理. Polson等[17]使用了深度结构的神经网络来预测交通流, 通过对Interstate I-55号道路上获取的数据进行训练, 预测短期的交通流密度. 这篇文献还对预测中出现的两处异常值做出了合理的解释. 对比于传统的BP神经网络, 在模型的收敛速度上得到提升. Jia等[18]通过使用多层的受限玻尔兹曼机模型, 建立以MAPE (Mean absolute percentage error)、RMSE (Root mean square error)以及RMSN (Normalized root mean square error)为预测误差的深度信念网络(Deep brief network, DBN)模型, 用来预测短时间间隔交通流速度, 实验结果表明使用DBN得到的预测误差比BP神经网络和ARIMA模型要小, 说明DBN在预测短时间间隔时空数据时效果更好. Lv 等[19]建立堆叠自适应编码器 (Stacked autoencoders, SAEs)网络预测短时交通流密度, 实验所得预测误差比BP神经网络和支持向量机(Support vector machine, SVM)等浅层网络模型以及S-ARIMA低. 类比图像数据和声音采样信息, 交通流数据在空间和时间领域具有很多有用的特征[20]. 由于这些深度学习模型很难学习到数据有关时间和空间关系的良好特征表达, 在预测长时间间隔的交通数据的时候表现乏力, 限制了模型的泛化能力.

    循环神经网络(Recurrent neural network, RNN)是一类用于处理序列数据的神经网络. RNN中的循环单元可以很好地记忆前某个时刻网络学习到的数据信息, 可以学习到输入数据中时间属性的特征[21]. 但传统的RNN网络在处理交通信息时存在一些不足: 1) RNN网络中的时间迭代步长需要在网络设计前给定. 2) RNN在处理预测长时间间隔交通数据的时候表现乏力[22]. Ma 等[22]针对传统RNN存在的问题, 使用RNN中一种特殊结构的长短期记忆(Long short-term memory, LSTM)预测长时间间隔(Long-term)的交通流密度, 通过实验对比LSTM和传统RNN以及其他深度学习模型在预测长时间间隔的交通数据方面的能力, 结果说明了LSTM比传统RNN和其他深度学习模型在预测长时间间隔数据时效果更好.

    ARIMA、神经网络、传统的深度学习网络以及RNN等模型, 重点关注数据时间属性的信息, 缺乏对临近空间信息的分析, 没有从本质上解决短时间间隔预测能力不足的问题. 临近空间数据对预测信息的变化趋势影响较大, 所以如果需要有效地预测高速改变的信息流, 应重点关注该预测点临近位置的数据. 在研究临近空间位置数据的时候, 可以将某一个时刻所有位置的数据信息做一个网格, 采用一些特定的结构进行处理. 网格中所有数据不是完全独立的, 位置距离越近, 数据的相关性越强, 而使用传统的全连接的网络结构很难学习到这个特征.

    本文提出一个全新的时空数据模型——深度卷积记忆网络(Deep spatial-temporal convolutional LSTM, DSTCL), 建立包含卷积神经网络和长短时间记忆网络的多元网络结构, 相对于传统的时空数据模型, 加入对模型的空间属性信息的处理, 重点解决模型预测中短时间间隔数据的误差较大的问题. 卷积神经网络(Convolutional neural network, CNN)在处理类似网格结构数据的时候, 可以高效地学习到临近空间信息的相关性以及输入变量不同区域之间的关系等信息[23-24]. 长短时间记忆网络可以学习到数据的记忆特征, 有效地处理时间属性信息. 多元网络DSTCL能够同时提取到数据的时间和空间属性信息, 更有效对长时间间隔、中时间间隔以及短时间间隔的数据进行预测. 考虑到交通数据的周期属性以及一天中镜像时间段的影响, 在DSTCL中加入了周期特征提取模块和镜像特征提取模块对网络进行修正.

    本文结构如下: 第1节对需要处理的问题进行概述, 第2节给出模型设计的细节, 第3节给出实验结果和分析, 第4节是结论和展望.

    本文的目标是处理已经采集到的交通速度数据, 预测某一个位置未来某一个时刻的交通速度信息. 用公式表示为

    $$\begin{split} v_{T,P} =&\arg \mathop { \max }\limits_v p(v_{T,P} \vert v_{t = T-n,p\ne P,N\ge n\ge 0} ,\\ &v_{t = T-n,p = P,N\ge n>0} ,\theta ) \end{split} $$ (1)

    其中, $ v_{T,P} $表示 $ T $时刻$ P $位置的速度, $v_t = T-n, $$ p\ne P,N\ge n\ge 0$表示除$ P $位置之外的地点 $ T $时刻之前(包含$ T $时刻)的速度值, $ {{v}_{t = T-n,p = P,N\ge n>0}} $表示$ P $位置 $ T $时刻之前(不包括T时刻)的速度值, $ N $表示输入时间步长, $ \theta $表示模型的参数值.

    如果预测T时刻P位置的速度, 按照式(1), 需要其他地点T时刻之前的速度值, P位置T时刻之后的速度值, 仍使用N表示输入时间步长, 如图1所示, 我们得到交通信息的数据矩阵.

    图 1  按照时间顺序对不同位置的交通数据进行处理
    Fig. 1  Processing traffic data at different locations in chronological order
    $$ {V} =\left[\!\!\! {\begin{array}{*{20}c} {V_1 } \hfill \\ \vdots \hfill \\ {V_P } \hfill \\ \end{array} }\!\!\!\right]\! \!=\!\! \left[ {{\begin{array}{*{20}c} {v_1 \left( {T-N} \right)} \hfill & \cdots \hfill & {v_1 \left( {T-1} \right)} \hfill \\ \vdots \hfill & \ddots \hfill & \vdots \hfill \\ {v_P \left( {T-N} \right)} \hfill & \cdots \hfill & {v_P \left( {T-1} \right)} \hfill \\ \end{array} }} \right] $$ (2)

    深度卷积记忆网络主要任务是训练数据的空间特征和时间特征, 得到预测信息随时间和空间的变化趋势, 进而降低模型的预测误差, 提高训练速度. 此外, 还需要训练其他的特征, 如周期特征和镜像特征等, 提高模型的预测能力.

    由于交通流的速度总是与临近位置的速度相关, 而且卷积网络在表达临近区域特征相关问题方面具有非常大的优势, 我们选择一维的卷积网络来抽取数据的空间特征信息, 如图2所示. 由于建模需要, 在使用卷积网络的时候不考虑时间这个属性, 仅使用上一个时间点的不同位置的速度, 舍弃掉其他时间点的速度. 将问题重新整理如下:

    图 2  使用CNN训练空间特征
    Fig. 2  Training spatial features with CNN
    $$ v_P =\arg \mathop { \max }\limits_v p(v_P \vert v_{p,t = T-1} ,\theta ) $$ (3)

    从数据矩阵中抽取

    $$ v_p = [v_1 (T-1),v_2 (T-1),\cdots,v_P (T-1)]^{\rm{T}} $$ (4)

    作为一维卷积网络的输入. 使用一维卷积网络处理数据集如图2所示, 第i个特征表达如下:

    $$ h_P^i = o(w_q^i \ast v_q^i +b_q^i ) $$ (5)

    其中, $ w_q^i $表示权值, $ o $表示非线性的激活矩阵, $ b_q^i $表示偏置, $ * $表示卷积计算.

    对一般的卷积神经网络来说, 卷积计算之后需要进行池化处理. 池化主要作用是保持图片的等变性. 对于小图像块识别这一类的任务来说, 不使用池化运算也可以有效处理[25]. 由于交通数据集可以看成像素点比较少的图片(小图像块)也不需要考虑其等变性, 所以在本模型中, 卷积运算之后不使用池化处理. 具体设计上, 我们在卷积层对输入用零进行填充使其加宽, 保证输入和输出在维度上具有相同的大小. 这样可以使卷积运算不改变下一层的结构, 只要硬件支持, 该网络就可以包含任意数量的卷积层, 便于网络进行扩展. 由于空间特征提取模块包含卷积层的层数较少, 使用残差结构[26]效果提升不明显, 所以使用普通的CNN结构.

    RNN是专门用于处理类似序列$ {{x}^{1}},{{x}^{2}},\cdots,{{x}^{\tau }} $的神经网络. 正如CNN可以很容易地扩展到具有很大宽度和高度的图像, 以及可以用来处理大小可变的图像, RNN可以扩展到更长的序列(比不基于序列的特化网络长得多). 一个RNN网络如图3所示, 其中x表示输入值, h表示隐层值, o表示模型输出值, L表示代价损失函数, y表示对应x的标签值, U表示x的权值, W表示记忆单元的权值, V表示隐层的权值.

    图 3  循环神经网络的计算图模型
    Fig. 3  Calculation graph model of RNN

    RNN处理时序数据的一个优势就是可以学习到数据的记忆特征, 不再单独地进行每个时刻数据的训练, 而是通过隐层或者输出层将不同时刻的训练步骤联系起来, 即当前时刻的训练需要前几个时刻的数据提供记忆信息.

    但由于传统的RNN的局限性, 预测长时间间隔的交通数据表现乏力[22]. 而LSTM在预测长时数据时表现良好, 对预测间隔的大小限制较少, 所以我们选择LSTM作为训练数据时间特征的网络模型.

    LSTM对传统的RNN一个关键的扩展是使自循环的权重(图3中的W)视上下文而定, 而不是固定的[27]. 门控此自循环(门控函数由另一个隐层单元控制)的权重, 由于时间量是模型本身的输入, 使得模型累计的时间尺度可以动态改变.

    LSTM块如图4所示. LSTM除了外部的RNN循环外, 还有内部的LSTM“细胞”循环, 因此LSTM不是简单地向输入和循环单元的仿射变换之后施加一个逐元素的非线性. LSTM“细胞”彼此循环连接, 代替一般循环网络中普通的隐藏单元. 状态单元具有线性自循环, 其权重由遗忘门控制. “细胞”的输出可以被输入门关闭. 所有的门控单元都具有非线性激活函数, 而输入单元可具有任意的压缩非线性. 状态单元也可以用作门控单元的额外输入. 黑色方块表示单个时间步的延迟.

    图 4  LSTM“细胞”结构框图
    Fig. 4  Structure of LSTM cell

    t时刻第$ i $个细胞的遗忘门$ f_{i}^{t} $, 输入门$ g_{i}^{t} $, 状态单元$ s_{i}^{t} $, 输出门$ q_{i}^{t} $以及最后的输入$ h_{i}^{t} $的表达如下:

    $$ f_{i}^{t} = \sigma \left(b_{i}^{f}+\sum\limits_{j}{U_{i,j}^{f}x_{j}^{t}}+\sum\limits_{j}{W_{i,j}^{f}h_{j}^{t-1}}\right) \qquad\;\;$$ (6)
    $$ s_{i}^{t} = g_{i}^{t}\sigma \left(b_{i}^{{}}+\sum\limits_{j}{U_{i,j}^{{}}x_{j}^{t}}+\sum\limits_{j}{W_{i,j}^{{}}h_{j}^{t-1}}\right)+f_{i}^{t}s_{i}^{t-1} $$ (7)
    $$ g_{i}^{t} = \sigma \left(b_{i}^{g}+\sum\limits_{j}{U_{i,j}^{g}x_{j}^{t}}+\sum\limits_{j}{W_{i,j}^{g}h_{j}^{t-1}}\right) \qquad\;\;$$ (8)
    $$ q_{i}^{t} = \sigma \left(b_{i}^{o}+\sum\limits_{j}{U_{i,j}^{o}x_{j}^{t}}+\sum\limits_{j}{W_{i,j}^{o}h_{j}^{t-1}}\right) \qquad\;\;$$ (9)
    $$ h_{i}^{t} = \tanh \left(s_{i}^{t}\right)q_{i}^{t} \qquad\qquad\qquad\qquad\qquad\qquad\;\;$$ (10)

    其中, $ {{x}^{t}} $表示当前的输入量, $ {{h}^{t}} $表示当前的隐层值, $ {{h}^{t}} $包含所有LSTM细胞的输出. $ {{b}^{f}} $, $ {{U}^{f}} $$ {{W}^{f}} $分别是遗忘门的偏置、输入权重和循环权重. $ {{b}^{g}} $, $ {{U}^{g}} $$ {{W}^{g}} $分别是输入门的偏置、输入权重和循环权重. $ {{b}^{o}} ,$$ {{U}^{o}} $$ {{W}^{o}} $分别是输出门的偏置、输入权重和循环权重. $ b $, $ U $$ W $ 分别是LSTM“细胞”中的偏置、输入权重和循环权重.

    在处理交通数据的时候, LSTM可以有效地解决长期依赖问题, 对输入数据进行训练[22]. 将问题按照时间属性整理为

    $$ {{v}_{T}} = \arg{\mathop{ \max_{v} }}\,p\left({{v}_{T}}|{{v}_{t = t-n,N\ge n>0}},\theta \right) $$ (11)

    按照式(11)从数据矩阵抽取

    $$ V = ({{V}_{0}},{{V}_{1}},\cdots,{{V}_{q}},\cdots,{{V}_{N-1}}) $$ (12)

    其中, $ {{V}_{q}} = \left[{{v}_{1}}(t-N+q),{{v}_{2}}(t-N+q),\cdots,{{v}_{P}}(t- \right.$$\left. N+q)\right]^{{\rm{T}}}$ .

    $ {{V}_{q}} $作为输入代入式(6)$ \sim $(10), 使用LSTM训练数据集如图5所示.

    图 5  使用LSTM训练时间特征
    Fig. 5  Training temporal features with LSTM

    在实验过程中, 发现不同日期同一时刻的速度数据可以很大程度上影响训练的效果. 原因可能是人们通常喜欢在某天的同一时刻或者该时刻的临近时间去做相同的事情, 所以另外使用堆叠自动编码器来训练同一时刻的数据. 堆叠自动编码器被证明可以有效地训练交通数据周期信息[19]. 我们按照周同一时刻和日同一时刻两个属性重新抽取数据矩阵.

    $$\small \begin{split} &{{v}^{d}} =\\ &\left[\!\!\!\! \begin{array}{c} {{v}_{1}}({{t}^{d}}-N\times m)\ \ {{v}_{1}}({{t}^{d}}-(N-1)\times m)\cdots {{v}_{1}}({{t}^{d}}-m) \\ {{v}_{2}}({{t}^{d}}-N\times m)\ \ {{v}_{2}}({{t}^{d}}-(N-1)\times m)\cdots {{v}_{2}}({{t}^{d}}-m) \\ \qquad \vdots \qquad \qquad \qquad \qquad \vdots \qquad\qquad\;\; \ddots \qquad \quad \vdots\\ {{v}_{P}}({{t}^{d}}-N\times m)\ \ {{v}_{P}}({{t}^{d}}-(N-1)\times m)\cdots {{v}_{P}}({{t}^{d}}-m) \\ \end{array} \!\!\!\!\right] \end{split} $$ (13)
    $$\small \begin{split} & {{v}^{w}} =\\ &\left[\!\!\!\! \begin{array}{c} {{v}_{1}}({{t}^{w}}-N\times k)\ \ {{v}_{1}}({{t}^{w}}-(N-1)\times k)\;\cdots {{v}_{1}}({{t}^{w}}-k) \\ {{v}_{2}}({{t}^{w}}-N\times k)\ \ {{v}_{2}}({{t}^{w}}-(N-1)\times k)\;\cdots {{v}_{2}}({{t}^{w}}-k) \\ \qquad \vdots \qquad \qquad \qquad \qquad \vdots \qquad\qquad\;\; \ddots \qquad \quad \vdots\\ {{v}_{P}}({{t}^{w}}-N\times k)\ \ {{v}_{P}}({{t}^{w}}-(N-1)\times k)\;\cdots {{v}_{P}}({{t}^{w}}-k) \\ \end{array} \!\!\!\!\right] \end{split} $$ (14)

    其中, $ {{v}^{{{d}}}} $表示按照日同一时刻抽取数据, $ {{v}^{w}} $表示按照周同一时刻抽取数据. $ m $表示原始数据中每天抽取数据的个数. $ k $表示原始数据中每周抽取数据的个数. 按照图6, 将这两个数据矩阵作为堆叠自动编码器的输入.

    图 6  堆叠自动编码器训练周期特征
    Fig. 6  Training periodic features with stacked auto-encoder

    由于同一天的数据中,上午时刻数据对下午时刻数据的影响很大, 对下午时刻的数据进行处理的时候需要考虑上午数据的特征, 这种特征称为镜像特征. 重新抽取数据矩阵如下:

    $$ {{v}^{m}} = \left[ \begin{array}{c} {{v}_{1}}({{H}_{1}})\;\ \ {{v}_{1}}({{H}_{2}})\;\cdots\; {{v}_{1}}({{H}_{\lambda }}) \\ {{v}_{2}}({{H}_{1}})\; \ \ {{v}_{2}}({{H}_{2}})\;\cdots\; {{v}_{2}}({{H}_{\lambda }}) \\ \vdots \qquad \vdots\qquad \ddots\qquad \vdots \\ {{v}_{P}}({{H}_{1}})\; \ \ {{v}_{P}}({{H}_{2}})\;\cdots\; {{v}_{P}}({{H}_{\lambda }}) \\ \end{array} \right] $$ (15)

    其中, $ \lambda $表示上午抽取的数据的个数, $ {{H}_{x}} $表示当天抽取的第$ x $个数据. 将该矩阵输入到堆叠自动编码器里, 训练镜像特征.

    我们将第2.1节中的网络结构命名为空间特征提取模块; 第2.2节中的网络结构命名为时间特征提取模块; 第2.3节中的网络结构命名为周期和镜像特征提取模块. 将上述3个模块输入到一个多层神经网络进行回归分析, 如图7所示. 整个网络采用多元的结构, 兼顾了时间和空间两个属性的信息, 我们将其命名为深度卷积记忆网络.

    图 7  建立训练模型
    Fig. 7  Building the training model

    通过加入输入门, 控制不同时间段的输入进入镜像特征训练模块. 门控函数为

    $$ s = \left\{ \begin{array}{rcl} 0, & & {x\le \lambda} \\ 1, & & {x>\lambda} \\ \end{array} \right. $$ (16)

    其中, $ x $表示输入数据在当天的批次, $ \lambda $表示上午抽取的批次.

    我们使用数据集PeMSD7 (Caltrans performance measurement system district 7)和FMD (Fire material dataset)来验证算法的有效性. 这两个数据集中都包含时间信息和空间信息, 并且这两类信息对数据之间的关系影响较大.

    PeMSD7数据集是由Caltrans performance measurement system中的 39 000个独立的传感器实时搜集数据. 这些传感器遍布在美国加利福尼亚州主要都市区高速公路附近[28]. 我们将数据集中的实时数据初步预处理成128个临近的传感器累计收集到时间间隔为5 min的数据, 选择数据集的时间跨度为2015年6月到2016年6月.

    初步预处理PeMSD7数据集之后对数据集中的缺失值进行插值填充. 然后将数据集横轴按照时间顺序纵轴按照空间顺序进行排序. 数据集70%的数据作为训练集, 20%的数据作为验证集, 10%的数据作为测试集. 验证集的作用是防止模型过拟合. 在训练集进行迭代的同时将每一次迭代得到的模型用于计算验证集的预测误差, 绘出验证集的预测误差曲线, 当验证集的预测误差曲线开始上升时, 记录此时模型的迭代次数, 并与训练集预测误差曲线收敛所需要的迭代次数进行对比, 选择最小的值作为停止训练所需要的迭代次数, 对应于最优的模型参数.

    FMD数据集共有42组实验, 每次实验由80个热传感器和100个压力传感器实时收集材料着火后的温度和气压. 我们将FMD数据集中的实时数据初步预处理成间隔2 min的数据. 预处理之后, 数据集有24 000条数据, 把标签属性设置为消防喷头的开启状态. 数据集80%的数据作为训练集, 10%的数据作为验证集, 10%的数据作为测试集.

    实验具体的硬件配置为: GPU为NVIDIA GeForce GTX 980Ti, CPU为Intel(R) Xeon(R) CPU E5-1607 v3. 实验使用的Python框架为PyTorch. 实验选择的优化算法为Adam算法(Adaptive moment estimation)[24], 其超参数设置: $ \alpha = 0.0001, $${{\beta }_{1}} = 0, {{\beta }_{2}} = 0.9 $. 实验设置批数量(Batch size)为16.

    我们设计三组实验对比5类模型(DSTCL, LSTM, S-ARIMA, DBN和ANN)处理PeMSD7数据集的结果.

    第1组实验研究模型的短时间间隔预测能力, 预测10 min之后的速度值. 我们设置输入时间步长为18, 即模型使用90 min的历史数据去预测10 min之后的速度值. 我们将周期数据的时间间隔步长设置为4, 即每次周期特征提取的时候使用当前时刻前后各20 min数据.

    空间特征提取模块共有3个卷积层, 每个卷积层包含128个节点, 20个滤波器. 初始输入一共128个节点(高度值设置为128, 宽度值设置为1, 通道数设置为1). 前两个卷积层滤波器的长度设置为5, 输入填充的节点数设置为2, 步长设置为1; 最后一个卷积层滤波器长度设置为4, 步长设置为1, 对输入不进行填充. 使用RELU函数作为空间提取模块的激活函数. 由于模型的节点数较多, 为了避免发生过拟合现象, 在训练的时候, 使用Dropout方法[29-30]. 设置Dropout的参数为0.5, 即每次训练的时候激活50%的节点. 为了避免在训练过程中出现学习速度变慢, 训练陷入长时间的停滞状态或梯度爆炸等问题, 保证模型的非线性表达能力, 模型使用批归一化技术(Batch normalization)[31-32], 对每一批(Batch)数据进行归一化处理.

    在训练前, 我们使用K均值聚类算法对空间特征提取模块进行预训练, 使每个学习到的中心作为卷积核, 这个方法被证明对小图像块是有效的[33].

    $$ RELU(x) = \left\{ \begin{array}{rcl} x, & & {x>\lambda} \\ 0 ,& & {x\le \lambda} \\ \end{array} \right. $$ (17)

    时间特征提取模块包括18个LSTM块, 每一个LSTM块设置为4层, 每层的节点数分别为128, 64, 32, 16. 周期和镜像特征提取模块中的周期特征提取部分编码层一共有4层, 每层的节点数分别为60, 30, 15, 10; 镜像特征提取部分编码层一共有6层, 每层节点数分别为179 712, 80 000, 4 000, 1 000, 500, 20. 设置Dropout参数为0.5. 使用RELU函数作为这三个模块的激活函数. 周期和镜像特征提取模块的解码层只在模型训练的时候使用. 最后的全连接神经网络一共有5层, 节点数分别为100, 40, 20, 10, 1.

    第2组实验研究模型的中时间间隔预测能力, 预测40 min之后的速度值. 输入时间步长设置为72, 即模型使用360 min的历史数据去预测40 min之后的速度值. 除了时间特征模块需要72个LSTM块之外, 其他模型超参数设置与第1组实验相同.

    第3组实验研究模型的长时间间隔预测能力, 预测100 min之后的速度值. 输入步长设置为180 min, 即模型用900 min的历史数据去预测100 min之后的速度值. 相对于第1组实验做如下超参数的改动, 时间特征模块设置为180个LSTM块, 最后全连接层设置为6层, 节点数分别为300, 100, 40, 20, 10, 1.

    我们设置一组实验处理FMD数据集. 对FMD数据集来说, 周期特征和镜像特征不那么明显, 在结构设计上不包含周期特征提取模块和镜像特征提取模块. 输入时间步长设置为20, 即用40 min的历史数据去预测10 min之后的消防喷头开启状态. 空间特征提取模块有三个卷积层, 每层180个节点, 30个滤波器, 前两层滤波器长度设置为4, 输入填充的节点数设置为2, 步长设置为1; 最后一层滤波器的长度都设置为3, 步长设置为1, 对输入不进行填充. 训练时设置Dropout参数为0.5, 并使用批归一化技术. 时间特征提取模块包含20个LSTM块, 每一个LSTM块设置为4层, 每层的节点数分别为180, 80, 40, 10. 最后的全连接神经网络一共有4层, 节点数分别为80, 30, 10, 1. 每层使用RELU作为激活函数.

    针对PeMSD7数据集, 我们选择三种预测误差: MAE (Mean absolute error)、MAPE (Mean absolute percentage error)和RMSE (Root mean square error)[15]. 这三个预测误差的计算式为

    $$ MAE = \frac{1}{n}\sum\limits_{t = 1}^{n}{|{{y}_{t}}-{{{{\overset{\sim }{\mathop{y}}}_{t}}}}\,}| \qquad\qquad\;\; $$ (18)
    $$ MAPE = \frac{1}{n}\sum\limits_{t = 1}^{n}{|\frac{{{y}_{t}}-{{{{\overset{\sim }{\mathop{y}}}_{t}}}}\,}{{{y}_{t}}}}|\times 100 {\text{%}} $$ (19)
    $$ RMSE = \sqrt{\frac{1}{n}\sum\limits_{t = 1}^{n}{(}{{y}_{t}}-{{{{\overset{\sim }{\mathop{y}}}_{t}}}}\,)^{2}} \qquad\; $$ (20)

    其中, $ {{y}_{t}} $表示真实值, $ {{{{\overset{\sim }{\mathop{y}}}_{t}}}}\, $表示预测值.

    针对FMD数据集, 我们使用RMSE作为预测误差.

    为了验证CNN、LSTM以及堆叠自动编码器对整个模型预测能力的贡献, 设计了两组实验.

    第1组: 研究DSTCL在分别去掉3个模块(空间特征提取模块、时间特征提取模块以及周期和镜像提取模块)后, 对长时间间隔(100 min)、中时间间隔(40 min)以及短时间间隔(10 min) RMSE结果的影响.

    第2组: 分别用全连接的神经网络代替空间特征提取模块中的CNN、时间特征提取模块中的LSTM以及周期和镜像特征提取模块中的堆叠自动编码器, 研究其对长时间间隔(100 min)、中时间间隔(40 min)以及短时间间隔(10 min) RMSE结果的影响.

    表1$\sim $4表示DSTCL模型与LSTM、S-ARIMA、DBN、ANN模型结果的对比.

    表 1  预测PeMSD7时间间隔10 min各算法效果对比
    Table 1  Prediction of the effect of each algorithm in the 10 min interval of PeMSD7
    模型 MAE (10 min) MAPE (10 min) (%) RMSE (10 min)
    DSTCL 2.61 6.0 4.32
    LSTM 3.07 9.02 5.4
    S-ARIMA 5.77 14.77 8.72
    DBN 3.22 10.14 5.8
    ANN 2.86 7.29 4.83
    下载: 导出CSV 
    | 显示表格
    表 4  预测FMD时间间隔10 min各算法效果对比
    Table 4  Prediction of the effect of each algorithm in the 10 min interval of FMD
    模型 RMSE (10 min)
    DSTCL 4.24
    LSTM 4.62
    S-ARIMA 8.44
    DBN 5.21
    ANN 5.37
    下载: 导出CSV 
    | 显示表格

    表1表示针对PeMSD7数据集, 预测短时间间隔的MAE、MAPE和RMSE三种预测误差在测试集的值; 表2表示针对PeMSD7数据集, 预测中时间间隔的MAE、MAPE和RMSE三种预测误差在测试集的值; 表3表示针对PeMSD7数据集, 预测长时间间隔的MAE、MAPE和RMSE三种预测误差在测试集的值; 表4表示针对FMD数据集, 预测时间间隔为10 min的RMSE预测误差在测试集的值.

    表 2  预测PeMSD7时间间隔40 min各算法效果对比
    Table 2  Prediction of the efiect of each algorithm in the 40 min interval of PeMSD7
    模型 MAE (40 min) MAPE (40 min) (%) RMSE (40 min)
    DSTCL 3.45 7.96 5.34
    LSTM 3.81 9.46 5.92
    S-ARIMA 4.8 14.47 8.6
    DBN 4.11 10.66 6.5
    ANN 3.63 9.98 5.77
    下载: 导出CSV 
    | 显示表格
    表 3  预测PeMSD7时间间隔100 min各算法效果对比
    Table 3  Prediction of the effect of each algorithm in the 100 min interval of PeMSD7
    模型 MAE (100 min) MAPE (100 min) (%) RMSE (100 min)
    DSTCL 4.15 9.94 7.05
    LSTM 4.76 11.08 7.44
    S-ARIMA 3.9 9.71 6.82
    DBN 5.44 12.48 8.2
    ANN 6.2 15.69 8.89
    下载: 导出CSV 
    | 显示表格

    表1表2表4可以看出,模型在预测中短时间间隔的数据时, DSTCL的三种预测误差值都比其他模型低, 说明在预测中短时间间隔的数据时, DSTCL算法效果最好. S-ARIMA作为统计学方法, 由于对变化较快的数据处理能力较差, 在处理中短时间间隔的数据时预测误差最大, 效果最差. 在处理PeMSD7数据集时, ANN作为全连接的神经网络层, 预测误差较LSTM和DBN小, 说明其预测效果要优于LSTM和DBN.

    而从表3可以看出在预测长时间间隔的数据时, DSTCL模型虽然效果不如S-ARIMA, 但结果相差不大(RMSE差0.23), 并且DSTCL模型的预测误差比LSTM、DBN和ANN模型的预测误差要小. 表明DSTCL模型可以很好地抽取长时间间隔的数据特征.

    我们选取高峰时间段传感器探测到的数据, 作为真实值对比5种模型的预测值(预测时间间隔为40 min), 结果如图8所示.

    图 8  15:00$\sim $19:00各模型预测与真实值的对比
    Fig. 8  Comparison of model predictions from real values from 15:00 to 19:00

    我们选择15:00$\sim $19:00的速度值是因为这个时间段是当地的人流高峰期, 速度变化比较大. 由图8可以看出, 相对于其他模型, DSTCL可以很好地获取到速度随时间变化的趋势.

    我们选择传感器探测到的10个位置数据, 作为真实值对比5种模型的预测值, 结果如图9所示.

    图 9  10个不同位置各模型预测与真实值的对比
    Fig. 9  Comparison of model predictions from real values of each model in 10 different locations

    图9可以看出DSTCL在位置与速度的关系图像上, 曲线与真实值曲线最贴近. 说明相对于其他模型, DSTCL可以很好地获取速度与位置的变化关系.

    由于S-ARIMA算法是一种统计学方法, 计算机制与DSTCL、ANN、LSTM和DBN这4种模型不同. 我们针对PEMSD7数据集, 只提取了4个模型(DSTCL、ANN、LSTM和DBN)在训练不同时间间隔的数据时训练集不同迭代次数的RMSE, 结果如图10$\sim $12所示.

    图 10  各个模型处理10 min间隔数据训练集RMSE变化
    Fig. 10  Curve of RMSE of processing 10 min interval data in PeMSD7 training dataset
    图 12  各个模型处理100 min间隔数据训练集RMSE变化
    Fig. 12  Curves of RMSE of processing 100 min interval data in PeMSD7 training dataset
    图 11  各个模型处理40 min间隔数据训练集RMSE变化
    Fig. 11  Curves of RMSE of processing 40 min interval data in PeMSD7 training dataset

    我们针对FMD数据集, 提取了这4个模型在训练数据时测试集不同迭代次数的RMSE, 结果如图13所示.

    图 13  各个模型处理FMD测试集RMSE变化
    Fig. 13  Curves of RMSE of processing 100-minute interval data in FMD testing dataset

    图9$\sim $12可以看出, DSTCL模型在训练时梯度变化较大, 更新速度较其他模型快, 最终收敛值也较其他三个模型小, 说明模型在处理PEMSD7数据集时训练速度最快.

    图13中测试集的效果可以看出, 相对于其他三个模型, 使用DSTCL模型训练数据时, 可以使RMSE在测试集获得比较快的下降速度和收敛速度, 也可以说明模型在处理FMD数据集时速度最快.

    表5表示针对PeMSD7数据集, DSTCL在分别去掉三个模块(空间特征提取模块、时间特征提取模块、周期和镜像特征提取模块)后, 长时间间隔(100 min)、中时间间隔(40 min)以及短时间间隔(10 min)的RMSE结果对比.

    表 5  分别去掉三个模块RMSE结果对比
    Table 5  Comparison of RMSE of removing three modules separately
    10 min 40 min 100 min
    DSTCL1 (DSTCL去掉空间特征提取模块) 5.29 6.1 7.3
    DSTCL2 (DSTCL去掉时间特征提取模块) 4.99 5.85 8.47
    DSTCL3 (DSTCL去掉周期和镜像特征提取模块) 4.48 5.60 7.22
    下载: 导出CSV 
    | 显示表格

    表5可以看出, DSTCL1在预测10 min和40 min的数据时, 相对于其他两种模型, 其RMSE最大; DSTCL2在预测100 min的数据时, 相对于其他两种模型, 其RMSE最大. DSTCL3整体相较于其他两种最优, 但不如DSTCL. 说明空间特征提取模块对DSTCL预测中短时间间隔数据的能力贡献最大; 时间特征提取模块对DSTCL预测长时间间隔数据的能力贡献最大; 而在模型中加入周期和镜像特征提取模块相当于整体上进行优化.

    表6表示针对PeMSD7数据集, 分别用全连接的神经网络代替空间特征提取模块中的CNN、时间特征提取模块中的LSTM以及周期和镜像特征提取模块中的堆叠自动编码器后, 长时间间隔(100 min)、中时间间隔(40 min)以及短时间间隔(10 min)的RMSE结果对比.

    表 6  使用全连接神经网络替换三种结构的RMSE结果对比
    Table 6  Comparison of RMSE of replacing three modules with fully ANN separately
    10 min 40 min 100 min
    DSTCL4 (替换CNN) 5.16 5.98 7.21
    DSTCL5 (替换LSTM) 4.85 5.52 8.1
    DSTCL6 (替换堆叠自动编码器) 4.41 5.4 7.16
    下载: 导出CSV 
    | 显示表格

    表6可以看出, DSTCL4在预测中短时间间隔的数据时, 相对于完全去掉空间特征提取模块的DSTCL1而言, RMSE仅降低了0.12和0.13, 对比DSTCL5和DSTCL6, 其RMSE仍为最大, 说明CNN为空间特征提取模块中重要的结构, 对模型预测短时间间隔数据的能力贡献最大. DSTCL5在预测长时间间隔的数据时, 对比完全去掉时间特征提取模块的DSTCL2, RMSE仅降低了0.37, 相对于其他两种模型, 其RMSE仍为最大, 说明LSTM为时间特征提取模块中重要的结构, 对模型预测长时间间隔数据的能力贡献最大. DSTCL6相对完全去掉周期和镜像特征提取模块的DSTCL3, RMSE降低了(0.07, 0.16, 0.06), 整体相较于DSTCL4和DSCTL5最优, 但不如DSTCL. 说明堆叠自动编码器为周期和镜像特征提取模块中重要的结构, 在模型中加入堆叠自动编码器相当于整体上进行优化.

    在本文中, 我们设计了一个时空数据模型——DSTCL用于预测交通数据中的速度信息. DSTCL模型是一个包含卷积神经网络和长短时间记忆网络的多元神经网络, 解决了其他时空数据模型只关注时间属性信息导致的对短时间间隔信息预测能力不足的问题, 通过对临近空间属性信息的特征和时间特征的提取, 得到对短时间间隔、中时间间隔和长时间间隔数据的有效预测. 通过实验对比了DSTCL与当前主流时空数据模型的训练效果. 实验结果显示DSTCL在预测中短时间间隔的信息的能力要优于其他时空数据模型. 而预测长时间间隔的数据时, DSTCL的预测误差与S-ARIMA相差不大(RMSE差0.23), 但低于其他三个模型(ANN、LSTM和DBN), 说明DSTCL可以比较有效地预测长时间间隔的数据. 通过高峰时间段传感器探测得到的真实数据和不同时空数据模型的预测值对比, 显示出DSTCL相对于其他时空数据模型, 更好地捕捉到了短时间内敏感的速度变化信息, 说明DSTCL能更好地获取速度随时间变化的趋势. 比较临近位置的同一时刻的速度信息, 可以看到DSTCL相对于其他时空数据模型, 预测值与真实值的随空间信息改变的变化趋势相近, 说明DSTCL可以很好地获取速度信息随空间信息变化的趋势. 通过对比三种结构(CNN、LSTM以及堆叠自动编码器)对模型预测性能的影响, 可以看出CNN对模型预测中短时间间隔数据的能力贡献较大; LSTM对模型预测长时间间隔数据的能力贡献较大; 加入堆叠自动编码器相当于对模型整体上进行优化.

    DSTCL模型在处理数据时, 有时候出现训练前期预测误差波动的现象, 未来的主要工作是研究波动的原因, 并进一步优化模型的超参数, 使预测效果更优.


  • 本文责任编委 金连文
  • 图  1  SSE-GAN模型中流形一致结合方式

    Fig.  1  The manifold agreement combination method in SSE-GAN

    图  2  SSE-GAN框架图

    Fig.  2  The framework of SSE-GAN

    图  3  模型收敛后生成图像与原MNIST数据库图像对比

    Fig.  3  The generated image and the image from MNIST database after model converges

    图  4  模型收敛后生成图像与原SVHN数据库图像对比

    Fig.  4  The generated image and the image from SVHN database after model converges

    图  5  模型收敛后生成图像与原CIFAR-10数据库图像对比

    Fig.  5  The generated image and the image from CIFAR-10 database after model converges

    表  1  MNIST数据库上不同数量带标数据的半监督训练分类准确率

    Table  1  Using different number of labeled data when semi-supervised training on MNIST

    模型 带标数据个数及对应分类准确率(%)
    100 1 000 全部数据
    Ladder-network[6] 98.14 99.06 -
    Cat-GAN[9] 98.09 99.11 $99.40\pm0.03$
    Improved-GAN[10] 98.58 99.15 $99.40\pm0.02$
    ALI21] 98.77 99.16 $99.45\pm0.01$
    GAR[22] 98.92 99.21 $99.55\pm0.03$
    SSE-GAN 99.10 99.23 99.61±0.03
    下载: 导出CSV

    表  2  SVHN数据库上不同数量带标数据的半监督训练分类准确率

    Table  2  Using different number of labeled data when semi-supervised training on SVHN

    模型 带标数据个数及对应分类准确率(%)
    100 1 000
    Ladder-network[6] 75.50 87.06
    Cat-GAN[9] 77.68 88.90
    Improved-GAN[10] - 90.78
    Virtual Adversarial[23] 79.71 90.99
    Adversarial Training[7] 79.99 91.11
    Bayesian GAN[11] 80.53 92.01
    GAR[22] 80.87 92.08
    SSE-GAN 81.08 92.92
    下载: 导出CSV

    表  3  CIFAR-10数据库上不同数量带标数据的半监督训练分类准确率

    Table  3  Using different number of labeled data when semi-supervised training on CIFAR-10

    模型 带标数据个数及对应分类准确率(%)
    1 000 2 000 4 000
    Ladder-network[6] - 76.52 79.31
    Cat-GAN[9] - 78.83 80.42
    improved-GAN[10] 77.17 79.39 81.37
    ALI[21] 80.02 80.91 81.48
    Adversarial training[7] 81.25 82.88 83.61
    Bayesian GAN[11] 81.89 83.13 84.20
    GAR[[22] 82.10 83.35 84.94
    SSE-GAN 82.34 83.66 85.14
    下载: 导出CSV
  • [1] 张号逵, 李映, 姜晔楠.深度学习在高光谱图像分类领域的研究现状与展望.自动化学报, 2018, 44(6): 961-977 doi: 10.16383/j.aas.2018.c170190

    Zhang Hao-Kui, Li Ying, Jiang Ye-Nan. Deep learning for hyperspectral imagery classification: the state of the art and prospects. Acta Automatica Sinica, 2018, 44(6): 961-977 doi: 10.16383/j.aas.2018.c170190
    [2] Suddarth S C, Kergosien Y L. Rule-injection hints as a means of improving network performance and learning time. Neural Networks. EURASIP 1990, 1990. 120-129
    [3] 李敏, 禹龙, 田生伟, 吐尔根·依布拉音, 赵建国.基于深度学习的维吾尔语名词短语指代消解.自动化学报, 2017, 43(11): 1984- 1992 doi: 10.16383/j.aas.2017.c160330

    Li Min, Yu Long, Tian Sheng-Wei, Ibrahim T, Zhao Jian-Guo. Coreference resolution of uyghur noun phrases based on deep learning. Acta Automatica Sinica, 2017, 43(11): 1984-1992 doi: 10.16383/j.aas.2017.c160330
    [4] 王坤峰, 左旺孟, 谭营, 秦涛, 李力, 王飞跃.生成式对抗网络:从生成数据到创造智能.自动化学报, 2018, 44(5): 769-774 doi: 10.16383/j.aas.2018.y000001

    Wang Kun-Feng, Zuo Wang-Meng, Tan Ying, Qin Tao, Li Li, Wang Fei-Yue. Generative adversarial networks: from generating data to creating intelligence. Acta Automatica Sinica, 2018, 44(5): 769-774 doi: 10.16383/j.aas.2018.y000001
    [5] Dosovitskiy A, Fischer P, Springenberg J T, Riedmiller M, Brox T. Discriminative unsupervised feature learning with exemplar convolutional neural networks. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2016, 38(9): 1734-1747 doi: 10.1109/TPAMI.2015.2496141
    [6] Rasmus A, Valpola H, Honkala M, Berglund M, Raiko T. Semi-supervised learning with ladder networks. arXiv: 1507. 02672, 2015.
    [7] Miyato T, Maeda S, Ishii S, Koyama M. Virtual adversarial training: a regularization method for supervised and semi-supervised learning. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2017, DOI: 10.1109/TPAMI.2018. 2858821
    [8] Kingma D P, Rezende D J, Mohamed S, Welling M. Semi-supervised learning with deep generative models. In: Proceedings of the 2014 Neural Information Processing Systems. Massachusetts, USA: MIT Press, 2014. 3581-3589
    [9] Springenberg J T. Unsupervised and semi-supervised learning with categorical generative adversarial networks. arXiv: 1511.06390, 2015.
    [10] Salimans T, Goodfellow I, Zaremba W, Cheung V, Radford A, Chen X. Improved techniques for training GANs. In: Proceedings of the 2016 Neural Information Processing Systems. Massachusetts, USA: MIT Press, 2016. 1-10
    [11] Saatchi Y, Wilson A G. Bayesian GAN. In: Proceedings of the 2017 Neural Information Processing Systems. Massachusetts, USA: MIT Press, 2017. 1-16
    [12] Radford A, Metz L, Chintala S. Unsupervised representation learning with deep convolutional generative adversarial networks. In: Proceedings of the 2016 International Conference on Learning Representations. Piscataway, USA: IEEE, 2016. 1-16
    [13] Donahue J, Krähenbühl P, Darrell T. Adversarial feature learning. In: Proceedings of the 2017 International Conference on Learning Representations. Piscataway, USA: IEEE, 2017. 111-128
    [14] Tenenbaum J B, de Silva V, Langford J C. A global geometric framework for nonlinear dimensionality reduction. Science, 2000, 290(5500): 2319-2323 doi: 10.1126/science.290.5500.2319
    [15] Ioffe S, Szegedy C. Batch normalization: accelerating deep network training by reducing internal covariate shift. In: Proceedings of the 2015 International Conference on Machine Learning. Piscataway, USA: IEEE, 2015. 11-21
    [16] Zheng L, Wang S J, Tian L, He F, Liu Z Q, Tian Q. Query-adaptive late fusion for image search and person re-identification. In: Proceedings of the 2015 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway, USA: IEEE, 2015. 1741-1750
    [17] LeCun Y, Bottou L, Bengio Y, Haffner P. Gradient-based learning applied to document recognition. Proceedings of the IEEE, 1998, 86(11): 2278-2324 doi: 10.1109/5.726791
    [18] Netzer Y, Wang T, Coates A, Bissacco A, Wu B, Na A Y. Reading digits in natural images with unsupervised feature learning. In: Proceedings of the 2011 Neural Information Processing Systems. Massachusetts, USA: MIT Press, 2011. 5-16
    [19] Krizhevsky A. Learning Multiple Layers of Features from Tiny Images [Ph. D. dissertation], University of Toronto, Toronto, Canada, 2009.
    [20] Krizhevsky A, Sutskever I, Hinton G E. Imagenet classification with deep convolutional neural networks. In: Proceedings of the 2012 Neural Information Processing Systems. Massachusetts, USA: MIT Press, 2012. 1106-1114
    [21] Dumoulin V, Belghazi I, Poole B, Mastropietro O, Lamb A, Arjovsky M, et al. Adversarially Learned Inference. In: Proceedings of the 2017 International Conference on Learning Representations. Piscataway, USA: IEEE, 2017. 111-128
    [22] Kilinc O, Uysal I. GAR: an efficient and scalable graph-based activity regularization for semi-supervised learning. Neurocomputing, 2018, 296: 46-54 doi: 10.1016/j.neucom.2018.03.028
    [23] Miyato T, Maeda S, Koyama M, Nakae K, Ishii S. Distributional smoothing with virtual adversarial training. In: Proceedings of the 2016 International Conference on Learning Representations. Piscataway, USA: IEEE, 2016. 1-12
  • 期刊类型引用(14)

    1. 姜文涛,董睿,张晟翀. 局部注意力引导下的全局池化残差分类网络. 光电工程. 2024(07): 116-134 . 百度学术
    2. 姜文涛,赵琳琳,涂潮. 双分支多注意力机制的锐度感知分类网络. 模式识别与人工智能. 2023(03): 252-267 . 百度学术
    3. 徐慧,邹俊忠,张见,陈兰岚. 基于改进残差网络的黑色素瘤图像分类. 计算机工程与设计. 2023(05): 1495-1501 . 百度学术
    4. 邱云飞,张家欣,兰海,宗佳旭. 融合张量合成注意力的改进ResNet图像分类模型. 激光与光电子学进展. 2023(06): 97-106 . 百度学术
    5. 程吉祥,肖舒,王圳鹏,李志丹. 基于粒子群的卷积神经网络细粒度搜索方法. 计算机仿真. 2023(11): 300-305+489 . 百度学术
    6. 陈善雄,朱世宇,熊海灵,赵富佳,王定旺,刘云. 一种双判别器GAN的古彝文字符修复方法. 自动化学报. 2022(03): 853-864 . 本站查看
    7. 王宪保,肖本督,姚明海. 一种结合类激活映射的半监督图像分类方法. 小型微型计算机系统. 2022(06): 1204-1209 . 百度学术
    8. 岳丹阳,罗健旭. 改进半监督GAN及在糖网病分级上的应用. 计算机工程与设计. 2022(08): 2204-2212 . 百度学术
    9. 莫建文,贾鹏. 基于梯形网络和改进三训练法的半监督分类. 自动化学报. 2022(08): 2088-2096 . 本站查看
    10. 张兴园,黄雅平,邹琪,裴艳婷. 基于草图纹理和形状特征融合的草图识别. 自动化学报. 2022(09): 2223-2232 . 本站查看
    11. 陈峰,孔锦秋. 基于模式识别的图像中多目标自动分割和分类研究. 舰船科学技术. 2022(20): 153-156 . 百度学术
    12. 朱建勇,周振辰,杨辉,聂飞平. 基于Hessian正则的自适应损失半监督特征选择. 控制与决策. 2021(08): 1862-1870 . 百度学术
    13. 陈鑫华,钱雪忠,宋威. 基于轻量级特征融合卷积网络的图像分类算法. 计算机工程. 2021(11): 268-275 . 百度学术
    14. 莫建文,贾鹏. 基于改进梯形网络的半监督虚拟对抗训练模型. 桂林电子科技大学学报. 2020(04): 321-327 . 百度学术

    其他类型引用(21)

  • 加载中
  • 图(5) / 表(3)
    计量
    • 文章访问数:  2961
    • HTML全文浏览量:  1285
    • PDF下载量:  416
    • 被引次数: 35
    出版历程
    • 收稿日期:  2018-04-12
    • 录用日期:  2018-08-30
    • 刊出日期:  2020-03-30

    目录

    /

    返回文章
    返回