2.793

2018影响因子

(CJCR)

  • 中文核心
  • EI
  • 中国科技核心
  • Scopus
  • CSCD
  • 英国科学文摘

留言板

尊敬的读者、作者、审稿人, 关于本刊的投稿、审稿、编辑和出版的任何问题, 您可以本页添加留言。我们将尽快给您答复。谢谢您的支持!

姓名
邮箱
手机号码
标题
留言内容
验证码

深度卷积记忆网络时空数据模型

秦超 高晓光 万开方

秦超, 高晓光, 万开方. 深度卷积记忆网络时空数据模型. 自动化学报, 2020, 46(3): 1−12. doi: 10.16383/j.aas.c180788
引用本文: 秦超, 高晓光, 万开方. 深度卷积记忆网络时空数据模型. 自动化学报, 2020, 46(3): 1−12. doi: 10.16383/j.aas.c180788
Qin Chao, Gao Xiao-Guang, Wan Kai-Fang. Deep Spatio-temporal Convolutional Long-short Memory Network. Acta Automatica Sinica, 2020, 46(3): 1−12. doi: 10.16383/j.aas.c180788
Citation: Qin Chao, Gao Xiao-Guang, Wan Kai-Fang. Deep Spatio-temporal Convolutional Long-short Memory Network. Acta Automatica Sinica, 2020, 46(3): 1−12. doi: 10.16383/j.aas.c180788

深度卷积记忆网络时空数据模型


DOI: 10.16383/j.aas.c180788
详细信息
    作者简介:

    西北工业大学电子信息学院博士研究生. 主要研究方向为深度学习. 本文通信作者.E-mail: woshiqchi@gmail.com

    博士,西北工业大学电子信息学院教授. 主要研究方向为深度学习, 贝叶斯网络. E-mail: cxg2012@nwpu.edu.cn

    博士,西北工业大学电子信息学院讲师. 主要研究方向为深度学习, 强化学习. E-mail: wankaifang@nwpu.edu.cn

  • 基金项目:  国家自然科学基金(61573285)资助

Deep Spatio-temporal Convolutional Long-short Memory Network

More Information
  • Fund Project:  Supported by National Natural Science Foundation of China (61573285)
  • 摘要: 时空数据是包含时间和空间属性的数据类型. 研究时空数据需要设计时空数据模型, 用以处理数据与时间和空间的关系, 得到信息对象由于时间和空间改变而产生的行为状态变化的趋势. 交通信息数据是一类典型的时空数据. 由于交通网络的复杂性和多变性, 以及与时间和空间的强耦合性, 使得传统的系统仿真和数据分析方法不能有效地得到数据之间的关系. 本文通过对交通数据中临近空间属性信息的处理, 解决了由于传统时空数据模型只关注时间属性导致模型对短时间间隔数据预测能力不足的问题, 进而提高模型预测未来信息的能力. 本文提出一个全新的时空数据模型—深度卷积记忆网络. 深度卷积记忆网络是一个包含卷积神经网络和长短时间记忆网络的多元网络结构, 可以提取数据的时间和空间属性信息, 通过加入周期和镜像特征提取模块对网络进行修正. 通过对两类典型时空数据集的验证, 表明深度卷积记忆网络在预测短时间间隔的数据信息时, 相较于传统的时空数据模型, 不仅预测误差有了很大程度的降低, 而且模型的训练速度也得到提升.
  • 图  1  按照时间顺序对不同位置的交通数据进行处理

    Fig.  1  Processing traffic data at different locations in chronological order

    图  2  使用CNN训练空间特征

    Fig.  2  Training spatial features with CNN

    图  3  循环神经网络的计算图模型

    Fig.  3  Calculation graph model of RNN

    图  4  LSTM“细胞”结构框图

    Fig.  4  Structure of LSTM cell

    图  5  使用LSTM训练时间特征

    Fig.  5  Training temporal features with LSTM

    图  6  堆叠自动编码器训练周期特征

    Fig.  6  Training periodic features with stacked auto-encoder

    图  7  建立训练模型

    Fig.  7  Building the training model

    图  8  15:00$\sim $19:00各模型预测与真实值的对比

    Fig.  8  Comparison of model predictions from real values from 15:00 to 19:00

    图  9  10个不同位置各模型预测与真实值的对比

    Fig.  9  Comparison of model predictions from real values of each model in 10 different locations

    图  10  各个模型处理10 min间隔数据训练集RMSE变化

    Fig.  10  Curve of RMSE of processing 10 min interval data in PeMSD7 training dataset

    图  12  各个模型处理100 min间隔数据训练集RMSE变化

    Fig.  12  Curves of RMSE of processing 100 min interval data in PeMSD7 training dataset

    图  11  各个模型处理40 min间隔数据训练集RMSE变化

    Fig.  11  Curves of RMSE of processing 40 min interval data in PeMSD7 training dataset

    图  13  各个模型处理FMD测试集RMSE变化

    Fig.  13  Curves of RMSE of processing 100-minute interval data in FMD testing dataset

    表  1  预测PeMSD7时间间隔10 min各算法效果对比

    Table  1  Prediction of the effect of each algorithm in the 10 min interval of PeMSD7

    模型 MAE (10 min) MAPE (10 min)/% RMSE (10 min)
    DSTCL 2.61 6.0 4.32
    LSTM 3.07 9.02 5.4
    S-ARIMA 5.77 14.77 8.72
    DBN 3.22 10.14 5.8
    ANN 2.86 7.29 4.83
    下载: 导出CSV

    表  4  预测FMD时间间隔10 min各算法效果对比

    Table  4  Prediction of the effect of each algorithm in the 10 min interval of FMD

    模型 RMSE (10 min)
    DSTCL 4.24
    LSTM 4.62
    S-ARIMA 8.44
    DBN 5.21
    ANN 5.37
    下载: 导出CSV

    表  2  预测PeMSD7时间间隔40 min各算法效果对比

    Table  2  Prediction of the efiect of each algorithm in the 40 min interval of PeMSD7

    模型 MAE (40 min) MAPE (40 min)/% RMSE (40 min)
    DSTCL 3.45 7.96 5.34
    LSTM 3.81 9.46 5.92
    S-ARIMA 4.8 14.47 8.6
    DBN 4.11 10.66 6.5
    ANN 3.63 9.98 5.77
    下载: 导出CSV

    表  3  预测PeMSD7时间间隔100 min各算法效果对比

    Table  3  Prediction of the effect of each algorithm in the 100 min interval of PeMSD7

    模型 MAE (100 min) MAPE (100 min)/% RMSE (100 min)
    DSTCL 4.15 9.94 7.05
    LSTM 4.76 11.08 7.44
    S-ARIMA 3.9 9.71 6.82
    DBN 5.44 12.48 8.2
    ANN 6.2 15.69 8.89
    下载: 导出CSV

    表  5  分别去掉三个模块RMSE结果对比

    Table  5  Comparison of RMSE of removing three modules separately

    10 min 40 min 100 min
    DSTCL1(DSTCL去掉空间特征提取模块) 5.29 6.1 7.3
    DSTCL2(DSTCL去掉时间特征提取模块) 4.99 5.85 8.47
    DSTCL3(DSTCL去掉周期和镜像特征提取模块) 4.48 5.60 7.22
    下载: 导出CSV

    表  6  使用全连接神经网络替换三种结构的RMSE结果对比

    Table  6  Comparison of RMSE of replacing three modules with fully ANN separately

    10 min 40 min 100 min
    DSTCL4(替换CNN) 5.16 5.98 7.21
    DSTCL5(替换LSTM) 4.85 5.52 8.1
    DSTCL6(替换堆叠自动编码器) 4.41 5.4 7.16
    下载: 导出CSV
  • [1] 赵凡, 蒋同海, 周喜, 马博, 程力. 面向多维稀疏时空数据的可视化研究. 中国科学技术大学学报, 2017, 47(7): 556−568 doi:  10.3969/j.issn.0253-2778.2017.07.003

    1 Zhao Fan, Jiang Tong-Hai, Zhou Xi, Ma Bo, Cheng Li. Visualization of multi-dimensional sparse spatial-temporal data. Journal of University of Science and Technology of China, 2017, 47(7): 556−568 doi:  10.3969/j.issn.0253-2778.2017.07.003
    [2] 2 Chen C, Petty K, Skabardonis A, Varaiya P, Jia Z F. Freeway performance measurement system: mining loop detector data. Transportation Research Record: Journal of the Transportation Research Board, 2001, 1748(1): 96−102
    [3] 3 Goodchild M F. Citizens as sensors: the world of volunteered geography. GeoJournal, 2007, 69(4): 211−221 doi:  10.1007/s10708-007-9111-y
    [4] Ye M, Zhang Q, Wang L, Zhu J J, Yang R G, Gull J. A survey on human motion analysis from depth data. Time-of-flight and Depth Imaging. Sensors, Algorithms, and Applications. Springer, Berlin, Heidelberg, 2013: 149−187
    [5] 5 Lagaros N, Papadrakakis M. Engineering and applied sciences optimization. Computational Methods in Applied Sciences, Springer, 2015: 38
    [6] 6 Vlahogiannni E I. Computational intelligence and optimization for transportation big data: challenges and opportunities. Computational Methods in Applied Sciences, Springer, Cham, 2015: 107−128
    [7] Ahmed M S, Cook A R. Analysis of freeway traffic timeseries data by using box-jenkins techniques[M]. 1979.
    [8] 8 Williams B M, Hoel L A. Modeling and forecasting vehicular traffic flow as a seasonal ARIMA process: theoretical basis and empirical results. Journal of Transportation Engineering, 2003, 129(6): 664−672 doi:  10.1061/(ASCE)0733-947X(2003)129:6(664)
    [9] 9 Lippi M, Bertini M, Frasconi P. Short-term traffic flow forecasting: an experimental comparison of time-series analysis and supervised learning. IEEE Transactions on Intelligent Transportation Systems, 2013, 14(2): 871−882 doi:  10.1109/TITS.2013.2247040
    [10] 10 Kumar S V, Vanajakshi L. Short-term traffic flow prediction using seasonal ARIMA model with limited input data. European Transport Research Review, 2015, 7(3): 21 doi:  10.1007/s12544-015-0170-8
    [11] 11 Dougherty M. A review of neural networks applied to transport. Transportation Research Part C: Emerging Technologies, 1995, 3(4): 247−260 doi:  10.1016/0968-090X(95)00009-8
    [12] 12 Hua J, Faghri A. AppHcations of artiflcial neural networks to intelligent vehicle-highway systems. Transportation Research Record, 1994, 1453: 83
    [13] Smith B L, Demetsky M J. Short-term traffic flow prediction models-a comparison of neural network and nonparametric regression approaches. In: Proceedings of the 1994 IEEE International Conference on Systems, Man, and Cybernetics. IEEE, 1994, 2: 1706−1709
    [14] 14 Chan K Y, Dillon T S, Singh J, Chang E. Neural-network-based models for short-term traffic flow forecasting using a hybrid exponential smoothing and Levenberg-Marquardt algorithm. IEEE Transactions on Intelligent Transportation Systems, 2012, 13(2): 644−654 doi:  10.1109/TITS.2011.2174051
    [15] 15 Hinton G E, Osindero S, Teh Y W. A fast learning algorithm for deep belief nets. Neural Computation, 2006, 18(7): 1527−1554 doi:  10.1162/neco.2006.18.7.1527
    [16] 16 LeCun Y, Bengio Y, Hinton G. Deep learning. Nature, 2015, 521(7553): 436 doi:  10.1038/nature14539
    [17] 17 Polson N G, Sokolov V O. Deep learning for short-term traffic flow prediction. Transportation Research Part C: Emerging Technologies, 2017, 79: 1−17 doi:  10.1016/j.trc.2017.02.024
    [18] Jia Y H, Wu J P, Du Y M. Traffic speed prediction using deep learning method. In: Proceedings of the 2006 IEEE International Conference on Intelligent Transportation Systems. IEEE, 2016: 1217−1222
    [19] 19 Lv Y S, Duan Y J, Kang W W, Li Z X, Wang F Y. Traffic flow prediction with big data: a deep learning approach. IEEE Transactions on Intelligent Transportation Systems, 2015, 16(2): 865−873
    [20] 20 Tan H C, Wu Y K, Shen B, Jin P J, Ran B. Short-term traffic prediction based on dynamic tensor completion. IEEE Transactions on Intelligent Transportation Systems, 2016, 17(8): 2123−2133 doi:  10.1109/TITS.2015.2513411
    [21] 21 Graves A. Generating sequences with recurrent neural networks. ArXiv Preprint ArXiv: 1308.0850, 2013
    [22] 22 Ma X L, Tao Z M, Wang Y H, Yu H Y, W Y P. Long short-term memory neural network for traffic speed prediction using remote microwave sensor data. Transportation Research Part C: Emerging Technologies, 2015, 54: 187−197 doi:  10.1016/j.trc.2015.03.014
    [23] Krizhevsky A, Sutskever I, Hinton G E. Imagenet classiflcation with deep convolutional neural networks. In: Proceedings of the 2012 Advances in Neural Information Processing Systems, 2012: 1097−1105
    [24] Szegedy C, Liu W, Jia Y Q, Sermanet P, Reed S, Anguelov D, Erhan D, Vanhoucke V, Rabinovich A. Going deeper with convolutions. In: Proceedings of the 2015 IEEE Conference on Computer Vision and Pattern Recognition, 2015: 1−9
    [25] 25 Springenberg J T, Dosovitskiy A, Brox T, Riedmiller M. Striving for simplicity: the all convolutional net. ArXiv Preprint ArXiv: 1412.6806, 2014
    [26] Qiu Z F, Yao T, Mei T. Learning spatio-temporal representation with pseudo-3d residual networks. In: Proceedings of the 2017 IEEE International Conference on Computer Vision. 2017: 5533−5541
    [27] 27 Gers F A, Schmidhuber J, Cummins F. Learning to forget: continual prediction with LSTM. Neural Computation, 2000, 12(10): 2451−2471 doi:  10.1162/089976600300015015
    [28] 28 Chen C, Petty K, Skabardonis A, et al. Freeway performance measurement system: mining loop detector data. Transportation Research Record: Journal of the Transportation Research Board, 2001, 1748(1): 96−102 doi:  10.3141/1748-12
    [29] Xiao T, Li H S, Quyang W L, Wang X G. Learning deep feature representations with domain guided dropout for person re-identiflcation. In: Proceedings of the 2016 IEEE Conference on Computer Vision and Pattern Recognition, 2016: 1249−1258
    [30] 30 Ozan I, Ethem A. Dropout Regularization in Hierarchical Mixture of Experts. ArXiv Preprint ArXiv: 1812.10158, 2018
    [31] 31 Cai, Y Q, Li Q X, Shen Z W. On the convergence and robustness of batch normalization. ArXiv Preprint ArXiv: 1810.00122, 2018
    [32] 32 Jung W, Jung D, Rim B, Lee S, Rhee W, Ahn J H. Restructuring batch normalization to accelerate CNN training. ArXiv Preprint ArXiv: 1807.01702, 2018
    [33] Coates A, Lee H, Ng A. An analysis of single-layer networks in unsupervised feature learning. In: Proceedings of the 14th International Conference on Artiflcial Intelligence and Statistics, 2011: 215−223
  • [1] 钱银中, 沈一帆. 姿态特征与深度特征在图像动作识别中的混合应用[J]. 自动化学报, doi: 10.16383/j.aas.2018.c170294
    [2] 熊熙, 乔少杰, 吴涛, 吴越, 韩楠, 张海清. 基于时空特征的社交网络情绪传播分析与预测模型[J]. 自动化学报, doi: 10.16383/j.aas.2018.c170480
    [3] 骆小飞, 徐军, 陈佳梅. 基于逐像素点深度卷积网络分割模型的上皮和间质组织分割[J]. 自动化学报, doi: 10.16383/j.aas.2017.c160464
    [4] 罗建豪, 吴建鑫. 基于深度卷积特征的细粒度图像分类研究综述[J]. 自动化学报, doi: 10.16383/j.aas.2017.c160425
    [5] 许允喜, 陈方. 特征联合和旋转不变空间分割联合的局部图像描述符[J]. 自动化学报, doi: 10.16383/j.aas.2016.c150206
    [6] 齐美彬, 檀胜顺, 王运侠, 刘皓, 蒋建国. 基于多特征子空间与核学习的行人再识别[J]. 自动化学报, doi: 10.16383/j.aas.2016.c150344
    [7] 随婷婷, 王晓峰. 一种基于CLMF的深度卷积神经网络模型[J]. 自动化学报, doi: 10.16383/j.aas.2016.c150741
    [8] 杨亚飞, 郑丹晨, 韩敏. 一种基于多尺度轮廓点空间关系特征的形状匹配方法[J]. 自动化学报, doi: 10.16383/j.aas.2015.c140896
    [9] 屈丹, 杨绪魁, 张文林. 特征空间本征音说话人自适应[J]. 自动化学报, doi: 10.16383/j.aas.2015.c140644
    [10] 张文林, 牛铜, 屈丹, 李弼程, 裴喜龙. 基于声学特征空间非线性流形结构的语音识别声学模型[J]. 自动化学报, doi: 10.16383/j.aas.2015.c140399
    [11] 张景祥, 王士同, 邓赵红, 蒋亦樟, 李奕. 融合异构特征的子空间迁移学习算法[J]. 自动化学报, doi: 10.3724/SP.J.1004.2014.00236
    [12] 郭小萍, 袁杰, 李元. 基于特征空间k最近邻的批次过程监视[J]. 自动化学报, doi: 10.3724/SP.J.1004.2014.00135
    [13] 张地, 何家忠. 基于特征空间的人脸超分辨率重构[J]. 自动化学报, doi: 10.3724/SP.J.1004.2012.01145
    [14] 万九卿, 刘青云. 基于高阶时空模型的视觉传感网络数据关联方法[J]. 自动化学报, doi: 10.3724/SP.J.1004.2012.00236
    [15] 何鹏, 陶建华. 基于Sobolev空间序列特征值问题的自然图像小尺度模式分析[J]. 自动化学报, doi: 10.3724/SP.J.1004.2009.01568
    [16] 王社阳, 宋申民, 强文义, 陈兴林. 利用空间矩提取亚象素角特征[J]. 自动化学报
    [17] 王利生, 谈正, 张军凯. 联想记忆神经网络局部指数稳定的充要条件及特征函数[J]. 自动化学报
    [18] 王晓蒲, 霍剑青, 刘同怀. 用相关卷积运算提取特征信息的神经网络对手写数字的识别方法[J]. 自动化学报
    [19] 徐文立, 刘文煌. 由特征点的空间位置估计运动参数[J]. 自动化学报
    [20] 韩建勋, 饶欣. 复杂系统建模--高维特征空间变量法[J]. 自动化学报
  • 加载中
图(13) / 表(6)
计量
  • 文章访问数:  67
  • HTML全文浏览量:  57
  • PDF下载量:  0
  • 被引次数: 0
出版历程
  • 收稿日期:  2018-11-27
  • 录用日期:  2019-06-18
  • 网络出版日期:  2020-01-14

深度卷积记忆网络时空数据模型

doi: 10.16383/j.aas.c180788
    作者简介:

    西北工业大学电子信息学院博士研究生. 主要研究方向为深度学习. 本文通信作者.E-mail: woshiqchi@gmail.com

    博士,西北工业大学电子信息学院教授. 主要研究方向为深度学习, 贝叶斯网络. E-mail: cxg2012@nwpu.edu.cn

    博士,西北工业大学电子信息学院讲师. 主要研究方向为深度学习, 强化学习. E-mail: wankaifang@nwpu.edu.cn

基金项目:  国家自然科学基金(61573285)资助

摘要: 时空数据是包含时间和空间属性的数据类型. 研究时空数据需要设计时空数据模型, 用以处理数据与时间和空间的关系, 得到信息对象由于时间和空间改变而产生的行为状态变化的趋势. 交通信息数据是一类典型的时空数据. 由于交通网络的复杂性和多变性, 以及与时间和空间的强耦合性, 使得传统的系统仿真和数据分析方法不能有效地得到数据之间的关系. 本文通过对交通数据中临近空间属性信息的处理, 解决了由于传统时空数据模型只关注时间属性导致模型对短时间间隔数据预测能力不足的问题, 进而提高模型预测未来信息的能力. 本文提出一个全新的时空数据模型—深度卷积记忆网络. 深度卷积记忆网络是一个包含卷积神经网络和长短时间记忆网络的多元网络结构, 可以提取数据的时间和空间属性信息, 通过加入周期和镜像特征提取模块对网络进行修正. 通过对两类典型时空数据集的验证, 表明深度卷积记忆网络在预测短时间间隔的数据信息时, 相较于传统的时空数据模型, 不仅预测误差有了很大程度的降低, 而且模型的训练速度也得到提升.

English Abstract

  • 随着数据处理技术以及数据采集设备(如传感器或移动采集装置)的发展, 具备时间和位置属性的时空数据成为大数据时代典型的数据类型[1]. 设计时空数据模型, 用以对时空数据进行时间和空间维度的处理, 可以得到反映对象由于时间和空间改变而产生的行为状态变化的信息[2-4], 这类信息可以有效地预测对象未来的状态.

    交通信息数据与时间和空间两类属性的密切联系, 可以说是一类典型的时空数据. 并且交通信息数据不同属性之间具有不同程度耦合性, 处理起来比较复杂, 所以目前研究时空模型的学者们主要工作在于设计时空数据模型以便有效地处理交通信息数据. 对交通信息进行研究可以提供准确的公路状况信息给决策者, 从而使决策者对公路进行良性管理.

    处理交通数据的时空数据模型主要有两类, 系统仿真模型和数据分析模型.

    系统仿真模型的原理是分析交通系统的内部结构, 建立一个白盒用来模拟系统的运行, 预测未来某一时刻的数据[5]. Vlahogiann等[6]通过分析交通系统内各个部分之间的关系, 设计了一个计算智能模型(Computational intelligence). 该模型可以解决由于交通数据输入维度增大导致解空间过大的问题, 并可以有效地处理大规模多目标数据. 由于系统仿真模型在处理诸如交通网络等复杂系统时不能有效地分析各个部分之间的隐藏关系, 所以学者们的关注点主要在对已经采集得到的交通数据设计数据分析模型.

    数据分析模型将统计学和机器学习相结合, 建立对交通系统的黑盒模拟[7]. Ahmed等[7]使用ARIMA (Autoregressive integrated moving average)模型将交通信息中的时空数据转化成时序数据, 通过数据差分将非平滑时间序列转化成平滑时间序列, 使输出变量仅对其滞后量以及随机误差项的当前值和滞后量进行回归处理, 从而建立数据分析模型. Williams等[8]在ARIMA基础上提出了S-ARIMA (Seasonal ARIMA)算法, 改变ARIMA模型滞后量的计算方法, 降低了对模式的识别能力和预测长时间间隔(Long-term)数据的预测误差. Lippi 等[9]在ARIMA的基础结构上加入了一个卡尔曼滤波器, 提高了模型在解决复杂问题时的准确率. Kumar 等[10]通过对动脉数据进行实验分析, 说明了S-ARIMA算法能够有效地处理对时间属性不敏感的数据信息. 由于ARIMA本质上是将交通信息当成一种时序数据使用差分方法处理, 使得算法对时间属性不敏感, 而且由于交通数据不同属性之间具有强耦合性, 模型容易产生一些非线性问题, 导致 ARIMA及其衍生模型在处理高速改变的交通数据流时具有一些局限性, 在预测短时间间隔(Short-term)数据时表现较差[10].

    学者们通过非参数(Non-parametric)的机器学习技巧, 尝试解决ARIMA很难解决的这些非线性问题, 提高模型预测短时间间隔数据的能力. 神经网络是典型的非参数机器学习网络. 相对于传统的ARIMA模型, 神经网络具有很多优势. 首先体现在神经网络可以扩展到上千节点, 使得模型以比较大的精度逼近真实模型. 其次, 神经网络中含有非参数结构, 可以更灵活地处理输入数据. 更重要的是由于神经网络没有对数据进行差分处理, 可以有效地处理高速改变的交通信息流. Dougherty 等[11]使用神经网络处理交通信息, 包括司机的行为信息, 交通参数估计, 交通信息的预测等, 在理论和实验这两方面说明了神经网络处理交通数据的可行性. Hua 等[12] 通过实验证明使用人工神经网络预测短时间间隔之后的汽车运行时间, 预测误差比传统的ARIMA的方法要小. Smith 等[13]使用BP(Back propagation)神经网络处理动态信息, 对比于传统的非参数回归模型和ARIMA模型, 在预测短时间间隔数据时预测误差得到了很大程度的降低. Chan 等[14]说明神经网络在预测交通流密度方面具有获取数据非线性特征的能力, 并说明神经网络在交通数据处理方面已经得到了广泛应用.

    Hinton等[15]2006年改进了深度学习算法的训练机制, 使得深度学习算法受到学术界和工商界的广泛关注. 深度学习模型在图像处理、语音识别、文本翻译等领域取得了巨大成功[16]. 在交通信息领域, 由于深度学习算法可以从大数据集中学习到有效的特征, 许多学者尝试使用该算法对海量的交通数据进行处理. Polson等[17]使用了深度结构的神经网络来预测交通流, 通过对Interstate I-55号道路上获取的数据进行训练, 预测短期的交通流密度. 这篇文献还对预测中出现的两处异常值做出了合理的解释. 对比于传统的BP神经网络, 在模型的收敛速度上得到提升. Jia等[18]通过使用多层的受限玻尔兹曼机模型, 建立以MAPE (Mean absolute percentage error)、RMSE (Root mean square error)以及RMSN (Normalized root mean square error)为预测误差的深度信念网络(Deep brief network, DBN)模型, 用来预测短时间间隔交通流速度, 实验结果表明使用DBN得到的预测误差比BP神经网络和ARIMA模型要小, 说明DBN在预测短时间间隔时空数据时效果更好. Lv 等[19]建立堆叠自适应编码器 (Stacked autoencoders, SAEs)网络预测短时交通流密度, 实验所得预测误差比BP神经网络和支持向量机(Support vector machine, SVM)等浅层网络模型以及S-ARIMA低. 类比图像数据和声音采样信息, 交通流数据在空间和时间领域具有很多有用的特征[20]. 由于这些深度学习模型很难学习到数据有关时间和空间关系的良好特征表达, 在预测长时间间隔的交通数据的时候表现乏力, 限制了模型的泛化能力.

    循环神经网络(Recurrent neural network, RNN)是一类用于处理序列数据的神经网络. RNN中的循环单元可以很好地记忆前某个时刻网络学习到的数据信息, 可以学习到输入数据中时间属性的特征[21]. 但传统的RNN网络在处理交通信息时存在一些不足: 1) RNN网络中的时间迭代步长需要在网络设计前给定. 2) RNN在处理预测长时间间隔交通数据的时候表现乏力[22]. Ma 等[22]针对传统RNN存在的问题, 使用RNN中一种特殊结构的长短期记忆(Long short-term memory, LSTM)预测长时间间隔(Long-term)的交通流密度, 通过实验对比LSTM和传统RNN以及其他深度学习模型在预测长时间间隔的交通数据方面的能力, 结果说明了LSTM比传统RNN和其他深度学习模型在预测长时间间隔数据时效果更好.

    ARIMA、神经网络、传统的深度学习网络以及RNN等模型, 重点关注数据时间属性的信息, 缺乏对临近空间信息的分析, 没有从本质上解决短时间间隔预测能力不足的问题. 临近空间数据对预测信息的变化趋势影响较大, 所以如果需要有效地预测高速改变的信息流, 应重点关注该预测点临近位置的数据. 在研究临近空间位置数据的时候, 可以将某一个时刻所有位置的数据信息做一个网格, 采用一些特定的结构进行处理. 网格中所有数据不是完全独立的, 位置距离越近, 数据的相关性越强, 而使用传统的全连接的网络结构很难学习到这个特征.

    本文提出一个全新的时空数据模型——深度卷积记忆网络(Deep spatial-temporal convolutional LSTM, DSTCL), 建立包含卷积神经网络和长短时间记忆网络的多元网络结构, 相对于传统的时空数据模型, 加入对模型的空间属性信息的处理, 重点解决模型预测中短时间间隔数据的误差较大的问题. 卷积神经网络(Convolutional neural network, CNN)在处理类似网格结构数据的时候, 可以高效地学习到临近空间信息的相关性以及输入变量不同区域之间的关系等信息[23-24]. 长短时间记忆网络可以学习到数据的记忆特征, 有效地处理时间属性信息. 多元网络DSTCL能够同时提取到数据的时间和空间属性信息, 更有效对长时间间隔、中时间间隔以及短时间间隔的数据进行预测. 考虑到交通数据的周期属性以及一天中镜像时间段的影响, 在DSTCL中加入了周期特征提取模块和镜像特征提取模块对网络进行修正.

    本文结构如下: 第1节对需要处理的问题进行概述, 第2节给出模型设计的细节, 第3节给出实验结果和分析, 第4节是结论和展望.

    • 本文的目标是处理已经采集到的交通速度数据, 预测某一个位置未来某一个时刻的交通速度信息. 用公式表示为

      $$\begin{split} v_{T,P} =&\arg \mathop { \max }\limits_v p(v_{T,P} \vert v_{t = T-n,p\ne P,N\ge n\ge 0} ,\\ &v_{t = T-n,p = P,N\ge n>0} ,\theta ) \end{split} $$ (1)

      其中, $ v_{T,P} $表示 $ T $时刻$ P $位置的速度, $v_t = T-n, $$ p\ne P,N\ge n\ge 0$表示除$ P $位置之外的地点 $ T $时刻之前(包含$ T $时刻)的速度值, $ {{v}_{t = T-n,p = P,N\ge n>0}} $表示$ P $位置 $ T $时刻之前(不包括T时刻)的速度值, $ N $表示输入时间步长, $ \theta $表示模型的参数值.

      如果预测T时刻P位置的速度, 按照式(1), 需要其他地点T时刻之前的速度值, P位置T时刻之后的速度值, 仍使用N表示输入时间步长, 如图1所示, 我们得到交通信息的数据矩阵.

      图  1  按照时间顺序对不同位置的交通数据进行处理

      Figure 1.  Processing traffic data at different locations in chronological order

      $$ {V} =\left[\!\!\! {\begin{array}{*{20}c} {V_1 } \hfill \\ \vdots \hfill \\ {V_P } \hfill \\ \end{array} }\!\!\!\right]\! \!=\!\! \left[ {{\begin{array}{*{20}c} {v_1 \left( {T-N} \right)} \hfill & \cdots \hfill & {v_1 \left( {T-1} \right)} \hfill \\ \vdots \hfill & \ddots \hfill & \vdots \hfill \\ {v_P \left( {T-N} \right)} \hfill & \cdots \hfill & {v_P \left( {T-1} \right)} \hfill \\ \end{array} }} \right] $$ (2)
    • 深度卷积记忆网络主要任务是训练数据的空间特征和时间特征, 得到预测信息随时间和空间的变化趋势, 进而降低模型的预测误差, 提高训练速度. 此外, 还需要训练其他的特征, 如周期特征和镜像特征等, 提高模型的预测能力.

    • 由于交通流的速度总是与临近位置的速度相关, 而且卷积网络在表达临近区域特征相关问题方面具有非常大的优势, 我们选择一维的卷积网络来抽取数据的空间特征信息, 如图2所示. 由于建模需要, 在使用卷积网络的时候不考虑时间这个属性, 仅使用上一个时间点的不同位置的速度, 舍弃掉其他时间点的速度. 将问题重新整理如下:

      图  2  使用CNN训练空间特征

      Figure 2.  Training spatial features with CNN

      $$ v_P =\arg \mathop { \max }\limits_v p(v_P \vert v_{p,t = T-1} ,\theta ) $$ (3)

      从数据矩阵中抽取

      $$ v_p = [v_1 (T-1),v_2 (T-1),\cdots,v_P (T-1)]^{\rm{T}} $$ (4)

      作为一维卷积网络的输入. 使用一维卷积网络处理数据集如图2-1所示, 第i个特征表达如下:

      $$ h_P^i = o(w_q^i \ast v_q^i +b_q^i ) $$ (5)

      其中, $ w_q^i $表示权值, $ o $表示非线性的激活矩阵, $ b_q^i $表示偏置, $ * $表示卷积计算.

      对一般的卷积神经网络来说, 卷积计算之后需要进行池化处理. 池化主要作用是保持图片的等变性. 对于小图像块识别这一类的任务来说, 不使用池化运算也可以有效处理[25]. 由于交通数据集可以看成像素点比较少的图片(小图像块)也不需要考虑其等变性, 所以在本模型中, 卷积运算之后不使用池化处理. 具体设计上, 我们在卷积层对输入用零进行填充使其加宽, 保证输入和输出在维度上具有相同的大小. 这样可以使卷积运算不改变下一层的结构, 只要硬件支持, 该网络就可以包含任意数量的卷积层, 便于网络进行扩展. 由于空间特征提取模块包含卷积层的层数较少, 使用残差结构[26]效果提升不明显, 所以使用普通的CNN结构.

    • RNN是专门用于处理类似序列$ {{x}^{1}},{{x}^{2}},\cdots,{{x}^{\tau }} $的神经网络. 正如CNN可以很容易地扩展到具有很大宽度和高度的图像, 以及可以用来处理大小可变的图像, RNN可以扩展到更长的序列(比不基于序列的特化网络长得多). 一个RNN网络如图3所示, 其中X表示输入值, h表示隐层值, o表示模型输出值, L表示代价损失函数, y表示对应x的标签值, U表示x的权值, W表示记忆单元的权值, V表示隐层的权值.

      图  3  循环神经网络的计算图模型

      Figure 3.  Calculation graph model of RNN

      RNN处理时序数据的一个优势就是可以学习到数据的记忆特征, 不再单独地进行每个时刻数据的训练, 而是通过隐层或者输出层将不同时刻的训练步骤联系起来, 即当前时刻的训练需要前几个时刻的数据提供记忆信息.

      但由于传统的RNN的局限性, 预测长时间间隔的交通数据表现乏力[22]. 而LSTM在预测长时数据时表现良好, 对预测间隔的大小限制较少, 所以我们选择LSTM作为训练数据时间特征的网络模型.

      LSTM对传统的RNN一个关键的扩展是使自循环的权重(图2-2中的W)视上下文而定, 而不是固定的[27]. 门控此自循环(门控函数由另一个隐层单元控制)的权重, 由于时间量是模型本身的输入, 使得模型累计的时间尺度可以动态改变.

      LSTM块如图4所示. LSTM除了外部的RNN循环外, 还有内部的LSTM“细胞”循环, 因此LSTM不是简单地向输入和循环单元的仿射变换之后施加一个逐元素的非线性. LSTM“细胞”彼此循环连接, 代替一般循环网络中普通的隐藏单元. 状态单元具有线性自循环, 其权重由遗忘门控制. “细胞”的输出可以被输入门关闭. 所有的门控单元都具有非线性激活函数, 而输入单元可具有任意的压缩非线性. 状态单元也可以用作门控单元的额外输入. 黑色方块表示单个时间步的延迟.

      图  4  LSTM“细胞”结构框图

      Figure 4.  Structure of LSTM cell

      t时刻第$ i $个细胞的遗忘门$ f_{i}^{t} $, 输入门$ g_{i}^{t} $, 状态单元$ s_{i}^{t} $, 输出门$ q_{i}^{t} $以及最后的输入$ h_{i}^{t} $的表达如下:

      $$ f_{i}^{t} = \sigma \left(b_{i}^{f}+\sum\limits_{j}{U_{i,j}^{f}x_{j}^{t}}+\sum\limits_{j}{W_{i,j}^{f}h_{j}^{t-1}}\right) \qquad\;\;$$ (6)
      $$ s_{i}^{t} = g_{i}^{t}\sigma \left(b_{i}^{{}}+\sum\limits_{j}{U_{i,j}^{{}}x_{j}^{t}}+\sum\limits_{j}{W_{i,j}^{{}}h_{j}^{t-1}}\right)+f_{i}^{t}s_{i}^{t-1} $$ (7)
      $$ g_{i}^{t} = \sigma \left(b_{i}^{g}+\sum\limits_{j}{U_{i,j}^{g}x_{j}^{t}}+\sum\limits_{j}{W_{i,j}^{g}h_{j}^{t-1}}\right) \qquad\;\;$$ (8)
      $$ q_{i}^{t} = \sigma \left(b_{i}^{o}+\sum\limits_{j}{U_{i,j}^{o}x_{j}^{t}}+\sum\limits_{j}{W_{i,j}^{o}h_{j}^{t-1}}\right) \qquad\;\;$$ (9)
      $$ h_{i}^{t} = \tanh \left(s_{i}^{t}\right)q_{i}^{t} \qquad\qquad\qquad\qquad\qquad\qquad\;\;$$ (10)

      其中, $ {{x}^{t}} $表示当前的输入量, $ {{h}^{t}} $表示当前的隐层值, $ {{h}^{t}} $包含所有LSTM细胞的输出. $ {{b}^{f}} $, $ {{U}^{f}} $$ {{W}^{f}} $分别是遗忘门的偏置, 输入权重和循环权重. $ {{b}^{g}} $, $ {{U}^{g}} $$ {{W}^{g}} $分别是输入门的偏置, 输入权重和循环权重. $ {{b}^{o}} ,$$ {{U}^{o}} $$ {{W}^{o}} $分别是输出门的偏置, 输入权重和循环权重. $ b $, $ U $$ W $ 分别是LSTM“细胞”中的偏置, 输入权重和循环权重.

      在处理交通数据的时候, LSTM可以有效地解决长期依赖问题, 对输入数据进行训练[22]. 将问题按照时间属性整理为

      $$ {{v}_{T}} = \arg{\mathop{ \max_{v} }}\,p\left({{v}_{T}}|{{v}_{t = t-n,N\ge n>0}},\theta \right) $$ (11)

      按照式(11)从数据矩阵抽取

      $$ V = ({{V}_{0}},{{V}_{1}},\cdots,{{V}_{q}},\cdots,{{V}_{N-1}}) $$ (12)

      其中$ {{V}_{q}} = \left[{{v}_{1}}(t-N+q),{{v}_{2}}(t-N+q),\cdots,{{v}_{P}}(t-N+ \right.$$\left. q)\right]^{{\rm{T}}}$.

      $ {{V}_{q}} $作为输入代入到式(6)$ \sim $(10), 使用LSTM训练数据集如图5所示.

      图  5  使用LSTM训练时间特征

      Figure 5.  Training temporal features with LSTM

    • 在实验的过程中, 发现不同日期同一时刻的速度数据可以很大程度上影响训练的效果. 原因可能是人们通常喜欢在某天的同一时刻或者该时刻的临近时间去做相同的事情, 所以另外使用堆叠自动编码器来训练同一时刻的数据. 堆叠自动编码器被证明可以有效地训练交通数据周期信息[19]. 我们按照周同一时刻和日同一时刻两个属性重新抽取数据矩阵.

      $$\begin{split} &{{v}^{d}} =\\ &\left[\!\!\!\! \begin{array}{c} {{v}_{1}}({{t}^{d}}-N\times m){{v}_{1}}({{t}^{d}}-(N-1)\times m)\cdots {{v}_{1}}({{t}^{d}}-m) \\ {{v}_{2}}({{t}^{d}}-N\times m){{v}_{2}}({{t}^{d}}-(N-1)\times m)\cdots {{v}_{2}}({{t}^{d}}-m) \\ \vdots \\ {{v}_{P}}({{t}^{d}}-N\times m){{v}_{P}}({{t}^{d}}-(N-1)\times m)\cdots {{v}_{P}}({{t}^{d}}-m) \\ \end{array} \!\!\!\!\right] \end{split}$$ (13)
      $$\begin{split}& {{v}^{w}} =\\ &\left[\!\!\!\! \begin{array}{c} {{v}_{1}}({{t}^{w}}-N\times k){{v}_{1}}({{t}^{w}}-(N-1)\times k)\;\cdots {{v}_{1}}({{t}^{w}}-k) \\ {{v}_{2}}({{t}^{w}}-N\times k){{v}_{2}}({{t}^{w}}-(N-1)\times k)\;\cdots {{v}_{2}}({{t}^{w}}-k) \\ \vdots \\ {{v}_{P}}({{t}^{w}}-N\times k){{v}_{P}}({{t}^{w}}-(N-1)\times k)\;\cdots {{v}_{P}}({{t}^{w}}-k) \\ \end{array} \!\!\!\!\right] \end{split} $$ (14)

      其中, $ {{v}^{{\rm{d}}}} $表示按照日同一时刻抽取数据, $ {{v}^{w}} $表示按照周同一时刻抽取数据. $ m $表示原始数据中每天抽取数据的个数. $ k $表示原始数据中每周抽取数据的个数. 按照图6, 将这两个数据矩阵作为堆叠自动编码器的输入.

      图  6  堆叠自动编码器训练周期特征

      Figure 6.  Training periodic features with stacked auto-encoder

      由于同一天的数据中上午时刻数据对下午时刻数据的影响很大, 对下午时刻的数据进行处理的时候需要考虑上午数据的特征, 这种特征称为镜像特征. 重新抽取数据矩阵如下:

      $$ {{v}^{m}} = \left[ \begin{array}{c} {{v}_{1}}({{H}_{1}})\;{{v}_{1}}({{H}_{2}})\;\cdots\; {{v}_{1}}({{H}_{\lambda }}) \\ {{v}_{2}}({{H}_{1}})\;{{v}_{2}}({{H}_{2}})\;\cdots\; {{v}_{2}}({{H}_{\lambda }}) \\ \vdots \\ {{v}_{P}}({{H}_{1}})\;{{v}_{P}}({{H}_{2}})\;\cdots\; {{v}_{P}}({{H}_{\lambda }}) \\ \end{array} \right] $$ (15)

      其中, $ \lambda $表示上午抽取的数据的个数, $ {{H}_{x}} $表示当天抽取的第$ x $个数据. 将该矩阵输入到堆叠自动编码器里, 训练镜像特征.

    • 我们将第2.1节中的网络结构命名为空间特征提取模块; 第2.2节中的网络结构命名为时间特征提取模块; 第2.3节中的网络结构命名为周期和镜像特征提取模块. 将上述3个模块输入到一个多层神经网络进行回归分析, 如图2-6所示. 整个网络采用多元的结构, 兼顾了时间和空间两个属性的信息, 我们将其命名为深度卷积记忆网络.

      图  7  建立训练模型

      Figure 7.  Building the training model

      通过加入输入门, 控制不同时间段的输入进入镜像特征训练模块. 门控函数为

      $$ s = \left\{ \begin{array}{rcl} 0, & & {x\le \lambda} \\ 1, & & {x>\lambda} \\ \end{array} \right. $$ (16)

      其中, $ x $表示输入数据在当天的批次, $ \lambda $表示上午抽取的批次.

    • 我们使用两个数据集来验证算法的有效性, PeMSD7 (Caltrans performance measurement system district 7)和FMD (Fire material dataset). 两个数据集中都包含时间信息和空间信息, 并且这两类信息对数据之间的关系影响较大.

      PeMSD7数据集是由Caltrans performance measurement system中 39 000个独立的传感器实时搜集数据. 这些传感器遍布在美国加利福尼亚州主要都市区高速公路附近[28]. 我们将数据集中的实时数据初步预处理成128个临近的传感器累计收集到时间间隔为5 min的数据, 选择数据集的时间跨度为2015年6月到2016年6月.

      初步预处理PeMSD7数据集之后对数据集中的缺失值进行插值填充. 然后将数据集横轴按照时间顺序纵轴按照空间顺序进行排序. 数据集70%的数据作为训练集, 20%的数据作为验证集, 10%的数据作为测试集. 验证集的作用是防止模型过拟合. 在训练集进行迭代的同时将每一次迭代得到的模型用于计算验证集的预测误差, 绘出验证集的预测误差曲线, 当验证集的预测误差曲线开始上升时, 记录此时模型的迭代次数, 并与训练集预测误差曲线收敛所需要的迭代次数进行对比, 选择最小的值作为停止训练所需要的迭代次数, 对应于最优的模型参数.

      FMD数据集共有42组实验, 每次实验由80个热传感器和100个压力传感器实时收集材料着火后的温度和气压. 我们将FMD数据集中的实时数据初步预处理成间隔2 min的数据. 预处理之后, 数据集有24 000条数据, 把标签属性设置为消防喷头的开启状态. 数据集80%的数据作为训练集, 10%的数据作为验证集, 10%的数据作为测试集.

    • 实验具体的硬件配置为: GPU为NVIDIA GeForce GTX 980Ti, CPU为Intel(R) Xeon(R)CPU E5-1607 v3. 实验使用的Python框架为PyTorch. 实验选择的优化算法为Adam算法(Adaptive moment estimation)[24], 其超参数设置: $ \alpha = 0.0001, $${{\beta }_{1}} = 0, {{\beta }_{2}} = 0.9 $. 实验设置批数量(Batch size)为16.

      我们设计三组实验对比5类模型(DSTCL, LSTM, S-ARIMA, DBN和ANN)处理PeMSD7数据集的结果.

      第1组实验研究模型的短时间间隔预测能力, 预测10 min之后的速度值. 我们设置输入时间步长为18, 即模型使用90 min的历史数据去预测10 min之后的速度值. 我们将周期数据的时间间隔步长设置为4, 即每次周期特征提取的时候使用当前时刻前后各20 min数据.

      空间特征提取模块共有3个卷积层, 每个卷积层包含128个节点, 20个滤波器. 初始输入一共128个节点(高度值设置为128, 宽度值设置为1, 通道数设置为1). 前两个卷积层滤波器的长度设置为5, 输入填充的节点数设置为2, 步长设置为1; 最后一个卷积层滤波器长度设置为4, 步长设置为1, 对输入不进行填充. 使用RELU函数作为空间提取模块的激活函数. 由于模型的节点数较多, 为了避免发生过拟合现象, 在训练的时候, 使用Dropout方法[29-30]. 设置Dropout的参数为0.5, 即每次训练的时候激活50%的节点. 为了避免在训练过程中出现学习速度变慢, 训练陷入长时间的停滞状态或梯度爆炸等问题, 保证模型的非线性表达能力, 模型使用批归一化技术(Batch normalization)[31, 32], 对每一批(Batch)数据进行归一化处理.

      在训练前, 我们使用K均值聚类算法对空间特征提取模块进行预训练, 使每个学习到的中心作为卷积核, 这个方法被证明对小图像块是有效的[33].

      $$ RELU(x) = \left\{ \begin{array}{rcl} x, & & {x>\lambda} \\ 0 ,& & {x\le \lambda} \\ \end{array} \right. $$ (17)

      时间特征提取模块包括18个LSTM块, 每一个LSTM块设置为4层, 每层的节点数分别为128, 64, 32, 16. 周期和镜像特征提取模块中的周期特征提取部分编码层一共有4层, 每层的节点数分别为60, 30, 15, 10; 镜像特征提取部分编码层一共有6层, 每层节点数分别为179 712, 80 000, 4 000, 1 000, 500, 20. 设置Dropout参数为0.5. 使用RELU函数作为这三个模块的激活函数. 周期和镜像特征提取模块的解码层只在模型训练的时候使用. 最后的全连接神经网络一共有5层, 节点数分别为100, 40, 20, 10, 1.

      第2组实验研究模型的中时间间隔预测能力, 预测40 min之后的速度值. 输入时间步长设置为72, 即模型使用360 min的历史数据去预测40 min之后的速度值. 除了时间特征模块需要72个LSTM块之外, 其他模型超参数设置与第1组实验相同.

      第3组实验研究模型的长时间间隔预测能力, 预测100 min之后的速度值. 输入步长设置为180 min, 即模型用900 min的历史数据去预测100 min之后的速度值. 相对于第1组实验做如下超参数的改动, 时间特征模块设置为180个LSTM块, 最后全连接层设置为6层, 节点数分别为300, 100, 40, 20, 10, 1.

      我们设置一组实验处理FMD数据集. 对FMD数据集来说, 周期特征和镜像特征不那么明显, 在结构设计上不包含周期特征提取模块和镜像特征提取模块. 输入时间步长设置为20, 即用40 min的历史数据去预测10 min之后的消防喷头开启状态. 空间特征提取模块有三个卷积层, 每层180个节点, 30个滤波器, 前两层滤波器长度设置为4, 输入填充的节点数设置为2, 步长设置为1; 最后一层滤波器的长度都设置为3, 步长设置为1, 对输入不进行填充. 训练时设置Dropout参数为0.5, 并使用批归一化技术. 时间特征提取模块包含20个LSTM块, 每一个LSTM块设置为4层, 每层的节点数分别为180, 80, 40, 10. 最后的全连接神经网络一共有4层, 节点数分别为80, 30, 10, 1. 每层使用RELU作为激活函数.

      针对PeMSD7数据集, 我们选择三种预测误差, MAE (Mean absolute error)、MAPE (Mean absolute percentage error)和RMSE (Root mean square error)[15]. 这三个预测误差的计算式为:

      $$ MAE = \frac{1}{n}\sum\limits_{t = 1}^{n}{|{{y}_{t}}-\overset{\sim }{\mathop{{{y}_{t}}}}\,}| \qquad\qquad\;\;$$ (18)
      $$ MAPE = \frac{1}{n}\sum\limits_{t = 1}^{n}{|\frac{{{y}_{t}}-\overset{\sim }{\mathop{{{y}_{t}}}}\,}{{{y}_{t}}}}|\times 100 \% $$ (19)
      $$ RMSE = \sqrt{\frac{1}{n}\sum\limits_{t = 1}^{n}{(}{{y}_{t}}-\overset{\sim }{\mathop{{{y}_{t}}}}\,{{ )}^{2}}} \qquad\;$$ (20)

      其中, $ {{y}_{t}} $表示真实值, $ \overset{\sim }{\mathop{{{y}_{t}}}}\, $表示预测值.

      针对FMD数据集, 我们使用RMSE作为预测误差.

      为了验证CNN、LSTM以及堆叠自动编码器对整个模型预测能力的贡献, 设计了两组实验.

      第1组: 研究DSTCL在分别去掉3个模块(空间特征提取模块、时间特征提取模块以及周期和镜像提取模块)后, 对长时间间隔(100 min)、中时间间隔(40 min)以及短时间间隔(10 min) RMSE结果的影响.

      第2组: 分别用全连接的神经网络代替空间特征提取模块中的CNN、时间特征提取模块中的LSTM以及周期和镜像特征提取模块中的堆叠自动编码器, 研究其对长时间间隔(100 min)、中时间间隔(40 min)以及短时间间隔(10 min) RMSE结果的影响.

    • 表1$\sim $4表示DSTCL模型与LSTM、S-ARIMA、DBN、ANN模型结果的对比.

      表 1  预测PeMSD7时间间隔10 min各算法效果对比

      Table 1.  Prediction of the effect of each algorithm in the 10 min interval of PeMSD7

      模型 MAE (10 min) MAPE (10 min)/% RMSE (10 min)
      DSTCL 2.61 6.0 4.32
      LSTM 3.07 9.02 5.4
      S-ARIMA 5.77 14.77 8.72
      DBN 3.22 10.14 5.8
      ANN 2.86 7.29 4.83

      表 4  预测FMD时间间隔10 min各算法效果对比

      Table 4.  Prediction of the effect of each algorithm in the 10 min interval of FMD

      模型 RMSE (10 min)
      DSTCL 4.24
      LSTM 4.62
      S-ARIMA 8.44
      DBN 5.21
      ANN 5.37

      表1表示针对PeMSD7数据集, 预测短时间间隔的MAE、MAPE和RMSE三种预测误差在测试集的值; 表2表示针对PeMSD7数据集, 预测中时间间隔的MAE、MAPE和RMSE三种预测误差在测试集的值; 表3表示针对PeMSD7数据集, 预测长时间间隔的MAE、MAPE和RMSE三种预测误差在测试集的值; 表4表示针对FMD数据集, 预测时间间隔为10 min的RMSE预测误差在测试集的值.

      表 2  预测PeMSD7时间间隔40 min各算法效果对比

      Table 2.  Prediction of the efiect of each algorithm in the 40 min interval of PeMSD7

      模型 MAE (40 min) MAPE (40 min)/% RMSE (40 min)
      DSTCL 3.45 7.96 5.34
      LSTM 3.81 9.46 5.92
      S-ARIMA 4.8 14.47 8.6
      DBN 4.11 10.66 6.5
      ANN 3.63 9.98 5.77

      表 3  预测PeMSD7时间间隔100 min各算法效果对比

      Table 3.  Prediction of the effect of each algorithm in the 100 min interval of PeMSD7

      模型 MAE (100 min) MAPE (100 min)/% RMSE (100 min)
      DSTCL 4.15 9.94 7.05
      LSTM 4.76 11.08 7.44
      S-ARIMA 3.9 9.71 6.82
      DBN 5.44 12.48 8.2
      ANN 6.2 15.69 8.89

      表1表2表4可以看出模型在预测中短时间间隔的数据时, DSTCL的三种预测误差值都比其他模型低, 说明在预测中短时间间隔的数据时, DSTCL算法效果最好. S-ARIMA作为统计学方法, 由于对变化较快的数据处理能力较差, 在处理中短时间间隔的数据时预测误差最大, 效果最差. 在处理PeMSD7数据集时, ANN作为全连接的神经网络层, 预测误差较LSTM和DBN小, 说明其预测效果要优于LSTM和DBN.

      而从表3可以看出在预测长时间间隔的数据时, DSTCL模型虽然效果不如S-ARIMA, 但结果相差不大(RMSE差0.23), 并且DSTCL模型的预测误差比LSTM、DBN和ANN模型的预测误差要小. 表明DSTCL模型可以很好地抽取长时间间隔的数据特征.

      我们选取高峰时间段传感器探测到的数据, 作为真实值对比5种模型的预测值(预测时间间隔为40 min), 结果如图8所示.

      图  8  15:00$\sim $19:00各模型预测与真实值的对比

      Figure 8.  Comparison of model predictions from real values from 15:00 to 19:00

      我们选择15:00$\sim $19:00的速度值是因为这个时间段是当地的人流高峰期, 速度变化比较大. 由图8可以看出, 相对于其他模型, DSTCL可以很好地获取到速度随时间变化的趋势.

      我们选择传感器探测到的10个位置数据, 作为真实值对比5种模型的预测值, 结果如图9所示.

      图  9  10个不同位置各模型预测与真实值的对比

      Figure 9.  Comparison of model predictions from real values of each model in 10 different locations

      图9可以看出DSTCL在位置与速度的关系图像上, 曲线与真实值曲线最贴近. 说明相对于其他模型, DSTCL可以很好地获取速度与位置的变化关系.

      由于S-ARIMA算法是一种统计学方法, 计算机制与DSTCL、ANN、LSTM和DBN这4种模型不同. 我们针对PEMSD7数据集, 只提取了4个模型(DSTCL、ANN、LSTM和DBN)在训练不同时间间隔的数据时训练集不同迭代次数的RMSE, 结果如图10$\sim $12所示.

      图  10  各个模型处理10 min间隔数据训练集RMSE变化

      Figure 10.  Curve of RMSE of processing 10 min interval data in PeMSD7 training dataset

      图  12  各个模型处理100 min间隔数据训练集RMSE变化

      Figure 12.  Curves of RMSE of processing 100 min interval data in PeMSD7 training dataset

      图  11  各个模型处理40 min间隔数据训练集RMSE变化

      Figure 11.  Curves of RMSE of processing 40 min interval data in PeMSD7 training dataset

      我们针对FMD数据集, 提取了这4个模型在训练数据时测试集不同迭代次数的RMSE, 结果如图13所示.

      图  13  各个模型处理FMD测试集RMSE变化

      Figure 13.  Curves of RMSE of processing 100-minute interval data in FMD testing dataset

      图9$\sim $12可以看出, DSTCL模型在训练时梯度变化较大, 更新速度较其他模型快, 最终收敛值也较其他三个模型小, 说明模型在处理PEMSD7数据集时训练速度最快.

      图13中测试集的效果可以看出, 相对于其他三个模型, 使用DSTCL模型训练数据时, 可以使RMSE在测试集获得比较快的下降速度和收敛速度, 也可以说明模型在处理FMD数据集时速度最快.

      表5表示针对PeMSD7数据集, DSTCL在分别去掉三个模块(空间特征提取模块、时间特征提取模块、周期和镜像特征提取模块)后, 长时间间隔(100 min)、中时间间隔(40 min)以及短时间间隔(10 min)的RMSE结果对比.

      表 5  分别去掉三个模块RMSE结果对比

      Table 5.  Comparison of RMSE of removing three modules separately

      10 min 40 min 100 min
      DSTCL1(DSTCL去掉空间特征提取模块) 5.29 6.1 7.3
      DSTCL2(DSTCL去掉时间特征提取模块) 4.99 5.85 8.47
      DSTCL3(DSTCL去掉周期和镜像特征提取模块) 4.48 5.60 7.22

      表5可以看出, DSTCL1在预测10 min和40 min的数据时, 相对于其他两种模型, 其RMSE最大; DSTCL2在预测100 min的数据时, 相对于其他两种模型, 其RMSE最大. DSTCL3整体相较于其他两种最优, 但不如DSTCL. 说明空间特征提取模块对DSTCL预测中短时间间隔数据的能力贡献最大; 时间特征提取模块对DSTCL预测长时间间隔数据的能力贡献最大; 而在模型中加入周期和镜像特征提取模块相当于整体上进行优化.

      表6表示针对PeMSD7数据集, 分别用全连接的神经网络代替空间特征提取模块中的CNN、时间特征提取模块中的LSTM以及周期和镜像特征提取模块中的堆叠自动编码器后, 长时间间隔(100 min)、中时间间隔(40 min)以及短时间间隔(10 min)的RMSE结果对比.

      表 6  使用全连接神经网络替换三种结构的RMSE结果对比

      Table 6.  Comparison of RMSE of replacing three modules with fully ANN separately

      10 min 40 min 100 min
      DSTCL4(替换CNN) 5.16 5.98 7.21
      DSTCL5(替换LSTM) 4.85 5.52 8.1
      DSTCL6(替换堆叠自动编码器) 4.41 5.4 7.16

      表6可以看出, DSTCL4在预测中短时间间隔的数据时, 相对于完全去掉空间特征提取模块的DSTCL1而言, RMSE仅降低了0.12和0.13, 对比DSTCL5和DSTCL6, 其RMSE仍为最大, 说明CNN为空间特征提取模块中重要的结构, 对模型预测短时间间隔数据的能力贡献最大. DSTCL5在预测长时间间隔的数据时, 对比完全去掉时间特征提取模块的DSTCL2, RMSE仅降低了0.37, 相对于其他两种模型, 其RMSE仍为最大, 说明LSTM为时间特征提取模块中重要的结构, 对模型预测长时间间隔数据的能力贡献最大. DSTCL6相对完全去掉周期和镜像特征提取模块的DSTCL3, RMSE降低了(0.07, 0.16, 0.06), 整体相较于DSTCL4和DSCTL5最优, 但不如DSTCL. 说明堆叠自动编码器为周期和镜像特征提取模块中重要的结构, 在模型中加入堆叠自动编码器相当于整体上进行优化.

    • 在本文中, 我们设计了一个时空数据模型——DSTCL用于预测交通数据中的速度信息. DSTCL模型是一个包含卷积神经网络和长短时间记忆网络的多元神经网络, 解决了其他时空数据模型只关注时间属性信息导致的对短时间间隔信息预测能力不足的问题, 通过对临近空间属性信息的特征和时间特征的提取, 得到对短时间间隔、中时间间隔和长时间间隔有效地预测. 通过实验对比了DSTCL与当前主流时空数据模型的训练效果. 实验结果显示DSTCL在预测中短时间间隔的信息的能力要优于其他时空数据模型. 而预测长时间间隔的数据时, DSTCL的预测误差与S-ARIMA相差不大(RMSE差0.23), 但低于其他三个模型(ANN、LSTM和DBN), 说明DSTCL可以比较有效地预测长时间间隔的数据. 通过高峰时间段传感器探测得到的真实数据和不同时空数据模型的预测值对比, 显示出DSTCL相对于其他时空数据模型, 更好地捕捉到了短时间内敏感的速度变化信息, 说明DSTCL能更好地获取速度随时间变化的趋势. 比较临近位置的同一时刻的速度信息, 可以看到DSTCL相对于其他时空数据模型, 预测值与真实值的随空间信息改变的变化趋势相近, 说明DSTCL可以很好地获取速度信息随空间信息变化的趋势. 通过对比三种结构(CNN、LSTM以及堆叠自动编码器)对模型预测性能的影响, 可以看出CNN对模型预测中短时间间隔数据的能力贡献较大; LSTM对模型预测长时间间隔数据的能力贡献较大; 加入堆叠自动编码器相当于对模型整体上进行优化.

      DSTCL模型在处理数据时, 有时候出现训练前期预测误差波动的现象, 未来的主要工作是研究波动的原因, 并进一步优化模型的超参数, 使预测效果更优.

参考文献 (33)

目录

    /

    返回文章
    返回