2.793

2018影响因子

(CJCR)

  • 中文核心
  • EI
  • 中国科技核心
  • Scopus
  • CSCD
  • 英国科学文摘

留言板

尊敬的读者、作者、审稿人, 关于本刊的投稿、审稿、编辑和出版的任何问题, 您可以本页添加留言。我们将尽快给您答复。谢谢您的支持!

姓名
邮箱
手机号码
标题
留言内容
验证码

唇读研究进展与展望

盛常冲 陈小鼎 匡纲要 刘丽

盛常冲, 陈小鼎, 匡纲要, 刘丽. 唇读研究进展与展望. 自动化学报, 2019, 45(x): 1−27. doi: 10.16383/j.aas.c190531
引用本文: 盛常冲, 陈小鼎, 匡纲要, 刘丽. 唇读研究进展与展望. 自动化学报, 2019, 45(x): 1−27. doi: 10.16383/j.aas.c190531
Sheng Chang-Chong, Chen Xiao-Ding, Kuang Gang-Yao, Liu Li. The state of the art and prospects of lip reading. Acta Automatica Sinica, 2019, 45(x): 1−27. doi: 10.16383/j.aas.c190531
Citation: Sheng Chang-Chong, Chen Xiao-Ding, Kuang Gang-Yao, Liu Li. The state of the art and prospects of lip reading. Acta Automatica Sinica, 2019, 45(x): 1−27. doi: 10.16383/j.aas.c190531

唇读研究进展与展望


DOI: 10.16383/j.aas.c190531
详细信息
    作者简介:

    国防科技大学电子科学学院博士研究生. 主要研究方向为计算机视觉, 模式识别. E-mail: sheng_cc@nudt.edu.cn

    国防科技大学系统工程学院硕士研究生. 主要研究方向为计算机视觉与模式识别. E-mail: chenxiaoding14@nudt.edu.cn

    国防科技大学电子科学学院教授、博士生导师. 主要研究方向为遥感图像处理, 目标识别. E-mail: kuanggangyao@nudt.edu.cn

    国防科技大学系统工程学院副教授. 主要研究方向为图像理解, 计算机视觉, 模式识别. 本文通信作者. E-mail: liuli_nudt@nudt.edu.cn

  • 基金项目:  国家自然科学基金(61872379)资助

The State of the Art and Prospects of Lip Reading

More Information
  • Fund Project:  Supported by National Natural Science Foundation of China (61872379)
  • 摘要: 唇读, 也称视觉语言识别, 旨在通过说话者嘴唇运动的视觉信息, 解码出其所说文本内容. 唇读是计算机视觉和模式识别领域的一个重要问题, 在公共安防、医疗、国防军事和影视娱乐等领域有着广泛的应用价值. 近年来, 深度学习技术极大地推动了唇读研究进展. 本文首先阐述了唇读研究的内容和意义, 并深入剖析了唇读研究面临的难点与挑战; 然后介绍了目前唇读研究的现状与发展水平, 对近期主流唇读方法进行了梳理、归类和评述, 包括传统方法和近期的基于深度学习的方法; 最后, 探讨唇读研究潜在的问题和可能的研究方向. 以期引起大家对唇读问题的关注与兴趣, 并推动与此相关问题的研究进展.
  • 图  1  唇读示意图

    Fig.  1  Illustration of the lip reading task

    图  2  唇读难点示例. (a)第一行为单词place的实例, 第二行为单词please的实例, 唇形变化难以区分, 图片来自GRID数据集; (b)上下两行分别为单词wind在不同上下文环境下的不同读法/wind/与/waind/实例, 唇形变化差异较大; (c)上下两行分别为两位说话人说同一个单词after的实例, 唇形变化存在差异, 图片来自LRS3-TED数据集; (d)说话人在说话过程中头部姿态实时变化实例. 上述对比实例均采用相同的视频时长和采样间隔.

    Fig.  2  Challenging examples of lip reading. (a) The upper line is an instance of the word place, the lower line is an instance of the word please; (b) The upper and lower lines are respectively different pronunciation of word wind in different contexts; (c) The upper and lower lines respectively tell the same word after, with big difference in lip motion; (d) an example of a real-time change in the head posture of the speaker during the speech. The above comparison examples all use the same video duration and sampling interval.

    图  3  唇读方法一般流程

    Fig.  3  The general process of lip reading

    图  4  唇读研究过程中代表性方法. 传统特征提取方法: 主动形状模型ASM[67], 主动表观模型AAM[69], HiLDA[25], LBP-TOP[36], 局部判别图模型[46], 图嵌入方法[39], 随机森林流行对齐RFMA[48], 隐变量方法[47]; 深度学习方法: DBN/CNN+HMM混合模型[86-92], SyncNet[94], LipNet[98], WLAS[107], Transformer[123], LCANet[109], V2P[163].

    Fig.  4  Representative methods in the process of lip reading research. Traditional feature extraction methods:ASM[67], AAM[69], HiLDA[25], LBP-TOP[36], LDG[46], Graph Embedding[39], RFMA[48], Hidden variable method[47]; Deep learning based methods: DBN/CNN+HMM hybrid model[86-92], SyncNet[94], LipNet[98], WLAS[107], Transformer[123], LCANet[109], V2P[163].

    图  5  线性变换特征提取方法一般流程

    Fig.  5  The workflow of linear transformation feature extraction method

    图  6  连续帧曲线映射

    Fig.  6  Continuous frame curve mapping

    图  7  ${\rm LBP}_{8,1}$算子

    Fig.  7  ${\rm LBP}_{8,1}$ operator

    图  8  分块LBP-TOP特征提取

    Fig.  8  Block LBP-TOP feature extraction

    图  9  语音产生的发音特征

    Fig.  9  Articulatory features

    图  10  唇部轮廓ASM模型

    Fig.  10  ASM model of lip profile

    图  11  典型CNN结构示例图

    Fig.  11  A typical CNN structure example

    图  12  RNN及LSTM、GRU结构示例图

    Fig.  12  The structure of RNN, LSTM and GRU

    图  13  CNN-RNN基本框架

    Fig.  13  The network structure of CN-RNN

    图  14  LipNet构架

    Fig.  14  The network architecture of LipNet

    图  15  WAS构架

    Fig.  15  The network architecture of WAS

    图  16  三种唇读网络模型

    Fig.  16  Three lip reading network models

    图  17  不同类型数据集变化趋势

    Fig.  17  The trends of different types of datasets

    图  18  各类数据集示例

    Fig.  18  Some examples of different datasets

    表  1  传统时空特征提取算法优缺点总结

    Table  1  A summary of advantages and disadvantages of traditional spatiotemporal feature extraction methods

    时空特征提取方法代表性方法优势不足
    基于表观的全局图像线性变换[25-30],
    图嵌入与流形[38-39, 46-48],
    LBP-TOP[35-36], HOG[49], 光流[11, 205]···
    ①特征提取速度快;
    ②无需复杂的人工建模.
    ①对唇部区域提取精度要求高;
    ②对环境变化、姿态变化、噪声敏感;
    ③不同讲话者之间泛化性能较差.
    基于形状的轮廓描述[40-43],
    AFs[72], 形状模型[65, 66]···
    ①具有良好的可解释性;
    ②不同讲话者之间泛化性能较好;
    ③能有效去除冗余信息.
    ①会造成部分有用信息丢失;
    ②需要大量的人工标注;
    ③对于姿态变化非常敏感.
    形状表观融合的形状+表观特征串联[56, 62],
    形状表观模型[69]···
    ①特征表达能力较强;
    ②不同讲话者之间泛化性能较好.
    ①模型复杂,运算量大;
    ②需要大量的人工标注.
    下载: 导出CSV

    表  3  单词、短语和语句识别数据集, 其中(s)代表不同语句的数量. 下载地址为: MIRACL-VC[176], LRW[177], LRW-1000[178], GRID[179], OuluVS[180], VIDTIMIT[181], LILiR[182], MOBIO[183], TCD-TIMIT[184], LRS[185], VLRF[186]

    Table  3  Word, phrase and sentence lip reading datasets and their download link: MIRACL-VC[176], LRW[177], LRW-1000[178], GRID[179], OuluVS[180], VIDTIMIT[181], LILiR[182], MOBIO[183], TCD-TIMIT[184], LRS[185], VLRF[186]

    数据集语种识别 任务词汇量话语 数目说话人 数目姿态分辨率谷歌 引用发布 年份
    IBMViaVoice英语语句10 50024 3252900704 × 480 30 fps2992000
    VIDTIMIT英语语句346(s)430430512 × 384 25 fps512002
    AVICAR英语语句1 31710 000100−15$\sim$15720 × 480 30 fps1702004
    AV-TIMIT英语语句450 (s)4 6602330720 × 480 30 fps1272004
    GRID英语短语5134 000340720 × 576 25 fps7002006
    IV2法语语句15(s)4 5003000,90780 × 576 25 fps192008
    UWB-07 -ICAV捷克语语句7 550 (s)10 000500720 × 576 50 fps162008
    OuluVS英语短语10(s)1 000200720 × 576 25 fps2112009
    WAPUSK20英语短语522 000200640 × 480 32 fps162010
    LILiR英语语句1 0002 400120,30,45, 60,90720 × 576 25 fps672010
    BL法语语句238 (s)4 046170,90720 × 576 25 fps122011
    UNMC-VIER英语语句11 (s)4 5511230,90708 × 640 25 fps82011
    MOBIO英语语句30 1861520640 × 480 16 fps1752012
    MIRACL-VC英语单词101 500150640 × 480 15 fps222014
    短语10 (s)1 500
    Austalk英语单词966966 0001 0000640 × 480112014
    语句59 (s)59 000
    MODALITY英语单词182(s)2313501 920 × 1 080 100 fps232015
    RM-3000英语语句1 0003 00010360 × 640 60 fps72015
    IBM AV-ASR英语语句10 4002620704 × 480 30 fps1032015
    TCD-TIMIT英语语句5 954 (s)6 913620,301920 × 1080 30 fps592015
    OuluVS2英语短语101 590530,30,45, 60,901920 × 1080 30 fps462015
    语句530 (s)530
    LRW英语单词500550 0001 000+0$\sim$30256 × 256 25 fps1152016
    HAVRUS俄语语句1 530 (s)4 000200640 × 480 200 fps132016
    LRS2-BBC英语语句62 769144 4821 000+0$\sim$30160 × 160 25 fps1722017
    VLRF西班牙语语句1 37410 200a2401 280 × 720 50 fps62017
    LRS3-TED英语语句70 000151 8191 000+−90$\sim$90224 × 224 25 fps22018
    LRW-1000中文单词1 000745 1872 000+−90$\sim$901 920 × 1 080 25 fps02018
    LSVSR英语语句127 0552 934 8991 000+−30$\sim$30128 × 128 23-30 fps162018
    下载: 导出CSV

    表  2  字母、数字识别数据集. 下载地址为: AVLetters[164], AVICAR[166], XM2VTS[167], BANCA[168], CUAVE[170], VALID[171], CENSREC-1-AV[172], Austalk[173], OuluVS2[174]

    Table  2  Alphabet and digit lip reading datasets and their download link: AVLetters[164], AVICAR[166], XM2VTS[167], BANCA[168], CUAVE[170], VALID[171], CENSREC-1-AV[172], Austalk[173], OuluVS2[174]

    数据集语种识别任务类别数目话语数目说话人数姿态分辨率谷歌引用发布年份
    AVLetters英语字母26780100376 × 288 25 fps5071998
    XM2VTS英语数字108852950720 × 576 25 fps1 6171999
    BANCA多语种数字1029 9522080720 × 576 25 fps5302003
    AVICAR英语字母2626 000100−15$\sim$15720 × 480 30 fps1702004
    数字1323 000
    CUAVE英语数字107 000+36−90,0,90720 × 480 30 fps2922004
    VALID英语数字105301060720 × 576 25 fps382005
    AVLetters2英语字母26910501 920 × 1 080 50 fps622008
    IBMSR英语数字101 66138−90,0,90368 × 240 30 fps172008
    CENSREC -1-AV日语数字105 197930720 × 480 30 fps252010
    QuLips英语数字103 6002−90$\sim$90720 × 576 25 fps212010
    Austalk英语数字1024 0001 0000640 × 480112014
    OuluVS2英语数字10159530$\sim$901 920 × 1 080 30 fps462015
    下载: 导出CSV

    表  4  不同数据集下代表性方法比较

    Table  4  Comparison of representative methods under different datasets

    数据集识别 任务参考 文献模型主要实验条件识别率
    前端特征 提取后端分 类器音频 信号讲话 者依 赖外部 语言 模型最小 识别 单元
    AVLetters字母[48]RFMA××字母69.60 %
    [92]RTMRBMSVM×字母66.00 %
    [86]ST-PCAAutoencoder×××字母64.40 %
    [36]LBP-TOPSVM××字母62.80 %
    ××43.50 %
    [55]DBNF+DCTLSTM××字母58.10 %
    CUAVE数字[126]AAMHMM××数字83.00 %
    [50]HOG+MBHSVM×××数字70.10 %
    ×90.00 %
    [37]DBNFDNN-HMM×××音素64.90 %
    [26]DCTHMM××数字60.40 %
    LRW单词[101]3D-CNN+ResNetBiLSTM×××单词83.00 %
    [103]3D-CNN+ResNetBiGRU×××单词82.00 %
    ×98.00 %
    [107]CNNLSTM+Attention×××单词76.20 %
    [93]CNN×××单词61.10 %
    GRID短语[109]3D-CNN+highwayBiGRU+Attention××字符97.10 %
    [107]CNNLSTM+Attention××单词97.00 %
    [113]Feed-forwardLSTM××单词84.70 %
    95.90 %
    [98]3D-CNNBiGRU×××字符93.40 %
    [51]HOGSVM××单词71.20 %
    LRS3-TED语句[162]3D-CNN+ResNetTransformer+seq2seq××字符41.10 %
    Transformer +CTC33.70 %
    [163]3DCNNBiLSTM+CTC××音素44.90 %
    下载: 导出CSV
  • [1] 1 Mcgurk H, Macdonald J. Hearing lips and seeing voices. Nature, 1976, 264(5588): 746−748 doi:  10.1038/264746a0
    [2] 2 Potamianos G, Neti C, Luettin J, Matthews I. Audio–visual automatic speech recognition: an overview. Issues in Visual and Audio–Visual Speech Processing, 2004, 22(1): 22−23
    [3] 3 Potamianos G, Neti C, Gravier G, Garg A, Senior A. Recent advances in the automatic recognition of audiovisual speech. Proceedings of the IEEE, 2003, 91(9): 1306−1326 doi:  10.1109/JPROC.2003.817150
    [4] 4 Zhou Z, Zhao G, Hong X, Pietikainen M. A review of recent advances in visual speech decoding. Image and Vision Computing, 2014, 32(9): 590−605 doi:  10.1016/j.imavis.2014.06.004
    [5] 5 Fernandez–Lopez A, Sukno F. Survey on automatic lip–reading in the era of deep learning. Image and Vision Computing, 2018, 78(1): 53−72
    [6] 姚鸿勋, 高文, 王瑞, 郎咸波. 视觉语言—-唇读综述. 电子学报, 2001, 29(2): 239−246 doi:  10.3321/j.issn:0372-2112.2001.02.025

    6 Yao Hong–Xun, Gao Wen, Wang Rui, Lang Xian–bo. A survey of lipreading—-one of visual languages. Chinese Journal of Electronics, 2001, 29(2): 239−246 doi:  10.3321/j.issn:0372-2112.2001.02.025
    [7] 7 Calvert A, Bullmore T, Brammer J, Campbell R, Williams C R, McGuire K, et al. Activation of auditory cortex during silent lipreading. Science, 1997, 276(5312): 593−596 doi:  10.1126/science.276.5312.593
    [8] 8 Twaddell W F. On defining the phoneme. Language, 1935, 11(1): 5−62
    [9] 9 Woodward M F, Barber C G. Phoneme perception in lipreading. Journal of Speech and Hearing Research, 1960, 3(3): 212−222 doi:  10.1044/jshr.0303.212
    [10] 10 Fisher C G. Confusions among visually perceived consonants. Journal of Speech and Hearing Research, 1968, 11(4): 796−804 doi:  10.1044/jshr.1104.796
    [11] Cappelletta L, Harte N. Viseme definitions comparison for visual–only speech recognition. In: Proceedings of 19th European Signal Processing Conference. Catalonia, Spain: IEEE, 2011. 2109−2113
    [12] 12 Moll K L, Daniloff R G. Investigation of the timing of velar movements during speech. The Journal of the Acoustical Society of America, 1971, 50(2B): 678−684 doi:  10.1121/1.1912683
    [13] Cox S J, Harvey R W, Lan Y, Newman J L, Theobald B J. The challenge of multispeaker lip–reading. In: International Conference on Auditory-Visual Speech Processing. Queensland, Australia: Citeseer, 2008. 179−184
    [14] 14 Wu Y, Ji Q. Facial landmark detection: a literature survey. International Journal of Computer Vision, 2019, 127(2): 115−142 doi:  10.1007/s11263-018-1097-z
    [15] 15 Chrysos G G, Antonakos E, Snape P, Asthana A, Zafeiriou S. A comprehensive performance evaluation of deformable face tracking " in–the–wild”. International Journal of Computer Vision, 2018, 126(2-4): 198−232 doi:  10.1007/s11263-017-0999-5
    [16] Koumparoulis A, Potamianos G, Mroueh Y, Rennie S J. Exploring ROI size in deep learning based lipreading. In: Proceedings of 14th International Conferece on Auditory–Visual Speech Processing. Stockholm, Sweden: Citeseer, 2017. 64−69
    [17] 17 Orozco J, Martinez B, Pantic M. Empirical analysis of cascade deformable models for multi–view face detection. Image and Vision Computing, 2015, 42(1): 47−61
    [18] 18 Orozco J, Rudovic O, Gonzàlez J, Pantic M. Hierarchical on–line appearance–based tracking for 3d head pose, eyebrows, lips, eyelids and irises. Image and Vision Computing, 2013, 31(4): 322−340 doi:  10.1016/j.imavis.2013.02.001
    [19] Asthana A, Zafeiriou S, Cheng S, Pantic M. Robust discriminative response map fitting with constrained local models. In: Proceedings of 26th IEEE Conference on Computer Vision and Pattern Recognition. Portland, USA: IEEE, 2013: 3444−3451.
    [20] 20 Yu X, Huang J, Zhang S, Metaxas D N. Face landmark fitting via optimized part mixtures and cascaded deformable model. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2015, 38(11): 2212−2226
    [21] 21 Tzimiropoulos G, Pantic M. Fast algorithms for fitting active appearance models to unconstrained images. International Journal of Computer Vision, 2017, 122(1): 17−33 doi:  10.1007/s11263-016-0950-1
    [22] 22 Wu Y, Hassner T, Kim K G, Medioni G, Natarajan P. Facial landmark detection with tweaked convolutional neural networks. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2017, 40(12): 3067−3074
    [23] 23 Yan S, Xu D, Zhang B, Zhang H J, Yang Q, Lin S. Graph embedding and extensions: a general framework for dimensionality reduction. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2006, 29(1): 40−51
    [24] Rao, C R, Rao C R, Statistiker M, Rao C R, Rao C R. Linear Statistical Inference and Its Applications. New York, USA: Wiley, 1973.
    [25] Potamianos G, Graf H P, Cosatto E. An image transform approach for HMM based automatic lipreading. In: Proceedings 1998 International Conference on Image Processing. Chicago, USA: IEEE, 1998. 173−177.
    [26] 26 Estellers V, Gurban M, Thiran J P. On dynamic stream weighting for audio–visual speech recognition. IEEE Transactions on Audio, Speech, and Language Processing, 2011, 20(4): 1145−1157
    [27] 27 Potamianos G, Neti C, Iyengar G, Senior A W, Verma A. A cascade visual front end for speaker independent automatic speechreading. International Journal of Speech Technology, 2001, 4(3-4): 193−208
    [28] Lucey P J, Potamianos G, Sridharan S. A unified approach to multi–pose audio–visual ASR. 2007.
    [29] Lucey P J, Sridharan S, Dean D B. Continuous pose–invariant lipreading. 2008.
    [30] Lucey P J, Potamianos G, Sridharan S. Patch–based analysis of visual speech from multiple views. 2008.
    [31] 31 Seymour R, Stewart D, Ming J. Comparison of image transform–based features for visual speech recognition in clean and corrupted videos. Journal on Image and Video Processing, 2008, 2008(1): 14
    [32] Hong X, Yao H, Wan Y and Chen R. A PCA based visual DCT feature extraction method for lip–reading. In: Proceedings of the 2006 International Conference on Intelligent Information Hiding and Multimedia. Pasadena, USA: IEEE, 2006. 321−326.
    [33] 33 Ojala T, Pietikäinen M, Harwood D. A comparative study of texture measures with classification based on featured distributions. Pattern Recognition, 1996, 29(1): 51−59 doi:  10.1016/0031-3203(95)00067-4
    [34] 34 Ojala T, Pietikäinen M, Mäenpää T. Multiresolution gray–scale and rotation invariant texture classification with local binary patterns. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2002, 2002(7): 971−987
    [35] 35 Zhao G and Pietikäinen M. Dynamic texture recognition using local binary patterns with an application to facial expressions. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2007, 2007(6): 915−928
    [36] 36 Zhao G, Barnard M and Pietikäinen M. Lipreading with local spatiotemporal descriptors. IEEE Transactions on Multimedia, 2009, 11(7): 1254−1265 doi:  10.1109/TMM.2009.2030637
    [37] Rahmani M H, Almasganj F. Lip–reading via a DNN–HMM hybrid system using combination of the image–based and model–based features. In: Proceedings 2017 3rd International Conference on Pattern Recognition and Image Analysis. Shahrekord, Iran: IEEE, 2017. 195−199.
    [38] Zhou Z, Zhao G, Pietikäinen M. Lipreading: a graph embedding approach. In: Proceedings of 2010 20th International Conference on Pattern Recognition. Istanbul, Turkey: IEEE, 2010. 523−526.
    [39] Zhou Z, Zhao G, Pietikäinen M. Towards a practical lipreading system. In: Proceedings of IEEE Conference on Computer Vision and Pattern Recognition. Colorado, USA: IEEE, 2011. 137−144.
    [40] 40 Aleksic P S, Williams, J J, Wu Z, Katsaggelos A K. Audio–visual speech recognition using MPEG–4 compliant visual features. EURASIP Journal on Applied Signal Processing, 2002, 2002(1): 1213−1227
    [41] Brooke N M. Using the visual component in automatic speech recognition. In: Proceedings of 4th International Conference on Spoken Language Processing. Philadelphia, USA: IEEE, 1996. 1656−1659.
    [42] 42 Cetingul H E, Yemez Y, Erzin E, Tekalp A M. Discriminative analysis of lip motion features for speaker identification and speech–reading. IEEE Transactions on Image Processing, 2006, 15(10): 2879−2891 doi:  10.1109/TIP.2006.877528
    [43] 43 Nefian A V, Liang L, Pi X, Liu X and Murphy K. Dynamic Bayesian networks for audio–visual speech recognition. EURASIP Journal on Advances in Signal Processing, 2002, 2002(11): 783042 doi:  10.1155/S1110865702206083
    [44] 44 Roweis S, Sau L. Nonlinear dimensionality reduction by locally linear embedding. Science, 2000, 290(5500): 2323−2326 doi:  10.1126/science.290.5500.2323
    [45] 45 Tenenbaum J, Silva V, Langford J C. A global geometric framework for nonlinear dimensionality reduction. Science, 2000, 290(5500): 2319−2323 doi:  10.1126/science.290.5500.2319
    [46] Fu Y, Zhou X, Liu M, Hasegawa–Johnson M, Huang T S. Lipreading by locality discriminant graph. In: Proceedings 2007 IEEE International Conference on Image Processing. San Antonio, USA: IEEE, 2007. 325−328
    [47] 47 Zhou Z, Hong X, Zhao G, Pietikäinen M. A compact representation of visual speech data using latent variables. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2013, 36(1): 1−1
    [48] Pei Y, Kim T, Zha H. Unsupervised random forest manifold alignment for lipreading. In: Proceedings of the IEEE International Conference on Computer Vision. Sydney, Australia: IEEE, 2013. 129−136
    [49] Dalal N, Triggs B. Histograms of oriented gradients for human detection. In: Proceedings of International Conference on Computer Vision and Pattern Recognition. San Diego, USA: IEEE, 2005. 886−893
    [50] 50 Rekik A, Ben–Hamadou A, Mahdi W. An adaptive approach for lip–reading using image and depth data. Multimedia Tools and Applications, 2016, 75(14): 8609−8636 doi:  10.1007/s11042-015-2774-3
    [51] Wand M, Koutník J, Schmidhuber J. Lipreading with long short–term memory. In: Proceedings of 2016 IEEE International Conference on Acoustics, Speech and Signal Processing. Shanghai, China: IEEE, 2016. 6115−6119
    [52] 52 Horn B K P, Schunck B G. Determining optical flow. Artificial Intelligence, 1981, 17(1-3): 185−203 doi:  10.1016/0004-3702(81)90024-2
    [53] 53 Bouguet J Y. Pyramidal implementation of the affine lucas kanade feature tracker description of the algorithm. Intel Corporation, 2001, 5(1-10): 4
    [54] Lucas B D, Kanade T. An iterative image registration technique with an application to stereo vision. 1981.
    [55] Petridis S, Pantic M. Deep complementary bottleneck features for visual speech recognition. In: Proceedings of 2016 IEEE International Conference on Acoustics, Speech and Signal Processing. Shanghai, China: IEEE, 2016. 2304−2308
    [56] 56 Dupont S, Luettin J. Audio–visual speech modeling for continuous speech recognition. IEEE Transactions on Multimedia, 2000, 2(3): 141−151 doi:  10.1109/6046.865479
    [57] Neti C, Potamianos G, Luettin J, et al. Audio visual speech recognition. IDIAP, 2000.
    [58] Hazen T J, Saenko K, La C, Glass J R. A segment–based audio–visual speech recognizer: Data collection, development, and initial experiments. In: Proceedings of the 6th International Conference on Multimodal Interfaces. State College, PA, USA: ACM, 2004. 235−242
    [59] 59 Bozkurt E, Erdem C E, Erzin E, Erdem T, Ozkan M. Comparison of phoneme and viseme based acoustic units for speech driven realistic lip animation. 2007 3DTV Conference. IEEE, 2007: 1−4
    [60] Gagne M, Ofek Y. Data processing method and apparatus for enabling independent access to replicated data, U. S. Patent 6581143, 2003–6–17
    [61] Lan Y, Harvey R, Theobald B, Ong E, Bowden R. Comparing visual features for lipreading. In: Proceedings of International Conference on Auditory–Visual Speech Processing. Norwich, UK: 2009. 102−106
    [62] Chan M T. HMM–based audio–visual speech recognition integrating geometric–and appearance–based visual features. In: Proceedings of IEEE 4th Workshop on Multimedia Signal Processing. IEEE. 2001. 9−14
    [63] 63 King S, Frankel J, Livescu K, McDermott E, Richmond K, Wester M. Speech production knowledge in automatic speech recognition. The Journal of the Acoustical Society of America, 2007, 121(2): 723−742 doi:  10.1121/1.2404622
    [64] 64 Kirchhoff K, Fink G A, Sagerer G. Combining acoustic and articulatory feature information for robust speech recognition. Speech Communication, 2002, 37(3-4): 303−319 doi:  10.1016/S0167-6393(01)00020-6
    [65] 65 Cootes T F, Taylor C J, Cooper D H, Graham J. Active shape models–their training and application. Computer Vision and Image Understanding, 1995, 61(1): 38−59 doi:  10.1006/cviu.1995.1004
    [66] Luettin J, Thacker N A, Beet S W. Speechreading using shape and intensity information. In: Proceeding of 4th International Conference on Spoken Language Processing. Philadelphia, USA: IEEE, 1996. 58−61
    [67] 67 Luettin J, Thacker N A. Speechreading using probabilistic models. Computer Vision and Image Understanding, 1997, 65(2): 163−178 doi:  10.1006/cviu.1996.0570
    [68] Matthews I, Potamianos G, Neti C, Luettin J. A comparison of model and transform–based visual features for audio–visual LVCSR. IEEE International Conference on Multimedia and Expo. Tokyo, Japan: IEEE, 2001. 825−828
    [69] 69 Cootes T F, Edwards G J, Taylor C J. Active appearance models. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2001, 2001(6): 681−685
    [70] 70 Fu Y, Yan S, Huang T S. Classification and feature extraction by simplexization. IEEE Transactions on Information Forensics and Security, 2008, 3(1): 91−100 doi:  10.1109/TIFS.2007.916280
    [71] Livescu K, Cetin O, Hasegawa–Johnson M, King S, Bartels C, Borges N, et al. Articulatory feature–based methods for acoustic and audio–visual speech recognition: summary from the 2006 JHU summer workshop. In: Proceedings of IEEE International Conference on Acoustics, Speech and Signal Processing. Honolulu, USA: IEEE. 2007. IV−621
    [72] Kirchhoff K. Robust speech recognition using articulatory information. 1999.
    [73] Saenko K, Livescu K, Glass J, Darrell T. Production domain modeling of pronunciation for visual speech recognition. In: Proceeding of IEEE International Conference on Acoustics, Speech, and Signal Processing. Philadelphia, USA: IEEE. 2005. V−473
    [74] 74 Saenko K, Livescu K, Glass J, Darrell T. Multistream articulatory feature–based models for visual speech recognition. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2009, 31(9): 1700−1707 doi:  10.1109/TPAMI.2008.303
    [75] Saenko K, Livescu K, Siracusa M, Wilson K, Glass J, Darrell T. Visual speech recognition with loosely synchronized feature streams. In: Proceeding of the 10th IEEE International Conference on Computer Vision. Beijing, China: IEEE. 2005. 1424−1431
    [76] 76 Papcun G, Hochberg J, Thomas T R, Laroche F, Zacks J, Levy S. Inferring articulation and recognizing gestures from acoustics with a neural network trained on x–ray microbeam data. The Journal of the Acoustical Society of America, 1992, 92(2): 688−700 doi:  10.1121/1.403994
    [77] Proakis J, Deller J R, Hansen J H L. Discrete–time processing of speech signals. New York, Macrnillan Pub. Co, 1993
    [78] Rabiner L R, Juang B H, Rutledge J C. Fundamentals of speech recognition. Englewood Cliffs: PTR Prentice Hall, 1993
    [79] 79 Young S, Evermann G, Gales M, Hain T, Kershaw D, Liu X, et al. The HTK book. Cambridge University Engineering Department, 2002, 2002(3): 175
    [80] Povey D, Ghoshal A, Boulianne G, Burget L, Glembek O, Goel N, et al. The kaldi speech recognition toolkit. IEEE 2011 Workshop on Automatic Speech Recognition and Understanding. IEEE Signal Processing Society. 2011
    [81] 81 Hinton G E, Salakhutdinov R R. Reducing the dimensionality of data with neural networks. Science, 2006, 313(5786): 504−507 doi:  10.1126/science.1127647
    [82] 刘丽, 赵凌君, 郭承玉, 王亮, 汤俊. 图像纹理分类方法研究进展和展望. 自动化学报, 2018, 44(4): 584−607

    82 Liu Li, Zhao Ling–Jun, Guo Cheng–Yu, Wang Liang, Tang Jun. Texture classification: state–of–the–art methods and prospects. Acta Automatica Sinica, 2018, 44(4): 584−607
    [83] 83 Krizhevsky A, Sutskever I, Hinton G E. Imagenet classification with deep convolutional neural networks. Advances in Neural Information Processing Systems, 2012: 1097−1105
    [84] Gers F A, Schmidhuber J, Cummins F. Learning to forget: Continual prediction with LSTM. 1999.
    [85] Chung J, Gulcehre C, Cho K, Bengio Y. Empirical evaluation of gated recurrent neural networks on sequence modeling. arXiv preprint arXiv:1412.3555, 2014
    [86] Ngiam J, Khosla A, Kim M, Nam J, Lee H, Ng A Y. Multimodal deep learning. In: Proceeding of the 28th International Conference on Machine Learning. Washington, USA: ACM, 2011. 689−696
    [87] Salakhutdinov R, Mnih A, Hinton G. Restricted Boltzmann machines for collaborative filtering. In: Proceedings of the 24th International Conference on Machine Learning. Corvallis, USA: ACM, 2007. 791−798
    [88] Huang J, Kingsbury B. Audio–visual deep learning for noise robust speech recognition. In: Proceedings of 2013 IEEE International Conference on Acoustics, Speech and Signal Processing. Vancouver, Canada: IEEE, 2013. 7596−7599
    [89] Ninomiya H, Kitaoka N, Tamura S, Iribe Y, Takeda K. Integration of deep bottleneck features for audio–visual speech recognition. In: the 16th Annual Conference of the International Speech Communication Association. 2015
    [90] Sui C, Bennamoun M, Togneri R. Listening with your eyes: Towards a practical visual speech recognition system using deep boltzmann machines. In: Proceedings of the IEEE International Conference on Computer Vision. Santiago, Chile: IEEE, 2015. 154−162
    [91] 91 Noda K, Yamaguchi Y, Nakadai K, Okuno H G, Ogata T. Audio–visual speech recognition using deep learning. Applied Intelligence, 2015, 42(4): 722−737 doi:  10.1007/s10489-014-0629-7
    [92] Hu D, Li X. Temporal multimodal learning in audiovisual speech recognition. In: Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas, USA: IEEE, 2016. 3574−3582
    [93] Chung J S, Zisserman A. Lip reading in the wild. In: Proceedings of Asian Conference on Computer Vision. Taiwan, China: Springer, 2016. 87−103
    [94] Chung J S, Zisserman A. Out of time: automated lip sync in the wild. In: Proceedings of Asian Conference on Computer Vision. Taiwan, China: Springer, 2016. 251−263
    [95] Chen L, Li Z, K Maddox R, Duan Z, Xu C. Lip Movements Generation at a Glance. In: Proceedings of the European Conference on Computer Vision. Munich, Germany: IEEE, 2018. 520−535
    [96] Garg A, Noyola J, Bagadia S. Lip reading using CNN and LSTM. Technical report, Stanford University, CS231n Project Report, 2016
    [97] Lee D, Lee J, Kim K E. Multi–view automatic lip–reading using neural network. In: Proceedings of Asian Conference on Computer Vision. Taiwan, China: Springer, 2016. 290−302
    [98] Assael Y M, Shillingford B, Whiteson S, De F N. Lipnet: end–to–end sentence–level lipreading. arXiv preprint arXiv:1611.01599, 2016
    [99] 99 Le Cornu T, Milner B. Generating intelligible audio speech from visual speech. IEEE ACM Transactions on Audio, Speech, and Language Processing, 2017, 25(9): 1751−1761
    [100] Graves A, Fernández S, Gomez F, Schmidhuber J. Connectionist temporal classification: labelling unsegmented sequence data with recurrent neural networks. In: Proceedings of the 23rd International Conference on Machine Learning. Pennsylvania, USA: ACM, 2006. 369−376
    [101] Stafylakis T, Tzimiropoulos G. Combining residual networks with LSTMs for lipreading. arXiv preprint arXiv:1703.04105, 2017
    [102] He K, Zhang X, Ren S, Sun J. Deep residual learning for image recognition. In: Proceedings of the IEEE conference on computer vision and Pattern Recognition. Las Vegas, USA: 2016. 770−778
    [103] Petridis S, Stafylakis T, Ma P, Cai F, Tzimiropoulos G, Pantic M. End–to–end audiovisual speech recognition. In: Proceedings of 2018 IEEE International Conference on Acoustics, Speech and Signal Processing. Calgary, Canada: IEEE, 2018. 6548−6552
    [104] Fung I, Mak B. End–To–End Low–Resource Lip–Reading with Maxout Cnn and Lstm. In: Proceedings of 2018 IEEE International Conference on Acoustics, Speech and Signal Processing. Calgary, Canada: IEEE, 2018. 2511−2515
    [105] 105 Sutskever I, Vinyals O, Le Q V. Sequence to sequence learning with neural networks. Advances in Neural Information Processing Systems, 2014: 3104−3112
    [106] Bahdanau D, Cho K, Bengio Y. Neural machine translation by jointly learning to align and translate. arXiv preprint arXiv:1409.0473, 2014
    [107] Chung J S, Senior A, Vinyals O, Zisserman A. Lip reading sentences in the wild. In: Proceedings of 2017 IEEE Conference on Computer Vision and Pattern Recognition. Hawaii, USA: IEEE, 2017. 3444−3453
    [108] Chung J S, Zisserman A. Lip reading in profile. 2017
    [109] Xu K, Li D, Cassimatis N, Wang X. LCANet: end–to–end lipreading with cascaded attention–CTC. 2018 13th IEEE International Conference on Automatic Face & Gesture Recognition. Xi’an, China: IEEE, 2018. 548−555
    [110] 110 Srivastava R K, Greff K, Schmidhuber J. Training very deep networks. Advances in Neural Information Processing Systems, 2015: 2377−2385
    [111] 黄雅婷, 石晶, 许家铭, 徐波. 鸡尾酒会问题与相关听觉模型的研究现状与展望. 自动化学报, 2019, 45(2): 234−251

    111 Huang Ya–Ting, Shi Jing, Xu Jia–Ming, Xu Bo. Research advances and perspectives on the cocktail party problem and related auditory models. Acta Automatica Sinica, 2019, 45(2): 234−251
    [112] Wand M, Schmidhuber J. Improving speaker–independent lipreading with domain–adversarial training. arXiv preprint arXiv:1708.01565, 2017
    [113] Wand M, Schmidhuber J, Vu N T. Investigations on End–to–End Audiovisual Fusion. In: Proceedings of 2018 IEEE International Conference on Acoustics, Speech and Signal Processing. Calgary, Canada: IEEE, 2018. 3041−3045
    [114] Saitoh T, Zhou Z, Zhao G, Pietikäinen, M. Concatenated frame image based cnn for visual speech recognition. In: Proceedings of Asian Conference on Computer Vision. Taiwan, China: Springer, 2016. 277−289
    [115] Petridis S, Li Z, Pantic M. End–to–end visual speech recognition with LSTMs. In: Proceedings of 2017 IEEE International Conference on Acoustics, Speech and Signal Processing. New Orleans, USA: IEEE, 2017. 2592−2596
    [116] Petridis S, Wang Y, Li Z, Pantic M. End–to–end audiovisual fusion with LSTMS. arXiv preprint arXiv:1709.04343, 2017
    [117] Petridis S, Wang Y, Li Z, Pantic M. End–to–end multi–view lipreading. arXiv preprint arXiv:1709.00443, 2017
    [118] Petridis S, Shen J, Cetin D, Pantic M. Visual–Only Recognition of Normal, Whispered and Silent Speech. In: Proceedings of 2018 IEEE International Conference on Acoustics, Speech and Signal Processing. Calgary, Canada: IEEE, 2018. 6219−6223
    [119] Lin M, Chen Q, Yan S. Network in network. arXiv preprint arXiv:1312.4400, 2013
    [120] 120 Krizhevsky A, Sutskever I, Hinton G E. Imagenet classification with deep convolutional neural networks. Advances in Neural Information Processing Systems, 2012: 1097−1105
    [121] Szegedy C, Liu W, Jia Y, Sermanet P, Reed S, Anguelov D. In: Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Boston, USA: IEEE, 2015. 1−9
    [122] Moon S, Kim S, Wang H. Multimodal transfer deep learning with applications in audio–visual recognition. arXiv preprint arXiv:1412.3121, 2014
    [123] Afouras T, Chung J S, Zisserman A. Deep lip reading: a comparison of models and an online application. arXiv preprint arXiv:1806.06053, 2018
    [124] Chollet F. Xception: Deep learning with depthwise separable convolutions. In: Proceedings of the IEEE Conference on computer Vision and Pattern Recognition. Hawaii, USA: IEEE, 2017. 1251−1258
    [125] 125 Vaswani A, Shazeer N, Parmar N, Uszkoreit J, Jones L, Gomez A N, et al. Attention is all you need. Advances in Neural Information Processing Systems, 2017: 5998−6008
    [126] 126 Papandreou G, Katsamanis A, Pitsikalis V, Maragos P. Adaptive multimodal fusion by uncertainty compensation with application to audiovisual speech recognition. IEEE Transactions on Audio, Speech, and Language Processing, 2009, 17(3): 423−435 doi:  10.1109/TASL.2008.2011515
    [127] Hilder S, Harvey R W, Theobald B J. Comparison of human and machine–based lip–reading. In: Proceedings of International Conference on Auditory-Visual Speech Processing. Norwich, UK: 2009. 86−89
    [128] Lan Y, Theobald B J, Harvey R. View independent computer lip–reading. In: Proceedings of 2012 IEEE International Conference on Multimedia and Expo. Melbourne, Australia: IEEE, 2012. 432−437
    [129] Lan Y, Harvey R, Theobald B J. Insights into machine lip reading. In: Proceedings of 2012 IEEE International Conference on Acoustics, Speech and Signal Processing. Kyoto, Japan: IEEE, 2012. 4825−4828
    [130] Bear H L, Harvey R. Decoding visemes: improving machine lip–reading. In: Proceedings of 2016 IEEE International Conference on Acoustics, Speech and Signal Processing. Shanghai, China: IEEE, 2016. 2009−2013
    [131] 131 Matthews I, Cootes T F, Bangham J A, Cox S, Harvey R. Extraction of visual features for lipreading. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2002, 24(2): 198−213 doi:  10.1109/34.982900
    [132] Ortega A, Sukno F, Lleida E, Frangi A F, Miguel A, Buera L, et al. AV@CAR: a spanish multichannel multimodal corpus for in–vehicle automatic audio–visual speech recognition. In: the 4th International Conference On Language Resources and Evaluation. Lisbon, Portugal: Researchgate, 2004
    [133] Lee B, Hasegawa–Johnson M, Goudeseune C, Kamdar S, Borys S, Liu M, et al. AVICAR: audio–visual speech corpus in a car environment. In: the 8th International Conference on Spoken Language Processing. Jeju Island, South Korea: Speech, 2004
    [134] Messer K, Matas J, Kittler J, et al. XM2VTSDB: The extended M2VTS database. In: Proceedings of the 2nd International Conference on Audio and Video–Based Biometric Person Authentication. 1999. 964−966
    [135] Bailly–Bailliére E, Bengio S, Bimbot F, Hamouz M, Kittler J, Mariéthoz J, et al. The BANCA database and evaluation protocol. In: Proceedings of International Conference on Audio and Video–Based Biometric Person Authentication. Berlin, Germany: Springer, 2003. 625−638
    [136] Patterson E K, Gurbuz S, Tufekci Z, Gowdy J N. In: Proceedings of 2002 IEEE International Conference on Acoustics, Speech, and Signal Processing. Florida, USA: IEEE, 2002, II−2017
    [137] Fox N A, O’Mullane B A, Reilly R B. VALID: A new practical audio–visual database, and comparative results. In: Proceedings of International Conference on Audio–and Video–Based Biometric Person Authentication. Berlin, Germany: Springer, 2005. 777−786
    [138] Anina I, Zhou Z, Zhao G, Pietikäinen, M. OuluVS2: A multi–view audiovisual database for non–rigid mouth motion analysis. In: Proceedings of the 11th IEEE International Conference and Workshops on Automatic Face and Gesture Recognition. Ljubljana, Slovenia: IEEE, 2015. 1−−5
    [139] Goecke R, Millar J B. The audio–video Australian English speech data corpus AVOZES. In: Proceedings of the 8th International Conference on Spoken Language Processing. Germany: 2004. 2525−2528
    [140] Estival D, Cassidy S, Cox F, Burnham D. AusTalk: an audio–visual corpus of Australian English. 2014
    [141] 141 Igras M, Zió?ko B, Jadczyk T. Audiovisual database of Polish speech recordings. Studia Informatica, 2012, 33(2B): 163−172
    [142] Tamura S, Miyajima C, Kitaoka N. CENSREC–1–AV: an audio–visual corpus for noisy bimodal speech recognition. Auditory–Visual Speech Processing. 2010
    [143] 143 Huang J, Potamianos G, Connell J, Neti C. Audio–visual speech recognition using an infrared headset. Speech Communication, 2004, 44(1-4): 83−96 doi:  10.1016/j.specom.2004.10.007
    [144] Pass A, Zhang J, Stewart D. An investigation into features for multi–view lipreading. In: Proceedings of 2010 IEEE International Conference on Image Processing. Hong Kong, China: IEEE, 2417−2420
    [145] Chitu A G, Driel K, Rothkrantz L J M. Automatic lip reading in the Dutch language using active appearance models on high speed recordings. In: Proceedings of International Conference on Text, Speech and Dialogue. Berlin, Germany: Springer, 2010. 259−266
    [146] 146 Baltrušaitis T, Ahuja C, Morency L P. Multimodal machine learning: a survey and taxonomy. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2019, 41(2): 423−443 doi:  10.1109/TPAMI.2018.2798607
    [147] 147 Sanderson C, Paliwal K K. The vidtimit database. Idiap Communication, 2002: 02−06
    [148] Miao Y, Gowayyed M, Metze F. EESEN: End–to–end speech recognition using deep RNN models and WFST–based decoding. In: Proceedings of 2015 IEEE Workshop on Automatic Speech Recognition and Understanding. Arizona, USA: IEEE, 2015. 167−174
    [149] Lan Y, Theobald B J, Harvey R, Ong E J, Bowden R. Auditory–Visual Speech Processing, 2010
    [150] Rekik A, Ben–Hamadou A, Mahdi W. A new visual speech recognition approach for RGB–D cameras. In: Proceedings of International Conference Image Analysis and Recognition. Algarve, Portugal: Springer, 2014. 21−28
    [151] McCool C, Marcel S, Hadid A, Pietikäinen M, Matejka P, Cernock`y J, et al. Bi–modal person recognition on a mobile phone: using mobile phone data. In: Proceedings of 2012 IEEE International Conference on Multimedia and Expo Workshops. Melbourne, Australia: IEEE, 2012. 635−640
    [152] Howell D. Confusion modelling for lip–reading. University of East Anglia, 2015
    [153] 153 Harte N, Gillen E. TCD–TIMIT: An audio–visual corpus of continuous speech. IEEE Transactions on Multimedia, 2015, 17(5): 603−615 doi:  10.1109/TMM.2015.2407694
    [154] Verkhodanova V, Ronzhin A, Kipyatkova I. HAVRUS corpus: high–speed recordings of audio–visual Russian speech. In: Proceedings of International Conference on Speech and Computer. Budapest, Hungary: Springer, 2016. 338−345
    [155] Mroueh Y, Marcheret E, Goel V. Deep multimodal learning for audio–visual speech recognition. In: Proceedings of 2015 IEEE International Conference on Acoustics, Speech and Signal Processing. Queensland, Australia: IEEE, 2015. 2130−2134
    [156] Fernandez–Lopez A, Martinez O, Sukno F M. Towards estimating the upper bound of visual–speech recognition: The visual lip–reading feasibility database. 2017 12th IEEE International Conference on Automatic Face & Gesture Recognition. Washington, USA: IEEE, 2017. 208−215
    [157] 157 Cooke M, Barker J, Cunningham S, Shao X. An audio–visual corpus for speech perception and automatic speech recognition. The Journal of the Acoustical Society of America, 2006, 120(5): 2421−2424 doi:  10.1121/1.2229005
    [158] Vorwerk A, Wang X, Kolossa D. WAPUSK20–A Database for Robust Audiovisual Speech Recognition. In: Proceedings of 7th international conference on Language Resources and Evaluation. 2010
    [159] 159 Czyzewski A, Kostek B, Bratoszewski P, Kotus J, Szykulski M. An audio–visual corpus for multimodal automatic speech recognition. Journal of Intelligent Information Systems, 2017, 49(2): 167−192 doi:  10.1007/s10844-016-0438-z
    [160] Afouras T, Chung J S, Zisserman A. LRS3–TED: a large–scale dataset for visual speech recognition. arXiv preprint arXiv:1809.00496, 2018
    [161] Yang S, Zhang Y, Feng D, Yang M, Wang C, Xiao J, et al. LRW–1000: A Naturally–Distributed Large–Scale Benchmark for Lip Reading in the Wild. 2019 14th IEEE International Conference on Automatic Face and Gesture Recognition. Lille, France: IEEE, 2019. 1−8
    [162] Afouras T, Chung J S, Senior A, Vinyals O, Zisserman A. Deep audio–visual speech recognition. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2018
    [163] Shillingford B, Assael Y, Hoffman M W, Paine T, Hughes C, Prabhu U, et al. Large–scale visual speech recognition. arXiv preprint arXiv:1807.05162, 2018
    [164] http://www2.cmp.uea.ac.uk/ bjt/avletters/
    [165] http://avatcar.atspace.eu/
    [166] http://www.isle.illinois.edu/sst/AVICAR/information
    [167] http://www.ee.surrey.ac.uk/CVSSP/xm2vtsdb/
    [168] http://www.ee.surrey.ac.uk/CVSSP/banca/
    [169] http://users.cecs.anu.edu.au/roland/avozes.html
    [170] http://people.csail.mit.edu/siracusa/avdata/
    [171] https://mmspg.epfl.ch/downloads/valid/
    [172] http://research.nii.ac.jp/src/en/data.html
    [173] https://austalk.edu.au/about/corpus/
    [174] http://www.ee.oulu.fi/research/imag/OuluVS2/
    [175] https://ibug–avs.eu/
    [176] https://sites.google.com/site/achrafbenhamadou/–datasets/miracl–vc1
    [177] http://www.robots.ox.ac.uk/
    [178] http://vipl.ict.ac.cn/view−−database.phpid=14
    [179] http://spandh.dcs.shef.ac.uk/gridcorpus/
    [180] https://www.oulu.fi/cmvs/node/41315
    [181] http://conradsanderson.id.au/vidtimit/downloads
    [182] http://www.ee.surrey.ac.uk/Projects/LILiR/datasets.html
    [183] https://www.idiap.ch/dataset/mobio
    [184] https://sigmedia.tcd.ie/TCDTIMIT/
    [185] http://www.robots.ox.ac.uk/
    [186] http://fsukno.atspace.eu/Data.htmVLRF
    [187] 187 Tye–Murray N, Sommers M S, Spehar B. Audiovisual integration and lipreading abilities of older adults with normal and impaired hearing. Ear and Hearing, 2007, 28(5): 656−668 doi:  10.1097/AUD.0b013e31812f7185
    [188] 188 Akhtar Z, Micheloni C, Foresti G L. Biometric liveness detection: Challenges and research opportunities. IEEE Security and Privacy, 2015, 13(5): 63−72 doi:  10.1109/MSP.2015.116
    [189] Rekik A, Ben–Hamadou A, Mahdi W. Human machine interaction via visual speech spotting. In: Proceedings of International Conference on Advanced Concepts for Intelligent Vision Systems. Catania, Italy: Springer, 2015. 566−574
    [190] 190 Suwajanakorn, S, Seitz S M, Kemelmacher–Shlizerman I. Synthesizing obama: learning lip sync from audio. ACM Transactions on Graphics, 2017, 36(4): 95
    [191] Gabbay A, Shamir A, Peleg S. Visual speech enhancement. arXiv preprint arXiv:1711.08789, 2017
    [192] http://vipl.ict.ac.cn/homepage/mavsr/index.html
    [193] 193 Lee H, Ekanadham C, Ng A Y. Sparse deep belief net model for visual area V2. Advances in Neural Information Processing Systems, 2008: 873−880
    [194] Noda K, Yamaguchi Y, Nakadai K. Lipreading using convolutional neural network. In: Proceedings of the 15th Annual Conference of the International Speech Communication Association. Singapore: Speech, 2014
    [195] 195 Ji S, Xu W, Yang M. 3D convolutional neural networks for human action recognition. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2012, 35(1): 221−231
    [196] Thangthai K, Harvey R W, Cox S J, Theobald B J. Improving lip–reading performance for robust audiovisual speech recognition using DNN. In: Proceedings of The International Conference on Auditory-Visual Speech Processing. Vienna, Austria: Speech, 2015. 127−131
    [197] Almajai I, Cox S, Harvey R, Lan Y. Improved speaker independent lip reading using speaker adaptive training and deep neural networks. In: Proceedings of IEEE International Conference on Acoustics, Speech and Signal Processing. Shanghai, China: IEEE, 2016. 2722−2726
    [198] 198 Herath S, Harandi M, Porikli F. Going deeper into action recognition: A survey. Image and Vision Computing, 2017, 60(1): 4−21
    [199] Chaudhari S, Polatkan G, Ramanath R, Mithal V. An attentive survey of attention models. arXiv preprint arXiv:1904.02874, 2019
    [200] Wang F, Tax D M J. Survey on the attention based RNN model and its applications in computer vision. arXiv preprint arXiv:1601.06823, 2016
    [201] 201 Russakovsky O, Deng J, Su H, Krause J, Satheesh S, Ma S, et al. Imagenet large scale visual recognition challenge. International Journal of Computer Vision, 2015, 115(3): 211−252 doi:  10.1007/s11263-015-0816-y
    [202] Simonyan K, Zisserman A. Very deep convolutional networks for large–scale image recognition. arXiv preprint arXiv:1409.1556, 2014
    [203] Huang G, Liu Z, Van Der Maaten L, Weinberger K Q. Densely connected convolutional networks. In: Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Hawaii, USA: IEEE, 2017. 4700−4708
    [204] Hu J, Shen L, Sun G. Squeeze–and–excitation networks. In: Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Utah, USA: IEEE, 2018. 7132−7141
    [205] 205 Mase K, Pentland A. Automatic lipreading by opticalflow analysis. Systems and Computers in Japan, 1991, 22(6): 67−76 doi:  10.1002/scj.4690220607
    [206] Pietikäinen M, Hadid A, Zhao G, Ahonen T. Computer vision using local binary patterns. Springer Science and Business Media, 2011
    [207] 207 Liu L, Chen J, Fieguth P, Zhao G, Chellappa R, Pietikäinen M. From BoW to CNN: two decades of texture representation for texture classification. International Journal of Computer Vision, 2019, 127(1): 74−109 doi:  10.1007/s11263-018-1125-z
    [208] 刘丽, 谢毓湘, 魏迎梅, 老松杨. ”局部二进制模式方法综述. ” 中国图象图形学报, 2014, 19(12): 1696−1720

    208 Liu L, Xie Y X, Wei Y M, Lao S Y. Survey of Local Binary pattern method. Joumal of Image and Graphics, 2014, 19(12): 1696−1720
    [209] Shaikh A A, Kumar D K, Yau W C, Azemin M C, Gubbi J. Lip reading using optical flow and support vector machines. In: Proceedings of the 3rd International Congress on Image and Signal Processing. Yantai, China: IEEE, 2010. 327−330
    [210] Goldschen A J, Garcia O N, Petajan E. Continuous optical automatic speech recognition by lipreading. In: Proceedings of the 28th Asilomar Conference on Signals, Systems and Computers. IEEE, 1994. 572−577
    [211] Dosovitskiy A, Fischer P, Ilg E, Hausser P, Hazirbas C, Golkov V, et al. Flownet: Learning optical flow with convolutional networks. In: Proceedings of the IEEE International Conference on Computer Vision. Santiago, Chile: IEEE, 2015. 2758−2766
    [212] Ilg E, Mayer N, Saikia T, Keuper M, Dosovitskiy A, Brox T. Flownet 2.0: Evolution of optical flow estimation with deep networks. In: Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Hawaii, USA: IEEE, 2017. 2462−2470
    [213] 213 Simonyan K, Zisserman A. Two–stream convolutional networks for action recognition in videos. Advances in Neural Information Processing Systems, 2014: 568−576
    [214] Feichtenhofer C, Pinz A, Zisserman A. Convolutional two–stream network fusion for video action recognition. In: Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas, USA: IEEE, 2016. 1933−1941
    [215] 215 Jaderberg M, Simonyan K, Zisserman A. Spatial transformer networks. Advances in Neural Information Processing Systems, 2015: 2017−2025
    [216] Bhagavatula C, Zhu C, Luu K, Savvides M. Faster than real–time facial alignment: a 3d spatial transformer network approach in unconstrained poses. In: Proceedings of the IEEE International Conference on Computer Vision. Venice, Italy: IEEE, 2017. 3980−3989
    [217] Loizou P C. Speech enhancement: theory and practice. CRC press, 2013
    [218] Hou J C, Wang S S, Lai Y H, Tsao Y, Chang H W, Wang, H M. Audio–visual speech enhancement based on multimodal deep convolutional neural network. arXiv preprint arXiv:1703.10893, 2017
    [219] Ephrat A, Halperin T, Peleg S. Improved speech reconstruction from silent video. In: Proceedings of International Conference on Computer Vision. Venice, Italy: IEEE, 2017. 455−462
    [220] Gabbay A, Shamir A, Peleg S. Visual speech enhancement. In: Proceedings of Interspeech. Hyderabad, India: Interspeech, 2018. 1170−1174
    [221] https://www.who.int/news–room/fact–sheets/detail/deafness–and–hearing–loss
    [222] Jankowski C, Kalyanswamy A, Basson S, Spitz J. NTIMIT: a phonetically balanced, continuous speech, telephone bandwidth speech database. In: Proceedings of International Conference on Acoustics, Speech, and Signal Processing. New Mexico, USA: IEEE, 1990. 109−112
    [223] Akbari H, Arora H, Cao L, Mesgarani N. Lip2AudSpec: speech reconstruction from silent lip movements video. In: Proceedings of 2018 IEEE International Conference on Acoustics, Speech and Signal Processing. Calgary, Canada: IEEE, 2018. 2516−2520
    [224] Liu L, Ouyang W, Wang X, Fieguth P, Chen J, Liu X, Pietikäinen M. Deep learning for generic object detection: A survey. arXiv preprint arXiv:1809.02165, 2018
    [225] Long J, Shelhamer E, Darrell T. Fully convolutional networks for semantic segmentation. In: Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Boston, USA: IEEE, 2015. 3431−3440
    [226] Graves A, Mohamed A, Hinton G. Speech recognition with deep recurrent neural networks. In: Proceedings of 2013 IEEE international Conference on Acoustics, Speech and Signal Processing. Vancouver, Canada: IEEE, 2013. 6645−6649
    [227] 227 LeCun Y, Bengio Y, Hinton G. Deep learning. Nature, 2015, 521(7553): 436 doi:  10.1038/nature14539
  • [1] 吴高昌, 刘强, 柴天佑, 秦泗钊. 基于时序图像深度学习的电熔镁炉异常工况诊断[J]. 自动化学报, doi: 10.16383/j.aas.c180453
    [2] 陈加, 张玉麒, 宋鹏, 魏艳涛, 王煜. 深度学习在基于单幅图像的物体三维重建中的应用[J]. 自动化学报, doi: 10.16383/j.aas.2018.c180236
    [3] 罗浩, 姜伟, 范星, 张思朋. 基于深度学习的行人重识别研究进展[J]. 自动化学报, doi: 10.16383/j.aas.c180154
    [4] 刘丽, 赵凌君, 郭承玉, 王亮, 汤俊. 图像纹理分类方法研究进展和展望[J]. 自动化学报, doi: 10.16383/j.aas.2018.c160452
    [5] 李文英, 曹斌, 曹春水, 黄永祯. 一种基于深度学习的青铜器铭文识别方法[J]. 自动化学报, doi: 10.16383/j.aas.2018.c180152
    [6] 胡长胜, 詹曙, 吴从中. 基于深度特征学习的图像超分辨率重建[J]. 自动化学报, doi: 10.16383/j.aas.2017.c150634
    [7] 陈伟宏, 安吉尧, 李仁发, 李万里. 深度学习认知计算综述[J]. 自动化学报, doi: 10.16383/j.aas.2017.c160690
    [8] 罗建豪, 吴建鑫. 基于深度卷积特征的细粒度图像分类研究综述[J]. 自动化学报, doi: 10.16383/j.aas.2017.c160425
    [9] 张慧, 王坤峰, 王飞跃. 深度学习在目标视觉检测中的应用进展与展望[J]. 自动化学报, doi: 10.16383/j.aas.2017.c160822
    [10] 耿杰, 范剑超, 初佳兰, 王洪玉. 基于深度协同稀疏编码网络的海洋浮筏SAR图像目标识别[J]. 自动化学报, doi: 10.16383/j.aas.2016.c150425
    [11] 唐朝辉, 朱清新, 洪朝群, 祝峰. 基于自编码器及超图学习的多标签特征提取[J]. 自动化学报, doi: 10.16383/j.aas.2016.c150736
    [12] 金连文, 钟卓耀, 杨钊, 杨维信, 谢泽澄, 孙俊. 深度学习在手写汉字识别中的应用综述[J]. 自动化学报, doi: 10.16383/j.aas.2016.c150725
    [13] 朱煜, 赵江坤, 王逸宁, 郑兵兵. 基于深度学习的人体行为识别算法综述[J]. 自动化学报, doi: 10.16383/j.aas.2016.c150710
    [14] 奚雪峰, 周国栋. 面向自然语言处理的深度学习研究[J]. 自动化学报, doi: 10.16383/j.aas.2016.c150682
    [15] 侯志强, 韩崇昭. 视觉跟踪技术综述[J]. 自动化学报
    [16] 胡斌, 何克忠. 计算机视觉在室外移动机器人中的应用[J]. 自动化学报
    [17] 邱茂林, 马颂德, 李毅. 计算机视觉中摄像机定标综述[J]. 自动化学报
    [18] 徐守义, 齐容刚, 于东刚, 刘军, 王承训. 计算机视觉控制系统在显象管灯丝二次绕线机中的应用[J]. 自动化学报
    [19] 吴成柯, 邓世伟, 陆心如. 计算机视觉中三维位置信息的误差估计[J]. 自动化学报
    [20] 徐文立. 计算机视觉的PNP问题的最优解[J]. 自动化学报
  • 加载中
图(18) / 表(4)
计量
  • 文章访问数:  377
  • HTML全文浏览量:  172
  • PDF下载量:  11
  • 被引次数: 0
出版历程
  • 收稿日期:  2019-07-16
  • 录用日期:  2019-11-16
  • 网络出版日期:  2019-12-19

唇读研究进展与展望

doi: 10.16383/j.aas.c190531
    作者简介:

    国防科技大学电子科学学院博士研究生. 主要研究方向为计算机视觉, 模式识别. E-mail: sheng_cc@nudt.edu.cn

    国防科技大学系统工程学院硕士研究生. 主要研究方向为计算机视觉与模式识别. E-mail: chenxiaoding14@nudt.edu.cn

    国防科技大学电子科学学院教授、博士生导师. 主要研究方向为遥感图像处理, 目标识别. E-mail: kuanggangyao@nudt.edu.cn

    国防科技大学系统工程学院副教授. 主要研究方向为图像理解, 计算机视觉, 模式识别. 本文通信作者. E-mail: liuli_nudt@nudt.edu.cn

基金项目:  国家自然科学基金(61872379)资助

摘要: 唇读, 也称视觉语言识别, 旨在通过说话者嘴唇运动的视觉信息, 解码出其所说文本内容. 唇读是计算机视觉和模式识别领域的一个重要问题, 在公共安防、医疗、国防军事和影视娱乐等领域有着广泛的应用价值. 近年来, 深度学习技术极大地推动了唇读研究进展. 本文首先阐述了唇读研究的内容和意义, 并深入剖析了唇读研究面临的难点与挑战; 然后介绍了目前唇读研究的现状与发展水平, 对近期主流唇读方法进行了梳理、归类和评述, 包括传统方法和近期的基于深度学习的方法; 最后, 探讨唇读研究潜在的问题和可能的研究方向. 以期引起大家对唇读问题的关注与兴趣, 并推动与此相关问题的研究进展.

English Abstract

  • 语言是人类沟通交流的主要方式, 麦格克效应[1]表明, 人类在感知语言信息的过程中会受到听觉和视觉的双重作用, 即音频和视频同时包含着语言信息. 因此, 根据信号源的不同可以将语言感知任务分为语音识别(Audio Speech Recognition, ASR)、视觉语言识别(Visual Speech Recognition, VSR) 以及音 − 视双模态融合识别(Audio-Visual Speech Recognition, AVSR). 其中, 视觉语言识别又称为唇读(Automatic Lip Reading, ALR). 如图1所示, 是指根据说话者的嘴唇运动的视觉信息解码出其所说文本内容的任务. 虽然对语言感知任务来说, 音频信息包含的信息量更为丰富, 但Potamianos等[3]的研究表明, 利用视觉信息能够增强语音识别的精确度和鲁棒性. 此外, 当音频信息受损或者音频信息不可用的情况下, 高效利用视觉信息进行语言识别就变得至关重要[1, 7]. 唇读技术在诸多领域具有广泛的应用. 在语音识别领域, 唇读技术可以用于辅助语音识别系统, 提高其在嘈杂环境等不利情况下的识别性能; 在健康医疗领域, 据世界卫生组织最新数据[221]显示, 全世界有听力障碍相关疾病的人数近几年有明显的上升趋势, 借助唇读技术能够有效辅助患有听力障碍的病人解决沟通交流问题[187]; 在公共安全领域, 引入唇读技术生成唇语密码, 借助其难复制性和高动态特性有助于活体检测[188], 配合其他静态生物特征(指纹、人脸、虹膜等)识别技术能够进一步提高安防系统的安全性和可靠性; 在智能人机交互领域, 唇读技术能够提高交互的多样性和鲁棒性等[189]; 在视觉合成领域, 利用唇读技术可以生成特定人物高分辨率讲话场景的视频[190], 或者用于合成高真实感的虚拟人物动画等. 此外, 唇读技术在军事情报、安全监控等领域也具有潜在的应用价值.

    图  1  唇读示意图

    Figure 1.  Illustration of the lip reading task

    自从1976年麦格克效应被发现之后, 国内外大量的学者展开了对唇读方法的研究. 在近40年的研究过程中, 各种唇读方法层出不穷. 但不可避免的是, 由于早期视觉语言数据集限定条件多、规模较小, 且唇读任务的影响因素较多难度较大, 这些方法在面向大规模识别任务时的正确率较低. 近几年, 深度学习技术发展给计算机视觉、语音识别和自然语言处理领域的诸多问题都带来突破性的进展. 同样地, 深度学习技术也为唇读研究注入了新的活力, 开始吸引研究者的关注, 出现了一些基于深度学习的唇读新方法, 唇读问题也取得较大的进展, 逐渐从限定条件的实验环境数据(限定词汇量、限定说话人、限定姿态等)走向现在的非限定环境唇读研究, 即Automatic Lip Reading in the Wild[93, 107]. 并且出现了很多新的研究和应用, 比如基于语音的跨模态唇动视频生成[95], 借助唇动视觉信息进行语音增强[191]、语音分离[111]、语音合成[223]等. 在实际的唇读任务中, 由于视觉信号存在影响因素多、时间分辨率低等问题, 目前的唇读方法暂未取得令人满意的结果. 以当前规模最大的视觉语言数据集LSVSR[163]为例, 目前在该数据集上的识别性能最佳的唇读方法V2P[163], 其单词识别率也仅有59.1 %, 远未达到实际应用需求. 但其识别能力远超人类唇读专家(单词识别率13.6 %), 充分表明自动唇读方法研究的重要性. 但不可否认的是, 该领域仍然存在许多困难和挑战未得到很好的解决, 唇读方法距离实际应用仍然存在很大的差距.

    鉴于自动唇读研究潜在的研究价值和应用价值, 以及深度学习技术在唇读问题上的显著进展, 近期国内外研究者对唇读问题的关注呈上升趋势. 国外比较具有代表性的研究单位主要有牛津大学、帝国理工学院、东安格利亚大学、Google Deepmind研究团队、芬兰奥卢大学、瑞士Dalle Molle人工智能研究所、三星美国研究院、亚利桑那州立大学等. 国内研究单位包括中科院计算所、哈尔滨工业大学、大连理工大学等. 近期, 中科院联合牛津大学、三星美国研究院以及帝国理工学院举办了第一届普通话的唇读竞赛[192].

    国内外已有不少学者对于唇读方法进行了综述, 其中代表性的工作有: 2004年, Potamianos等[2]分别对唇部视觉前端特征提取方法、语音和视觉后端特征融合方法进行了综述. 2014年, Zhou等[4]总结了视觉特征提取的三大问题, 即讲话者依赖性问题、头部姿态变化问题以及时序特征提取问题, 以问题为导向总结整合了视觉特征提取的主流方法, 同时也总结了语音和视觉特征动态融合方法. 2018年, Adriana等[5]以识别任务为导向对视觉语言数据集进行了总结, 同时也介绍了唇读领域的传统方法和基于深度学习的方法. 但是其侧重点更多在于已有的各种数据集, 以及各数据集下不同识别任务采用方法的分析和总结, 对不同唇读方法之间的比较和分析还不够深入, 且他们的总结的方法大多数是2018年以前的. 国内关于唇读方法的综述总结还是比较早期的综述, 例如2001年姚鸿勋等[6]的工作, 对于近几年内的方法, 特别是基于深度学习的唇读方法, 国内目前还没有系统全面的总结. 为了促进唇读及其相关拓展领域的研究发展, 鼓励更多感兴趣的学者参与到该领域的研究, 我们有必要对近期唇读相关研究成果进行归纳和总结. 为此, 本文系统地对唇读研究进行了综述, 对唇读问题存在的困难和挑战进行了分析, 对近期唇读研究进展进行了梳理、归纳、分析和总结, 在此基础上对唇读未来的研究方向进行了探讨.

    本文剩余章节内容安排如下. 1.1小节从唇读问题的定义出发, 对目前唇读研究存在的困难与挑战进行了分析和总结. 第2章节首先介绍了唇读方法的通用框架结构, 然后分别从传统方法和深度学习方法两方面对唇读的主流特征提取及分类方法的发展现状进行了梳理和归类总结, 详细阐述了不同框架下代表性方法的动机、原理、优势与不足, 揭示了各种方法之间的区别与联系. 第3章节对当前视觉语音数据集以及不同数据集下方法性能的结果对比进行了全面梳理和总结. 最后, 在第4章节中探讨了唇读及其相关拓展领域的未来发展方向.

    • 唇读, 是指根据说话者的嘴唇运动的视觉信息解码出其所说文本内容的任务. 在任务性质上, 唇读与音频语音识别具有相似性, 但更具挑战性. 二者的主要差别在于视频和音频数据源时空特性差异, 视觉信号的时间分辨率一般较低, 同时视觉信号的空间二维特性导致其特征空间的冗余, 相关特征提取的难度较大. 综上所述, 唇读的影响因素较多, 很具挑战性, 其主要难点与挑战总结如下.

      1) 视觉歧义. 视觉歧义的实质是在发音过程中语言内容在其视觉表现上的歧义性. 如图2(a)(b)所示, 视觉歧义主要有以下两种表现形式: ①不同发音具有相似甚至相同的视觉特性. 比如英语中辅音音素/p/和/b/(汉语中声母音素/p/和/b/) 视觉特性几乎相同, 因此在不考虑上下文的前提下, 二者几乎难以区分. ②相同单词在不同上下文条件下发音不同导致的视觉特性上的差异. 此外, 英语中的弱读、连读等发音规则也会导致视觉特性上的差异. 因此, 如何提升对于视觉歧义的鲁棒性是唇读技术面临的重要的难点之一.

      图  2  唇读难点示例. (a)第一行为单词place的实例, 第二行为单词please的实例, 唇形变化难以区分, 图片来自GRID数据集; (b)上下两行分别为单词wind在不同上下文环境下的不同读法/wind/与/waind/实例, 唇形变化差异较大; (c)上下两行分别为两位说话人说同一个单词after的实例, 唇形变化存在差异, 图片来自LRS3-TED数据集; (d)说话人在说话过程中头部姿态实时变化实例. 上述对比实例均采用相同的视频时长和采样间隔.

      Figure 2.  Challenging examples of lip reading. (a) The upper line is an instance of the word place, the lower line is an instance of the word please; (b) The upper and lower lines are respectively different pronunciation of word wind in different contexts; (c) The upper and lower lines respectively tell the same word after, with big difference in lip motion; (d) an example of a real-time change in the head posture of the speaker during the speech. The above comparison examples all use the same video duration and sampling interval.

      2) 讲话者依赖. 当前的唇读系统主要面向有限数目讲话者的识别, 而在实际应用中识别对象可能是未知讲话者. 如图2(c)所示, 不同讲话者发音习惯、唇部区域图像特征存在很大的差异, 图像区域内包含大量依赖于讲话者自身的信息, 这些信息对于唇读任务来说是无用的[13]. 在视觉特征提取阶段如何提取不依赖于讲话者的视觉特征是唇读的一个挑战.

      3) 姿态变化. 如图2(d)所示, 在实际情况下, 讲话者可能是侧面朝向相机, 甚至讲话者也有可能在讲话过程姿态实时变化, 而讲话者的姿态变化会导致图像上唇部区域的明显变化. 这一变化会对视觉特征提取产生很大的影响. 因此, 设计对于姿态变化具有鲁棒性的特征提取方法也是不可或缺的.

      4) 大规模连续唇语识别. 早期的唇读系统对于可识别的词汇规模进行了严格的限制(数字、字母或有限数量的单词), 这不可避免的也限制了唇读系统的可用性. 而当下的任务需求主要是面向大规模词汇量的连续语句识别, 相对于早期的识别任务来说难度显著提升, 开放性的词汇规模给唇读解码带来了巨大的挑战.

      除了上述的难点与挑战外, 解码的实时性问题、说话者面部表情、语速、视频帧率、视频时长、图像分辨率、环境条件如光照条件、背景条件、图像噪声等因素对于唇读也有很大的影响.

    • 唇读按照识别任务的不同, 总体上可以分为两类: ①有限类别(数字、字母、单词或短语)的孤立识别任务, 其输入与输出是多对一的关系, 这类任务在唇读发展的早期比较普遍, 一方面是用于降低唇读问题的难度, 便于早期的唇读方法的研究; 另一方面其本身也有一定的应用背景, 如说话人身份验证[167, 168]、人机交互的简单指令识别(如车辆自动控制[165, 166])等; ②基于最小识别单元(音素[8]、视素[9-11]、字符或单词)的连续识别任务. 输入与输出是多对多的关系, 这类任务更符合唇读的实际应用需求, 也是当前的研究重点.

      唇读算法的通用框架结构如图3所示, 主要包括以下四个步骤.

      图  3  唇读方法一般流程

      Figure 3.  The general process of lip reading

      人脸关键点检测与跟踪: 这一步骤主要目的是为了获得人脸关键特征点(眼角、鼻尖、唇角等)在序列图像中的精确定位, 以便于后续精确的提取唇部区域图像, 关键点检测的精度直接影响到后续唇部区域提取的准确性. 当前, 人脸关键点检测与跟踪同样是计算机视觉领域的一大研究热点, 关于人脸关键点检测与跟踪的研究进展由Wu等[14]和Chrysos等[15]进行了详细的总结和梳理, 本文中不再进行详细说明.

      唇部区域提取: 上文中我们提到, 唇读是通过对唇动视觉信息进行解码的任务, 所以只需要关注唇部区域的视觉信息, 这一步骤的主要目的是提取出每一帧图像的唇部区域获得唇动视频. 基于上一步人脸关键点检测的基础上, 利用唇部轮廓的关键点所在的位置信息, 进行唇部区域提取. 但是目前如何定义与唇读任务相关的唇部区域具体尺寸仍是一个开放性的问题, Koumparoulis等[16]在实验中证明, 不同的唇部区域的选择会对最终的识别结果产生影响, 但仍无法确定最优的唇部区域选择方案. 事实上, 当前大部分唇读研究工作仅将人脸关键点检测和唇部区域提取两个步骤当作数据预处理过程.

      时空特征提取: 这一部分属于唇读的核心研究内容, 也是决定唇读性能的关键所在. 其目的是从唇动视频中提取出紧致有效的特征向量, 以便于后续的解码识别. 本文在后续2.2节和2.3节中按照传统方法和深度学习方法两类对代表性的时空特征提取方法进行了详细的归类、分析和总结.

      分类与解码: 面向唇读任务的分类与解码方法的选择依托于任务需求以及视觉特征提取的形式, 前文中提到唇读任务可以分为孤立的识别任务和连续的识别任务. 前者一般将输入唇动视频序列作为整体进行特征提取, 利用支持向量机(Support Vector Machine, SVM)、模板匹配、最大后验概率(Maximum a Posteriori, MAP)、正则判别分析(Regularized Discriminant Analysis, RDA) 等模式识别领域传统方法作为分类器; 而后者则主要以隐马尔科夫模型(Hidden Markov Model, HMM)作为解码器. HMM能够有效地对连续序列的产生过程进行建模, HMM与高斯混合模型(Gaussian Mixture Model, GMM)在基于音频的语音识别领域应用已经非常成熟, 该方法能够较容易的迁移到唇读领域中, 因此本文中不再对其进行详细介绍, 感兴趣的读者可以参考音频语音识别领域的相关文献[77-80].

      对于唇读方法的研究最早可追溯到上世纪七十年代, 早期的唇读研究由于缺乏公开数据集的支持, 方法的有效性难以得到很好的验证. 在上世纪90年代末期, 第一个公开可用的视觉语言数据集AVLetters[131]被创建, 之后越来越多的公开数据集面世, 这些数据集为唇读方法研究奠定了良好的基础. 本节我们对近期的唇读方法进行了简单梳理和归类总结, 着重阐述了其中代表性的工作, 并揭示了不同方法之间的区别和联系.

      纵观唇读研究的历史进程, 从最早的唇部轮廓宽度、高度、宽高比等简单的几何特征到如今基于深度学习的高层抽象特征, 各种时空特征提取方法层出不穷. 在深度学习算法广泛应用到该领域之前, 也有很多唇读特征提取和分类方法, 本文中我们将这些方法统称为传统方法. 传统方法的特征提取以数据降维理论和依赖于专家知识的人工特征提取为主, 可以分为基于表观的、基于形状的和基于表观形状融合的特征提取三大类. 传统的唇读特征提取方法大多是面向理想环境下的唇读问题, 对于很多现实环境中唇读所面临的难点与挑战(参见前文总结的唇读任务的难点与挑战)进行了不同程度的约束, 并未系统全面的去考虑这些挑战对于特征提取的影响, 因此传统特征提取方法的实用性是比较有限的.

      相对于传统特征提取方法而言, 深度学习具有强大的特征学习和表达能力, 能够自动的从原始数据中学习得到强大的层次化的特征表达. 深度学习方法避免了传统方法中复杂的人工特征提取过程, 且在大规模数据的支持下, 其模型的表达能力能够得到进一步增强. 图4总结了唇读方法近二十年最具代表性的方法. 在2015年以前, Potamianos等提出的HiLDA[25]方法和Cootes等提出的AAM[69]模型是早期应用最为广泛最具代表性的传统视觉特征提取方法. 此外, LDG[46]、RFMA[48]等基于图嵌入的特征提取方法也受到广泛关注. 在2015年以后, 基于深度学习的特征提取方法逐渐成为主流, 出现了一些基于深度学习的特征提取和传统分类器结合的方法[86-92]. 然而传统分类器很快也被基于深度学习的分类器模型所替代, 这种传统与深度学习融合的方法也逐渐向端到端的深度学习方法转变, LipNet[98]、WLAS[107]、Transformer[123]、V2P[163]等各种基于深度学习的端到端唇读网络结构先后被提出, 端到端的唇读网络模型的识别性能相比于其他模型有明显的优势, 也是当前唇读关注的热点.

      图  4  唇读研究过程中代表性方法. 传统特征提取方法: 主动形状模型ASM[67], 主动表观模型AAM[69], HiLDA[25], LBP-TOP[36], 局部判别图模型[46], 图嵌入方法[39], 随机森林流行对齐RFMA[48], 隐变量方法[47]; 深度学习方法: DBN/CNN+HMM混合模型[86-92], SyncNet[94], LipNet[98], WLAS[107], Transformer[123], LCANet[109], V2P[163].

      Figure 4.  Representative methods in the process of lip reading research. Traditional feature extraction methods:ASM[67], AAM[69], HiLDA[25], LBP-TOP[36], LDG[46], Graph Embedding[39], RFMA[48], Hidden variable method[47]; Deep learning based methods: DBN/CNN+HMM hybrid model[86-92], SyncNet[94], LipNet[98], WLAS[107], Transformer[123], LCANet[109], V2P[163].

    • 对于唇读任务来说, 图像序列本身可以看成一个高维的特征空间, 包含大量与唇读任务无关的冗余信息(如姿态、环境光照、说话人肤色等), 而真正与唇读任务相关的是唇动信息, 如何有效的滤除冗余信息, 同时最大限度的保留唇动信息是时空特征提取关键所在. 时空特征提取旨在从高维的动态图像序列中提取紧致有效的特征, 以进行唇语预测. 便于总结, 我们将已有的传统时空视觉特征提取算法分为三类[2]: 基于表观的, 基于形状的以及二者结合的. 表1总结了这三类时空特征提取方法的代表性的算法以及其优缺点.

      表 1  传统时空特征提取算法优缺点总结

      Table 1.  A summary of advantages and disadvantages of traditional spatiotemporal feature extraction methods

      时空特征提取方法代表性方法优势不足
      基于表观的全局图像线性变换[25-30],
      图嵌入与流形[38-39, 46-48],
      LBP-TOP[35-36], HOG[49], 光流[11, 205]···
      ①特征提取速度快;
      ②无需复杂的人工建模.
      ①对唇部区域提取精度要求高;
      ②对环境变化、姿态变化、噪声敏感;
      ③不同讲话者之间泛化性能较差.
      基于形状的轮廓描述[40-43],
      AFs[72], 形状模型[65, 66]···
      ①具有良好的可解释性;
      ②不同讲话者之间泛化性能较好;
      ③能有效去除冗余信息.
      ①会造成部分有用信息丢失;
      ②需要大量的人工标注;
      ③对于姿态变化非常敏感.
      形状表观融合的形状+表观特征串联[56, 62],
      形状表观模型[69]···
      ①特征表达能力较强;
      ②不同讲话者之间泛化性能较好.
      ①模型复杂,运算量大;
      ②需要大量的人工标注.
    • 该类方法假设唇部区域内所有像素点都包含视觉语言相关的信息[2], 基于唇部区域的原始像素进行时空特征提取. 这类算法以唇部区域的像素值作为原始的特征空间, 通过不同的方式实现对原始像素特征的降维以获得紧致有效的特征向量.

      1) 全局图像线性变换方法

      在经过人脸关键点检测与跟踪以及唇部区域提取的过程后, 将唇部区域归一化到相同尺寸, 基于原始像素强度的特征表达, 存在信息冗余、特征维度高等局限性(以64×64大小的ROI为例, 每一帧图像的特征向量为4 096维), 不利于后续识别. 因此, 需要对原始特征空间进行变换/降维以获取紧致、鉴别力强的特征表达. 常用的线性降维方法包括主成分分析方法(Principal Component Analysis, PCA)[13]、离散余弦变换(Discrete Cosine Transform, DCT)[28]等无监督线性降维方法, 以及线性判别分析(Linear Discriminant Analysis, LDA)[28]、最大似然线性变换(Maximum Likelihood Linear Transformation, MLLT)[197]等有监督线性降维方法. Seymour等[31]比较了采用上述不同的图像变换方法(PCA、DCT、LDA) 的唇读系统在不同的图像退化条件下的鲁棒性以及识别精度, 实验证明不同的图像变换方法最优性能表现是相近的.

      在深度学习方法广泛应用之前, 基于图像线性变换的特征提取方法是最为常用的传统特征提取方法, 一般由多级线性变换组合得到. 线性变换可以分为帧内线性变换和帧间线性变换, 其一般流程如图5所示. 第一种线性变换本质上是提取单幅图像上视觉语言相关信息, 第二种特征变换旨在提取视频帧之间动态信息, 这种线性变换的组合能够有效的表示时空特征.

      图  5  线性变换特征提取方法一般流程

      Figure 5.  The workflow of linear transformation feature extraction method

      基于该框架最具代表性的算法为“HiLDA”, 由Potamianos等[25-29]提出, 应用于音-视融合的语音识别任务中作为视觉前端特征提取器, 并被广泛应用于各种唇读系统. 基于相同的框架, Lucey和Potamianos[30]在此基础上进一步考虑了局部特征, 将此框架同时应用于全局的特征提取与基于图像块(Patch-Based)的局部特征提取, 融合全局特征与局部特征, 进一步提高了识别精度. 线性变换方法实质上是从数据本身出发, 并非依赖于人工设计特征提取方法, 能够很好的与其他特征提取方法结合进一步实现特征降维. 如Lan等[149]使用主动表观模型(Active Appearance Model, AAM)[69]特征代替帧内线性变换, 之后将连续帧的AAM特征归一化后连接起来进行帧间线性变换提取时空特征.

      全局图像线性变换方法将时空特征提取过程分为两步进行, 第一步提取图像的空间特征, 第二步提取视频序列的时序动态特征, 两步均采用基于线性变换的降维方法. 对于线性空间中的数据, PCA和LDA都可以很好地得到高维数据的内在结构. 但就唇读任务本质上来说, 其时空特征是不满足线性空间分布的, 线性变换提取的特征表示能力有限, 因此基于全局图像线性变换的方法是有局限性的, 限制了识别精度的提升. 此外, 全局的图像变换方法直接对图像原始像素值进行特征提取, 导致特征对于环境光照变化、噪声等比较敏感, 对于唇部区域提取的精度要求较高, 且对于不同讲话者之间的泛化性能较差.

      2) 流形学习与图嵌入方法

      前文中提到图像线性变换方法应用于唇读时空特征提取存在的局限性问题, 流形(Manifold)[44, 45]学习和图嵌入(Graph Embedding) [23]方法在一定程度上能够缓解线性变换的表达能力不足的问题.

      流形是线性子空间的一种非线性推广, 流形学习假设所处理的数据点分布在嵌入于外维欧式空间的一个潜在的流形体上, 其本质是从高维数据中恢复数据的低维流形结构, 并找出相应的嵌入映射关系. 而基于图嵌入的学习算法把问题定义为一个图, 每个样本数据表示为图的顶点, 边的权值反映顶点间的相似程度, 图嵌入方法也被广泛应用于数据降维[23], LDA变换以及经典的流形学习算法局部线性嵌入(Locally Linear Embedding, LLE)本质上来说也属于图嵌入方法的一种线性表示.

      Fu等[46, 70]首次将流形学习与图嵌入的方法引入到唇读领域, 提出局部判别图模型(Locality Discriminant Graph, LDG), 类似于LLE算法, 利用K-NN方法分别求出每个样本点的同类最近邻和不同类最近邻, 并以此建立权值矩阵. 在保持投影后同类样本点距离的前提下, 最大化投影后不同类样本点的距离, 并依此求出投影矩阵P. 将此方法应用到连续数字的唇读任务中, 在AVICAR数据集上取得了37.46 %的识别率, 是该数据集下当时最优的识别结果. 但此方法缺陷在于训练视频序列每一帧相当于一个样本需要进行类别标注, 这对视频预处理阶段的精度要求较高, 且需要大量的人工干预. 同样, Yan等 [23]提出一种基于图嵌入的高维数据降维框架, Zhou等[38, 39, 47]将此框架应用于有限句子识别的唇读任务. 在文献[38]中, 作者对每一类句子对应的视频序列构建图和权值矩阵, 并依据上述图嵌入降维框架将每一帧图像降至20维. 作者发现每类图像序列降维后的特征在某一些维度上呈现正弦特性, 他们称之为主导维度, 在主导维度上进行傅里叶变换计算在该维度上的频率峰值. 测试阶段, 测试样本对每一类进行投影变换, 之后利用主导维度上的频率峰值匹配来进行整体的句子分类. 作者在文献[39]中指出该方法在说话者依赖的唇读系统中的性能较好, 但面向说话者独立的唇读任务时性能会显著下降.

      文献[39, 47]中将一段视频序列依据图嵌入模型映射到低维空间中的一段由三角函数定义的连续曲线中, 如图6所示, 作者称之为路径图. 为解决说话者依赖的问题, 作者分别采用了视频序列归一化策略和隐变量模型, 测试阶段分别利用曲线匹配和互相关性进行测试样本分类, 该方法在OuluVS数据集上针对有限的短句识别问题取得了较好的识别结果. Pei等[48]提出随机森林流形对齐(Random Forest Manifold Alignment, RFMA)的唇读框架, 用一系列的图像块轨迹特征以及图像块的LBP和HOG特征来表示视频帧序列的原始时空特征, 并在嵌入空间中将其映射为单一的运动模式, 最终通过基于流形对齐的运动模式匹配来实现短句识别, RFMA方法当时在AVLetters、AVLetters2以及OuluVS数据集上都达到最优识别性能.

      图  6  连续帧曲线映射

      Figure 6.  Continuous frame curve mapping

      3) LBP-TOP方法

      前文中提到, 直接对原始像素值进行变换提取特征, 会导致特征对于环境光照变化、噪声等比较敏感, 不同说话者之间的泛化性能较差的问题. 引入像素点的局部特征表达能有效的改善这些问题. 局部二值模式(Local Binary Patterns, LBP)是当前最具代表性的像素局部特征表达方法之一, LBP最早由Ojala等[33, 34]提出, 是一种用来描述图像局部纹理信息的特征. 由于其具有灰度不变性、计算复杂度低和较好的特征表达力等优点, LBP方法在纹理分析和人脸识别领域得到非常成功的应用[82, 206, 207].

      图7所示, 采用圆形邻域系统的LBP方法定义在某中心像素点及其周围半径为R的圆形邻域等间隔分布的P个像素点上. 其公式描述如下:

      图  7  ${\rm LBP}_{8,1}$算子

      Figure 7.  ${\rm LBP}_{8,1}$ operator

      $${\rm{LB}}{{\rm{P}}_{P,R}} = \sum\limits_{p = 0}^{P - 1} s ({g_p} - {g_c}){2^p},s(x) = \left\{ {\begin{aligned} &1&{x \ge {\rm{0}}}\\ &0&{x < {\rm{0}}} \end{aligned}} \right.$$ (1)

      其中$ R $表示圆形邻域的半径, $ g_c $表示中心像素的灰度值, $ g_p $表示中心像素点圆形邻域上第$ p $个采样像素点的灰度值, $ s(x) $是符号函数. 经过LBP算子计算后, 常采用直方图统计不同的LBP模式出现的频率作为LBP特征. 对于含有$ P $个采样点的LBP模式总共有 $ 2^P $种. 通过改变参数对$ (P,R) $的值, 可以获得不同尺度上的LBP模式. 然而全局LBP直方图矢量的维数随着P的增加而成指数增长, 很快就受到计算和存储的限制. 为了解决这个问题, Ojala地提出了均匀(Uniform) LBP模式[34], LBP均匀模式数量总共为$ P(P-1)+2 $种, 而其余所有的非均匀模式将被统计一种. 故$ LBP_(P,R) $特征的直方图维数为$ P(P-1)+3 $, 这种方式具有更高的计算效率和鲁棒性[208].

      Zhao等[35]将LBP方法扩展到视频, 提出LBP-TOP(Local Binary Patterns from Three Orthogonal Planes)方法来提取时空信息, 同时考虑了视频每个体像素周围的三个正交平面内的局部二值特征, 从而获取到时间序列上的动态特征, 类似于LBP特征, 基于直方图统计及均匀模式描述, LBP-TOP特征向量的维度为$ 3\times [P(P-1)+3] $. LBP方法很好的捕获了图像局部纹理信息, 具有较好的表达力.

      直接应用LBP-TOP直方图统计特征作为视频的特征表示存在一个比较明显的问题, 即直方图信息只能体现全局的LBP-TOP模式出现的频率, 而无法反映出LBP-TOP模式出现的空间和时间位置信息. 比如, 在排除其他干扰因素的前提下, “you see”与“see you”这两句话其视频的LBP-TOP直方图统计特征几乎是一样的. 为了解决这个问题, Zhao等[36]提出分块LBP-TOP直方图统计特征, 如图8所示, 同时在时间和空间上分块进行特征提取, 然后串联每一块的LBP-TOP直方图统计特征组成新的特征向量. 这种分块方法在提高了对时空特征的描述能力, 但同时也带来了特征向量维度几何倍数增加的问题. 此外, 该方法需要输入的视频序列足够长以保证其特征提取的有效性[39], 且该方法只在孤立唇读识别任务中得到测评, 在OuluVS数据集上的短语识别任务上取得了62.4 %的单词识别率.

      图  8  分块LBP-TOP特征提取

      Figure 8.  Block LBP-TOP feature extraction

      除上述方法外, 许多学者也将诸多传统图像分类、目标检测等领域的基于表观的特征提取算法应用到唇读领域中, 其中代表性的特征提取算法包括方向梯度直方图(HOG)[49], 光流法[52-54]等. 其中, HOG类似于LBP, 二者都属于对像素的局部特征描述, HOG在唇读方法中的应用主要是作为图像的特征提取器, 与其他时序动态特征提取方法结合[48, 50]. 光流法早期在唇读领域的应用也很广泛[11, 205, 209, 210], 光流场能够明确的反映出相邻图像帧之间的运动特性. 但就唇读任务而言, 基于光流法的时空特征提取对于光流计算的精度要求较高, 且光流法本身存在计算量大、对噪声很敏感等问题, 且现实环境下说话人姿态变化、环境光照变化等因素也在一定程度上影响光流计算的精度, 导致近期基于光流法的唇读特征提取的研究越来越少.

      本小节较为全面的总结了基于表观的视觉时空特征提取方法, 详细比较了不同方法的优势和不足. 总体来说, 基于表观的特征提取算法的优势在于直接对原图像序列进行处理, 特征提取速度较快, 无需复杂的专家知识和人工建模; 不足在于这类特征普遍对唇部区域提取的精度、背景环境变化以及噪声污染等因素敏感, 缺乏鲁棒性.

    • 基于形状的特征提取方法, 主要基于唇部区域的形状(嘴唇, 下巴以及面颊等)进行特征提取. 这种特征提取方法可以分为两类: 轮廓相关属性方法和形状模型方法.

      1) 轮廓相关属性方法

      在给定唇部轮廓的情况下, 我们能够轻易地提取出有意义的高级特征, 比如轮廓高度、宽度、周长以及轮廓内部区域的各种几何属性, 或采用傅里叶轮廓描述子进行轮廓描述. 这类方法直接在早期的唇读算法文献[40-43]中应用较为广泛.

      此外, 发音关节特征(Articulatory Features, AFs)[63-64, 71-75]也被用于唇读语音识别. 如图9所示, 发音关节, 顾名思义是指与人类发音相关的器官. AFs典型的发音关节特征包括嘴唇张开程度、唇齿特征等, 利用一系列可观测的AFs来实现唇读识别. Papcun等[76]在文献中证明AFs在一定程度上与说话者是无关的, 因此AFs在不同说话者之间的泛化能力较强, 常用于解决说话者依赖问题. 虽然AFs具有很好的可解释性, 但由于这一类特征过于简单, 表示能力极其有限, 难以很好的区分相似视素, 一般应用于小规模的短语识别任务[75].

      图  9  语音产生的发音特征

      Figure 9.  Articulatory features

      (2) 形状模型方法

      主动形状模型(Active Shape Model, ASM)[65-66]是一种基于点分布模型的算法. 外形相似的物体, 例如人脸、嘴唇等的几何形状可以通过若干关键特征点(Landmarks)的坐标依次串联形成一个形状向量来表示. ASM算法需要通过预先对训练集进行人工特征点标注, 之后经过训练获得形状模型, 再通过特征点的匹配实现特定物体的识别.

      Luettin等[67]首先将ASM模型应用于唇读, 用一组特征点来描述內唇或外唇轮廓[68]. 如图10所示, 该方法具体步骤如下: 首先对所有的训练图像利用K个轮廓点进行标记, 将每张图像表示为一个由标记点坐标组成的向量: $ {\pmb s} = [x_1,y_1,x_2,y_2,\cdots, $$x_K,y_K]^{\rm T} $, 之后依据基准样本将所有训练样本进行对齐, 对齐后计算平均形状向量$ {\pmb s_0} $, 之后利用主成分分析方法计算前$ m $个最大特征值对应的特征向量, 则大部分形状可用以下公式近似表示:

      图  10  唇部轮廓ASM模型

      Figure 10.  ASM model of lip profile

      $${\pmb s} \approx {{\pmb s}_0} + \sum\limits_{i = 1}^m {{{\pmb s}_i}} {{\pmb p}_i}$$ (2)

      其中, $ {\pmb s_i} $表示训练样本的协方差矩阵对应的第$ i $个特征向量, $ {\pmb p_i} $是第$ i $个特征向量对应的权值, 即形状参数. 最终, $ {\pmb p} = [p_1,p_2,\cdots,p_m]^{\rm T} $即为所求的ASM特征向量. 基于形状模型的特征提取方法相对于基于表观的特征提取方法来说, 其优势在于特征具有良好的可控性和可解释性, 特征点选取越多则模型精度越高, 表示能力越强. 但形状模型也有缺陷: ①形状模型假设与视觉语音相关的信息大部分处于特征点表示的轮廓上, 不可避免的会造成信息丢失; ②形状模型需要对大量的训练样本进行人工特征点标注, 且特征点标注的精度对模型好坏有很大的影响; ③形状模型对于姿态变化很敏感, 姿态变化较大的情况下形状模型缺乏有效性.

    • 基于表观和基于形状的视觉特征在性质上是完全不同的, 从某种意义上来说, 二者分别是关于说话者的唇部区域的低级特征和高级特征, 直观上, 二者融合可以提升性能. 大多数情况下, 二者的融合只是简单的特征串联. 例如, Chan[62]将唇部几何轮廓特征与唇部区域的图像PCA特征相结合作为视觉特征, Dupont和Luettin[56]将ASM特征与图像PCA特征相结合等. 还有一类融合方式是将形状模型与表观模型融合到到单一模型框架, 其中最具代表性的方法为主动表观模型(Active Appearance Model, AAM). 考虑到ASM模型[67]存在的问题, Cootes [69]提出AAM模型, AAM实质上是对ASM模型的改进, 在形状模型的基础上融入表观模型, 使得模型的表示能力进一步提高. AAM模型分为两个成分, 即形状成分和表观成分, 其形状成分即为ASM模型. 表观成分由目标表观$ A(X) $来定义, $ A(X) $可以是所有位于目标轮廓内部的所有像素点[2], 也可以是ASM模型特征点对应的局部纹理[56]. 类似于ASM的基本定义, AAM模型中表观成分公式定义如下:

      $$A(X) = {A_0}(X) + \sum\limits_{i = 1}^l {{\lambda _i}} {A_i}(X)$$ (3)

      同样, $ A_0(X) $表示归一化形状后的平均表观, $ A_i(X) $表示特征向量, $ \lambda_i $表示表观参数, 最终的AAM特征为形状参数向量与表观参数向量的串联 $ {\pmb v} = [p_1,p_2,\cdots,p_m,\lambda_1,\lambda_2,\cdots,\lambda_l]^{\rm T} $. 其中, $ [p_1,p_2,\cdots, $$p_m]^{\rm T} $为形状特征, $ [\lambda_1,\lambda_2,\cdots,\lambda_l]^{\rm T} $为表观特征.

      AAM模型虽然早在2000年就已提出, AAM模型结合了形状和表观的优点, 其强大的特征表示能力使得它在唇读领域的应用依旧非常广泛[126-130]. 但AAM模型只是针对ASM模型缺乏表观建模能力的一种改进, AAM模型同样也会有对人工标注的精度要求高、对姿态变化敏感等问题.

    • 基于传统方法的唇读系统往往需要丰富的领域知识来设计特征提取方法, 将原始图像序列数据处理成适当的特征向量序列, 然后利用合适的分类器基于该特征向量序列进行分类. 深度学习[227]是近年来出现的一种具有里程碑意义的数据表示与学习技术[81]. 与传统人工设计特征的重要区别在于, 深度学习的本质是通过多层非线性变换从大数据中以有监督或者无监督的方式学习层次化的特征表达, 对图像进行从底层到高层的描述[82]. 基于深度学习的唇读方法在早期主要是利用深度神经网络所提取的深层抽象特征[86-92]代替传统特征, 或者与传统特征结合进一步提高特征的表达能力[90]. 2011年, Ngiam等人[86]基于深度自编码器[81]和受限玻尔兹曼机(Restricted Boltzmann Machines, RBMs)[193]提出视觉语音多模态融合特征表达框架, 首次将基于深度学习方法的视觉特征提取方法引入了多模态语音识别领域, 这项工作为之后基于深度学习的唇读研究奠定了基础.

      此后, 2012年, Hinton[83]采用卷积神经网络(Convolutional Neural Network, CNN)在图像分类任务上取得大幅度性能提升, 在随后的几年时间内, 对于CNN构架的研究逐渐深入, AlexNet[83], VGG[202], GoogleNet[121], ResNet[102], DenseNet[203], SENet[204]等CNN构架相继问世, CNN的特征学习和表达能力逐步增强. 典型CNN的基本结构如图11所示, 由多个卷积层、池化层和全连接层堆叠而成, 以学习多层次的数据表示. CNN模型在目标识别[224]、图像分类[83]、语义分割[225]以及语音识别[226]等诸多领域都取得了飞跃性的进展. 同样的, CNN模型在唇读领域的应用近几年也取得了较大的进展. 2014年, Noda等人[91, 194]将CNN模型作为视觉特征提取器用于孤立的日语单词识别任务, 并在实验中证明了CNN特征相对于传统PCA特征的性能更优. 由于传统CNN对时序特征建模的能力有限, 2016年以后越来越多的工作将3DCNN[195]引入唇读作为时空特征提取器, 3DCNN将传统CNN卷积核在时间维度上进行拓展, 使得网络能够同时从时间和空间维度上提取有用信息, 有效的改善了传统CNN对于时序特征学习能力不足的问题. 3DCNN能够高效的学习视频特征, 在视频分类、行为识别[198]等领域有广泛的应用.

      图  11  典型CNN结构示例图

      Figure 11.  A typical CNN structure example

      在2.1节中我们提到, 传统的唇读系统分类器的选择依托于任务需求. 对于孤立的数字、单词、短语等识别任务, 一般采用SVM、序列匹配等分类器. 在深度学习方法广泛应用于唇读后, 基于多层前馈神经网络的分类器逐渐取代了传统的分类器[155, 196-197]. 而对于大规模连续语句的识别任务, 传统方法一般采用基于GMM-HMM的解码模型. 在基于深度学习的唇读方法发展的早期, 大量的研究工作利用深度神经网络作为特征提取器, 结合GMM-HMM模型来解决大规模连续语句的唇读识别任务[89-91, 194]. 在深度学习模型中, 循环神经网络(Recurrent Neural Network, RNN)是一种典型的用来对序列数据进行建模学习的网络结构. 典型的RNN结构如图12所示, 其基本结构与HMM类似, 都是通过隐状态序列的转换来刻画观测状态序列间的依赖关系. 但RNN相对于HMM主要有以下两点优势: ①HMM的隐状态是one-hot的表示形式, 而RNN是连续的向量表示, 在面对高维度的隐状态情况下, RNN的表示效率更高; ②HMM的隐状态转换是线性的, 而RNN的隐状态转换是高度非线性的, RNN的表达能力更强; 不过原始RNN模型过于简单, 在训练过程容易陷入梯度消失和梯度爆炸的问题, 稳定性远不如HMM模型. 但随着长短时记忆网络 (Long Short-Term Memory, LSTM)[84]、门控循环单元(Gated Recurrent Unit, GRU)[85]等高效的循环神经网络变体结构的成功应用, 梯度消失和梯度爆炸的问题能够得到有效的解决, 因此HMM模型也逐渐被LSTM、GRU所取代, 唇读系统也逐渐向端到端深度学习网络结构转变.

      图  12  RNN及LSTM、GRU结构示例图

      Figure 12.  The structure of RNN, LSTM and GRU

      截至目前, 基于深度学习的端到端唇读系统在性能上已经普遍超过传统方法. 端到端的模型结构类似于传统方法, 区别在于利用深度网络替代传统方法中的特征提取器和分类器, 一般来说, 模型前端属于特征提取网络, 后端属于分类解码网络. 下面将分框架详细介绍近几年内最具代表性的端到端唇读网络模型.

    • 在CNN-RNN模型框架中, CNN提取的图像特征具有强大的表示能力, 而RNN对于序列数据具有良好的建模能力, 因此CNN作为前端特征提取器, RNN作为后端序列分类器的唇读网络结构是当前最具代表性的. 其基本结构如图13所示.

      图  13  CNN-RNN基本框架

      Figure 13.  The network structure of CN-RNN

      Chung[93, 94], Wand[51], Garg[96]以及Stafylakis[101] 等基于此框架设计了孤立的单词或短语识别网络. 其中Chung[93]针对传统CNN时序动态特征提取能力不足的问题, 分别设计了Early Fusion和Multiple Towers两种CNN结构, 探讨了这两种优化结构对于动态特征建模能力的提升效果. 此外, 文献[94]提出的SyncNet结构, 原本用于语音与唇动视频同步对齐任务, 采用类似于VGG-M[202]的网络结构学习同步的视频与语音的联合特征表示. 作者在实验中证明在已经学习好的SyncNet基础上, 在网络后端加入一层LSTM结构能够直接迁移到唇读任务, 该网络在OuluVS2数据集(将在后文介绍)上实现了94.1 %的单词识别率. Wand[51]、Garg[96]以及Stafylakis[101]提出的模型结构上也类似于SyneNet+LSTM, 主要区别在于前端卷积网络选择的不同.

      2016年, Assael等[98]引入连接主义时间分类(Connectionist Temporal Classification, CTC)损失[100], 将上述CNN-RNN框架拓展到连续的唇读任务, 文中提出的LipNet结构首次实现了端到端语句级别的连续唇语识别. 其模型结构如图14所示, 以字符作为最小识别单元, 利用时空卷积神经网络(Spatiotemporal Convolutional Neural Networks, STCNNs)作为前端卷积网络, 双向门控循环单元(Bidirectional Gated Recurrent Unit, BiGRU)作为后端连续序列识别网络. 利用CTC损失来进行网络训练能够解决视频序列与文本标签未进行时序对齐的问题, 实现了连续语句的唇读识别任务, 并在GRID数据集上实现95.2 %的单词识别率. 2018年, Shillingford和Assael[163]针对当前数据集存在的可识别词汇量较小的问题, 创建了LSVSR视觉语言数据集, 并提出了V2P(Vision to Phoneme)网络结构, 其结构类似于LipNet, 主要区别在于该网络结构的最小识别单元为音素而不是字符, 在解码阶段利用有限状态转换器(Finite State Transducers, FSTs)模型[148]将音素序列转换为单词序列. V2P结构在LSVSR上的单词识别率为59.1 %, 而LipNet在该数据集上的单词识别率仅为27.3 %.

      图  14  LipNet构架

      Figure 14.  The network architecture of LipNet

      同样的, 文献[103-104, 112-113]也都采用了类似于LipNet的网络构架. 但是CTC损失具有内在的条件独立性, 即每个输出单元是单独预测一个特定标签的概率[109], 因此CTC损失会着重考虑临近帧的局部信息, 不适合预测需要更长的上下文信息来辨别的帧标签.

      Xu等[109]考虑到CTC损失函数存在的问题, 提出了LCANet, 其网络编码器部分包含三个主要模块: 3DCNN模块、Highway[110]网络模块以及BiGRU模块. LCANet将3个连续帧输入到3DCNN中以编码局部时空信息. 然后作者在3DCNN的顶部堆叠两层Highway网络, 使编码器捕获更丰富的语义特征. 之后加入BiGRU网络以编码长期时空信息. 为了从更长的上下文中明确地捕获信息, LCANet将编码的时空特征馈送到级联注意力CTC解码器中, 引入注意机制一定程度上消除了隐藏神经层内CTC条件独立假设的缺陷, 改善了唇读问题的建模能力, 并且对于视觉上相似度很高的视素单元的识别能力更强. LCANet在GRID数据集上的单词识别率达到97.1 %, 是GRID数据集上最佳结果.

    • 编解码(Encoder-Decoder)模型, 又名Sequence-to-Sequence (Seq2seq) 模型, 是一种基于神经网络的序列到序列的学习模型[105]. 一般的CNN、RNN等深度学习模型虽然具有强大的特征表达和学习能力, 但是无法处理不定长的序列到序列的学习问题, 而编解码模型能够较好对不定长的序列到序列的学习问题进行建模[105]. 但由于RNN模型本身的限制, 原始的编码解码模型对于较长的输入序列编码能力较差[106], 引入注意力机制[106]能够进一步完善该模型. 深度学习中的注意力机制从本质上讲和人类的选择性视觉注意力机制类似, 核心目标也是从众多信息中选择出对当前任务目标更关键的信息(例如在唇读领域, 可以根据前一时刻的解码结果从长视频中选择出与当前时刻相对应的唇动信息的视频片段, 这可以明显提高解码的准确率). 注意力机制在编解码框架中的应用非常广泛, 关于注意力机制的研究和应用在文献[199, 200]中进行了详细的总结和梳理, 本文中不再进行详细说明.

      基于注意力机制的编码解码框架在唇读领域最具代表性的方法是由Chung等[107, 108]提出的WAS(Watch, Attend and Spell)模型, 我们借助该模型对基于注意力机制的编码解码框架在唇读领域的应用原理进行详细的阐释. 如图15所示, WAS模型包含“Watch”和“Spell”两个模块, 以及注意力机制“Attend”. 其中, “Watch”实质上是视频编码模块, 其输入是连续五帧灰度图像的通道串联, 包含五个卷积层、一个全连接层以及三个LSTM层; “Spell”为解码模块, 包含三个LSTM层, 注意力机制以及一个全连接和Softmax的输出层. 为进一步阐明该模型, 我们将其各模块的功能实现进行公式化的描述如下:

      图  15  WAS构架

      Figure 15.  The network architecture of WAS

      $$ \left\{ \begin{aligned}& {\pmb f_i} = {\rm CNN}({\pmb x_i})\\ &{\pmb o_i} = {\rm LSTM}({\pmb f_i}, {\pmb o_{i+1}})\\& {\pmb s} = {\pmb o_1} \end{aligned} \right. $$ (4)

      上式概括了“Watch”编码模块的功能, 其中$ {\pmb x_i} $表示第$ i $个时刻的连续五帧灰度图像输入, $ {\pmb f_i} $$ {\pmb x_i} $经过卷积层和全连接层后的特征向量表示, $ {\pmb o_1} $表示第$ i $个时刻编码器LSTM层输出的语义编码向量(文中视频序列是倒序输入的), $ {\pmb s} $是编码器最终时刻的语义编码向量. “Spell”模块的公式化描述如下:

      $$ \left\{ \begin{aligned}& {\pmb h_k^d} = {\rm LSTM}({\pmb h_{k-1}^d},y_{k-1},{\pmb c_{k-1}})\\& {\pmb c_k} = {\pmb o}\cdot {\rm Attention}({\pmb h_k^d}, {\pmb o})\\& P(y_k| x, y_{<k}) = {\rm softmax({\rm MLP({\pmb h_k^d},{\pmb c_k})})} \end{aligned} \right. $$ (5)

      其中, $ {\pmb h_k^d} $表示解码阶段第$ k $个时刻解码器LSTM层的输出, $ y_k $代表第$ k $个时刻的解码器的预测输出结果, $ {\pmb c_k} $表示第$ k $个时刻根据注意力生成的加权语义编码向量. 在解码过程中, 根据当前时刻的解码器LSTM的输出$ {\pmb h_k^d} $, 采用软注意力(Soft Attention)机制[201]对所有的语义编码向量进行选择性加权生成当前时刻的语义编码向量$ {\pmb c_k} $, 最终将经过注意力选择的语义编码向量$ {\pmb c_k} $和LSTM的输出$ {\pmb h_k^d} $通过全连接层和Softmax层解码出当前时刻的预测结果$ y_k $.

      作者在文中用实验证明了注意力机制的重要性, 如果去掉注意力机制, 网络对早期的输入记忆能力很弱, 导致产生的输出字符在前几个单词上与输入完全不一致. Chung等[107]在WAS模型的基础上进一步引入“Listen”模块提出WLAS模型, 负责编码语音输入, 实际上是一种完全端到端的多模态(音频和视频)语音识别网络结构, 同时由于音频和视频的处理过程完全独立, 也可以用于单模态的唇读识别任务或者音频语音识别任务. 此后, Chung等[108]更进一步提出MV-WAS网络, 面向多视角的唇读任务, 训练数据集中增加了多视角的视频数据, 提高了网络泛化能力.

    • 除上述两种框架外, 许多学者也提出许多其他端到端唇读网络框架. Saitoh等[114]提出了一种用于非连续的有限语句识别的端到端唇读网络结构, 该网络模型不是逐帧处理视频序列, 而是通过连接整个唇部视频序列构造图像, 文中称为连接帧图像(Concatenated Frame Image, CFI). 后续分别采用NIN[119]、AlexNet[83]以及GoogleNet[121]三种网络进行实验对比已验证不同卷积网络构架对于识别结果的影响, 实验证明三种网络的实验结果差别较小.

      Petridis等[115-118]提出一个双数据流管线的端到端网络结构, 第一道数据流管线从静态图像中提取特征, 第二道数据流管线从相邻帧的差分图像中提取局部时空特征. 两条管线都遵循瓶颈架构, 具有三个隐藏层和一个线性层. 在瓶颈架构的最后, 计算其一阶和二阶差分并将其附加到瓶颈层. 然后, 每条管线的瓶颈网络输出到LSTM层. 最后, 连接两条管线的LSTM输出并输入到BiLSTM以进行特征融合. 输出层是softmax层, 编码完成后, 就使用BiLSTM输出的最后一个时间步进行识别分类.

      Moon等[122]将跨模态迁移表示的深度学习框架用于字母识别的唇读任务. 该模型使用标准DBN独立地学习音频和视觉信息的抽象特征表示, 学习音频模态和视频模态之间的语义级别特征迁移. 用于音频和视觉信息的两个DBN都使用相同数量的中间层构建, 然后为每个中间层学习跨模态嵌入. 然后利用不同中间层之间的映射关系用来微调视频模态的网络参数.

      Afouras在文献[123]中提出了三种不同构架的连续语句识别的唇读网络结构, 如图16所示, 这三种构架的前端视觉特征提取网络是相同的, 由一层3DCNN层和ResNet组成, 结构与文献[101]中的前端网络相同. 三种模型主要区别在于后端序列分类网络, 其中第一种模型的构架类似于LipNet, 同样采用CTC损失进行训练. 解码阶段利用外部语言模型采用集束搜索(Beam Search)算法进行后处理优化; 第二种模型采用深度可分离的全卷积模型[124], 包括沿每个通道的时间维度的单独卷积, 然后是沿通道维度的投影. 该网络包含15个卷积层, 也是采用CTC损失进行训练以及集束搜索算法解码. 第三种是Transformer模型, 基于多头注意力层(Multi-head Attention)[125]的自注意力编码解码框架, 通过交叉熵损失进行网络训练, 该模型摒弃了传统编码解码框架中的RNN结构, 同时解决了RNN结构难以快速收敛和并行训练的问题, 大大加快了训练速度. Afouras在文献[162]中基于Transformer模型构建音-视融合语音识别网络, 进一步比较了基于CTC损失的网络模型和Seq2seq损失的网络模型性能差异, 文中实验证明在无音频信号的情况下, Seq2seq模型性能更优, 但CTC模型对于环境噪声的鲁棒性强于Seq2seq模型.

      图  16  三种唇读网络模型

      Figure 16.  Three lip reading network models

    • 同其他视觉识别问题一样[201], 数据集在唇读研究中也起着非常重要的作用. 一方面, 基准数据集便于让研究者公平地进行算法方面的比较; 另一方面, 数据集也推动相应领域内越来越复杂、越来越难的问题逐渐得到关注和解决. 近年来, 深度学习技术在视觉识别领域取得巨大成功, 大规模数据集就起到非常重要的作用. 随着深度学习技术在唇读方面的应用越来越深入, 也推动视觉语言数据集由实验室环境向着大规模、接近实际应用方向发展.

      唇读任务难度较大, 早期唇读的研究重点还主要是识别字母和数字的简单任务, 可应用于说话人身份验证或者简单的唇语指令识别, 因此视觉语言数据集也都是一些简单的字母和数字构成. 这些数据集是在可控实验室环境下采集的, 靠多次重复相同语料表达来增加数据量. 但是这些数字/字母数据集太过简单, 与实际唇读应用需求还有较大的差距. 随后, 研究者们更多的关注于构建单词和连续语句数据集. 如图17所示, 我们统计了2009年之前以及2009年至2019年不同类型视觉语言数据集的数量变化趋势. 总体而言, 视觉语言数据集逐渐由小规模向大规模、字母或数字识别向单词或句子识别转变.

      图  17  不同类型数据集变化趋势

      Figure 17.  The trends of different types of datasets

      下面, 我们对常用的视觉语言数据集进行介绍和总结, 包括数据集语言、类别数目、话语数目、说话人数目、分辨率等方面.

    • 与一般问题研究规律相符合, 唇读研究也是由简到难. 早期的唇读研究大多是识别字母和数字, 相对于单词、短语和句子来说, 字母和数字识别比较简单, 因为其识别类别较少, 且不需要考虑语言模型的影响, 所以早期数据集基本上是以字母和数字数据集为主.

      对于字母识别, 最早的视觉语言数据集是1998年发布的AVLetters[131]数据集, 该数据集包含10名说话人(男女各5人), 在受控的实验室条件下重复每个孤立字母3次, 总共780个话语数据, 视频分辨率为$ 376\times 288 $像素, 同时说话人被要求在每个字母发音开始和结束时闭合嘴唇. 此后手动定位每张图片中唇部区域, 并提取出$ 80\times 60 $的唇部区域图像, 形成最终的数据集. 2004年, AVICAR[133]数据集发布, 是在车内进行拍摄采集的, 由安装在汽车挡风板上的四个摄像头拍摄而得到, 故视频中包含四个近似正脸角度的人图像; 同时由于汽车行驶的原因, 光照条件会发生变化, 音频数据中也存在一定程度的噪音, 使用此类数据集进行训练能有效提高唇读系统的鲁棒性. AVICAR数据集改进了AVLetters说话人较少的问题, 将说话人的数目增加至100个(男女各50名), 同时字母话语数量也达到了26000个. 2008年发布的AVLetters2[13]数据集是AVLetters数据集的高清版本, 图片分辨率提高至$ 1\;920\times 1\;080 $像素, 但是说话人减少到5个.

      对于数字识别任务, 最早用来进行研究的是1999年在M2VTS(个人身份验证系统)项目中采集的XM2VTS[134]数据集, 该数据集在实验室条件下采集拍摄得到, 视频分辨率为$ 720\times 576 $像素. 共有295名志愿者参加了该数据集的记录, 每个志愿者以正常语速读两个数字序列两遍, 同时该数据集中也包含说话人仅头部旋转但未说话的图片用以研究头部姿势变化对于唇读识别任务的影响. 2003年发布的BANCA[135]数据集和XM2VTS数据集是在同一个项目中收集的, 不同的是BANCA数据集分别在controlled, degraded和adverse三种环境下拍摄数据, 并且话语中包含四种不同的语言(英语、法语、意大利语、西班牙语). 该数据集总共包含208名说话人, 将近5 000个数字序列话语数据. 在数字数据集中, 应用最为广泛的是2004年发布的CUAVE[136]数据集, 尽管说话人比XM2VTS等数据集要少很多. CUAVE数据集有两个重大特点: 其一是视频拍摄时允许说话人随意走动, 得到的视频中人脸位置是实时变化的. 二是其包含多个说话人同时说话的数据, 更贴近现实情况. 该数据集的建立使得唇读对于说话人运动鲁棒性的研究迈上新台阶. 2005年发布的VALID[137]数据集是在嘈杂的真实环境中获得的, 没有对照明或声学噪声的控制, 包含了由106位说话人在五个不同场景下记录的530个数字话语. 2015年发布的数据集OuluVS2[138]旨在为唇读研究领域创建一个包含大量多视角数据的高质量数据集. 该数据集包含53名说话人, 采集了159个数字话语. 该数据集视频分辨率达到$ 1\;920\times 1\;080 $像素.

      此外, 还有一些处理数字识别任务的数据集, 如AusTalk数据集[140]和用日语记录的CENSREC-1-AV[142]数据集, 这些数据集都至少包含90个说话人. 其他数据集, 如IBMSR[30]数据集和QuLips[144]数据集类似于AVICAR, 都是为了解决特定环境下的识别任务而创建.

    • 字母和数字数据集在早期应用广泛, 一是因为这些数据集大多是在受控的实验室条件下采集的, 这使得研究者们可以很好地分析算法的有效性; 二是因为字母和数字的识别任务比较简单. 随着唇读研究的不断推进, 在字母和数字数据集上的识别率越来越高. 然而, 唇读系统的最终目标是处理在任意条件下的任意长度的视频序列, 研究者们把目光投向了难度更高的单词、短语和语句识别. 单词识别难度大是因为需要识别的单词数量多, 而短语和语句识别除了要考虑单词数量之外, 还要考虑单词之间的联系, 即上下文的语义信息, 这无疑比字母和数字识别难度更大. 与此同时, 相应的包含单词、短语和语句的视觉语言数据集也应运而生. 表3详细给出了相应数据集的各类信息.

      表 3  单词、短语和语句识别数据集, 其中(s)代表不同语句的数量. 下载地址为: MIRACL-VC[176], LRW[177], LRW-1000[178], GRID[179], OuluVS[180], VIDTIMIT[181], LILiR[182], MOBIO[183], TCD-TIMIT[184], LRS[185], VLRF[186]

      Table 3.  Word, phrase and sentence lip reading datasets and their download link: MIRACL-VC[176], LRW[177], LRW-1000[178], GRID[179], OuluVS[180], VIDTIMIT[181], LILiR[182], MOBIO[183], TCD-TIMIT[184], LRS[185], VLRF[186]

      数据集语种识别 任务词汇量话语 数目说话人 数目姿态分辨率谷歌 引用发布 年份
      IBMViaVoice英语语句10 50024 3252900704 × 480 30 fps2992000
      VIDTIMIT英语语句346(s)430430512 × 384 25 fps512002
      AVICAR英语语句1 31710 000100−15$\sim$15720 × 480 30 fps1702004
      AV-TIMIT英语语句450 (s)4 6602330720 × 480 30 fps1272004
      GRID英语短语5134 000340720 × 576 25 fps7002006
      IV2法语语句15(s)4 5003000,90780 × 576 25 fps192008
      UWB-07 -ICAV捷克语语句7 550 (s)10 000500720 × 576 50 fps162008
      OuluVS英语短语10(s)1 000200720 × 576 25 fps2112009
      WAPUSK20英语短语522 000200640 × 480 32 fps162010
      LILiR英语语句1 0002 400120,30,45, 60,90720 × 576 25 fps672010
      BL法语语句238 (s)4 046170,90720 × 576 25 fps122011
      UNMC-VIER英语语句11 (s)4 5511230,90708 × 640 25 fps82011
      MOBIO英语语句30 1861520640 × 480 16 fps1752012
      MIRACL-VC英语单词101 500150640 × 480 15 fps222014
      短语10 (s)1 500
      Austalk英语单词966966 0001 0000640 × 480112014
      语句59 (s)59 000
      MODALITY英语单词182(s)2313501 920 × 1 080 100 fps232015
      RM-3000英语语句1 0003 00010360 × 640 60 fps72015
      IBM AV-ASR英语语句10 4002620704 × 480 30 fps1032015
      TCD-TIMIT英语语句5 954 (s)6 913620,301920 × 1080 30 fps592015
      OuluVS2英语短语101 590530,30,45, 60,901920 × 1080 30 fps462015
      语句530 (s)530
      LRW英语单词500550 0001 000+0$\sim$30256 × 256 25 fps1152016
      HAVRUS俄语语句1 530 (s)4 000200640 × 480 200 fps132016
      LRS2-BBC英语语句62 769144 4821 000+0$\sim$30160 × 160 25 fps1722017
      VLRF西班牙语语句1 37410 200a2401 280 × 720 50 fps62017
      LRS3-TED英语语句70 000151 8191 000+−90$\sim$90224 × 224 25 fps22018
      LRW-1000中文单词1 000745 1872 000+−90$\sim$901 920 × 1 080 25 fps02018
      LSVSR英语语句127 0552 934 8991 000+−30$\sim$30128 × 128 23-30 fps162018

      最早包含语句的数据集是IBMViaVioce[57], 包含290个志愿者的24 325个语句, 这些语句包含的主要单词大约有10 500个, 遗憾的是该数据集目前不公开. 在公开的数据集中, 最早的数据集是VIDTIMIT[147], 包含由43名说话人, 每人陈述10个语句, 一共430个话语. 值得一提的是, 该数据集中的语句是从NTIMIT[222]语料库中选取的, 因此该数据集中的语句几乎全是语音平衡的语句. 与此类似, 2004年发布的AV-TIMIT[58]数据集同样来自与语音平衡的语料库, 该数据集是为了训练基于分段的视听语音识别器而创建, 其数据有四个显著特性: 连续的语音平衡的语句, 包含多个说话人, 采集条件是受控的实验环境和采集到的数据是高分辨率的视频. 在上一部分介绍的数字和字母数据集中也有部分数据集包含了语句, 例如AVICAR包含10 000个语句话语, 主要单词有1 317个.

      在2008年到2014年创建的数据集中, 大部分语种为英语. 其中, 2009年发布的OuluVS[36]数据集是使用最为广泛的短语数据集之一, 该数据集包含20个说话人, 每名说话人陈述10个日常问候短语5次, 一共1 000个话语. LILiR[149]是完全公开的数据集, 有12名说话人, 单词总量大约有1 000个. MIRACL-VC[150]数据集包含15名说话人一共3 000个话语数据, 并且该数据集采用RGBD相机进行收集, 同时提供了图片的深度信息. 在英文数据集中, MOBIO[151]数据集比较特别, 该数据集基本上全部由记录者手持手机进行拍摄记录, 旨在对手机上人脸语音自动识别系统进行评估, 改进在移动设备上应用生物识别技术的研究. 该数据集是在不受控的条件下拍摄的, 因为拍摄设备在记录人自己手中而不是固定在某一个特定的位置, 记录者头部位置、背景、光照等因素都在发生变化. 有150人参加了数据集构建, 得到将近31 000个话语. 此外, 其他语种的数据集包括捷克语数据集UWB-07-ICAV、法语数据集IV2和BL, 这些数据集都为唇读系统的训练提供了大量材料, 对唇读领域的发展起到了一定的推动作用.图18给出了各类数据集的样本示例.

      图  18  各类数据集示例

      Figure 18.  Some examples of different datasets

      自2014年来, 随着在唇读领域的研究越来越深入, 越来越多新的数据集被创建. 有些数据集是为了满足某个特定任务的需求而被创建, 例如2015年发布的RM-3000[152]数据集, 需要同一个说话人的大量数据, 故该数据集中只有一名说话人, 但是包含3 000个话语, 大约有1 000个不同的单词; 又比如同年发布的MODALITY数据集, 对数据质量的要求很高, 对数据数量要求较低, 故该数据集中只有231个话语数据, 但是分辨率却达到了$ 1\;920\times $$ 1\;080 $像素. 一般来说, 数据集都是多说话人和多数据量以保证数据集的丰富性和多样性. 如OuluVS2[138]数据集包含53名说话人一共1 060个高质量话语数据; TCD-TIMIT[153]数据集包含62名说话人, 将近7 000个高质量话语数据. 俄语数据集HAVRUS[154]包含20名说话人, 4 000个话语数据. IBM AV-ASR[155]数据集是大规模的非公开数据集, 在受控的实验室条件下采集, 包含262名说话人, 单词量超过10 000个. 西班牙语数据集VLRF[156], 包含由24个说话人, 超过600个话语, 总单词量超过1 300个.

      随着深度学习在计算机视觉领域取得的巨大成功, 深度神经网络在唇读领域的使用变得越来越广泛, 很大程度上促进了唇读系统的发展. 深度神经网络的训练需要大量的训练数据, 因此在已有的数据集中, 大规模数据集变得越来越流行. 比如在2006年创建的GRID[157]数据集, 虽然发布年份较早, 但近年来使用量越来越多. 该数据集在实验室环境下进行录制, 只有34个说话人, 这在大型数据集中人数算比较少的, 但是每个说话人陈述1 000个短语, 总共有34 000个话语. 该数据集的短语构成也很有规律, 每个短语包含6个单词, 不是常见的短语, 而是在6类单词中每类随机挑选一个组成随机短语. 这6类单词分别是“命令”、“颜色”、“介词”、“字母”、“数字”和“副词”. 每类单词也规定了数量, 单词总数一共51个. 与此类似的还有WAPUSK20[158]和MODALITY[159]数据集, 都包含了较大的数据规模, 能够进行深度神经网络模型的训练, 但是由于单词总数较少, 得到的模型拓展性不佳.

      所以, 最近创建的视觉语言数据集旨在同时提供大量的话语数据量和更多的单词量. 在这方面做出大量贡献的有LRW[93], LRS2-BBC[107], LRS3-TED[160], LRW-1000[161]和LSVSR[163]数据集. 这些视觉语言数据集都是直接在电视节目中或者网络视频中截取镜头经过说话人定位、面部识别、人脸特征点检测等过程后收集保存, 说话人所处的环境条件比如光照, 头部姿势会任意变化, 具有明显的环境非受限特性. 2016年发布的单词数据集LRW和2017年发布的语句LRS2-BBC数据集都是来源于BBC广播电视台在2010到2016年的电视节目. LRW数据集选择500个最常出现的单词, 在电视节目中截取说话人说这些单词的镜头, 不同说话人超过1 000个, 采集的话语数据量达到550 000个. LRS2-BBC数据集包含超过1 000个说话人, 截取将近150 000个话语数据, 由于截取时对句子长度无限制, 不同的单词数有将近63 000个. 同年, 为了研究大角度的姿态变换对唇读系统的影响, LRS2-BBC在原本基础上加入了人脸姿态角度从0到90所有角度的镜头. LRS3-TED数据集是从TED节目中得到的数据, 一共有将近150 000个话语. LRW-1000是中文词语数据集, 借鉴LRW数据集的形式创建. 该数据集从各个电视节目中截取收集视频数据. 一共有1 000个类别, 每一个类别对应一个或几个汉字组成的词语, 说话人超过2 000个, 话语数量达到720 000个. 最后, 2018年发布的LSVSR数据集中的数据来源于YouTube网站, 是迄今为止数据量最大的数据集, 包含2 934 899个话语数据, 总单词量超过127 000个.

    • 对于唇读任务, 特征提取方法和分类器的选择固然对识别结果有至关重要的影响, 但仍然存在很多其他的影响因素. 从数据的预处理角度来说, 对视频进行预处理(人脸检测与跟踪、唇部区域提取)的方法不同, 会导致唇部区域的大小、位置不同, 进而影响总体的识别率; 从实验条件的角度来说, 即便采用相同的数据集和相同的方法, 是否利用音频信号、是否有外部语言模型优化、是否讲话者依赖、以及最终的识别单元是字符、音素还是单词这些条件的不同, 同样会影响最终的识别结果.

      为使读者更直观的了解不同实验条件对于识别率的影响, 我们对4个主要的实验条件进行了明确的阐释. ①音频信号. 大多数视觉语言数据集同时提供了视频信号和音频信号, 唇读方法的测试阶段不会用到音频信号, 但部分文献[26, 92, 94, 103, 126]提出的唇读方法在训练阶段不同程度的利用了音频信号(利用音频信号进行对齐[94]、训练语音与视频的共享特征表示[86]), 其识别结果相对于只利用视频信号具有明显的提升; ②讲话者依赖. 讲话者依赖就是指测试集中的说话人同时也出现在训练集中. 从表2表3的数据集统计信息中可以看出, 2016年以前几乎所有的数据集说话人的数目都是很有限的, 在这种情况下训练出来的模型容易陷入对于说话人的过拟合. 以文献[36]的结果为例, 是否具有讲话者依赖的识别结果相差了19.3 %(说话者依赖条件下识别结果为62.8 %, 说话人独立条件下的识别结果为43.5 %); ③外部语言模型. 外部语言模型实质上是对文本输出的后处理优化过程, 主要应用于大规模连续语句识别任务. 以V2P[163]网络为例, 在LSVSR数据集下, 有语言模型优化的单词识别率为59.1 %, 没有语言模型优化的单词识别率为46.4 %. ④最小识别单元. 对于连续语句识别任务, 字符、音素、视素和单词都可以作为最小识别单元, 最小识别单元的选择对于结果同样有一定的影响[163].

      表 2  字母、数字识别数据集. 下载地址为: AVLetters[164], AVICAR[166], XM2VTS[167], BANCA[168], CUAVE[170], VALID[171], CENSREC-1-AV[172], Austalk[173], OuluVS2[174]

      Table 2.  Alphabet and digit lip reading datasets and their download link: AVLetters[164], AVICAR[166], XM2VTS[167], BANCA[168], CUAVE[170], VALID[171], CENSREC-1-AV[172], Austalk[173], OuluVS2[174]

      数据集语种识别任务类别数目话语数目说话人数姿态分辨率谷歌引用发布年份
      AVLetters英语字母26780100376 × 288 25 fps5071998
      XM2VTS英语数字108852950720 × 576 25 fps1 6171999
      BANCA多语种数字1029 9522080720 × 576 25 fps5302003
      AVICAR英语字母2626 000100−15$\sim$15720 × 480 30 fps1702004
      数字1323 000
      CUAVE英语数字107 000+36−90,0,90720 × 480 30 fps2922004
      VALID英语数字105301060720 × 576 25 fps382005
      AVLetters2英语字母26910501 920 × 1 080 50 fps622008
      IBMSR英语数字101 66138−90,0,90368 × 240 30 fps172008
      CENSREC -1-AV日语数字105 197930720 × 480 30 fps252010
      QuLips英语数字103 6002−90$\sim$90720 × 576 25 fps212010
      Austalk英语数字1024 0001 0000640 × 480112014
      OuluVS2英语数字10159530$\sim$901 920 × 1 080 30 fps462015

      由于各个算法针对的识别任务不同, 在实验时设置的主要条件也不尽相同, 难以做到完全公平公正的方法性能比较. 表4中我们选取AVLetters、CUAVE、LRW、GRID和LRS3-TED五个数据集, 分别来自字母、数字、单词、短语和语句五个不同识别任务中应用最为广泛的数据集作为参考基准, 并列举每个数据集下代表性的唇读方法, 以及该方法在该数据集进行实验时的详细实验条件和最后的实验结果.

      表 4  不同数据集下代表性方法比较

      Table 4.  Comparison of representative methods under different datasets

      数据集识别 任务参考 文献模型主要实验条件识别率
      前端特征 提取后端分 类器音频 信号讲话 者依 赖外部 语言 模型最小 识别 单元
      AVLetters字母[48]RFMA××字母69.60 %
      [92]RTMRBMSVM×字母66.00 %
      [86]ST-PCAAutoencoder×××字母64.40 %
      [36]LBP-TOPSVM××字母62.80 %
      ××43.50 %
      [55]DBNF+DCTLSTM××字母58.10 %
      CUAVE数字[126]AAMHMM××数字83.00 %
      [50]HOG+MBHSVM×××数字70.10 %
      ×90.00 %
      [37]DBNFDNN-HMM×××音素64.90 %
      [26]DCTHMM××数字60.40 %
      LRW单词[101]3D-CNN+ResNetBiLSTM×××单词83.00 %
      [103]3D-CNN+ResNetBiGRU×××单词82.00 %
      ×98.00 %
      [107]CNNLSTM+Attention×××单词76.20 %
      [93]CNN×××单词61.10 %
      GRID短语[109]3D-CNN+highwayBiGRU+Attention××字符97.10 %
      [107]CNNLSTM+Attention××单词97.00 %
      [113]Feed-forwardLSTM××单词84.70 %
      95.90 %
      [98]3D-CNNBiGRU×××字符93.40 %
      [51]HOGSVM××单词71.20 %
      LRS3-TED语句[162]3D-CNN+ResNetTransformer+seq2seq××字符41.10 %
      Transformer +CTC33.70 %
      [163]3DCNNBiLSTM+CTC××音素44.90 %

      之于数字和字母识别而言, AVLetters和CUAVE数据集下代表性的方法仍以图像变换[26]、RFMA[48]、LBP-TOP[36]等传统方法为主, 究其原因主要有以下两点: 第一, 当前唇读研究的重点在于连续的语句识别, 数字和字母识别由于其实用性严重受限的原因, 近几年的研究热度有所下降; 第二, 字母和数字识别单元都较少, 且数据集收集的环境比较理想, 在这种情况下, 基于深度学习的唇读方法相较于传统方法而言并不具有明显的优势. 而对于单词、短语或连续语句识别来说, 基于深度学习的唇读方法具有明显的优势, 这在GRID、LRW和LRS数据集上有明确的体现. GRID数据集上的结果显示基于深度学习的唇读方法相较于传统方法性能更佳. 目前, GRID数据集上的最佳单词识别率已达到97.1 %, 深度学习方法在面向小规模受限实验环境下的唇读识别能力几乎饱和. 这也催生了后续非限定环境下大规模数据集的构建, LRW和LRS数据集是在非限定环境下收集的, 相比于之前实验环境下收集的数据集来说难度有很大的提升, 传统方法在这种数据集下近乎失效, 基于深度学习的方法性能也很有限, 仍有待进一步的深入研究.

    • 近年来, 受益于深度学习技术的发展, 唇读问题的研究也不断得到深入, 唇读方法的研究也逐渐深入, 唇读应用也不断得到拓展, 但已有唇读系统仍然难以满足实际应用需求, 唇读研究仍然任重道远. 下面, 我们对唇读存在的问题及未来可能的研究方向进行了总结.

      1) 大规模视觉语言数据集构建问题. 在实际的现实场景中, 存在大量的环境噪声以及唇读任务本身的复杂性, 虽然深度学习模型具有强大的数据表达能力, 但其模型训练的好坏依赖于训练数据的规模, 简单的数据增强技术所发挥的作用并不明显. 然而遗憾的是, 近期大部分视觉语言数据集虽然在规模上有了明显的扩充, 但仍存在一些共性的问题. 比如LRW、LRW-1000、LRS3-TED等都是从电视节目中截取的, 其背景、环境光照等条件相对稳定, 语言内容相对有限. 因此, 如何构建一个更加全面更加现实化的视觉语言数据集, 将是唇读方法研究进一步发展的一个重要问题.

      2) 唇部区域的选择问题. 目前, 大多数的唇读研究工作将人脸关键点检测与跟踪和唇部区域提取仅当做数据预处理的过程, 并未深入剖析唇部区域的选择对于识别结果的影响. 事实上, 不同的唇部区域提取方案对于识别结果是有显著影响的, 如何定义与唇语识别任务相关的具体唇部区域是值得进一步探索研究的.

      3) 适用于唇语视频特征表达的深度神经网络结构设计. 唇语视频特征提取本质上是对连续的视频序列进行特征提取, 因此好的时空特征提取网络模型是至关重要的. 当前基于深度学习的唇读系统包含时空特征提取的网络模型一般为3DCNN、RNN以及注意力机制, 其网络构架大多是从音频语音识别、机器翻译等热门领域迁移过来的, 因为这几个领域在任务性质上有较大的相似性. 虽然这些模型已经取得了不错的效果, 但普通的3DCNN结构的特征学习和表达能力有限, 还缺乏对视觉时空特征提取针对性结构设计, 因此对视频特征表达的网络结构设计研究仍然有较大的提升空间. 许多传统方法的思想对于深度学习方法的网络构架设计是有明显启发作用的, 比如是否可以引入光流网络[211, 212]与3DCNN形成互补[213, 214], 目前还有待我们进一步的去发掘.

      4) 实时唇语特征提取. 在很多情况下, 我们不仅仅是单纯追求唇读识别的准确率, 实际应用中对于唇读的实时性也是有要求的. 而目前大多数的唇读网络设计面向非实时唇读任务, 由于双向RNN结构或者全局时序注意力机制的存在, 需要整段视频输入信号全部输入完成后再进行解码输出, 无法实现实时唇读(Online Lipreading). 对于实时唇读网络构架的设计研究仅有部分文献[123]提到, 文献中摒弃了RNN结构, 采用全卷积网络结构(包含时间通道上的卷积), 通过控制时间通道上卷积核的宽度来控制解码时所需要的未来图像序列的帧数, 基本实现了实时唇读. 面向实时唇读的深度学习网络构架设计目前还处于起步阶段, 仍有巨大的提升空间.

      5) 非限定环境下的鲁棒唇读问题. 前文中提到唇读所面临的挑战包括说话人多样性、姿态变化、环境光照、面部表情变化等, 当前基于深度学习的视觉时空特征提取网络还很少有针对性去解决这些问题. 仅依靠大规模数据集的支持, 训练过程中让3DCNN网络自主的去学习对于这些挑战具有鲁棒性的视觉时空特征是不够的, 因此设计特定解决这些问题网络模块来提高特征学习的鲁棒性是一个值得研究解决的问题. 比如, 能否引入对姿态变化具有适应性的网络模块[215, 216]解决多姿态问题, 能否利用LBP等像素局部纹理来代替原始像素值作为网络输入来缓解说话人多样性、环境光照变化等问题.

      6) 视听语音识别(Audio-Visual Recognition, AVR). 事实上, 在唇读研究起源之际, 视听语音识别也展开了大量研究. 视频和音频实质上是一组能够同时表示自然语言信息的多模态信号, 受益于多模态深度学习方法[146]的快速发展, 视听语音识别近几年也取得了很大的进展. 毋庸置疑, 视觉信号和音频信号有很强的互补性, 特别是在其中某一模态信号受损的情况下, 如何利用这种模态之间的互补性来提高识别能力是未来的研究热点.

      7) 视觉语音双模态融合相关研究拓展. 基于视频和音频的多模态应用不仅仅局限于语音识别, 也同样能够适用于其他多模态任务. 很多传统的语音任务, 例如, 鸡尾酒会问题[111](语音分离任务)、语音增强任务[217]等, 唇读方法的引入为这些问题提供了新的解决思路[218-220]. 目前, 唇读方法在这些领域的应用才刚刚进入起步阶段, 仍然存在很大的研究价值和意义.

      8) 视觉语音跨模态生成相关研究拓展. 数据生成同样是当前深度学习研究的重点方向, 利用视觉信号与语音信号的高相关性进行跨模态数据生成, 这种新兴研究方向具有巨大的应用价值和学术价值. 利用视觉信息生成合理的音频语音[223], 或者相反利用音频语音信息生成合理的唇动视频[95]也才刚刚开始研究, 未来会吸引更多的研究者参与进来.

    • 唇读是计算机视觉和模式识别领域的一个重要问题, 在诸多领域有着广泛的应用价值, 同时也存在很多的困难与挑战. 本文分为传统方法和深度学习方法两部分, 系统性的回顾了唇读方法近二十年的研究进展, 详细的梳理了主流唇读方法的优势与不足, 并阐释了不同方法之间的内在联系. 以此为基础, 展望了唇读及其相关拓展领域未来的研究重点, 旨在吸引更多的研究者关注这一问题, 使得唇读问题在理论上和实践中都得到更好的解决, 并推向实际应用.

参考文献 (227)

目录

    /

    返回文章
    返回