2.845

2023影响因子

(CJCR)

  • 中文核心
  • EI
  • 中国科技核心
  • Scopus
  • CSCD
  • 英国科学文摘

留言板

尊敬的读者、作者、审稿人, 关于本刊的投稿、审稿、编辑和出版的任何问题, 您可以本页添加留言。我们将尽快给您答复。谢谢您的支持!

姓名
邮箱
手机号码
标题
留言内容
验证码

深度学习在控制领域的研究现状与展望

段艳杰 吕宜生 张杰 赵学亮 王飞跃

薛俊诗, 易辉, 吴止锾, 陈向宁. 一种基于场景图分割的混合式多视图三维重建方法. 自动化学报, 2020, 46(4): 782-795. doi: 10.16383/j.aas.c180155
引用本文: 段艳杰, 吕宜生, 张杰, 赵学亮, 王飞跃. 深度学习在控制领域的研究现状与展望. 自动化学报, 2016, 42(5): 643-654. doi: 10.16383/j.aas.2016.c160019
XUE Jun-Shi, YI Hui, WU Zhi-Huan, CHEN Xiang-Ning. A Hybrid Multi-View 3D Reconstruction Method Based on Scene Graph Partition. ACTA AUTOMATICA SINICA, 2020, 46(4): 782-795. doi: 10.16383/j.aas.c180155
Citation: DUAN Yan-Jie, LV Yi-Sheng, ZHANG Jie, ZHAO Xue-Liang, WANG Fei-Yue. Deep Learning for Control: The State of the Art and Prospects. ACTA AUTOMATICA SINICA, 2016, 42(5): 643-654. doi: 10.16383/j.aas.2016.c160019

深度学习在控制领域的研究现状与展望

doi: 10.16383/j.aas.2016.c160019
基金项目: 

国家自然科学基金 71402178

国家自然科学基金 71232006

国家自然科学基金 61233001

详细信息
    作者简介:

    段艳杰 中国科学院自动化研究所复杂系统管理与控制国家重点实验室博士研究生.主要研究方向为智能交通系统,机器学习及应用.E-mail:duanyanjie2012@ia.ac.cn

    吕宜生 中国科学院自动化研究所复杂系统管理与控制国家重点实验室助理研究员.主要研究方向为交通数据分析,动态交通建模,平行交通管理与控制系统.E-mail:yisheng.lv@ia.ac.cn

    张杰 中国科学院自动化研究所复杂系统管理与控制国家重点实验室助理研究员.主要研究方向为拍卖机制,最优控制与博弈论.E-mail:jie.zhang@ia.ac.cn

    赵学亮 中国科学院自动化研究所复杂系统管理与控制国家重点实验室博士研究生,中国自动化学会工程师.主要研究方向为社会计算,智能信息处理.E-mail:xueliang.zhao@ia.ac.cn

    通讯作者:

    王飞跃 中国科学院自动化研究所复杂系统管理与控制国家重点实验室研究员.主要研究方向为智能系统和复杂系统的建模,分析与控制.本文通信作者.E-mail:feiyue.wang@ia.ac.cn

Deep Learning for Control: The State of the Art and Prospects

Funds: 

Supported by National Natural Science Foundation of China 71402178

Supported by National Natural Science Foundation of China 71232006

Supported by National Natural Science Foundation of China 61233001

More Information
    Author Bio:

    Ph. D. candidate at The State Key Laboratory of Man- agement and Control for Complex Sys- tems, Institute of Automation, Chinese Academy of Sci- ences. Her research interest covers intelligent transporta- tion systems, machine learning and its application

    Assistant professor at The State Key Laboratory of Man- agement and Control for Complex Sys- tems, Institute of Automation, Chinese Academy of Sci- ences. His research interest covers tra±c data analysis, dynamic tra±c modeling, and parallel tra±c management and control systems

    Assistant professor at The State Key Laboratory of Manage- ment and Control for Complex Sys- tems, Institute of Automation, Chinese Academy of Sci- ences. His research interest covers online auctions, optimal control and game theory

    g Ph. D. candi- date at The State Key Laboratory of Management and Control for Complex Systems, Institute of Automation, Chinese Academy of Sci- ences, engineer at Chinese Association of Automation. His research interest covers social computing and intelligent in- formation processing

    Corresponding author: WANG Fei-Yue Professor at The State Key Laboratory of Management and Control for Complex Systems, In- stitute of Automation, Chinese Academy of Sciences. His research interest covers modeling, analysis, and control of intelligent systems and complex systems. Corresponding author of this paper
  • 摘要: 深度学习在特征提取与模型拟合方面显示了其潜力和优势. 对于存在高维数据的控制系统, 引入深度学习具有一定的意义. 近年来, 已有一些研究关注深度学习在控制领域的应用. 本文介绍了深度学习在控制领域的研究方向和现状, 包括控制目标识别、状态特征提取、系统参数辨识和控制策略计算. 并对相关的深度控制以及自适应动态规划与平行控制的方法和思想进行了描述. 总结了深度学习在控制领域研究中的主要作用和存在的问题, 展望了未来值得研究的方向.
  • 基于生物特征(虹膜、人脸、步态、指纹等)的身份识别是个体身份鉴别的重要手段.近年来, 随着模式识别、机器学习、计算机视觉、人工智能、信息安全等领域的发展, 生物特征识别技术不断突破创新, 得到了国内外学术界, 产业界乃至政府部门的高度关注, 已经被推向一个研究高潮.相比传统身份识别方式(密码、身份证等), 生物特征具有防伪性高、不易丢失或遗忘、信息丰富的特点.在常用生物特征(指纹、人脸、虹膜等)中, 虹膜识别因为具有唯一性、稳定性、非接触性、高精度等优势, 是现阶段最安全可靠的生物特征识别技术, 现已成功应用于海关、机场、公安、金融等高安全需求的场合.但是, 最近研究表明, 现有的虹膜识别系统无法对采集端进行保护, 在遇到人造假体样本(打印虹膜、美瞳、义眼等)攻击时, 常见的数字证书加密、水印、数字签名等信息保护措施失效, 导致系统产生误识别[1-3].为了准确辨别真实虹膜和人造假体虹膜, 提升虹膜识别系统的安全性和鲁棒性, 虹膜活体检测技术(Iris liveness detection)应运而生.该技术的基本原理是:与正常采集的虹膜图像相比, 人造假体虹膜图像在生成时会丢失信息, 同时也会附加额外的信息, 通过检测这两部分信息可以判断虹膜图像的真实性[4].

    根据检测信息方式的差异可以将虹膜活体检测方法分为两类:硬件法[5-14]和软件法[15-25].硬件法是指通过使用额外的硬件设备采集活体人眼特有的特征进行活体检测, 比如视线特征[5-7]、虹膜立体结构特征[8]、虹膜震颤(Hippus)特征[9]等. Daugman[10]提出了利用角膜和晶状体前后面对光照产生的普尔钦(Purkinje)反射进行虹膜活体检测的理论, Lee等[11]基于该理论实现了虹膜活体检测.该方法通过控制一对近红外光源产生并拍摄普尔钦反射, 可以实现图片、美瞳、义眼等多种攻击类型的检测, 不过需要精确控制光源和瞳孔之间的角度, 对成像系统要求较高. Lee等[12]通过测量不同近红外光照(750 nm和850 nm)条件下巩膜和虹膜之间反射率比的变化进行活体检测.该方法检测速度快, 但是需要分两次采集不同光照条件下的人眼图像, 大大降低了数据采集效率. Czajka等[13]通过控制30 s内点光源的亮度变化, 根据瞳孔的动态变化(Pupil dynamics)和与瞳孔收缩模型的拟合情况区分真假虹膜样本.该方法精度较高, 但数据采集时间较长且采集时人眼舒适度低.

    近年来, 光场成像技术以其多视角、多维度、多焦点成像的特点逐步应用于生物特征识别领域. Raghavendra等[14]首次利用光场相机的固有特性进行虹膜活体检测.该方法首先利用Lytro Desktop软件对光场图像进行预处理并渲染得到十几张具有不同对焦深度的图像, 然后依次对这些图像进行预处理, 得到归一化虹膜图像序列, 最后通过离散小波变换(Discrete wavelet transform, DWT)方法计算图像序列的对焦能量变化量来区分真假虹膜样本.该方法数据采集方便, 但光场数据处理受软件限制, 局限性大; 由于采用阈值分类方法, 该方法只能应对单一攻击类型, 其应用面较窄, 无法同时应对多种攻击类型.

    软件法是指在虹膜图像采集完成后通过对采集到的图像提取有区分性的特征进行虹膜活体检测. Daugman[10]提出打印虹膜图像经过2D傅里叶分析会产生与真实虹膜图像不同的频域特征.真假虹膜图像不仅频谱特征不同, 纹理特征也存在差异.因此, 通过利用LBP (Local binary pattern)[15]、BSIF (Binarized statistical image features)[16-17]、GLCM (Gray level co-occurrence matrix)[18]等局部特征描述子提取有区分性的局部特征, 可以准确检测多种人造假体虹膜类型(打印虹膜、美瞳、义眼等). Hu等[19]和Kohli等[20]通过融合多种局部特征取得了更好的活体检测结果. Gabally等[21]基于“质量差异”的假设提出了基于图像质量评价(Image quality assessment)的活体检测方法.该方法通过专门设计多种针对虹膜图像的质量评价指标, 来区分真实虹膜和打印虹膜, 取得了较高的分类准确率.然后, Gabally等[22]又使用25种常规图像质量评价方法来提取虹膜图像的质量特征, 既取得了较高的准确率又具有很好的泛化性能.随着深度学习浪潮的来临, 基于深度学习的虹膜活体检测方法[23-25]也已经达到了与传统方法相当的准确率.

    综上, 我们可知: 1)两类虹膜活体检测方法各有其优点与不足.硬件法能够采集更丰富的信息, 分类效果更好, 但是一般需要使用额外的成像设备, 自主搭建采集系统, 控制采集环境.因此硬件法操作复杂度高, 采集效率低, 无法便捷应用.软件法使用非接触方式采集图像, 运行速度快, 但是输入信息有限, 图像处理, 特征提取和活体检测算法易受图像质量影响. 2)目前使用的虹膜数据库几乎都是近距离采集(≤60 cm), 这样虽然能够得到高分辨率和高质量的虹膜图像, 但是成像环境和应用场景的光照、距离、视角、离焦、景深、噪声等变量需要严格受控, 无法进行复杂场景下的虹膜数据获取、活体检测、身份识别等任务的研究.

    基于以上问题, 本文提出了基于计算光场成像的远距离虹膜活体检测方法, 通过软硬件结合的方式, 从数据获取源头创新, 利用计算光场成像技术充分挖掘高维光场信息, 通过特征融合实现准确有效的远距离虹膜活体检测.我们使用光场相机作为虹膜图像的采集设备, 操作简单, 使用方便.利用计算光场成像技术, 只需一次图像采集, 使用一张光场图像即可使用硬件法和软件法分别提取有区分性的特征进行虹膜活体检测.因此, 本方法既能够方便迅速地采集虹膜图像, 又能够记录更高维度、更丰富的有效信息, 取得更好的活体检测结果.虹膜活体检测是虹膜识别系统的关键预处理步骤, 对于虹膜识别系统来说, 识别距离越远, 识别景深范围越大, 用户体验越好.光场成像技术具有景深扩展的强大后处理能力, 利用实验室自主研发的光场相机进行光场成像的景深比传统成像的景深扩大5~10倍, 可以实现远距离大景深的虹膜活体检测, 有助于促进生物特征识别的研究发展与应用产业化.

    本文受Raghavendra等[14]方法的启发, 与其不同的是, 在本文提出方法的数据采集环节中, 采集距离更远, 采集设备更先进, 采集环境更复杂; 在数据处理环节中, 可以自由控制光场图像的预处理与渲染过程, 根据需要得到任意步长间隔的重对焦图像序列; 在对焦评价环节中, 本文针对远距离半受控的采集环境, 选择了对噪声更鲁棒的基于图像梯度的评价方法; 在虹膜分类环节中, 本文选择了比阈值分类方法适用范围更广、分类性能更强的分类器.文献[14]虽然利用光场相机的固有特性进行近距离虹膜活体检测并在单一攻击类型的数据库中取得了不错的结果, 但无法同时应对多种攻击类型.而本方法通过软硬件结合的方式, 使用光场相机采集光场虹膜图像; 利用计算光场成像技术, 以光场重对焦技术为切入点, 通过软硬件特征融合的方式在远距离、半受控、大景深的图像采集条件下仍然可以同时应对多种攻击类型, 进行高准确率的虹膜活体检测.本文首先利用重对焦技术提取眼睛区域的立体结构特征, 然后利用重对焦序列中最清晰图像提取虹膜的纹理特征, 在特征层融合后使用支持向量机(Support vector machine, SVM)分类器进行真假虹膜样本分类.为了验证本文方法的精度和有效性, 我们采集建立了目前为止第一个近红外远距离光场虹膜活体检测数据库, 包括打印虹膜(普通打印纸、高光相片纸)和屏显虹膜(iPad)两类共三种人造假体虹膜图像, 共504个有效样本(约5万张重对焦光场图像).实验结果表明本文提出的方法可以准确有效地检测并阻止打印虹膜和屏显虹膜对虹膜识别系统的攻击.

    本文提出基于计算光场成像的虹膜活体检测方法, 如图 1所示.首先, 对采集的原始光场图像进行解码、标定、预处理, 获得四维光场数据$ L(u, v, x, y) $; 利用光场重对焦技术得到一组焦栈(Focal stack)图像.然后, 计算焦栈图像中眼睛区域的对焦能量值作为立体结构特征; 选取焦栈中最清晰的虹膜图像进行定位, 分割、归一化、提取LPQ (Local phase quantization)[26]特征作为纹理特征.最后, 在特征层融合立体结构特征和纹理特征, 使用SVM分类器进行真实虹膜和人造假体虹膜分类.

    图 1  光场虹膜活体检测方法流程图
    Fig. 1  Flowchart of light-field iris liveness detection method
    1.1.1   光场图像预处理

    光场通过表征空间中每一条光线的辐射亮度(Radiance), 描述了光在三维空间的辐射传输特性.光场成像是一种计算成像技术, 单次曝光即可同时捕获光线的能量和角度信息.因此, 基于光场成像技术设计的光场相机可以记录拍摄场景的光场.现阶段, 微透镜阵列广泛应用于光场调制过程.基于微透镜阵列的光场相机(Lytro, Raytrix等)是由主光学系统、微透镜阵列、图像传感器组成, 通过在传感器前放置微透镜阵列, 可以对不同视角的光线进行分离, 实现不同视角的快照式成像.

    光场成像是一种编码成像, 不是“所见即所得”, 因此需要对获取的原始光场图像进行解码、标定和预处理, 才能得到图像的光场数据.本文采用Dansereau等[27]提出的方法1, 使用双平面表达模型对光场进行参数化描述, 通过使用白图像标定每个微透镜的中心坐标, 计算配准参数, 提取4D光场数据$ L (u, v, x, y) $.

    1http://www.mathworks.com/matlabcentral/fileexchange/49683

    $ \begin{equation} I(x, y) = \iint L(u, v, x, y) \mathrm{d}u \mathrm{d}v \end{equation} $

    (1)

    计算光场成像模型如式(1)所示, 对光场矩阵$ L(u, v, x, y) $的$ uv $坐标积分, 即可得到传统光学成像结构采集的2D传统图像$ I(x, y) $.通过固定$ uv $坐标可以得到不同视角下的子孔径图像$ I(x, y)_{u, v} $, 由文献[28]可知, 子孔径图像所对应的光瞳尺寸是原始光瞳尺寸的$ {1}/{u} $, 因此, 理论上光场子孔径图像的景深是传统图像的$ u $倍.以我们实验室自主研制的光场相机为例, $ u = 13 $.

    图 2为物方离焦分别为-10 cm、0 cm、+10 cm、+20 cm时传统图像$ I(x, y) $和对应距离采集的光场中心子孔径图像$ I(x, y)_{5, 5} $.第1行为传统图像, 第2行为与之对应的光场中心子孔径图像.比较两组图像可知, 在聚焦位置1.6 m处两幅图像都非常清晰, 没有明显视觉差异; 随着离焦量增大, 传统图像趋于模糊, 当离焦量较大时, 弥散效应非常明显, 虹膜数据已无法用于后续的数据处理, 而光场中心子孔径图像仍然可以清晰看到瞳孔中反射的光点.这说明光场成像的景深远大于传统成像的景深, 计算光场成像具有强大的景深扩展能力.

    图 2  传统图像(上)与光场中心子孔径图像(下)比较
    Fig. 2  Comparison between traditional images (up) and light-field sub-aperture images (down)

    传统成像技术一直存在景深与焦距(或孔径)的相互制约关系.利用传统相机拍摄远距离虹膜时必须选用长焦镜头, 若固定其他光学成像参数, 则焦距增大会导致景深变小, 使高质量清晰虹膜图像的采集变得非常困难, 需要参与者高度配合, 否则容易出现严重的离焦模糊, 为后续虹膜检测、分割、识别的研究带来巨大挑战.而光场成像技术具有“先拍摄, 后对焦”的优势, 在进行远距离虹膜图像采集时, 使用实验室自主研制的光场相机配合70 mm $ \sim $ 200 mm长焦镜头拍摄1.6 m远的虹膜时, 依然可以获得30 cm的有效景深范围, 有效解决了基于传统成像的虹膜图像采集的难题.因此, 使用光场成像方式可以实现对用户交互、应用场景、成像环境鲁棒的远距离、大景深、高质量光场虹膜图像采集.

    1.1.2   光场重对焦

    对焦是通过改变探测器像面与镜头之间的距离, 使拍摄物体在探测器像面上产生清晰图像的过程.在传统光学成像系统中, 对焦是通过手动或自动调整对焦环使离焦模糊的目标变清晰, 其实质是将光场重新投影到成像最清晰的像平面.基于微透镜阵列的光场相机能够同时对光线的能量和角度信息进行采样和成像, 记录四维光场数据.因此可以通过计算成像的方式改变光场的投影像平面, 实现数字重对焦(Digital refocusing).本文使用Ng等[28]提出的重对焦方法, 重对焦计算公式为:

    $ \begin{equation} L{'}(u, v, x{'}, y{'}) = L(u, v, \frac{x{'}}{\alpha}+u(1-\alpha), \frac{y{'}}{\alpha}+v(1-\alpha)) \end{equation} $

    (2)

    图 3所示, 基于双平面表达模型对光场进行参数化描述, $ L{'}(u, v, x{'}, y{'}) $表示重对焦平面记录的光场, $ L(u, v, x, y) $表示原始成像平面记录的光场, $ \alpha $表示重对焦像平面与原始成像平面的相对位置, $ \alpha = {F{'}}/{F} $, $ F $和$ F{'} $分别表示重对焦前后主透镜平面到成像平面的距离.基于几何光学的光线传播理论, 光线在均匀介质中沿直线传播, 所以在式(2)中, 重对焦前后光场$ uv $坐标不变.因此, 重对焦图像可由原始光场子孔径图像线性平移后叠加获得.通过均匀改变$ \alpha $可以得到一组对焦在不同深度位置的焦栈图像.

    图 3  重对焦示意图
    Fig. 3  Refocusing demonstration

    图 4为一组虹膜焦栈图像中的部分图像, 可以直观地看到$ \alpha = 1.010 $时图像最清晰(计算焦栈图像的对焦能量值亦可验证), 在此基础上$ \alpha $减小或增大图像都逐渐模糊.

    图 4  虹膜焦栈图像
    Fig. 4  Iris focal stack images

    理论上在聚焦情况下, 当$ \alpha = 1 $时图像最清晰, 但因为本文实验数据是在半受控环境下采集, 实际拍摄中由于被采集者移动、姿态非对正、对焦目标是人脸等因素会导致虹膜的聚焦位置不是理想情况时的$ \alpha = 1 $.因此, 通过光场数字重对焦技术不仅可以利用硬件法提取焦栈图像眼睛区域的立体结构特征, 而且可以实现更准确对焦, 获取最清晰的虹膜图像, 从而利用软件法提取更有区分性、更鲁棒的纹理特征.虽然光场重对焦技术可以扩大图像景深, 但是仍然受到香农采样定理的制约, 偏离聚焦位置过大仍会导致图像模糊, 产生非精确对焦(Inexact refocusing)[29].

    1.2.1   对焦评价函数

    本文使用对焦评价函数对焦栈图像的清晰度进行度量评价, 从而得到焦栈图像的对焦能量值曲线, 以此构建眼睛区域的立体结构特征.由于采集距离远, 光照和离焦不断变化, 采集的虹膜图像存在不同程度的噪声, 因此本文采用对光照和噪声不敏感的基于图像梯度的对焦评价函数TGV (Tenengrad gradient variance)[30], 以提升本方法的鲁棒性.

    $ \begin{align} S(x, y) & = \sqrt{(I_{\rm{R}}(x, y)* S_{x})^{2}+{(I_{\rm{R}}(x, y)* S_{y})^{2}}} \end{align} $

    (3)

    $ \begin{align} \bar{S} & = \frac{1}{XY}\sum\limits_{x = 1}^X\sum\limits_{y = 1}^YS(x, y) \end{align} $

    (4)

    $ \begin{align} F_{\rm{SF}}(I_{\rm{R}}) & = \sum\limits_{x = 1}^X\sum\limits_{y = 1}^Y[S(x, y)-\bar{S}]^{2} , \text{ 若 }\; S(x, y)>T \end{align} $

    (5)

    由式(3) $ \sim $ (5)可知, TGV方法首先使用索贝尔算子(Sobel operator) $ S_{x} $和$ S_{y} $提取重对焦图像$ I_{\rm{R}}(x, y) $中的边缘信息, 然后计算每个像素的梯度强度$ S(x, y) $和整幅图像的平均梯度强度$ \bar{S} $, 设置阈值$ T $来滤除噪声产生的边缘像素, 使用梯度强度方差$ F_{\rm{SF}}(I_{\rm{R}}) $作为图像的对焦能量值. $ F_{\rm{SF}}(I_{\rm{R}}) $越大, 说明图像中边缘信息越丰富, 图像越清晰.

    图 5展示的是相机对焦位置为1.6 m时, 对1.5 m (-10 cm)、1.6 m (0 cm)、1.7 m (+10 cm)、1.8 m (+20 cm)处的虹膜进行光场成像得到的对焦能量值曲线.横轴表示焦栈中图像的位置序号(Sequence number), 对应的重对焦区间为$ [0.5, 1.7] $.纵轴表示对焦能量值大小.可以发现, 随着采集距离增加, 对焦能量值达到峰值时所在焦栈图像中的位置逐渐后移, 与理论聚焦位置相符.对焦能量值曲线对应的峰值大小与离焦量有关, 在实际对焦位置1.6 m处离焦0 cm, 此时对焦能量值最大, 图像最清晰.当离焦-10 cm、+10 cm、+20 cm时, 虽然重对焦图像的清晰度提升很大, 但是因为重对焦图像是由原始光场子孔径图像经过线性平移后叠加得到, 这个过程相当于对图像进行了平滑滤波, 图像丢失了部分的高频信息, 边缘信息变少.因此, 重对焦位置偏离聚焦位置越远, 图像平滑越明显, 高频信息丢失越多, 图像对焦能量值越低.

    图 5  不同拍摄距离(离焦量)时焦栈图像对焦能量值曲线
    Fig. 5  Focus measure curves of focal stack images at different capturing distances (defocusing amount)
    1.2.2   立体结构特征构建

    由于我们采集的是双眼虹膜图像, 采集环境半受控, 在拍摄时会因为被采集者移动、姿态非对正等因素导致左右眼区域的最优聚焦位置不同, 影响立体结构特征的提取.所以左右眼区域最优聚焦位置的搜索过程是独立进行的.

    重对焦过程本质是一个搜索过程, 因此本文采用了由粗到精的方法确定最优聚焦位置$ \alpha^{*} $.首先使用$ \Delta\alpha = 0.03 $的步长在$ [0.5, 1.7] $的重对焦区间内对图像进行大范围宽间距的搜索, 寻找焦栈图像中聚焦能量值最高的图像对应的$ \alpha{'} $, 然后以$ \alpha{'} $为中心, 在$ [\alpha{'}-0.03, \alpha{'}+0.03] $区间内进行小范围窄间距的二次重对焦搜索, 确定最优聚焦位置$ \alpha^{*} $.

    根据相关实验结果(详见第3.1节), 确定最优重对焦范围为0.4, 因此构建眼睛区域立体结构特征的重对焦区间为$ [\alpha^{*}-0.2, \alpha^{*}+0.2] $; 重对焦步长$ \Delta\alpha = 0.0028 $, 对应的焦栈图像数量$ N_{\rm{SN}} $ (Sequence number)为145.将该序列中所有图像对焦能量值依次排列, 作为眼睛区域的立体结构特征$ \boldsymbol{F}_{\rm{SF}} $.立体结构通过对焦能量值曲线的形状反映了眼睛区域的深度结构信息.

    图 6展示了同一虹膜在1.5 m、1.6 m、1.7 m处拍摄的真实虹膜图像和利用该虹膜制造的三种人造假体虹膜图像的归一化立体结构特征曲线.对比真假虹膜的归一化立体结构特征曲线, 可以发现两者之间存在显著差异. 1)真实虹膜图像的归一化立体结构特征曲线峰值比较低, 假虹膜曲线的峰值比较高.原因是真实人眼区域是立体结构, 虹膜与眼周区域位于不同的深度位置, 在一定重对焦范围内都有对象对焦, 对焦能量值衰减较慢, 因此在归一化立体结构特征曲线中峰值对应的比重较低. 2)真实虹膜归一化立体结构特征曲线存在不同程度的波动, 曲线不平滑, 而人造假体虹膜曲线平滑.原因是打印虹膜和屏显虹膜是平面结构, 没有深度变化, 而真实人眼区域是立体结构, 在计算对焦能量值时会产生较大程度的波动.

    图 6  不同类型真假虹膜图像归一化立体结构特征曲线
    Fig. 6  Normalized structure feature curves of different kinds of real and fake images

    实验结果表明(详见第3.3节), 当单独使用眼睛区域归一化立体结构特征进行虹膜活体检测时, 可以达到94.41 %分类准确率, 5.90 %平均分类错误率, 说明提取的归一化立体结构特征具有很强的区分性.

    我们通过由粗到精的重对焦搜索确定了最优聚焦位置$ \alpha^{*} $和对应的最清晰虹膜图像.本方法使用最清晰虹膜图像进行虹膜定位、分割、归一化, 然后使用LPQ特征描述子提取虹膜图像的纹理特征.

    LPQ特征使用图像低频信息进行构建, 对图像模糊不敏感, 可以在远距离情况下提取更鲁棒、更有区分性的特征.首先对图像$ f(\boldsymbol{x}) $中每个像素$ \boldsymbol{x} $的矩形邻域$ N_{\boldsymbol{x}} $做短时傅里叶变换(Short-time Fourier transform, STFT)变换:

    $ \begin{equation} F(\boldsymbol{u}, \boldsymbol{x}) = \sum\limits_{\boldsymbol{y}}f(\boldsymbol{y})\omega(\boldsymbol{y}-\boldsymbol{x})\mathrm{e}^{-\mathrm{j2\pi} \boldsymbol{u}\cdot \boldsymbol{y}} \end{equation} $

    (6)

    式中, $ \boldsymbol{x} $、$ \boldsymbol{y} $是图像像素的二维坐标, $ \boldsymbol{u} $是频率, $ \omega(\boldsymbol{x}) $是表示邻域$ N_{\boldsymbol{x}} $的窗口函数.只考察四个频率$ \boldsymbol{u}_{0} = (a, 0) $, $ \boldsymbol{u}_{1} = (a, a) $, $ \boldsymbol{u}_{2} = (0, a) $, $ \boldsymbol{u}_{3} = (-a, a) $的傅里叶系数, 其中$ a\ll1 $.得到像素$ \boldsymbol{x} $的傅里叶系数特征$ \boldsymbol{F} (\boldsymbol{x}) $, 如式(7)和(8)所示.将$ \boldsymbol{G} (\boldsymbol{x}) $各分量的实部和虚部根据其正负号分别量化为1和0, 得到像素$ \boldsymbol{x} $邻域的傅里叶相位信息, 将其转换至$ [0, 255] $范围就得到该像素的LPQ特征值$ F_{\rm{LPQ}} (\boldsymbol{x}) $.最后统计图像所有像素点的LPQ特征值得到图像的LPQ特征统计直方图, 将其作为虹膜图像的纹理特征$ \boldsymbol{F}_{\rm{LPQ}} $.

    $ \begin{align} \boldsymbol{F}(\boldsymbol{x}) & = [F(\boldsymbol{u}_{1}, \boldsymbol{x}), F(\boldsymbol{u}_{2}, \boldsymbol{x}), F(\boldsymbol{u}_{3}, \boldsymbol{x}), F(\boldsymbol{u}_{4}, \boldsymbol{x})] \end{align} $

    (7)

    $ \begin{align} \boldsymbol{G}(\boldsymbol{x}) & = [\mathrm{Re}{\boldsymbol{F}(\boldsymbol{x})}, \mathrm{Im}{\boldsymbol{F}(\boldsymbol{x})}] \end{align} $

    (8)

    图 7展示了同一虹膜在1.5 m、1.6 m、1.7 m处拍摄的真实虹膜图像和利用该虹膜制造的三种人造假体虹膜图像的纹理特征曲线.真假虹膜之间的纹理特征在形状、幅值等方面存在显著差异.

    图 7  不同类型真假虹膜图像纹理特征曲线
    Fig. 7  Texture feature curves of different kinds of real and fake images

    立体结构特征表达了眼睛区域的深度变化信息, 纹理特征表达了虹膜的纹理信息, 两类特征相互补充, 因此本方法融合两类特征进行虹膜活体检测.相比于分数层特征融合方式, 本文使用的特征层级联的特征融合方式可以使分类器既能提取每一类特征的有区分性信息, 又能利用两类特征之间隐含的相关性来提高分类结果, 获得更高的分类准确率.分别对立体结构特征和纹理特征进行归一化, 然后进行特征串联即可得到最终分类特征$ \boldsymbol{F}_{\rm{F}} = [\boldsymbol{F}_{\rm{SF}}, \boldsymbol{F}_{\rm{LPQ}}] $.

    $ \begin{align} \min\limits_{\boldsymbol{\omega}, b, \boldsymbol{\xi}}&\Bigg(\max\limits_{\alpha_{i}, \beta_{i}}\Bigg(\frac{1}{2}\|\boldsymbol{\omega}\|^{2}+C\sum\limits_{i = 1}^{n}\xi_{i}-\sum\limits_{i = 1}^{n}\alpha_{i}(y_{i}(\boldsymbol{\omega}^\mathrm{T}\boldsymbol{x}_{i}+ \\ &b)-1+\xi_{i})-\sum\limits_{i = 1}^{n}\beta_{i}\xi_{i}\Bigg)\Bigg) \end{align} $

    (9)

    s.t.

    $ \begin{align} \alpha_{i}\geq0, \ \beta_{i}\geq0, \ \xi_{i}\geq0, \ i = 1, 2, \cdots, n \end{align} $

    本文采用径向基函数SVM分类器进行特征分类, 首先优化求解式(9), 利用$ n $个训练集数据求解变量$ \boldsymbol{\alpha}^{*} = (\alpha_{1}^{*}, \alpha_{2}^{*}, \cdots, \alpha_{n}^{*}) $和$ b^{*} $的最优解, 然后使用分类决策函数$ f(\boldsymbol{x}) $判断测试样本$ \boldsymbol{x} $的真伪.

    $ \begin{equation} f(\boldsymbol{x}) = \mathrm{sign}\left(\sum\limits_{i = 1}^{n}\alpha_{i}^{*}y_{i}\exp(-\frac{\|\boldsymbol{x}_{i}-\boldsymbol{x}\|^{2}}{2\sigma^{2}})+b^{*}\right) \end{equation} $

    (10)

    我们计划建立一个大型近红外光场虹膜活体检测数据库.目前已完成第一阶段的采集工作, 建立了一个中等规模的近红外远距离光场虹膜活体检测数据库.该数据库在半受控环境下采集, 半受控表现为采集环境光照多变、采集背景复杂、采集姿态非对正、遮挡等.采集对象有14人, 采集的人造假体虹膜样本类型有打印虹膜(普通打印纸、高光相片纸)和屏显虹膜(iPad)两类.对采集的光场图像进行认真筛选, 得到504个可用真假虹膜样本(约5万张重对焦光场图像).我们使用的采集设备有实验室自制光场相机和Lytro Illum商业级光场相机, 如图 8 (a)8 (b)所示.下面分别介绍真实虹膜样本图像和人造假体虹膜样本图像的采集流程规范.

    图 8  光场图像采集设备及采集场景
    Fig. 8  Light-field image acquisition devices and acquisition scene

    由于亚洲人种的虹膜在可见光下呈深褐色, 虹膜纹理不明显, 所以需要在近红外环境下采集真实人眼虹膜图像.真实人眼虹膜图像的采集过程分为两步.

    1) 使用图 8 (c)所示的近距离高清虹膜采集设备采集近红外条件下的双眼虹膜图像, 专门用于人造假体虹膜样本的制作, 以及后续的虹膜识别研究. 图 8 (d)是采集白图像的过程, 采集的白图像用于光场相机的标定与光场图像的平场校正、参数配准等预处理过程.

    2) 采集远距离不同离焦情况下的双眼真实虹膜样本.为了让拍摄环境更接近实际应用时的光照环境, 我们通过调整摄影灯的光照强度和近红外光的强度人为模拟了高亮光照环境、自然光照环境、昏暗光照环境, 每个参与者只在一种光照环境下拍摄虹膜图像.

    我们将光场相机设置为拍摄1.6 m距离处图像能清晰对焦, 保持相机参数不变, 让参与者分别位于1.5 m、1.6 m、1.7 m和1.8 m处拍摄离焦距离分别为-10 cm、0 cm、+10 cm和+20 cm时的光场虹膜图像, 每个位置至少采集三张光场图像.采集的真实虹膜样本如图 9 (a)所示.

    图 9  采集的真假虹膜图像
    Fig. 9  Captured real an spoofing irises

    经过光场解码、标定、去渐晕等后处理增强, 最终采用115张真实双眼虹膜图像, 获得230个真实虹膜样本.

    拍摄的人造假体虹膜类型有打印虹膜和iPad屏显虹膜两类, 其中打印虹膜又细分为A4普通打印纸黑白打印与高光相片纸彩色打印两种.图 9 (b)$ \sim $9 (d)对应展示了A4普通打印纸打印虹膜、iPad屏显虹膜、高光相片纸打印虹膜三种人造假体虹膜图像.我们选择这三种人造假体攻击方式的原因有: 1)图像来源简单可靠, 高分辨率图像非常容易从社交媒体等渠道获取或盗用; 2)攻击方式简单有效, 文献[1-3]对这几种方法的有效性都进行了研究.

    我们首先使用商业打印机制作两种打印类型的假体虹膜图像, 打印机DPI (Dots per inch)设置为1 200, 分别在高亮光照环境和自然光照环境下使用自制相机和Lytro相机采集1.5 m、1.6 m、1.7 m距离时的人造假体虹膜图像, 每个人造样本采集三张图像. iPad屏显虹膜图像使用屏幕分辨率为$ 2 048 \times 1 536 $的iPad mini 4展示.我们分别使用两种光场相机拍摄1.6 m距离时的iPad人造假体虹膜图像.最终, 我们采用137张人造假体双眼膜样本图像, 获得三种类型共274个人造假体虹膜样本.

    我们首先通过实验确定本文方法的关键参数, 然后介绍活体检测方法的评价准则, 最后在我们自主采集的光场虹膜数据库上进行实验, 并对实验结果进行分析.

    本文提出的虹膜活体检测方法需要利用光场重对焦技术来计算眼睛区域的立体结构特征, 所以重对焦范围$ S_{\rm{s}} $和重对焦序列图像数量$ N_{\rm{SN}} $的选取直接影响到立体结构特征的表达, 进而影响活体检测方法的准确率.但是$ S_{\rm{s}} $和$ N_{\rm{SN}} $无法根据理论和经验直接确定, 所以本文通过实验的方式确定它们的最优解.

    重对焦范围$ S_{\rm{s}} $可以表示为重对焦序列图像数量$ N_{\rm{SN}} $与重对焦序列最小间隔$ \Delta\alpha $的乘积.

    $ \begin{equation} S_{\rm{s}} = \Delta\alpha\cdot N_{\rm{SN}} \end{equation} $

    (11)

    我们固定$ \Delta\alpha $不变, 通过寻找$ S_{\rm{s}} $与活体检测准确率之间的关系来同时确定$ S_{\rm{s}} $和$ N_{\rm{SN}} $.通过简单实验进行拟合, 确定$ \Delta\alpha $的估计值为0.0028.图 10展示的是$ S_{\rm{s}} $取值分别为$ 0.1, 0.2, \cdots, 0.7 $时与活体检测准确率Accuracy的关系.实验结果表明$ S_{\rm{s}} $与活体检测准确率有相关性, $ S_{\rm{s}} $在$ [0.1, 0.4] $之间随着重对焦范围增大, 准确率逐渐提升, 在$ S_{\rm{s}} = 0.4 $时准确率达到最大值94.41 %, 此后准确率随着$ S_{\rm{s}} $的增大缓慢波动.因为程序执行时间与焦栈图像数量是线性关系, $ S_{\rm{s}} $越大焦栈图像渲染的耗时越长.所以$ S_{\rm{s}} $的最优值为0.4, 用于构建立体结构特征的重对焦区间为$ [\alpha^{*}-0.2, \alpha^{*}+0.2] $, $ N_{\rm{SN}} $的最优值为145.

    图 10  Ss与准确率Accuracy关系曲线
    Fig. 10  Relation curve between Ss and accuracy

    根据ISO/IEC[31]的规定, 虹膜活体检测方法的评价指标为: 1) Attack presentation classification error rate (APCER), 表示的是把人造假体虹膜样本错误地认定为真实虹膜样本的比例; 2) Bona fide presentation classification error rate (BPCER), 表示的是把真实虹膜样本错误认定为人造假体虹膜样本的比例.最后本文使用平均分类错误率ACER评价方法的整体性能.

    $ \begin{equation} ACER = \frac{APCER+BPCER}{2} \end{equation} $

    (12)

    平均错误率ACER越小, 说明算法整体表现越好, 活体检测准确率越高. APCER、BPCER、ACER均可以通过比较测试集真实标签和SVM分类器估计的标签得到.

    由于传统方法可以直接使用光场子孔径图像进行活体检测, 所以对比方法中包括了很多基于传统图像的方法, 比如基于局部特征描述子的方法和基于图像质量评价的方法.对比方法使用的虹膜图像为焦栈图像中最清晰的虹膜图像.实验在自主采集的近红外远距离光场虹膜活体检测数据库上进行, 将实验数据根据采集对象分为训练集和测试集, 训练集包括5人的真假虹膜图像, 测试集包括9人的真假虹膜图像, 实验结果如表 1所示.

    表 1  虹膜活体检测方法在自主采集的数据库上的表现(%)
    Table 1  Performance of iris liveness detection methods on self-collected database (%)
    Method Accuracy APCER BPCER ACER
    Bliinds2[32] 79.61 23.81 16.18 19.99
    BRISQUE[33] 86.18 13.69 13.97 13.83
    DIIVINE[34] 89.14 5.95 16.91 11.43
    BSIF[35] 83.88 16.67 15.44 16.05
    DSIFT[36] 76.97 35.12 8.09 21.60
    LPQ[26] 90.13 11.90 7.35 9.63
    SID[37] 77.30 35.12 7.35 21.24
    LBP[38] 82.24 20.83 13.97 17.40
    LBPV[39] 79.61 30.95 7.35 19.15
    Raghavendra[14] 59.54 32.14 50.74 41.44
    Ours_SF 94.41 2.98 8.82 5.90
    Ours_Fusion 96.38 2.98 4.41 3.69
    下载: 导出CSV 
    | 显示表格

    表 1中Bliinds2、BRISQUE、DIIVINE是三种基于图像质量评价的方法, 最好的DIIVINE方法取得了89.14 %的分类准确率, 11.43 %的平均分类错误率. BSIF、DSIFT、LPQ、SID、LBP、LBPV是基于局部特征描述子的方法, 其中LPQ特征描述子取得了最好的90.13 %的分类准确率, 9.63 %的平均分类错误率.首次使用光场相机和重对焦策略进行虹膜活体检测的Raghavendra等[14]方法只取得了59.54 %的分类准确率, 平均分类错误率达到了41.44 %.对于本文提出的方法, 当单独使用归一化的立体结构特征$ \boldsymbol{F}_{\rm{SF}} $进行分类时(Ours_SF)便取得了94.41 %的分类准确率, 平均分类错误率为5.90 %, 而使用特征融合后的特征$ \boldsymbol{F}_{\rm{F}} $进行分类时(Ours_Fusion)更是取得了96.38 %的分类准确率, 相比最好的对比方法提升了6.25 %, 平均分类错误率为3.69 %, 降低了5.94 %.因此, 由实验结果可知, 结构特征与纹理特征的融合对真实虹膜和人造假体虹膜有更强的区分性.

    由“质量差异”假设可知, 人造假体虹膜在制作时不可避免地会丢失部分信息, 因此基于图像质量评价的方法总可以取得不错的分类效果.由于实验样本为远距离采集的虹膜图像, 光照明暗多变, 图像采集时容易被曝光等原因产生的噪声干扰, 影响部分特征描述子的特征提取, 降低分类准确率.由于文献[14]中方法使用单阈值区分真假虹膜样本, 无法同时应对多种攻击类型.所以在本文采集的混合攻击类型数据库中表现很差.

    对于本文提出的方法, 特征融合后的APCER和只使用归一化的立体结构特征的APCER均为2.98 %, 一个可能原因是纹理特征误识别为真实样本的所有假体样本中, 包含全部立体结构特征误识别为真实样本的假体样本, 因此特征融合后APCER无法进一步降低.而由于两类特征误识别为假体样本的真实样本之间不是此种包含关系, 因此特征融合后BPCER降低了4.41 %.

    由以上分析可知, 本文提出的基于计算光场成像的远距离虹膜活体检测方法通过融合眼睛区域的立体结构特征和虹膜图像的纹理特征, 可以有效地辨别真实虹膜和不同类型的人造假体虹膜, 在所有方法中取得了最好的分类效果.

    除了本文测试的三种平面假体虹膜类型, 本方法对美瞳、义眼等假体类型也有区分性.美瞳和义眼等假体类型因为更接近真实人眼的结构和纹理, 所以更逼真.对于平面假体样本, 根据本文的实验结果, 立体结构特征的区分性更强(94.41 %), 纹理特征的区分性相对偏弱(90.13 %).而对于美瞳、义眼等假体类型, 立体结构特征的区分性虽然会减弱, 但纹理特征的区分性仍然很强, 依然可以有效阻止此类假体攻击.因此, 通过融合立体结构特征和虹膜纹理特征, 本方法理论上可以有效应对所有类型的假体攻击方式.

    本文提出了一种基于计算光场成像的远距离虹膜活体检测方法.通过软硬件结合的方式, 使用光场相机采集虹膜图像, 利用计算光场成像技术, 使用硬件方法提取了眼睛区域的立体结构特征, 使用软件方法提取了虹膜图像的纹理特征, 并在特征层进行特征融合、分类.由于目前没有相关的数据库, 因此, 我们正在采集建立一个大型的近红外光场虹膜活体检测数据库, 现已完成14人的虹膜采集工作, 建立了目前为止第一个中等规模的近红外光场虹膜活体检测数据库.在半受控环境下采集了真实人眼虹膜图像和打印虹膜(普通打印纸、高光相片纸)、iPad屏显虹膜两类共三种人造假体虹膜图像.实验结果表明, 本方法可以对在1.6 m距离, 30 cm景深范围内采集的实验样本取得96.38 %的活体检测准确率, 3.69 %的平均分类错误率.相比最好的对比方法准确率提升6.25 %, 平均分类错误率降低5.94 %.

    本文提出的远距离、大景深、高精度的虹膜活体检测方法, 通过软硬件结合的方式, 使用光场相机进行虹膜图像采集; 利用计算光场成像技术充分挖掘四维光场信息, 获取更多有助于活体检测的信息来提升虹膜活体检测的准确率.本方法不需要使用额外的硬件采集设备, 只需使用光场相机, 就可以实现远距离、非接触、大景深范围的虹膜图像采集, 对被采集者非常友好.本方法充分利用了四维光场信息和光场成像技术的“先拍摄, 后对焦”优势, 把光场重对焦技术与传统特征提取方法深度结合, 可以同时提取眼睛区域的立体结构特征和虹膜的纹理特征, 通过特征融合实现高准确率的虹膜活体检测, 为虹膜、人脸的活体检测方法提供了新的思路.文献[14]验证了近距离情况下使用光场相机进行虹膜活体检测的可行性和有效性, 本文在文献[14]的基础上通过实验证明, 在远距离、大景深条件下利用计算光场成像技术, 通过多特征融合能够同时应对多种攻击类型, 进行高准确率虹膜活体检测.本文的不足之处是由于数据量不足, 无法验证本方法对美瞳、义眼等假体类型的有效性.

  • 图  1  DBN网络结构

    Fig.  1  The structure of DBN

    图  2  SAE网络结构

    Fig.  2  The structure of SAE

    图  3  CNN网络结构[6]

    Fig.  3  quad The structure of CNN[6]

    图  4  RNN网络结构

    Fig.  4  The structure of RNN

    图  5  深度学习在控制系统各环节的应用

    Fig.  5  The application of deep learning in control system

    图  6  机械手抓取系统[14]

    Fig.  6  Robotic grasping system[14]

    图  7  使用深度学习进行Atari游戏

    Fig.  7  Playing Atari with deep learning

    图  8  进行状态预测和学习 $Q$ 函数的深度网络[20]

    Fig.  8  Neural network for learning state prediction and $Q$ function[20]

    图  9  进行运动控制函数研究的深度网络

    Fig.  9  Deep neural network for motor control function

    图  10  深度模糊控制网络

    Fig.  10  Neuro-fuzzy network

    图  11  自适应动态规划的神经网络结构

    Fig.  11  The network structure of adaptive dynamic programming

    图  12  平行控制系统[50]

    Fig.  12  Parallel control systems[50]

  • [1] LeCun Y, Bengio Y, Hinton G. Deep learning. Nature, 2015, 521(7553): 436-444
    [2] Krizhevsky A, Sutskever I, Hinton G E. ImageNet classification with deep convolutional neural networks. In: Proceedings of the 2012 Advances in Neural Information Processing Systems. Lake Tahoe, Nevada, USA: Curran Associates, Inc., 2012. 1097-1105
    [3] Hinton G E, Salakhutdinov R R. Reducing the dimensionality of data with neural networks. Science, 2006, 313(5786): 504-507
    [4] Hinton G E, Osindero S, Teh Y W. A fast learning algorithm for deep belief nets. Neural Computation, 2006, 18(7): 1527-1554
    [5] Bengio Y, Lamblin P, Popovici D, Larochelle H. Greedy layer-wise training of deep networks. In: Proceedings of the 2007 Advances in Neural Information Processing Systems. Cambridge, MA: MIT Press, 2007. 153-160
    [6] Lecun Y, Bottou L, Bengio Y, Haffner P. Gradient-based learning applied to document recognition. Proceedings of the IEEE, 1998, 86(11): 2278-2324
    [7] Sutskever I. Training recurrent neural networks [Ph.D. dissertation], University of Toronto, Canada, 2013
    [8] Bengio Y. Learning deep architectures for AI. Foundations and Trends® in Machine Learning, 2009, 2(1): 1-127
    [9] Arel I, Rose D C, Karnowski T P. Deep machine learning——a new frontier in artificial intelligence research. IEEE Computational Intelligence Magazine, 2010, 5(4): 13-18
    [10] Bengio Y, Courville A, Vincent P. Representation learning: a review and new perspectives. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2013, 35(8): 1798-1828
    [11] Schmidhuber J. Deep learning in neural networks: an overview. Neural Networks, 2015, 61: 85-117
    [12] Boulanger-Lewandowski N, Bengio Y, Vincent P. Modeling temporal dependencies in high-dimensional sequences: application to polyphonic music generation and transcription. arXiv: 12066392, 2012.
    [13] Schuster M, Paliwal K K. Bidirectional recurrent neural networks. IEEE Transactions on Signal Processing, 1997, 45(11): 2673-2681
    [14] Yu J, Weng K, Liang G, Xie G. A vision-based robotic grasping system using deep learning for 3D object recognition and pose estimation. In: Proceedings of the 2013 IEEE International Conference on Robotics and Biomimetics (ROBIO). Shenzhen, China: IEEE, 2013. 1175-1180
    [15] Lange S, Riedmiller M. Deep auto-encoder neural networks in reinforcement learning. In: Proceedings of the 2010 International Joint Conference on Neural Networks (IJCNN). Barcelona: IEEE, 2010. 1-8
    [16] Mattner J, Lange S, Riedmiller M. Learn to swing up and balance a real pole based on raw visual input data. In: Proceedings of the 19th International Conference on Neural Information Processing. Doha, Qatar: Springer, 2012. 126-133
    [17] Mnih V, Kavukcuoglu K, Silver D, Graves A, Antonoglou I, Wierstra D, Riedmiller M. Playing Atari with deep reinforcement learning. arXiv: 1312.5602, 2013.
    [18] Mnih V, Kavukcuoglu K, Silver D, Rusu A A, Veness J, Bellemare M G, Graves A, Riedmiller M, Fidjeland A K, Ostrovski G, Petersen S, Beattie C, Sadik A, Antonoglou I, King H, Kumaran D, Wierstra D, Legg S, Hassabis D. Human-level control through deep reinforcement learning. Nature, 2015, 518(7540): 529-533
    [19] Punjani A, Abbeel P. Deep learning helicopter dynamics models. In: Proceedings of the 2015 IEEE International Conference on Robotics and Automation. Seattle, WA: IEEE, 2015. 3223-3230
    [20] Lenz I, Knepper R, Saxena A. DeepMPC: learning deep latent features for model predictive control. In: Proceedings of Robotics: Science and Systems (RSS). Rome, Italy, 2015.
    [21] Anderson C W, Lee M, Elliott D L. Faster reinforcement learning after pretraining deep networks to predict state dynamics. In: Proceedings of the 2015 International Joint Conference on Neural Networks (IJCNN). Killarney: IEEE, 2015. 1-7
    [22] Cheon K, Kim J, Hamadache M, Lee D. On replacing PID controller with deep learning controller for DC motor system. Journal of Automation and Control Engineering, 2015, 3(6): 452-456
    [23] Levine S. Exploring deep and recurrent architectures for optimal control. In NIPS (Neural Information Processing Systems) 2013 Workshop on Deep Learning, 2013. arXiv: 1311.1761, 2013.
    [24] Berniker M, Kording K P. Deep networks for motor control functions. Frontiers in Computational Neuroscience, 2015, 9: 32
    [25] Wang F-Y, Kim H-M. Implementing adaptive fuzzy logic controllers with neural networks: a design paradigm. Journal of Intelligent & Fuzzy Systems: Applications in Engineering and Technology, 1995, 3(2): 165-180
    [26] Saridis G N, Moed M C. Analytic formulation of intelligent machines as neural nets. In: Proceedings of the 1988 IEEE International Symposium on Intelligent Control. Arlington, VA: IEEE, 1988. 22-27
    [27] Moed M C, Saridis G N. A Boltzmann machine for the organization of intelligent machines. IEEE Transactions on Systems, Man, and Cybernetics, 1990, 20(5): 1094-1102
    [28] Wang F-Y. Evolutionary Neuro-fuzzy Networks for Analysis of Complex Systems: a Memetic Approach, Technical report#03-09-99, Program for advanced research of complex systems, the University of Arizona, 1999
    [29] Wang F-Y. Modeling, analysis and synthesis of linguistic dynamic systems: a computational theory. In: Proceedings of the 1995 IEEE International Workshop on Architecture for Semiotic Modeling and Situation Control in Large Complex Systems. Monterey, CA: IEEE Press, 1995. 173-178
    [30] 王飞跃. 词计算和语言动力学系统的基本问题和研究. 自动化学报, 2005, 31(6): 844-852

    Wang Fei-Yue. Fundamental issues in research of computing with words and linguistic dynamic systems. Acta Automatica Sinica, 2005, 31(6): 844-852
    [31] Saridis G N, Stephanou H E. A hierarchical approach to the control of a prosthetic arm. IEEE Transactions on Systems, Man, and Cybernetics, 1977, 7(6): 407-420
    [32] Bellman R. On the theory of dynamic programming. Proceedings of the National Academy of Sciences of the United States of America, 1952, 38(8): 716-719
    [33] Bellman R. Dynamic Programming. Princeton: Princeton University Press, 1957.
    [34] Dreyfus S E, Law A M. The Art and Theory of Dynamic Programming. New York: Academic Press, 1977.
    [35] Werbos P J. Advanced forecasting methods for global crisis warning and models of intelligence. General Systems Yearbook, 1977, 22(12): 25-38
    [36] Wang F-Y, Zhang H G, Liu D R. Adaptive dynamic programming: an introduction. IEEE Computational Intelligence Magazine, 2009, 4(2): 39-47
    [37] Liu D R, Wang D, Wang F-Y, Li H L, Yang X. Neural-network-based online HJB solution for optimal robust guaranteed cost control of continuous-time uncertain nonlinear systems. IEEE Transactions on Cybernetics, 2014, 44(12): 2834-2847
    [38] Liu D, Wang D, Li H. Decentralized stabilization for a class of continuous-time nonlinear interconnected systems using online learning optimal control approach. IEEE Transactions on Neural Networks and Learning Systems, 2014, 25(2): 418-428
    [39] Xu B, Yang C, Shi Z. Reinforcement learning output feedback NN control using deterministic learning technique. IEEE Transactions on Neural Networks and Learning Systems, 2014, 25(3): 635-641
    [40] Werbos P J. Approximate dynamic programming for real-time control and neural modeling. Handbook of Intelligent Control: Neural, Fuzzy, and Adaptive Approaches. New York: Van Nostrand Reinhold, 1992. 493-525
    [41] Murray J J, Cox C J, Lendaris G G, Saeks R. Adaptive dynamic programming. IEEE Transactions on Systems, Man, and Cybernetics, Part C: Applications and Reviews, 2002, 32(2): 140-153
    [42] Bertsekas D P. Dynamic Programming and Optimal Control. Massachusetts: Athena Scientific Belmont, 1996.
    [43] Sutton R S, Barto A G. Reinforcement Learning: An Introduction. Cambridge: MIT Press, 1998.
    [44] Al-Tamimi A, Lewis F L, Abu-Khalaf M. Discrete-time nonlinear HJB solution using approximate dynamic programming: convergence proof. IEEE Transactions on Systems, Man, and Cybernetics, Part B: Cybernetics, 2008, 38(4): 943-949
    [45] Wei Q, Liu D, Lin H. Value iteration adaptive dynamic programming for optimal control of discrete-time nonlinear systems. IEEE Transactions on Cybernetics, 2015, 46(3): 840-853
    [46] Abu-Khalaf M, Lewis F L. Nearly optimal control laws for nonlinear systems with saturating actuators using a neural network HJB approach. Automatica, 2005, 41(5): 779-791
    [47] Zhang H G, Wei Q L, Liu D R. An iterative adaptive dynamic programming method for solving a class of nonlinear zero-sum differential games. Automatica, 2011, 47(1): 207-214
    [48] Bhasin S, Kamalapurkar R, Johnson M, Vamvoudakis K G, Lewis F L, Dixon W E. A novel actor-critic-identifier architecture for approximate optimal control of uncertain nonlinear systems. Automatica, 2013, 49(1): 82-92
    [49] Liu D, Wei Q. Policy iteration adaptive dynamic programming algorithm for discrete-time nonlinear systems. IEEE Transactions on Neural Networks and Learning Systems, 2014, 25(3): 621-634
    [50] 王飞跃. 平行控制: 数据驱动的计算控制方法. 自动化学报, 2013, (4): 293-302

    Wang Fei-Yue. Parallel control: a method for data-driven and computational control. Acta Automatica Sinica, 2013, 39(4): 293-302
    [51] 王飞跃. 平行系统方法与复杂系统的管理和控制. 控制与决策, 2004, 19(5): 485-489

    Wang Fei-Yue. Parallel system methods for management and control of complex systems. Control and Decision, 2004, 19(5): 485-489
    [52] 王飞跃. 关于复杂系统研究的计算理论与方法. 中国基础科学, 2004, 6(5): 3-10

    Wang Fei-Yue. Computational theory and method on complex system. China Basic Science, 2004, 6(5): 3-10
    [53] 王飞跃, 史帝夫·兰森. 从人工生命到人工社会---复杂社会系统研究的现状和展望. 复杂系统与复杂性科学, 2004, 1(1): 33-41

    Wang Fei-Yue, Lansing J S. From artificial life to artificial societies——new methods for studies of complex social systems. Complex Systems and Complexity Science, 2004, 1(1): 33-41
    [54] 王飞跃. 关于复杂系统的建模、分析、控制和管理. 复杂系统与复杂性科学, 2006, 3(2): 26-34

    Wang Fei-Yue. On the modeling, analysis, control and management of complex systems. Complex Systems and Complexity Science, 2006, 3(2): 26-34
    [55] 王飞跃. 人工社会、计算实验、平行系统---关于复杂社会经济系统计算研究的讨论. 复杂系统与复杂性科学, 2004, 1(4): 25-35

    Wang Fei-Yue. Artificial societies, computational experiments, and parallel systems: a discussion on computational theory of complex social-economic systems. Complex Systems and Complexity Science, 2004, 1(4): 25-35
    [56] Wang F-Y. Toward a paradigm shift in social computing: the ACP approach. IEEE Intelligent Systems, 2007, 22(5): 65-67
    [57] Wang F-Y, Carley K M, Zeng D, Mao W. Social computing: from social informatics to social intelligence. IEEE Intelligent Systems, 2007, 22(2): 79-83
    [58] 王飞跃. 基于社会计算和平行系统的动态网民群体研究. 上海理工大学学报, 2011, 33(1): 8-17

    Wang Fei-Yue. Study on cyber-enabled social movement organizations based on social computing and parallel systems. Journal of University of Shanghai for Science and Technology, 2011, 33(1): 8-17
    [59] Wang F-Y. Parallel control and management for intelligent transportation systems: Concepts, architectures, and applications. IEEE Transactions on Intelligent Transportation Systems, 2010, 11(3): 630-638
    [60] Zhu F, Wen D, Chen S. Computational traffic experiments based on artificial transportation systems: an application of ACP approach. IEEE Transactions on Intelligent Transportation Systems, 2013, 14(1): 189-198
    [61] Wang F-Y, Wong P K. Intelligent systems and technology for integrative and predictive medicine: an ACP approach. ACM Transactions on Intelligent Systems and Technology (TIST), 2013, 4(2): 32
    [62] Duan W, Cao Z D, Wang Y Z, Zhu B, Zeng D, Wang F-Y, Qiu X G, Song H B, Wang Y. An ACP approach to public health emergency management: using a campus outbreak of H1N1 influenza as a case study. IEEE Transactions on Systems, Man, and Cybernetics: Systems, 2013, 43(5): 1028-1041
    [63] Silver D, Huang A, Maddison C J, Guez A, Sifre L, Van den Driessche G, Schrittwieser J, Antonoglou I, Panneershelvam V, Lanctot M, Dieleman S, Grewe D, Nham J, Kalchbrenner N, Sutskever I, Lillicrap T, Leach M, Kavukcuoglu K, Graepel T, Hassabis D. Mastering the game of Go with deep neural networks and tree search. Nature, 2016, 529(7587): 484-489
  • 期刊类型引用(1)

    1. 李博,熊天龙,杜宇慧. 基于实例的近邻传播偏标签学习算法. 山西大学学报(自然科学版). 2024(06): 1164-1177 . 百度学术

    其他类型引用(0)

  • 加载中
图(12)
计量
  • 文章访问数:  7223
  • HTML全文浏览量:  4228
  • PDF下载量:  9082
  • 被引次数: 1
出版历程
  • 收稿日期:  2015-12-26
  • 录用日期:  2016-03-26
  • 刊出日期:  2016-05-01

目录

/

返回文章
返回