2.845

2023影响因子

(CJCR)

  • 中文核心
  • EI
  • 中国科技核心
  • Scopus
  • CSCD
  • 英国科学文摘

留言板

尊敬的读者、作者、审稿人, 关于本刊的投稿、审稿、编辑和出版的任何问题, 您可以本页添加留言。我们将尽快给您答复。谢谢您的支持!

姓名
邮箱
手机号码
标题
留言内容
验证码

深度学习在游戏中的应用

郭潇逍 李程 梅俏竹

薛俊诗, 易辉, 吴止锾, 陈向宁. 一种基于场景图分割的混合式多视图三维重建方法. 自动化学报, 2020, 46(4): 782-795. doi: 10.16383/j.aas.c180155
引用本文: 郭潇逍, 李程, 梅俏竹. 深度学习在游戏中的应用. 自动化学报, 2016, 42(5): 676-684. doi: 10.16383/j.aas.2016.y000002
XUE Jun-Shi, YI Hui, WU Zhi-Huan, CHEN Xiang-Ning. A Hybrid Multi-View 3D Reconstruction Method Based on Scene Graph Partition. ACTA AUTOMATICA SINICA, 2020, 46(4): 782-795. doi: 10.16383/j.aas.c180155
Citation: GUO Xiao-Xiao, LI Cheng, MEI Qiao-Zhu. Deep Learning Applied to Games. ACTA AUTOMATICA SINICA, 2016, 42(5): 676-684. doi: 10.16383/j.aas.2016.y000002

深度学习在游戏中的应用

doi: 10.16383/j.aas.2016.y000002
详细信息
    作者简介:

    郭潇逍 密歇根大学电子工程与计算机系博士研究生. 主要研究方向为深度学习和深度强化学习. E-mail: guoxiao@umich.edu

    李程 密歇根大学信息学院博士研究生.主要研究方向为数据挖掘与信息检索.E-mail:lichengz@umich.edu

    通讯作者:

    梅俏竹 密歇根大学信息学院和电子工程与计算机系副教授.主要研究方向为大规模的数据挖掘,信息检索和机器学习.本文通信作者.E-mail:qmei@umich.edu

Deep Learning Applied to Games

More Information
    Author Bio:

    Ph. D. candidate in the Department of Electrical Engi- neering and Computer Science, Univer- sity of Michigan. His research interest covers deep learning and deep reinforcement learning.

    Ph. D. candidate at the School of Information, University of Michigan. Her research interest covers data mining and information retrieval.

    Corresponding author: MEI Qiao-Zhu Associate profes- sor at the School of Information and the Department of Electrical Engineer- ing and Computer Science (EECS), University of Michigan. His research interest covers large-scale data mining, information retrieval, and machine learning. Corresponding au- thor of this paper.
  • 摘要: 综述了近年来发展迅速的深度学习技术及其在游戏(或博弈)中的应用. 深度学习通过多层神经网络来构建端对端的从输入到输出的非线性映射, 相比传统的机器学习模型有显见的优势. 最近, 深度学习被成功地用于解决强化学习中的策略评估和策略优化的问题, 并于多种游戏的人工智能取得了突破性的提高. 本文详述了深度学习在常见游戏中的应用.
  • 基于生物特征(虹膜、人脸、步态、指纹等)的身份识别是个体身份鉴别的重要手段.近年来, 随着模式识别、机器学习、计算机视觉、人工智能、信息安全等领域的发展, 生物特征识别技术不断突破创新, 得到了国内外学术界, 产业界乃至政府部门的高度关注, 已经被推向一个研究高潮.相比传统身份识别方式(密码、身份证等), 生物特征具有防伪性高、不易丢失或遗忘、信息丰富的特点.在常用生物特征(指纹、人脸、虹膜等)中, 虹膜识别因为具有唯一性、稳定性、非接触性、高精度等优势, 是现阶段最安全可靠的生物特征识别技术, 现已成功应用于海关、机场、公安、金融等高安全需求的场合.但是, 最近研究表明, 现有的虹膜识别系统无法对采集端进行保护, 在遇到人造假体样本(打印虹膜、美瞳、义眼等)攻击时, 常见的数字证书加密、水印、数字签名等信息保护措施失效, 导致系统产生误识别[1-3].为了准确辨别真实虹膜和人造假体虹膜, 提升虹膜识别系统的安全性和鲁棒性, 虹膜活体检测技术(Iris liveness detection)应运而生.该技术的基本原理是:与正常采集的虹膜图像相比, 人造假体虹膜图像在生成时会丢失信息, 同时也会附加额外的信息, 通过检测这两部分信息可以判断虹膜图像的真实性[4].

    根据检测信息方式的差异可以将虹膜活体检测方法分为两类:硬件法[5-14]和软件法[15-25].硬件法是指通过使用额外的硬件设备采集活体人眼特有的特征进行活体检测, 比如视线特征[5-7]、虹膜立体结构特征[8]、虹膜震颤(Hippus)特征[9]等. Daugman[10]提出了利用角膜和晶状体前后面对光照产生的普尔钦(Purkinje)反射进行虹膜活体检测的理论, Lee等[11]基于该理论实现了虹膜活体检测.该方法通过控制一对近红外光源产生并拍摄普尔钦反射, 可以实现图片、美瞳、义眼等多种攻击类型的检测, 不过需要精确控制光源和瞳孔之间的角度, 对成像系统要求较高. Lee等[12]通过测量不同近红外光照(750 nm和850 nm)条件下巩膜和虹膜之间反射率比的变化进行活体检测.该方法检测速度快, 但是需要分两次采集不同光照条件下的人眼图像, 大大降低了数据采集效率. Czajka等[13]通过控制30 s内点光源的亮度变化, 根据瞳孔的动态变化(Pupil dynamics)和与瞳孔收缩模型的拟合情况区分真假虹膜样本.该方法精度较高, 但数据采集时间较长且采集时人眼舒适度低.

    近年来, 光场成像技术以其多视角、多维度、多焦点成像的特点逐步应用于生物特征识别领域. Raghavendra等[14]首次利用光场相机的固有特性进行虹膜活体检测.该方法首先利用Lytro Desktop软件对光场图像进行预处理并渲染得到十几张具有不同对焦深度的图像, 然后依次对这些图像进行预处理, 得到归一化虹膜图像序列, 最后通过离散小波变换(Discrete wavelet transform, DWT)方法计算图像序列的对焦能量变化量来区分真假虹膜样本.该方法数据采集方便, 但光场数据处理受软件限制, 局限性大; 由于采用阈值分类方法, 该方法只能应对单一攻击类型, 其应用面较窄, 无法同时应对多种攻击类型.

    软件法是指在虹膜图像采集完成后通过对采集到的图像提取有区分性的特征进行虹膜活体检测. Daugman[10]提出打印虹膜图像经过2D傅里叶分析会产生与真实虹膜图像不同的频域特征.真假虹膜图像不仅频谱特征不同, 纹理特征也存在差异.因此, 通过利用LBP (Local binary pattern)[15]、BSIF (Binarized statistical image features)[16-17]、GLCM (Gray level co-occurrence matrix)[18]等局部特征描述子提取有区分性的局部特征, 可以准确检测多种人造假体虹膜类型(打印虹膜、美瞳、义眼等). Hu等[19]和Kohli等[20]通过融合多种局部特征取得了更好的活体检测结果. Gabally等[21]基于“质量差异”的假设提出了基于图像质量评价(Image quality assessment)的活体检测方法.该方法通过专门设计多种针对虹膜图像的质量评价指标, 来区分真实虹膜和打印虹膜, 取得了较高的分类准确率.然后, Gabally等[22]又使用25种常规图像质量评价方法来提取虹膜图像的质量特征, 既取得了较高的准确率又具有很好的泛化性能.随着深度学习浪潮的来临, 基于深度学习的虹膜活体检测方法[23-25]也已经达到了与传统方法相当的准确率.

    综上, 我们可知: 1)两类虹膜活体检测方法各有其优点与不足.硬件法能够采集更丰富的信息, 分类效果更好, 但是一般需要使用额外的成像设备, 自主搭建采集系统, 控制采集环境.因此硬件法操作复杂度高, 采集效率低, 无法便捷应用.软件法使用非接触方式采集图像, 运行速度快, 但是输入信息有限, 图像处理, 特征提取和活体检测算法易受图像质量影响. 2)目前使用的虹膜数据库几乎都是近距离采集(≤60 cm), 这样虽然能够得到高分辨率和高质量的虹膜图像, 但是成像环境和应用场景的光照、距离、视角、离焦、景深、噪声等变量需要严格受控, 无法进行复杂场景下的虹膜数据获取、活体检测、身份识别等任务的研究.

    基于以上问题, 本文提出了基于计算光场成像的远距离虹膜活体检测方法, 通过软硬件结合的方式, 从数据获取源头创新, 利用计算光场成像技术充分挖掘高维光场信息, 通过特征融合实现准确有效的远距离虹膜活体检测.我们使用光场相机作为虹膜图像的采集设备, 操作简单, 使用方便.利用计算光场成像技术, 只需一次图像采集, 使用一张光场图像即可使用硬件法和软件法分别提取有区分性的特征进行虹膜活体检测.因此, 本方法既能够方便迅速地采集虹膜图像, 又能够记录更高维度、更丰富的有效信息, 取得更好的活体检测结果.虹膜活体检测是虹膜识别系统的关键预处理步骤, 对于虹膜识别系统来说, 识别距离越远, 识别景深范围越大, 用户体验越好.光场成像技术具有景深扩展的强大后处理能力, 利用实验室自主研发的光场相机进行光场成像的景深比传统成像的景深扩大5~10倍, 可以实现远距离大景深的虹膜活体检测, 有助于促进生物特征识别的研究发展与应用产业化.

    本文受Raghavendra等[14]方法的启发, 与其不同的是, 在本文提出方法的数据采集环节中, 采集距离更远, 采集设备更先进, 采集环境更复杂; 在数据处理环节中, 可以自由控制光场图像的预处理与渲染过程, 根据需要得到任意步长间隔的重对焦图像序列; 在对焦评价环节中, 本文针对远距离半受控的采集环境, 选择了对噪声更鲁棒的基于图像梯度的评价方法; 在虹膜分类环节中, 本文选择了比阈值分类方法适用范围更广、分类性能更强的分类器.文献[14]虽然利用光场相机的固有特性进行近距离虹膜活体检测并在单一攻击类型的数据库中取得了不错的结果, 但无法同时应对多种攻击类型.而本方法通过软硬件结合的方式, 使用光场相机采集光场虹膜图像; 利用计算光场成像技术, 以光场重对焦技术为切入点, 通过软硬件特征融合的方式在远距离、半受控、大景深的图像采集条件下仍然可以同时应对多种攻击类型, 进行高准确率的虹膜活体检测.本文首先利用重对焦技术提取眼睛区域的立体结构特征, 然后利用重对焦序列中最清晰图像提取虹膜的纹理特征, 在特征层融合后使用支持向量机(Support vector machine, SVM)分类器进行真假虹膜样本分类.为了验证本文方法的精度和有效性, 我们采集建立了目前为止第一个近红外远距离光场虹膜活体检测数据库, 包括打印虹膜(普通打印纸、高光相片纸)和屏显虹膜(iPad)两类共三种人造假体虹膜图像, 共504个有效样本(约5万张重对焦光场图像).实验结果表明本文提出的方法可以准确有效地检测并阻止打印虹膜和屏显虹膜对虹膜识别系统的攻击.

    本文提出基于计算光场成像的虹膜活体检测方法, 如图 1所示.首先, 对采集的原始光场图像进行解码、标定、预处理, 获得四维光场数据$ L(u, v, x, y) $; 利用光场重对焦技术得到一组焦栈(Focal stack)图像.然后, 计算焦栈图像中眼睛区域的对焦能量值作为立体结构特征; 选取焦栈中最清晰的虹膜图像进行定位, 分割、归一化、提取LPQ (Local phase quantization)[26]特征作为纹理特征.最后, 在特征层融合立体结构特征和纹理特征, 使用SVM分类器进行真实虹膜和人造假体虹膜分类.

    图 1  光场虹膜活体检测方法流程图
    Fig. 1  Flowchart of light-field iris liveness detection method
    1.1.1   光场图像预处理

    光场通过表征空间中每一条光线的辐射亮度(Radiance), 描述了光在三维空间的辐射传输特性.光场成像是一种计算成像技术, 单次曝光即可同时捕获光线的能量和角度信息.因此, 基于光场成像技术设计的光场相机可以记录拍摄场景的光场.现阶段, 微透镜阵列广泛应用于光场调制过程.基于微透镜阵列的光场相机(Lytro, Raytrix等)是由主光学系统、微透镜阵列、图像传感器组成, 通过在传感器前放置微透镜阵列, 可以对不同视角的光线进行分离, 实现不同视角的快照式成像.

    光场成像是一种编码成像, 不是“所见即所得”, 因此需要对获取的原始光场图像进行解码、标定和预处理, 才能得到图像的光场数据.本文采用Dansereau等[27]提出的方法1, 使用双平面表达模型对光场进行参数化描述, 通过使用白图像标定每个微透镜的中心坐标, 计算配准参数, 提取4D光场数据$ L (u, v, x, y) $.

    1http://www.mathworks.com/matlabcentral/fileexchange/49683

    $ \begin{equation} I(x, y) = \iint L(u, v, x, y) \mathrm{d}u \mathrm{d}v \end{equation} $

    (1)

    计算光场成像模型如式(1)所示, 对光场矩阵$ L(u, v, x, y) $的$ uv $坐标积分, 即可得到传统光学成像结构采集的2D传统图像$ I(x, y) $.通过固定$ uv $坐标可以得到不同视角下的子孔径图像$ I(x, y)_{u, v} $, 由文献[28]可知, 子孔径图像所对应的光瞳尺寸是原始光瞳尺寸的$ {1}/{u} $, 因此, 理论上光场子孔径图像的景深是传统图像的$ u $倍.以我们实验室自主研制的光场相机为例, $ u = 13 $.

    图 2为物方离焦分别为-10 cm、0 cm、+10 cm、+20 cm时传统图像$ I(x, y) $和对应距离采集的光场中心子孔径图像$ I(x, y)_{5, 5} $.第1行为传统图像, 第2行为与之对应的光场中心子孔径图像.比较两组图像可知, 在聚焦位置1.6 m处两幅图像都非常清晰, 没有明显视觉差异; 随着离焦量增大, 传统图像趋于模糊, 当离焦量较大时, 弥散效应非常明显, 虹膜数据已无法用于后续的数据处理, 而光场中心子孔径图像仍然可以清晰看到瞳孔中反射的光点.这说明光场成像的景深远大于传统成像的景深, 计算光场成像具有强大的景深扩展能力.

    图 2  传统图像(上)与光场中心子孔径图像(下)比较
    Fig. 2  Comparison between traditional images (up) and light-field sub-aperture images (down)

    传统成像技术一直存在景深与焦距(或孔径)的相互制约关系.利用传统相机拍摄远距离虹膜时必须选用长焦镜头, 若固定其他光学成像参数, 则焦距增大会导致景深变小, 使高质量清晰虹膜图像的采集变得非常困难, 需要参与者高度配合, 否则容易出现严重的离焦模糊, 为后续虹膜检测、分割、识别的研究带来巨大挑战.而光场成像技术具有“先拍摄, 后对焦”的优势, 在进行远距离虹膜图像采集时, 使用实验室自主研制的光场相机配合70 mm $ \sim $ 200 mm长焦镜头拍摄1.6 m远的虹膜时, 依然可以获得30 cm的有效景深范围, 有效解决了基于传统成像的虹膜图像采集的难题.因此, 使用光场成像方式可以实现对用户交互、应用场景、成像环境鲁棒的远距离、大景深、高质量光场虹膜图像采集.

    1.1.2   光场重对焦

    对焦是通过改变探测器像面与镜头之间的距离, 使拍摄物体在探测器像面上产生清晰图像的过程.在传统光学成像系统中, 对焦是通过手动或自动调整对焦环使离焦模糊的目标变清晰, 其实质是将光场重新投影到成像最清晰的像平面.基于微透镜阵列的光场相机能够同时对光线的能量和角度信息进行采样和成像, 记录四维光场数据.因此可以通过计算成像的方式改变光场的投影像平面, 实现数字重对焦(Digital refocusing).本文使用Ng等[28]提出的重对焦方法, 重对焦计算公式为:

    $ \begin{equation} L{'}(u, v, x{'}, y{'}) = L(u, v, \frac{x{'}}{\alpha}+u(1-\alpha), \frac{y{'}}{\alpha}+v(1-\alpha)) \end{equation} $

    (2)

    图 3所示, 基于双平面表达模型对光场进行参数化描述, $ L{'}(u, v, x{'}, y{'}) $表示重对焦平面记录的光场, $ L(u, v, x, y) $表示原始成像平面记录的光场, $ \alpha $表示重对焦像平面与原始成像平面的相对位置, $ \alpha = {F{'}}/{F} $, $ F $和$ F{'} $分别表示重对焦前后主透镜平面到成像平面的距离.基于几何光学的光线传播理论, 光线在均匀介质中沿直线传播, 所以在式(2)中, 重对焦前后光场$ uv $坐标不变.因此, 重对焦图像可由原始光场子孔径图像线性平移后叠加获得.通过均匀改变$ \alpha $可以得到一组对焦在不同深度位置的焦栈图像.

    图 3  重对焦示意图
    Fig. 3  Refocusing demonstration

    图 4为一组虹膜焦栈图像中的部分图像, 可以直观地看到$ \alpha = 1.010 $时图像最清晰(计算焦栈图像的对焦能量值亦可验证), 在此基础上$ \alpha $减小或增大图像都逐渐模糊.

    图 4  虹膜焦栈图像
    Fig. 4  Iris focal stack images

    理论上在聚焦情况下, 当$ \alpha = 1 $时图像最清晰, 但因为本文实验数据是在半受控环境下采集, 实际拍摄中由于被采集者移动、姿态非对正、对焦目标是人脸等因素会导致虹膜的聚焦位置不是理想情况时的$ \alpha = 1 $.因此, 通过光场数字重对焦技术不仅可以利用硬件法提取焦栈图像眼睛区域的立体结构特征, 而且可以实现更准确对焦, 获取最清晰的虹膜图像, 从而利用软件法提取更有区分性、更鲁棒的纹理特征.虽然光场重对焦技术可以扩大图像景深, 但是仍然受到香农采样定理的制约, 偏离聚焦位置过大仍会导致图像模糊, 产生非精确对焦(Inexact refocusing)[29].

    1.2.1   对焦评价函数

    本文使用对焦评价函数对焦栈图像的清晰度进行度量评价, 从而得到焦栈图像的对焦能量值曲线, 以此构建眼睛区域的立体结构特征.由于采集距离远, 光照和离焦不断变化, 采集的虹膜图像存在不同程度的噪声, 因此本文采用对光照和噪声不敏感的基于图像梯度的对焦评价函数TGV (Tenengrad gradient variance)[30], 以提升本方法的鲁棒性.

    $ \begin{align} S(x, y) & = \sqrt{(I_{\rm{R}}(x, y)* S_{x})^{2}+{(I_{\rm{R}}(x, y)* S_{y})^{2}}} \end{align} $

    (3)

    $ \begin{align} \bar{S} & = \frac{1}{XY}\sum\limits_{x = 1}^X\sum\limits_{y = 1}^YS(x, y) \end{align} $

    (4)

    $ \begin{align} F_{\rm{SF}}(I_{\rm{R}}) & = \sum\limits_{x = 1}^X\sum\limits_{y = 1}^Y[S(x, y)-\bar{S}]^{2} , \text{ 若 }\; S(x, y)>T \end{align} $

    (5)

    由式(3) $ \sim $ (5)可知, TGV方法首先使用索贝尔算子(Sobel operator) $ S_{x} $和$ S_{y} $提取重对焦图像$ I_{\rm{R}}(x, y) $中的边缘信息, 然后计算每个像素的梯度强度$ S(x, y) $和整幅图像的平均梯度强度$ \bar{S} $, 设置阈值$ T $来滤除噪声产生的边缘像素, 使用梯度强度方差$ F_{\rm{SF}}(I_{\rm{R}}) $作为图像的对焦能量值. $ F_{\rm{SF}}(I_{\rm{R}}) $越大, 说明图像中边缘信息越丰富, 图像越清晰.

    图 5展示的是相机对焦位置为1.6 m时, 对1.5 m (-10 cm)、1.6 m (0 cm)、1.7 m (+10 cm)、1.8 m (+20 cm)处的虹膜进行光场成像得到的对焦能量值曲线.横轴表示焦栈中图像的位置序号(Sequence number), 对应的重对焦区间为$ [0.5, 1.7] $.纵轴表示对焦能量值大小.可以发现, 随着采集距离增加, 对焦能量值达到峰值时所在焦栈图像中的位置逐渐后移, 与理论聚焦位置相符.对焦能量值曲线对应的峰值大小与离焦量有关, 在实际对焦位置1.6 m处离焦0 cm, 此时对焦能量值最大, 图像最清晰.当离焦-10 cm、+10 cm、+20 cm时, 虽然重对焦图像的清晰度提升很大, 但是因为重对焦图像是由原始光场子孔径图像经过线性平移后叠加得到, 这个过程相当于对图像进行了平滑滤波, 图像丢失了部分的高频信息, 边缘信息变少.因此, 重对焦位置偏离聚焦位置越远, 图像平滑越明显, 高频信息丢失越多, 图像对焦能量值越低.

    图 5  不同拍摄距离(离焦量)时焦栈图像对焦能量值曲线
    Fig. 5  Focus measure curves of focal stack images at different capturing distances (defocusing amount)
    1.2.2   立体结构特征构建

    由于我们采集的是双眼虹膜图像, 采集环境半受控, 在拍摄时会因为被采集者移动、姿态非对正等因素导致左右眼区域的最优聚焦位置不同, 影响立体结构特征的提取.所以左右眼区域最优聚焦位置的搜索过程是独立进行的.

    重对焦过程本质是一个搜索过程, 因此本文采用了由粗到精的方法确定最优聚焦位置$ \alpha^{*} $.首先使用$ \Delta\alpha = 0.03 $的步长在$ [0.5, 1.7] $的重对焦区间内对图像进行大范围宽间距的搜索, 寻找焦栈图像中聚焦能量值最高的图像对应的$ \alpha{'} $, 然后以$ \alpha{'} $为中心, 在$ [\alpha{'}-0.03, \alpha{'}+0.03] $区间内进行小范围窄间距的二次重对焦搜索, 确定最优聚焦位置$ \alpha^{*} $.

    根据相关实验结果(详见第3.1节), 确定最优重对焦范围为0.4, 因此构建眼睛区域立体结构特征的重对焦区间为$ [\alpha^{*}-0.2, \alpha^{*}+0.2] $; 重对焦步长$ \Delta\alpha = 0.0028 $, 对应的焦栈图像数量$ N_{\rm{SN}} $ (Sequence number)为145.将该序列中所有图像对焦能量值依次排列, 作为眼睛区域的立体结构特征$ \boldsymbol{F}_{\rm{SF}} $.立体结构通过对焦能量值曲线的形状反映了眼睛区域的深度结构信息.

    图 6展示了同一虹膜在1.5 m、1.6 m、1.7 m处拍摄的真实虹膜图像和利用该虹膜制造的三种人造假体虹膜图像的归一化立体结构特征曲线.对比真假虹膜的归一化立体结构特征曲线, 可以发现两者之间存在显著差异. 1)真实虹膜图像的归一化立体结构特征曲线峰值比较低, 假虹膜曲线的峰值比较高.原因是真实人眼区域是立体结构, 虹膜与眼周区域位于不同的深度位置, 在一定重对焦范围内都有对象对焦, 对焦能量值衰减较慢, 因此在归一化立体结构特征曲线中峰值对应的比重较低. 2)真实虹膜归一化立体结构特征曲线存在不同程度的波动, 曲线不平滑, 而人造假体虹膜曲线平滑.原因是打印虹膜和屏显虹膜是平面结构, 没有深度变化, 而真实人眼区域是立体结构, 在计算对焦能量值时会产生较大程度的波动.

    图 6  不同类型真假虹膜图像归一化立体结构特征曲线
    Fig. 6  Normalized structure feature curves of different kinds of real and fake images

    实验结果表明(详见第3.3节), 当单独使用眼睛区域归一化立体结构特征进行虹膜活体检测时, 可以达到94.41 %分类准确率, 5.90 %平均分类错误率, 说明提取的归一化立体结构特征具有很强的区分性.

    我们通过由粗到精的重对焦搜索确定了最优聚焦位置$ \alpha^{*} $和对应的最清晰虹膜图像.本方法使用最清晰虹膜图像进行虹膜定位、分割、归一化, 然后使用LPQ特征描述子提取虹膜图像的纹理特征.

    LPQ特征使用图像低频信息进行构建, 对图像模糊不敏感, 可以在远距离情况下提取更鲁棒、更有区分性的特征.首先对图像$ f(\boldsymbol{x}) $中每个像素$ \boldsymbol{x} $的矩形邻域$ N_{\boldsymbol{x}} $做短时傅里叶变换(Short-time Fourier transform, STFT)变换:

    $ \begin{equation} F(\boldsymbol{u}, \boldsymbol{x}) = \sum\limits_{\boldsymbol{y}}f(\boldsymbol{y})\omega(\boldsymbol{y}-\boldsymbol{x})\mathrm{e}^{-\mathrm{j2\pi} \boldsymbol{u}\cdot \boldsymbol{y}} \end{equation} $

    (6)

    式中, $ \boldsymbol{x} $、$ \boldsymbol{y} $是图像像素的二维坐标, $ \boldsymbol{u} $是频率, $ \omega(\boldsymbol{x}) $是表示邻域$ N_{\boldsymbol{x}} $的窗口函数.只考察四个频率$ \boldsymbol{u}_{0} = (a, 0) $, $ \boldsymbol{u}_{1} = (a, a) $, $ \boldsymbol{u}_{2} = (0, a) $, $ \boldsymbol{u}_{3} = (-a, a) $的傅里叶系数, 其中$ a\ll1 $.得到像素$ \boldsymbol{x} $的傅里叶系数特征$ \boldsymbol{F} (\boldsymbol{x}) $, 如式(7)和(8)所示.将$ \boldsymbol{G} (\boldsymbol{x}) $各分量的实部和虚部根据其正负号分别量化为1和0, 得到像素$ \boldsymbol{x} $邻域的傅里叶相位信息, 将其转换至$ [0, 255] $范围就得到该像素的LPQ特征值$ F_{\rm{LPQ}} (\boldsymbol{x}) $.最后统计图像所有像素点的LPQ特征值得到图像的LPQ特征统计直方图, 将其作为虹膜图像的纹理特征$ \boldsymbol{F}_{\rm{LPQ}} $.

    $ \begin{align} \boldsymbol{F}(\boldsymbol{x}) & = [F(\boldsymbol{u}_{1}, \boldsymbol{x}), F(\boldsymbol{u}_{2}, \boldsymbol{x}), F(\boldsymbol{u}_{3}, \boldsymbol{x}), F(\boldsymbol{u}_{4}, \boldsymbol{x})] \end{align} $

    (7)

    $ \begin{align} \boldsymbol{G}(\boldsymbol{x}) & = [\mathrm{Re}{\boldsymbol{F}(\boldsymbol{x})}, \mathrm{Im}{\boldsymbol{F}(\boldsymbol{x})}] \end{align} $

    (8)

    图 7展示了同一虹膜在1.5 m、1.6 m、1.7 m处拍摄的真实虹膜图像和利用该虹膜制造的三种人造假体虹膜图像的纹理特征曲线.真假虹膜之间的纹理特征在形状、幅值等方面存在显著差异.

    图 7  不同类型真假虹膜图像纹理特征曲线
    Fig. 7  Texture feature curves of different kinds of real and fake images

    立体结构特征表达了眼睛区域的深度变化信息, 纹理特征表达了虹膜的纹理信息, 两类特征相互补充, 因此本方法融合两类特征进行虹膜活体检测.相比于分数层特征融合方式, 本文使用的特征层级联的特征融合方式可以使分类器既能提取每一类特征的有区分性信息, 又能利用两类特征之间隐含的相关性来提高分类结果, 获得更高的分类准确率.分别对立体结构特征和纹理特征进行归一化, 然后进行特征串联即可得到最终分类特征$ \boldsymbol{F}_{\rm{F}} = [\boldsymbol{F}_{\rm{SF}}, \boldsymbol{F}_{\rm{LPQ}}] $.

    $ \begin{align} \min\limits_{\boldsymbol{\omega}, b, \boldsymbol{\xi}}&\Bigg(\max\limits_{\alpha_{i}, \beta_{i}}\Bigg(\frac{1}{2}\|\boldsymbol{\omega}\|^{2}+C\sum\limits_{i = 1}^{n}\xi_{i}-\sum\limits_{i = 1}^{n}\alpha_{i}(y_{i}(\boldsymbol{\omega}^\mathrm{T}\boldsymbol{x}_{i}+ \\ &b)-1+\xi_{i})-\sum\limits_{i = 1}^{n}\beta_{i}\xi_{i}\Bigg)\Bigg) \end{align} $

    (9)

    s.t.

    $ \begin{align} \alpha_{i}\geq0, \ \beta_{i}\geq0, \ \xi_{i}\geq0, \ i = 1, 2, \cdots, n \end{align} $

    本文采用径向基函数SVM分类器进行特征分类, 首先优化求解式(9), 利用$ n $个训练集数据求解变量$ \boldsymbol{\alpha}^{*} = (\alpha_{1}^{*}, \alpha_{2}^{*}, \cdots, \alpha_{n}^{*}) $和$ b^{*} $的最优解, 然后使用分类决策函数$ f(\boldsymbol{x}) $判断测试样本$ \boldsymbol{x} $的真伪.

    $ \begin{equation} f(\boldsymbol{x}) = \mathrm{sign}\left(\sum\limits_{i = 1}^{n}\alpha_{i}^{*}y_{i}\exp(-\frac{\|\boldsymbol{x}_{i}-\boldsymbol{x}\|^{2}}{2\sigma^{2}})+b^{*}\right) \end{equation} $

    (10)

    我们计划建立一个大型近红外光场虹膜活体检测数据库.目前已完成第一阶段的采集工作, 建立了一个中等规模的近红外远距离光场虹膜活体检测数据库.该数据库在半受控环境下采集, 半受控表现为采集环境光照多变、采集背景复杂、采集姿态非对正、遮挡等.采集对象有14人, 采集的人造假体虹膜样本类型有打印虹膜(普通打印纸、高光相片纸)和屏显虹膜(iPad)两类.对采集的光场图像进行认真筛选, 得到504个可用真假虹膜样本(约5万张重对焦光场图像).我们使用的采集设备有实验室自制光场相机和Lytro Illum商业级光场相机, 如图 8 (a)8 (b)所示.下面分别介绍真实虹膜样本图像和人造假体虹膜样本图像的采集流程规范.

    图 8  光场图像采集设备及采集场景
    Fig. 8  Light-field image acquisition devices and acquisition scene

    由于亚洲人种的虹膜在可见光下呈深褐色, 虹膜纹理不明显, 所以需要在近红外环境下采集真实人眼虹膜图像.真实人眼虹膜图像的采集过程分为两步.

    1) 使用图 8 (c)所示的近距离高清虹膜采集设备采集近红外条件下的双眼虹膜图像, 专门用于人造假体虹膜样本的制作, 以及后续的虹膜识别研究. 图 8 (d)是采集白图像的过程, 采集的白图像用于光场相机的标定与光场图像的平场校正、参数配准等预处理过程.

    2) 采集远距离不同离焦情况下的双眼真实虹膜样本.为了让拍摄环境更接近实际应用时的光照环境, 我们通过调整摄影灯的光照强度和近红外光的强度人为模拟了高亮光照环境、自然光照环境、昏暗光照环境, 每个参与者只在一种光照环境下拍摄虹膜图像.

    我们将光场相机设置为拍摄1.6 m距离处图像能清晰对焦, 保持相机参数不变, 让参与者分别位于1.5 m、1.6 m、1.7 m和1.8 m处拍摄离焦距离分别为-10 cm、0 cm、+10 cm和+20 cm时的光场虹膜图像, 每个位置至少采集三张光场图像.采集的真实虹膜样本如图 9 (a)所示.

    图 9  采集的真假虹膜图像
    Fig. 9  Captured real an spoofing irises

    经过光场解码、标定、去渐晕等后处理增强, 最终采用115张真实双眼虹膜图像, 获得230个真实虹膜样本.

    拍摄的人造假体虹膜类型有打印虹膜和iPad屏显虹膜两类, 其中打印虹膜又细分为A4普通打印纸黑白打印与高光相片纸彩色打印两种.图 9 (b)$ \sim $9 (d)对应展示了A4普通打印纸打印虹膜、iPad屏显虹膜、高光相片纸打印虹膜三种人造假体虹膜图像.我们选择这三种人造假体攻击方式的原因有: 1)图像来源简单可靠, 高分辨率图像非常容易从社交媒体等渠道获取或盗用; 2)攻击方式简单有效, 文献[1-3]对这几种方法的有效性都进行了研究.

    我们首先使用商业打印机制作两种打印类型的假体虹膜图像, 打印机DPI (Dots per inch)设置为1 200, 分别在高亮光照环境和自然光照环境下使用自制相机和Lytro相机采集1.5 m、1.6 m、1.7 m距离时的人造假体虹膜图像, 每个人造样本采集三张图像. iPad屏显虹膜图像使用屏幕分辨率为$ 2 048 \times 1 536 $的iPad mini 4展示.我们分别使用两种光场相机拍摄1.6 m距离时的iPad人造假体虹膜图像.最终, 我们采用137张人造假体双眼膜样本图像, 获得三种类型共274个人造假体虹膜样本.

    我们首先通过实验确定本文方法的关键参数, 然后介绍活体检测方法的评价准则, 最后在我们自主采集的光场虹膜数据库上进行实验, 并对实验结果进行分析.

    本文提出的虹膜活体检测方法需要利用光场重对焦技术来计算眼睛区域的立体结构特征, 所以重对焦范围$ S_{\rm{s}} $和重对焦序列图像数量$ N_{\rm{SN}} $的选取直接影响到立体结构特征的表达, 进而影响活体检测方法的准确率.但是$ S_{\rm{s}} $和$ N_{\rm{SN}} $无法根据理论和经验直接确定, 所以本文通过实验的方式确定它们的最优解.

    重对焦范围$ S_{\rm{s}} $可以表示为重对焦序列图像数量$ N_{\rm{SN}} $与重对焦序列最小间隔$ \Delta\alpha $的乘积.

    $ \begin{equation} S_{\rm{s}} = \Delta\alpha\cdot N_{\rm{SN}} \end{equation} $

    (11)

    我们固定$ \Delta\alpha $不变, 通过寻找$ S_{\rm{s}} $与活体检测准确率之间的关系来同时确定$ S_{\rm{s}} $和$ N_{\rm{SN}} $.通过简单实验进行拟合, 确定$ \Delta\alpha $的估计值为0.0028.图 10展示的是$ S_{\rm{s}} $取值分别为$ 0.1, 0.2, \cdots, 0.7 $时与活体检测准确率Accuracy的关系.实验结果表明$ S_{\rm{s}} $与活体检测准确率有相关性, $ S_{\rm{s}} $在$ [0.1, 0.4] $之间随着重对焦范围增大, 准确率逐渐提升, 在$ S_{\rm{s}} = 0.4 $时准确率达到最大值94.41 %, 此后准确率随着$ S_{\rm{s}} $的增大缓慢波动.因为程序执行时间与焦栈图像数量是线性关系, $ S_{\rm{s}} $越大焦栈图像渲染的耗时越长.所以$ S_{\rm{s}} $的最优值为0.4, 用于构建立体结构特征的重对焦区间为$ [\alpha^{*}-0.2, \alpha^{*}+0.2] $, $ N_{\rm{SN}} $的最优值为145.

    图 10  Ss与准确率Accuracy关系曲线
    Fig. 10  Relation curve between Ss and accuracy

    根据ISO/IEC[31]的规定, 虹膜活体检测方法的评价指标为: 1) Attack presentation classification error rate (APCER), 表示的是把人造假体虹膜样本错误地认定为真实虹膜样本的比例; 2) Bona fide presentation classification error rate (BPCER), 表示的是把真实虹膜样本错误认定为人造假体虹膜样本的比例.最后本文使用平均分类错误率ACER评价方法的整体性能.

    $ \begin{equation} ACER = \frac{APCER+BPCER}{2} \end{equation} $

    (12)

    平均错误率ACER越小, 说明算法整体表现越好, 活体检测准确率越高. APCER、BPCER、ACER均可以通过比较测试集真实标签和SVM分类器估计的标签得到.

    由于传统方法可以直接使用光场子孔径图像进行活体检测, 所以对比方法中包括了很多基于传统图像的方法, 比如基于局部特征描述子的方法和基于图像质量评价的方法.对比方法使用的虹膜图像为焦栈图像中最清晰的虹膜图像.实验在自主采集的近红外远距离光场虹膜活体检测数据库上进行, 将实验数据根据采集对象分为训练集和测试集, 训练集包括5人的真假虹膜图像, 测试集包括9人的真假虹膜图像, 实验结果如表 1所示.

    表 1  虹膜活体检测方法在自主采集的数据库上的表现(%)
    Table 1  Performance of iris liveness detection methods on self-collected database (%)
    Method Accuracy APCER BPCER ACER
    Bliinds2[32] 79.61 23.81 16.18 19.99
    BRISQUE[33] 86.18 13.69 13.97 13.83
    DIIVINE[34] 89.14 5.95 16.91 11.43
    BSIF[35] 83.88 16.67 15.44 16.05
    DSIFT[36] 76.97 35.12 8.09 21.60
    LPQ[26] 90.13 11.90 7.35 9.63
    SID[37] 77.30 35.12 7.35 21.24
    LBP[38] 82.24 20.83 13.97 17.40
    LBPV[39] 79.61 30.95 7.35 19.15
    Raghavendra[14] 59.54 32.14 50.74 41.44
    Ours_SF 94.41 2.98 8.82 5.90
    Ours_Fusion 96.38 2.98 4.41 3.69
    下载: 导出CSV 
    | 显示表格

    表 1中Bliinds2、BRISQUE、DIIVINE是三种基于图像质量评价的方法, 最好的DIIVINE方法取得了89.14 %的分类准确率, 11.43 %的平均分类错误率. BSIF、DSIFT、LPQ、SID、LBP、LBPV是基于局部特征描述子的方法, 其中LPQ特征描述子取得了最好的90.13 %的分类准确率, 9.63 %的平均分类错误率.首次使用光场相机和重对焦策略进行虹膜活体检测的Raghavendra等[14]方法只取得了59.54 %的分类准确率, 平均分类错误率达到了41.44 %.对于本文提出的方法, 当单独使用归一化的立体结构特征$ \boldsymbol{F}_{\rm{SF}} $进行分类时(Ours_SF)便取得了94.41 %的分类准确率, 平均分类错误率为5.90 %, 而使用特征融合后的特征$ \boldsymbol{F}_{\rm{F}} $进行分类时(Ours_Fusion)更是取得了96.38 %的分类准确率, 相比最好的对比方法提升了6.25 %, 平均分类错误率为3.69 %, 降低了5.94 %.因此, 由实验结果可知, 结构特征与纹理特征的融合对真实虹膜和人造假体虹膜有更强的区分性.

    由“质量差异”假设可知, 人造假体虹膜在制作时不可避免地会丢失部分信息, 因此基于图像质量评价的方法总可以取得不错的分类效果.由于实验样本为远距离采集的虹膜图像, 光照明暗多变, 图像采集时容易被曝光等原因产生的噪声干扰, 影响部分特征描述子的特征提取, 降低分类准确率.由于文献[14]中方法使用单阈值区分真假虹膜样本, 无法同时应对多种攻击类型.所以在本文采集的混合攻击类型数据库中表现很差.

    对于本文提出的方法, 特征融合后的APCER和只使用归一化的立体结构特征的APCER均为2.98 %, 一个可能原因是纹理特征误识别为真实样本的所有假体样本中, 包含全部立体结构特征误识别为真实样本的假体样本, 因此特征融合后APCER无法进一步降低.而由于两类特征误识别为假体样本的真实样本之间不是此种包含关系, 因此特征融合后BPCER降低了4.41 %.

    由以上分析可知, 本文提出的基于计算光场成像的远距离虹膜活体检测方法通过融合眼睛区域的立体结构特征和虹膜图像的纹理特征, 可以有效地辨别真实虹膜和不同类型的人造假体虹膜, 在所有方法中取得了最好的分类效果.

    除了本文测试的三种平面假体虹膜类型, 本方法对美瞳、义眼等假体类型也有区分性.美瞳和义眼等假体类型因为更接近真实人眼的结构和纹理, 所以更逼真.对于平面假体样本, 根据本文的实验结果, 立体结构特征的区分性更强(94.41 %), 纹理特征的区分性相对偏弱(90.13 %).而对于美瞳、义眼等假体类型, 立体结构特征的区分性虽然会减弱, 但纹理特征的区分性仍然很强, 依然可以有效阻止此类假体攻击.因此, 通过融合立体结构特征和虹膜纹理特征, 本方法理论上可以有效应对所有类型的假体攻击方式.

    本文提出了一种基于计算光场成像的远距离虹膜活体检测方法.通过软硬件结合的方式, 使用光场相机采集虹膜图像, 利用计算光场成像技术, 使用硬件方法提取了眼睛区域的立体结构特征, 使用软件方法提取了虹膜图像的纹理特征, 并在特征层进行特征融合、分类.由于目前没有相关的数据库, 因此, 我们正在采集建立一个大型的近红外光场虹膜活体检测数据库, 现已完成14人的虹膜采集工作, 建立了目前为止第一个中等规模的近红外光场虹膜活体检测数据库.在半受控环境下采集了真实人眼虹膜图像和打印虹膜(普通打印纸、高光相片纸)、iPad屏显虹膜两类共三种人造假体虹膜图像.实验结果表明, 本方法可以对在1.6 m距离, 30 cm景深范围内采集的实验样本取得96.38 %的活体检测准确率, 3.69 %的平均分类错误率.相比最好的对比方法准确率提升6.25 %, 平均分类错误率降低5.94 %.

    本文提出的远距离、大景深、高精度的虹膜活体检测方法, 通过软硬件结合的方式, 使用光场相机进行虹膜图像采集; 利用计算光场成像技术充分挖掘四维光场信息, 获取更多有助于活体检测的信息来提升虹膜活体检测的准确率.本方法不需要使用额外的硬件采集设备, 只需使用光场相机, 就可以实现远距离、非接触、大景深范围的虹膜图像采集, 对被采集者非常友好.本方法充分利用了四维光场信息和光场成像技术的“先拍摄, 后对焦”优势, 把光场重对焦技术与传统特征提取方法深度结合, 可以同时提取眼睛区域的立体结构特征和虹膜的纹理特征, 通过特征融合实现高准确率的虹膜活体检测, 为虹膜、人脸的活体检测方法提供了新的思路.文献[14]验证了近距离情况下使用光场相机进行虹膜活体检测的可行性和有效性, 本文在文献[14]的基础上通过实验证明, 在远距离、大景深条件下利用计算光场成像技术, 通过多特征融合能够同时应对多种攻击类型, 进行高准确率虹膜活体检测.本文的不足之处是由于数据量不足, 无法验证本方法对美瞳、义眼等假体类型的有效性.

  • 图  1  卷积神经网络学习从游戏屏幕到游戏策略的映射

    Fig.  1  A convolutional neural network learns a mapping from game screens to game policy

  • [1] Werbos P. Beyond Regression: New Tools for Prediction and Analysis in the Behavioral Sciences [Ph.D. dissertation], Harvard University, USA, 1974.
    [2] Parker D B. Learning Logic, Technical Report TR-47, MIT Press, Cambridge, 1985.
    [3] LeCun Y. Une procédure d'apprentissage pour Réseau á seuil assymétrique (a learning scheme for asymmetric threshold networks). In: Proceddings of the Cognitiva 85. Paris, France. 599-604 (in French)
    [4] Rumelhart D E, Hinton G E, Williams R J. Learning representations by back-propagating errors. Nature, 1986, 323(6088): 533-536
    [5] Bengio Y. Learning Deep Architectures for AI. Hanover, MA: Now Publishers Inc, 2009.
    [6] Hinton G E, Osindero S, Teh Y W. A fast learning algorithm for deep belief nets. Neural Computation, 2006, 18(7): 1527-1554
    [7] Ranzato M, Poultney C, Chopra S, LeCun Y. Efficient learning of sparse representations with an energy-based model. In: Proceedings of the 2007 Advances in Neural Information Processing Systems. Cambridge, MA: MIT Press, 2007.
    [8] Bengio Y, Lamblin P, Popovici D, Larochelle H. Greedy layer-wise training of deep networks. In: Proceedings of the 2007 Advances in Neural Information Processing Systems. Cambridge, MA: MIT Press, 2007.
    [9] Erhan D, Manzagol P A, Bengio Y, Bengio S, Vincent P. The difficulty of training deep architectures and the effect of unsupervised pre-training. In: Proceedings of the 12th International Conference on Artificial Intelligence and Statistics. Clearwater, Florida, USA: AISTATS, 2009. 153-160
    [10] Glorot X, Bengio Y. Understanding the difficulty of training deep feedforward neural networks. In: Proceedings of the 13th International Conference on Artificial Intelligence and Statistics. Sardinia, Italy: ICAIS, 2010.
    [11] Glorot X, Bordes A, Bengio Y. Deep sparse rectifier neural networks. In: Proceedings of the 14th International Conference on Artificial Intelligence and Statistics. Fort Lauderdale, United States: ICAIS, 2011.
    [12] Simonyan K, Zisserman A. Very deep convolutional networks for large-scale image recognition. In: Proceedings of the 2014 International Conference on Learning Representations. Rimrock Resort Hotel, Banff, Canada: ICRR, 2014.
    [13] Sermanet P, Eigen D, Zhang X, Mathieu M, Fergus R, LeCun Y. Overfeat: Integrated recognition, localization and detection using convolutional networks. In: Proceedings of the 2013 International Conference on Learning Representations. Scottsdale, Arizona: ICLR, 2013.
    [14] Szegedy C, Toshev A, Erhan D. Deep neural networks for object detection. In: Proceedings of the 2013 Advances in Neural Information Processing Systems. Lake Tahoe, Nevada: NIPS, 2013.
    [15] Karpathy A, Toderici G, Shetty S, Leung T, Sukthankar R, Li F F. Large-scale video classification with convolutional neural networks. In: Proceedings of the 2014 IEEE Conference on Computer Vision and Pattern Recognition. Columbus, OH, USA: IEEE, 2014.
    [16] Farabet C, Couprie C, Najman L, LeCun Y. Learning hierarchical features for scene labeling. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2013, 35(8): 1915-1929
    [17] Khan S H, Bennamoun M, Sohel F, Togneri R. Automatic feature learning for robust shadow detection. In: Proceedings of the 2014 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Columbus, OH, USA: IEEE, 2014.
    [18] Amodei D, Anubhai R, Battenberg E, Case C, Casper J, Catanzaro B, Chen J D, Chrzanowski M, Coates A, Diamos G, Elsen E, Engel J, Fan L X, Fougner C, Han T, Hannun A, Jun B, LeGresley P, Lin L, Narang S, Ng A, Ozair S, Prenger R, Raiman J, Satheesh S, Seetapun D, Sengupta S, Wang Y, Wang Z Q, Wang C, Xiao B, Yogatama D, Zhan J, Zhu Z Y. Deep speech 2: End-to-end speech recognition in English and Mandarin. preprint arXiv:1512.02595, 2015.
    [19] Fernandez R, Rendel A, Ramabhadran B, Hoory R. Prosody contour prediction with long short-term memory, bi-directional, deep recurrent neural networks. In: Proceedings of the 15th Annual Conference of International Speech Communication Association. Singapore: Curran Associates, Inc., 2014.
    [20] Fan Y C, Qian Q, Xie F L, Soong F K. TTS synthesis with bidirectional LSTM based recurrent neural networks. In: Proceedings of the 15th Annual Conference of International Speech Communication Association. Singapore: Curran Associates, Inc., 2014.
    [21] Sak H, Vinyals O, Heigold G, Senior A, McDermott E, Monga R, Mao M. Sequence discriminative distributed training of long short-term memory recurrent neural networks. In: Proceedings of the 15th Annual Conference of the International Speech Communication Association. Singapore: Curran Associates, Inc., 2014.
    [22] Socher R, Bauer J, Manning C D, Ng A Y. Parsing with compositional vector grammars. In: Proceedings of the 51st Annual Meeting of the Association for Computational Linguistics. Sofia, Bulgaria: ACL, 2013.
    [23] Sutskever I, Vinyals O, Le Q V. Sequence to sequence learning with neural networks. In: Proceedings of the 2014 Advances in Neural Information Processing Systems. Montreal, Canada: MIT Press, 2014.
    [24] Gao J F, He X D, Yih W T, Deng L. Learning continuous phrase representations for translation modeling. In: Proceedings of the 52nd Annual Meeting of the Association for Computational Linguistics. Baltimore: ACL, 2014.
    [25] Gao J F, Deng L, Gamon M, He X D, Pantel P. Modeling Interestingness with Deep Neural Networks, US Patent 20150363688, December 17, 2015.
    [26] Socher R, Perelygin A, Wu J Y, Chuang J, Manning C D, Ng A Y, Potts C. Recursive deep models for semantic compositionality over a sentiment treebank. In: Proceedings of the 2013 Conference on Empirical Methods in Natural Language Processing (EMNLP). Seattle, Washington: EMNLP, 2013.
    [27] Shen Y L, He X D, Gao J F, Deng L, Mesnil G. A latent semantic model with convolutional-pooling structure for information retrieval. In: Proceedings of the 23rd ACM International Conference on Information and Knowledge Management. New York, NY, USA: ACM, 2014.
    [28] Huang P S, He X D, Gao J F, Deng L, Acero A, Heck L. Learning deep structured semantic models for web search using clickthrough data. In: Proceedings of the 22nd ACM International Conference on Information & Knowledge Management. New York, NY, USA: ACM, 2013.
    [29] Bengio Y, Courville A, Vincent P. Representation learning: a review and new perspectives. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2013. 1798-1828, DOI: 10.1109/TPAMI.2013.50
    [30] Schmidhuber J. Deep learning in neural networks: an overview. Neural Networks, 2015, 61: 85-117
    [31] LeCun Y, Bengio Y, Hinton G. Deep learning. Nature, 2015, 521(7553): 436-444
    [32] Lee H, Grosse R, Ranganath R, Ng A Y. Convolutional deep belief networks for scalable unsupervised learning of hierarchical representations. In: Proceedings of the 26th Annual International Conference on Machine Learning. New York, NY, USA: ACM, 2009.
    [33] Yao A C C. Separating the polynomial-time hierarchy by oracles. In: Proceedings of the 26th Annual Symposium on Foundations of Computer Science. Portland, OR, USA: IEEE, 1985. 1-10
    [34] Hastad J. Almost optimal lower bounds for small depth circuits. In: Proceedings of the 18th Annual ACM Symposium on Theory of Computing. New York, NY, USA: ACM, 1986.
    [35] Braverman M. Poly-logarithmic independence fools bounded-depth Boolean circuits. Communications of the ACM, 2011, 54(4): 108-115
    [36] Bengio Y, Delalleau O. On the expressive power of deep architectures. Algorithmic Learning Theory. Berlin Heidelberg: Springer, 2011. 18-36
    [37] Le Cun Y, Boser B, Denker J S, Henderson D, Howard R E, Hubbard W, Jackel L D. Handwritten digit recognition with a back-propagation network. In: Proceedings of the 1990 Advances in Neural Information Processing Systems. San Francisco: Morgan Kaufmann, 1990.
    [38] Bengio Y, LeCun Y, DeCoste D, Weston J. Scaling learning algorithms towards AI. Large-Scale Kernel Machines. Cambridge: MIT Press, 2007.
    [39] Sutton R S, Barto A G. Reinforcement Learning: An Introduction. Cambridge: MIT Press, 1998.
    [40] Kaelbling L P, Littman M L, Moore A W. Reinforcement learning: A survey. Journal of Artificial Intelligence Research, 1996, 4: 237-285
    [41] Hausknecht M, Stone P. Deep recurrent q-learning for partially observable MDPS. In: Proceedings of the 2015 AAAI Fall Symposium Series. The Westin Arlington Gateway, Arlington, Virginia: AIAA, 2015.
    [42] Bakker B, Zhumatiy V, Gruener G, Schmidhuber J. A robot that reinforcement-learns to identify and memorize important previous observations. In: Proceedings of the 2013 IEEE/RSJ International Conference on Intelligent Robots and Systems. Manno-Lugano, Switzerland: IEEE, 2003
    [43] Wierstra D, Förster A, Peters J, Schmidhuber J. Recurrent policy gradients. Logic Journal of IGPL, 2010, 18(5): 620-634
    [44] Bellemare M, Naddaf Y, Veness J, Bowling M. The arcade learning environment: an evaluation platform for general agents. Journal of Artificial Intelligence Research, 2013, 47: 253-279
    [45] Watkins C J H, Dayan P. Technical note: Q-learning. Machine Learning, 1992, 8(3-4): 279-292
    [46] Bellemare M G, Veness J, Bowling M. Investigating contingency awareness using Atari 2600 games. In: Proceedings of the 26th AAAI Conference on Artificial Intelligence. Toronto, Ontario: AIAA, 2012.
    [47] Bellemare M G, Veness J, Bowling M. Sketch-based linear value function approximation. In: Proceedings of the 26th Advances in Neural Information Processing Systems. Lake Tahoe, Nevada, USA: NIPS, 2012.
    [48] Tesauro G. TD-Gammon, a self-teaching backgammon program, achieves master-level play. Neural Computation, 1994, 6(2): 215-219
    [49] Riedmiller M. Neural fitted Q iteration--first experiences with a data efficient neural reinforcement learning method. In: Proceedings of the 16th European Conference on Machine Learning. Porto, Portugal: Springer, 2005.
    [50] Mnih V, Kavukcuoglu K, Silver D, Rusu A A, Veness J, Bellemare M G, Graves A, Riedmiller M, Fidjeland A K, Ostrovski G, Petersen S, Beattie C, Sadik A, Antonoglou I, King H, Kumaran D, Wierstra D, Legg S, Hassabis D. Human-level control through deep reinforcement learning. Nature, 2015, 518(7540): 529-533
    [51] Schaul T, Quan J, Antonoglou I, Silver D. Prioritized experience replay. In: Proceedings of the 2016 International Conference on Learning Representations. Caribe Hilton, San Juan, Puerto Rico: ICLR, 2016.
    [52] Ross S, Gordon G J, Bagnell J A. A reduction of imitation learning and structured prediction to no-regret online learning. In: Proceedings of the 14th International Conference on Artificial Intelligence and Statistics. Ft. Lauderdale, FL, USA: AISTATS 2011.
    [53] Guo X X, Singh S, Lee H, Lewis R, Wang X S. Deep learning for real-time ATARI game play using offline Monte-Carlo tree search planning. In: Proceedings of the 2014 Advances in Neural Information Processing Systems. Cambridge: The MIT Press, 2014.
    [54] Schulman J, Levine S, Moritz P, Jordan M, Abbeel P. Trust region policy optimization. In: Proceedings of the 32nd International Conference on Machine Learning. Lille, France: ICML, 2015.
    [55] van Hasselt H, Guez A, Silver D. Deep reinforcement learning with double Q-learning. In: Proceedings of the 30th AAAI Conference on Artificial Intelligence. Phoenix, Arizona USA: AIAA, 2016.
    [56] Bellemare M G, Ostrovski G, Guez A, Thomas P S, Munos R. Increasing the action gap: new operators for reinforcement learning. In: Proceedings of the 30th AAAI Conference on Artificial Intelligence. Phoenix, Arizona USA: AIAA, 2016.
    [57] Wang Z Y, Schaul T, Hessel M, van Hasselt H, Lanctot M, de Freitas N. Dueling network architectures for deep reinforcement learning. In: Proceedings of the 32nd International Conference on Machine Learning. Lille, France: ICML, 2016.
    [58] Mnih V, Badia A P, Mirza M, Graves A, Lillicrap T P, Harley T, Silver D, Kavukcuoglu K. Asynchronous methods for deep reinforcement learning. preprint arXiv:1602.01783, 2016.
    [59] Rusu A A, Colmenarejo S G, Gulcehre C, Desjardins G, Kirkpatrick J, Pascanu R, Mnih V, Kavukcuoglu K, Hadsell R. Policy distillation. In: Proceedings of the 2016 International Conference on Learning Representations. Caribe Hilton, San Juan, Puerto Rico: ICLR, 2016.
    [60] Parisotto E, Ba J L, Salakhutdinov R. Actor-mimic: Deep multitask and transfer reinforcement learning. In: Proceedings of the 2016 International Conference on Learning Representations. Caribe Hilton, San Juan, Puerto Rico: ICLR, 2016.
    [61] Clark C, Storkey A. Training deep convolutional neural networks to play go. In: Proceedings of the 32nd International Conference on Machine Learning. Lille, France: ICML, 2015.
    [62] Maddison C J, Huang A, Sutskever I, Silver D. Move evaluation in Go using deep convolutional neural networks. In: Proceedings of the 2014 International Conference on Learning Representations. Rimrock Resort Hotel, Banff, Canada: ICRR, 2014.
    [63] Tian Y D, Zhu Y. Better computer go player with neural network and long-term prediction. In: Proceeding of the 2016 International Conference on Learning Representations. Caribe Hilton, San Juan, Puerto Rico: ICLR, 2016.
    [64] Silver D, Huang A, Maddison C J, Guez A, Sifre L, van den Driessche G, Dieleman S, Schrittwieser J, Antonoglou I, Panneershelvam V, Lanctot M, Dieleman S, Grewe D, Nham J, Kalchbrenner N, Sutskever I, Lillicrap T, Leach M, Kavukcuoglu K, Graepel T, Hassabis D. Mastering the game of Go with deep neural networks and tree search. Nature, 2016, 529(7587): 484-489
    [65] Bowling M, Burch N, Johanson M, Tammelin O. Heads-up limit hold'em poker is solved. Science, 2015, 347(6218): 145-149
    [66] Yakovenko N, Cao L L, Raffel C, Fan J. Poker-CNN: a pattern learning strategy for making draws and bets in poker games. Tucson, Arizona: AIAA, 2005.
    [67] Heinrich J, Lanctot M, Silver D. Fictitious Self-Play in Extensive-Form Games. In: Proceedings of the 32nd International Conference on Machine Learning. Lille, France: ICML, 2015.
    [68] Schaeffer J, Lake R, Lu P, Bryant M. CHINOOK the world man-machine checkers champion. AI Magazine, 1996, 17(1): 21-29
  • 期刊类型引用(1)

    1. 李博,熊天龙,杜宇慧. 基于实例的近邻传播偏标签学习算法. 山西大学学报(自然科学版). 2024(06): 1164-1177 . 百度学术

    其他类型引用(0)

  • 加载中
图(1)
计量
  • 文章访问数:  4554
  • HTML全文浏览量:  1664
  • PDF下载量:  3692
  • 被引次数: 1
出版历程
  • 收稿日期:  2016-04-22
  • 录用日期:  2016-05-10
  • 刊出日期:  2016-05-01

目录

/

返回文章
返回