2.845

2023影响因子

(CJCR)

  • 中文核心
  • EI
  • 中国科技核心
  • Scopus
  • CSCD
  • 英国科学文摘

留言板

尊敬的读者、作者、审稿人, 关于本刊的投稿、审稿、编辑和出版的任何问题, 您可以本页添加留言。我们将尽快给您答复。谢谢您的支持!

姓名
邮箱
手机号码
标题
留言内容
验证码

无监督多重非局部融合的图像去噪方法

陈叶飞 赵广社 李国齐 王鼎衡

王晓, 张翔宇, 周锐, 田永林, 王建功, 陈龙, 孙长银. 基于平行测试的认知自动驾驶智能架构研究. 自动化学报, 2024, 50(2): 356−371 doi: 10.16383/j.aas.c220820
引用本文: 陈叶飞, 赵广社, 李国齐, 王鼎衡. 无监督多重非局部融合的图像去噪方法. 自动化学报, 2022, 48(1): 87−102 doi: 10.16383/j.aas.c200138
Wang Xiao, Zhang Xiang-Yu, Zhou Rui, Tian Yong-Lin, Wang Jian-Gong, Chen Long, Sun Chang-Yin. An intelligent architecture for cognitive autonomous driving based on parallel testing. Acta Automatica Sinica, 2024, 50(2): 356−371 doi: 10.16383/j.aas.c220820
Citation: Chen Ye-Fei, Zhao Guang-She, Li Guo-Qi, Wang Ding-Heng. Unsupervised Multi-non-local Fusion Image Denoising Method. Acta Automatica Sinica, 2022, 48(1): 87−102 doi: 10.16383/j.aas.c200138

无监督多重非局部融合的图像去噪方法

doi: 10.16383/j.aas.c200138
基金项目: 国家重点研发计划 (2018TFE0200200), 教育部重大科技创新研究项目, 北京智源人工智能研究院资助
详细信息
    作者简介:

    陈叶飞:西安交通大学电子与信息学部自动化科学与工程学院硕士研究生. 主要研究方向为模式识别, 图像去噪.E-mail: yefeichen@stu.xjtu.edu.cn

    赵广社:西安交通大学电子与信息学部自动化科学与工程学院教授. 主要研究方向为深度学习与图像识别, 大数据与群体智能, 多智能体系统协同导航与控制.E-mail: zhaogs@mail.xjtu.edu.cn

    李国齐:清华大学精密仪器系类脑计算研究中心副教授. 主要研究方向为信号处理, 类脑计算, 复杂网络. 本文通信作者.E-mail: liguoqi@mail.tsinghua.edu.cn

    王鼎衡:西安交通大学电子与信息学部自动化科学与工程学院博士研究生. 主要研究方向为图像处理, 模型优化.E-mail: wangdai11@stu.xjtu.edu.cn

Unsupervised Multi-non-local Fusion Image Denoising Method

Funds: Supported by National Key R & D Program of China (2018YFE0200200), Key Scientific Technological Innovation Research Project by Ministry of Education, Beijing Academy of Artificial Intelligence
More Information
    Author Bio:

    CHEN Ye-Fei Master student at the School of Automation Science and Engineering, Faculty of Electronic and Information Engineering, Xi'an Jiaotong University. His research interest covers pattern recognition, image denoising

    ZHAO Guang-She Professor at the School of Automation Science and Engineering, Faculty of Electronic and Information Engineering, Xi'an Jiaotong University. His research interest covers deep learning, image recogition, big data, swarm intelligence, multi-agent system cooperative navigation and control

    LI Guo-Qi Associate professor at the Center for Brain Inspired Computing Research, Department of Precision Instrument, Tsinghua University. His research interest covers signal processing, brain-like computing, and complex network. Corresponding author of this paper

    WANG Ding-Heng Ph. D. candidate at the School of Automation Science and Engineering, Faculty of Electronic and Information Engineering, Xi'an Jiaotong University. His research interest covers image processing and model optimization

  • 摘要: 非局部均值去噪 (Non-local means, NLM) 算法利用图像的自相似性, 取得了很好的去噪效果. 然而, NLM 算法对图像中不相似的邻域块分配了过大的权重, 此外算法的搜索窗大小和滤波参数等通常是固定的且无法根据图像内容的变化做出自适应的调整. 针对上述问题, 本文提出一种无监督多重非局部融合 (Unsupervised multi-non-local fusion, UM-NLF) 的图像去噪方法, 即变换搜索窗等组合参数得到多个去噪结果, 并利用 SURE (Stein's unbiased risk estimator) 对这些结果进行无监督的随机线性组合以获得最终结果. 首先, 为了滤除不相似或者相似度较低的邻域块, 本文引入一种基于可微分硬阈值函数的非局部均值 (Non-local means with a differential hard threshold function, NLM-DT) 算法, 并结合快速傅里叶变换 (Fast Fourier transformation, FFT), 初步提升算法的去噪效果和速度; 其次, 针对不同的组合参数, 利用快速 NLM-DT 算法串联生成多个去噪结果; 然后, 采用蒙特卡洛随机采样的思想对上述多个去噪结果进行随机的线性组合, 并利用基于 SURE 特征加权的移动平均滤波算法来抑制多个去噪结果组合引起的抖动噪声; 最后, 利用噪声图像和移动平均滤波后图像的 SURE 进行梯度的反向传递来优化随机线性组合的系数. 在公开数据集上的实验结果表明: UM-NLF 算法去噪结果的峰值信噪比 (Peak signal to noise ratio, PSNR) 超过了 NLM 及其大部分改进算法, 以及在部分图像上超过了 BM3D 算法. 同时, UM-NLF 相比于 BM3D 算法在视觉上产生更少的振铃伪影, 改善了图像的视觉质量.
  • 随着“十四五”时代的到来, 自动驾驶迎来了“整体性落地建设”和“大规模部署应用”的新时期. 智能感知等新兴自动驾驶技术不断涌现并呈现高速发展趋势[1-4], 衍生出了智能车辆虚拟测试[5-10]、数据驱动的车路云协同交通控制[11-13]、智能空间中的泛在通信[14-15]等新型数字经济基础设施产业[16-17]. 当前, 我国自动驾驶在科学技术研究与产业培育上取得了显著成果, 特别是在环境感知、决策规划、控制执行、高精定位等技术上获得了突出的研究进展[18], 但距离真正的实现具有主动思考、理解和推理的认知智能还有较大差距[19-21].

    国家自然科学基金委早在2006年3月发布的“十一五”发展规划中就将认知科学与智能信息处理列为13个综合交叉领域之一[22]. 2008年8月, 国家自然科学基金委员会通过了重大研究计划“视听觉信息的认知计算”的立项, 在其总体科学目标中指出, “从人类的视听觉认知机理出发, 研究并构建新的计算模型与计算方法, 提高计算机对非结构化视听觉感知信息的理解能力和海量异构信息的处理效率”[23]. 该重大研究计划通过创办“中国智能车未来挑战赛”搭建了无人驾驶车辆集成验证平台, 提供复杂测试环境从而对车辆感知和理解环境、路径规划、决策和智能控制等一系列视听觉信息处理的新模型和算法进行应用验证, 至今已连续举办12届, 促进了基础实验研究与物理可实现系统的有机结合, 推动了我国智能车研发由实验室走向现场交流探索阶段[6-7, 24].

    自动驾驶目前面临着交通场景动态多变、社会情景耦合密切、开放环境任务复杂度高、海量数据无法得到高效利用的问题[25-28]. 近年来, 硬件设备算力的不断提升、机器学习算法的频繁更新以及芯片技术的迭代发展极大地促进了车辆感知智能水平的提升. 然而, 智能算法对大规模标记数据的依赖, 一方面使得自动驾驶的长尾问题愈加显著; 另一方面, 在将有限数据集训练后的算法部署于实际车辆时, 存在泛化能力差、性能表现不佳等问题.

    对此, 本文提出了认知自动驾驶智能的框架并设计了一种提升车辆实时多维认知能力的构建方法. 本文的主要贡献如下.

    1) 基于对人类驾驶认知行为的研究, 提出了知识网络驱动的类人认知自动驾驶智能架构及层次化认知功能构建方法, 增强自动驾驶场景泛用性和系统智能性.

    2) 基于平行测试理论, 构建了变量解耦的车辆认知智能量化评估机制, 以可控场景调整分析驾驶行为变化, 实现认知机理建模, 提高对车辆智能的精准定向评估.

    3) 基于平行执行方法, 构建了持续趋优的车辆智能提升闭环, 以精准评估结果引导场景和数据生成, 建立针对性认知智能提升机制, 降低场景与数据构建成本、加速系统迭代升级.

    本文结构安排如下. 首先概要回顾自动驾驶的技术与应用发展历程, 着重介绍当前自动驾驶感知与决策系统中的关键技术以及存在的长尾问题; 随后, 探讨测试与自动驾驶车辆智能评估与提升的关系, 进一步提出基于平行测试的认知自动驾驶智能评估方法; 接着, 提出了认知自动驾驶智能框架并提出基于平行测试的智能训练与提升方法; 最后, 总结了全文内容.

    自动驾驶, 又称无人驾驶, 指借助传感计算设备、信息通讯、自动控制以及人工智能等技术对车辆进行智能化改造, 使车辆自身具备自主驾驶能力的一种智能技术[24, 29-31]. 自动驾驶在任务执行上, 关键在于建立行车环境、车辆状态和车辆操作上的连接, 使车辆能够准确地识别环境信息, 在符合交通规则和保证行驶安全的前提下完成自主导航、自主运行、自主避障等一系列的驾驶操作[29], 其发展先后经历了无线电控制、制导循迹行驶[32-33]、雷达避障行驶[34-36]、视觉导航行驶[37]和激光雷达导航行驶[38-39]等一系列发展阶段.

    无人驾驶技术自出现发展至今, 基本形成了以“感知−决策−执行”为核心的系统框架. 围绕该系统框架, 无人驾驶技术的研究者们通过对车辆的改造进行传感、计算等硬件设备的搭建, 开发感知、决策、控制相关功能算法, 使车辆获得了智能化升级. 本节后续将围绕自动驾驶演变历程及其发展至今形成的关键技术展开详细介绍, 分析现阶段自动驾驶发展过程中存在的主要挑战并给出相关技术上的应对策略.

    自动驾驶技术从最初提出至今已历经上百年历史, 其发展历程经历了从最初的车辆控制, 到实现对环境信息的初步采集, 再至基于对环境的理解完成自主路径的初级决策任务(路径规划)等, 一系列技术迭代推动了车辆智能化驾驶系统的升级过程. 回顾国内外自动驾驶技术的发展历程, 整体发展过程主要得益于通信、传感、自主导航、自动控制以及人工智能技术的驱动.

    在汽车上构建自动控制的想法最早出现在19世纪20年代. 无线电在长距离信号传播上的优势, 吸引了早期的车辆工程师, 并促使遥控汽车技术的萌生. 最早出现的有着自动驾驶雏形的汽车当属1925年由Francis Houdina发明的“American Wonder”, 如图1(a)所示车辆使用无线电进行远程控制. 技术首次赋予了车辆与外界通讯的能力, 然而对环境信息与驾驶操作的处理仍然由人来完成. 受限于多种设备与计算机技术, 过早提出的自动驾驶的概念未能如预期实现.

    图 1  自动驾驶汽车发展历程中的典型代表
    Fig. 1  Typical cases in the history of autonomous vehicle

    20世纪中期, 随着通讯功能的进一步升级演化, 为实现车辆与环境的智能交互, 研究者把目光投向了公路的数字化改造上. 1958年, 为实现汽车在高速公路上的自动化运行, 美国通用汽车公司(General Motors Company, GM)和美国无线电公司(Radio Corporation of America, RCA)的研究团队合作组装出一套车辆侦测与引导系统, 首次完成了一条高速公路的数字改造, 通过侦测与引导系统实现了车辆前后车距保持以及自动转向的功能[32], 该系统的成功运行标志着自动驾驶技术在环境设施智能化技术上的有效探索. 20世纪60年代, 计算机视觉的成功开发与引入, 成为了自动驾驶车辆传感系统的一次重要转变, 车辆对于环境信息的采集能力大幅提升. 业界普遍认为在1961年出现的Stanford Cart是第一辆自动驾驶汽车, 车辆搭载的摄像头主要用于周围环境及障碍的测距, 并能够实现利用摄像头和算法的避障行驶[40], 如图1(b)所示. 20世纪80年代至20世纪末, 伴随着计算机、机器人控制和传感等技术的突破, 自动驾驶技术进入了一个快速发展的阶段. 期间为推动自动驾驶技术的发展, 美国国防高级研究计划局(Defense Advanced Research Projects Agency, DARPA)提出了“战略计算计划”, 计划中包含研制自主陆地车辆(Autonomous land vehicles, ALV), 并于1986年打造了自动驾驶货车Navlab 1[41], 如图1(c)所示. 这一时期主要使用视觉方法感知周围环境, 依靠计算机对图片等信息处理、分析以生成控制汽车的命令. 最具代表性的成果还有德国慕尼黑联邦国防军大学的VaMoRs(P)系列和意大利帕尔马大学视觉实验室(VisLab)的ARGO项目.

    1991年, 美国国会通过了陆路复合运输效率法案(Intermodal Surface Transportation Efficiency Act, ISTEA), 作为响应, 美国联邦高速公路管理局(Federal Highway Administration, FHSA)在1992年启动了一项全国性的自动化公路研究项目. 1997年, 美国加州圣地亚哥举行了名为Demo'97 (The NAHSC 1997 Technical Feasibility Demonstration)的无人车集中演示, 通过在道路上设置磁条, 演示如何进行无人车辆编队实现高速路交通优化、在不增加现有道路的基础上扩大其通行容量. 这一探索因政府预算问题在90年代末终止.

    21世纪初期, 随着一系列自动驾驶赛事的展开, 自动驾驶系统快速更新迭代, 自动驾驶的研究掀起了一股热浪, 也奠定了后续自动驾驶车辆的基础架构. 2004年起, 美国国防高级研究计划局连续3年举办了3届DARPA无人驾驶挑战赛, 将无人驾驶技术研发的热潮推向了世界. 其中, 美国斯坦福大学的“Stanley”作为2005年竞赛的获胜者, 利用机器学习技术处理道路图像信息, 实现在非结构化环境中车辆的导航, 如图1(d)所示[42]. 由于机器学习的引入, 使自动驾驶车辆的传感系统逐步实现由数据采集到环境感知的转变, 成为自动驾驶汽车智能化发展的一个关键转折点. 随后的自动驾驶研发中, 大多数研究人员将机器学习和人工智能作为自动驾驶的核心组成部分开展相关研究工作. 自动驾驶在比赛中的出色表现和应用潜力, 成功吸引了以谷歌为代表的科技公司和创新企业加入到自动驾驶的研发中, 也引发了传统汽车产业的智能化变革. 至此, 自动驾驶技术已迈向面向更高智能突破和稳定应用表现的新阶段.

    相比国外无人车的发展历程, 国内自动驾驶技术的研发与应用起步较晚但发展迅速. 在20世纪80年代, 我国开始了对智能移动机器人的研究, 1980年, 中国立项了“遥控驾驶的防核化侦察车”项目, 由哈尔滨工业大学、沈阳自动化研究所和国防科技大学三家单位联合承担. 从80年代末开始, 国防科技大学先后研制出基于视觉的CITAVT系列智能车辆. 同一时期, 清华大学在国防科工委和国家“863 计划”的资助下开始研究开发THMR系列智能车. 中国第一辆自动驾驶汽车ATB-1 (Autonomous test Bed-1)诞生于90年代初期, 由浙江大学、国防科技大学、北京理工大学等五家单位联合研究, ATB-1的诞生标志着中国无人驾驶行业正式起步并进入探索期[30]. 国内的高校, 如西安交通大学、国防科技大学、吉林大学、重庆大学也分别开始独立的自动驾驶车辆研究工作. 同样是90年代, 时为美国亚利桑那大学教授的中国科学院自动化研究所王飞跃研究员主导的智能车VISTA项目, 在美国凤凰城51号高速公路上成功演示了打通车外摄像头、车内智能控制与运动规划的自动驾驶技术, 引发全美关注[4].

    进入21世纪, 国内无人车技术研发由实验论证走向道路实测. 2005年暑期, 由西安交通大学郑南宁院士组建的智能汽车课题组开启了一次名为“重走丝绸之路”的自动驾驶汽车测试, 以验证发展初期的自动驾驶技术, 标志着国内由高校研发的无人驾驶技术第一次从实验室走向真实的交通环境. 2008年8月, 国家自然科学基金委员会发布重大研究计划“视听觉信息的认知计算”, 以此推动并提升我国在视听觉信息处理领域的整体研究实力, 为解决自动驾驶等领域中的认知能力空缺提供了重要的探索经验和理论依据[23]. 2011年, 国防科技大学研制的红旗HQ3首次完成了从长沙到武汉286公里的高速全程无人驾驶试验, 标志着我国无人车在复杂环境识别、智能行为决策和控制等方面实现了新的技术突破[43].

    自动驾驶的研究需要不断在真实交通环境中进行自主驾驶测试, 完备测试评价体系能够有效反映自动驾驶车辆的真实水平. 自2009年起, 由国家自然科学基金委员会主办的首届“中国智能车未来挑战赛”举办, 无人车比赛测试内容与测试环境分阶段、分层次设计, 实现了无人车由简到繁、由易到难的智能水平测试, 有效推动了我国自动驾驶从实验室研发走向探索性应用交流[23, 25]. 赛事期间, 安全性(Safety)、舒适性(Smoothness)、敏捷性(Sharpness)和智能性 (Smartness)的4S测试标准, 离线测试和平行测试的概念及方法相继被提出, 为促进无人驾驶走向开放道路测试奠定了基础.

    产业层面, 科技巨头持续引领市场, 车厂相继争先转型, 持续加码自动驾驶研发投入. 近年来, 谷歌、特斯拉、百度等科技公司持续开发无人驾驶技术, 并不断开展自动驾驶车辆的道路测试. 受这些科技公司的影响, 传统汽车公司(如通用、宝马、沃尔沃)也纷纷加入无人驾驶的研发测试中. 在虚拟场景和开放道路测试的共同推动下, 自动驾驶技术正以全场景应用、多维度布局、全体系研发的方式加速发展.

    现阶段自动驾驶系统围绕“感知−决策−执行”系统的开发及其相关功能的实现, 通过融合多种环境传感和感知算法, 在良好的天气环境下初步实现了对规范交通环境的感知与识别; 通过对车辆行为建模, 初步实现对于有限交通场景的判断与应对, 并在部分道路(如高速路、城市道路、园区道路)中获得了较为理想的行车表现, 典型的整体无人驾驶系统架构如图2所示. 本节后续内容将围绕现阶段主流自动驾驶技术, 针对环境感知、决策规划、运动控制三大核心系统功能, 在关键技术和实现方法上展开概要介绍, 为基于此的认知自动驾驶智能框架的提出奠定系统逻辑基础.

    图 2  典型的自动驾驶技术框架
    Fig. 2  Typical framework for autonomous driving
    1.2.1   环境感知: 自动驾驶的“感官”

    自动驾驶的感知系统由硬件传感设备和感知、定位算法共同组成, 用于对车辆周围环境和自车状态的检测与识别. 因此, 感知系统的优劣决定了整体驾驶系统信息输入的完整性和准确性, 对于后续的驾驶行为决策至关重要, 是实现车辆驾驶自主化运行最为基础和关键的环节.

    自动驾驶中通过数十种传感设备用于接受物理信息, 用于模拟人类驾驶员在行驶过程中的“五感”, 如图3所示. 其中用于环境感知的传感器主要包括摄像头、激光雷达、毫米波雷达和超声波雷达等[44]. 主流的感知技术方案包括以摄像头为主的视觉方案以及视觉和雷达结合的多传感器融合方案. 前者具有成本较低、接近人类驾驶等优点, 但也存在着受环境光照影响大等缺点, 因此对软件算法依赖程度高. 采用视觉为主的感知方案的企业主要包括特斯拉和Mobileye. 相比较而言, 视觉和雷达结合的多传感器融合能够提供准确的空间和结构信息, 且具备更好的抗环境干扰能力, 使车辆在行驶过程有效躲避障碍与其他动态交通单元[37-38], 但其成本相对较高, 且多传感器融合在模态对齐和模态失效应对等方面也面临诸多挑战. 目前, 采用多传感器融合方案的企业主要包括Waymo、Uber、华为及小鹏等, 百度公司则兼具视觉为主的方案和多传感器融合方案. 除此之外, 自动驾驶车辆还需要配合地图与定位系统完成道路及车道场景下的精准定位, 后3种设备相互融合, 采用绝对定位与相对定位融合的方式解析出车辆位置信息, 并提供给路径规划系统指导车辆在规范的车道上行驶.

    图 3  自动驾驶核心感知硬件
    Fig. 3  Key hardware for perception in autonomous driving systems
    1.2.2   决策规划: 自动驾驶的“大脑”

    决策规划作为自动驾驶系统的“大脑”, 负责对已知信息的整合并根据需求制定正确的行驶指令[45]. 由于决策内容与信息来源联系紧密, 因此可以在信息层面上把决策任务划分为三类: 静态信息的决策、动态信息的决策和突发信息的决策.

    第1层面静态信息的决策在自动驾驶中属于导航级别的路径决策问题——“如何到”, 任务信息固定已知, 目标单一, 约束条件明确清晰, 任务贯穿从出发至目的地的整个驾驶过程, 保证任务时效性、经济性和舒适性.

    第2层面动态信息的决策是驾驶中的行为决策问题——“如何开”, 任务信息繁杂且多变, 多任务并行耦合, 约束强度较弱, 操作空间维数高, 要求驾驶系统根据可见范围内信息采取合理的驾驶策略. 例如: 不同驾驶员面对相同驾驶场景所展现出的不同驾驶策略及风格, 反映了驾驶员对环境信息和安全驾驶的理解差异[46], 进一步, 也可通过车辆通行效率、乘坐舒适度评判驾驶水平的高低.

    对于动态信息的捕捉、理解和决策也是自动驾驶智能化水平最为突出的表现, 根据动态场景的不同, 可将其分为三类主要的决策任务, 如图4所示.

    图 4  三种等级的决策任务
    Fig. 4  Three levels of decision-making tasks

    1)障碍规避任务. 障碍物规避、绕行, 行驶受阻情形的处理, 以及通行路权博弈.

    2)车道决策任务. 行驶车道的切换, 车道含义与车辆以及驾驶策略的匹配.

    3)道路决策任务. 行驶道路变更, 行驶方向变更, 不同道路驾驶策略的切换.

    第3种层面突发信息的决策表现为面对突发情形的决策问题——“紧急避险”, 任务的突发性导致信息缺乏, 约束条件模糊且稀少, 可选择的操作空间大. 现阶段该层面任务主要表现为两个方面: 1)在短时异常条件(如逆光、遮挡、定位信号丢失等)下的应急决策与避险行为; 2)在行为异常下的困境识别与脱险决策. 更进一步, 该层面任务将赋予车辆对危险的识别能力与主动躲避的认知决策, 即“安全意识”问题, 来保证车辆安全或降低事故损伤.

    1.2.3   运动控制: 自动驾驶的“四肢”

    自动驾驶的运动控制系统, 构建了车辆数学模型和物理控制之间的桥梁, 作为车辆系统与环境交互的最终环节, 平滑、高效地完成车辆的驾驶任务对于自动驾驶的有效实现具有重要意义[47-50]. 由于控制执行系统并不涉及对感知信息的认知与理解, 因此在本文中不过多地展开讨论, 根据控制系统的构成, 分以下三个方面进行简要介绍.

    1) 车辆动力学控制模型的构建. 车辆控制模型通常指的是控制系统的数学模型, 首先以模型驱动或数据驱动的方式建立实际系统的数学模型, 随后通过数据反馈、参数辨识、训练迭代等方法进一步优化模型, 最后通过泛用测试评估准确度并完成模型的确定.

    2) 车辆的纵向控制、横向控制. 车辆的纵向控制指在车辆行驶速度上的控制, 包括对车辆动力系统、传动系统和制动系统的控制. 车辆的横向控制指垂直于前进方向的控制, 指方向盘角度的调节和车辆侧滑的修正. 通常独立的纵向控制和横向控制不能满足复杂场景下自动驾驶车辆的实际运动需求, 横纵协同控制对于实现目标轨迹的准确跟踪更为关键, 车辆的控制也从基础的行驶转向扩展到车道变更、路口转向、自动泊车等复杂的控制任务[51].

    3) 车辆的控制任务与控制方法. 控制理论历经长期的发展, 已趋于成熟, 常用的控制方法, 包括反馈控制、前馈控制、PID控制、模糊控制、最优控制、模型预测控制以及神经网络控制等[52-53]. 根据控制目标和任务需求匹配对应的控制方法, 能够更高效和更准确地实现理想的控制效果, 如在车辆的发动机和电动机的近似线性模型部分, 通常采用PID控制和前馈控制; 而对于车辆横向轨迹的保持和修正, 往往采用MPC控制车辆的运动系统.

    随着计算架构、车载算力的升级以及信息通讯、计算机视觉、机器学习等技术的不断深入发展, 自动驾驶作为有效的自主化地面交通解决方案, 与运输业、汽车制造、物联网、大数据和交通管理形成了一系列的多领域深度融合产业[54], 面向各种场景下的自动驾驶技术层出不穷. 现阶段自动驾驶技术主要应用于处于一些限定区域和低速场景下, 如物流配送、公共环卫、园区接驳、港口码头、智能矿山、无人零售、末端配送等, 如图5所示. 而在当前城市自动驾驶上应用处于以辅助驾驶为主的阶段, 针对人工驾驶中出现的车道保持、车距保持提供较好的支持, 有效缓解驾车疲劳; 而面对如天气、交通、道路组合变种的多样化场景, 暂时还未实现有效可靠的解决方案.

    图 5  自动驾驶部分应用场景
    Fig. 5  Case studies on application scenarios of autonomous driving

    目前国内外对于自动驾驶等级划分最为广泛接受的标准是国际自动机工程师学会 (International Society of Automotive Engineers, SAE) 发布的关于自动驾驶的等级定义SAE J3016[55], 其中将无人驾驶分为Level 0 ~ 5六种等级. 根据SAE J3016的分类标准: Level 2 ~ 3是车企布局最为广泛的一个技术范围; Level 3 ~ 4, 特别是Level 4目前仅有部分高校类研究机构、领军型科创企业和少量主机厂在开展研究工作; 面向Level 5水平的自动驾驶技术目前还未出现成熟有效的应对方案.

    本节分析Level 4及以上等级自动驾驶技术在面对开放动态复杂环境中存在的瓶颈问题和技术挑战.

    现阶段自动驾驶在数据采集、传感和运动控制上的发展已较为成熟, 自动驾驶系统的自主智能化提升主要存在以下两方面的挑战.

    1.3.1   缺乏对社会情境的理解与推理能力

    在自动驾驶当前系统框架上, 存在对于环境信息理解力不足和对情景信息解析不准确的认知问题. 李力等[20]在其关于认知车的研究中提到, 需要重视驾驶员行为认知在智能车系统中的作用, 并认为将认知科学和控制系统相结合的方式是一种具有广阔研究前景的重要领域方向. 在当前自动驾驶技术框架下, 由于人类对物理世界和物理规律认知上的主观性和有限性, 使得以规则驱动的“感知−决策”在规则制定过程中呈现出系统的片面性和功能的局限性, 导致自动驾驶系统在高动态、复杂环境中难以汇总物理环境中的足够全面且有效的信息, 难以对场景中可能发生的事件做出准确高效的决策, 而因认知缺失引发的问题在自动驾驶的感知和决策中体现尤为突出.

    认知能力以感知为基础, 感知方面, 在现阶段的自动驾驶研究中, 由于缺乏对于感知信息的实时评估分析, 导致不准确、不完善、不全面的感知信息直接传递给决策系统而导致动作异常的状况时常发生. 尽管在下一轮“感知−决策−执行”的迭代中会对异常的感知信息加以修正, 但长期的运行过程, 类似的“弯路行为”将大大降低系统的运行效率, 甚至导致在面对紧急情形时车辆的应对能力不足而提高事故率. 在决策方面, 在现有决策规划任务中, 常规的决策算法模型相对固定. 在有限场景中, 由于事物发生的可预见性较高和有限性约束, 利用条件与行为的逻辑关系构建的决策模型, 能够获得不错的行为表现. 然而, 一旦环境的不确定性和复杂度增加, 以规则驱动的决策模型将难以应对, 尤其在动态随机环境的泛用性上存在明显的短板. 以城市日常乘车为例, 面对不同天气场景、车流压力、交通事故等常见的出行场景, 特别是车辆测试过程中难以遇到的数据或样本, 自动驾驶缺乏“举一反三”的自主推理和演绎能力, 还不能称为一名合格的“智能司机”.

    1.3.2   开放环境下的长尾问题

    在当前自动驾驶技术的应用上, 面向诸如感知异常、定位误差、决策异常、意外应对、自然交互等长尾问题, 自动驾驶技术始终难以应对高度动态变化和开放的驾驶环境[56-58]. 数据驱动的自动驾驶测试成为一种有效的解决方案, 但测试过程资源耗费严重、测试成本高、测试场景受限、迭代周期长等问题, 严重延缓了自动驾驶技术的更新与发展.

    封闭场景过渡至动态场景后的功能乏力, 是自动驾驶长尾问题的主要由来. 作为封闭场景下自动驾驶的前身, 自主导航车(Autonomous navigation vehicle, AGV)主要解决环境特征无明显变化下车辆的感知避障与路径巡线, 完成目标场景内的功能覆盖, 如物流分拣车、智能巡检车、送餐机器人等. 基于AGV的成熟发展, 最初的自动驾驶技术将车辆的行驶任务抽象为简单的逻辑规则, 并尝试建立更为详尽的控制逻辑来实现车辆的自主行驶, 形成了基于规则驱动的自动驾驶系统. 然而, 相对于固定场景下的环境状态, 实际交通道路中往往环境面临信息繁杂、状态随机、动态交互等高度随机的物理及社会信息, 因此导致自动驾驶系统易发生行为决策方面的异常.

    长尾效应普遍存在于现实应用中, 其特征是正常场景出现频率高, 而极端“长尾”场景很少出现. 这些长尾问题包括: 低频的交通场景、极端的驾驶情形和无法预测的交通行为等. 随着部分自动驾驶车辆事故频发, 如, 优步无人驾驶车辆撞上推自行车的行人、特斯拉撞上白色货车车厢等, 以视觉异常为诱因, 引起了对自动驾驶长尾问题的持续高度关注. 让计算机灵活地理解“视觉情景”往往要比单独的检测任务复杂得多, 更需要对涉及信息关联的实体及其之间的关系进行分析、推理. 例如: 在《AI 3.0》中提到的“遛狗”这一常见的视觉情景, 对于人工智能系统而言, 难以将拿着绳子的人和系着绳子的狗有效联系起来. 无独有偶, 在激光雷达公司Aeye举行的一次自动驾驶气球挑战中, 自动驾驶汽车在检测到气球时往往采取躲闪来避免碰撞, 导致车辆刹车或突然变向. 相机或激光雷达在物体识别上能够发现气球这一实体, 但并不能理解其对行驶任务的真正影响, 导致此类长尾问题难以应对. 从当前自动驾驶应用与测试中可以看出, 在技术上自动驾驶技术在大部分问题上已能给出有效的解决方案(如底层架构、环境传感、运动控制), 但在长尾问题上暂时还未形成稳定可靠的应对策略, 自动驾驶长尾问题逐渐成为了制约自动驾驶发展的关键.

    近年来, 针对无人车辆在实际应用落地中出现的一系列长尾问题, 尤其是一般性的感知错误与决策异常, 多种自动驾驶测试手段被相继构建, 以检验车辆驾驶系统智能水平和功能稳定性, 自动驾驶测试也成为排查系统漏洞、促进驾驶系统智能化升级的重要手段.

    自动驾驶汽车测试是自动驾驶研发中的重要环节, 是自动驾驶性能评估的重要支撑. 为了应对千变万化的交通场景, 需要海量的数据对自动驾驶算法进行训练, 通过不断的迭代, 才能覆盖尽可能多的场景, 提高行为的灵活性. 随着自动驾驶汽车自动化等级的不断提高和产业化落地进程的加速, 对测试的依赖越来越深入, 尤其是面对Level 3以上自动驾驶和无人驾驶, 对现有的测试技术、标准和法规, 都提出了新的挑战.

    2011年9月美国内华达州的自动驾驶法案通过审批, 成为美国第一个允许自动驾驶上路测试的州, 揭开了自动驾驶车辆上路测试的序幕. 紧随其后, 部分发达国家制定了相关的自动驾驶测试法案, 英国交通部于2015年发布《无人驾驶汽车的发展路径: 自动驾驶技术评述》; 日本发布的《自动驾驶汽车道路测试指南》允许汽车在无人驾驶状态下进行测试. 2018年4月, 我国工信部、公安部、交通运输部联合发布的《智能网联汽车道路测试管理规范(试行)》中, 围绕自动驾驶汽车测试的管理体制、测试许可、测试要求、测试记录与报告、开放道路范围、交通事故责任、保险制度等方面做出了规定, 有效引导推动了我国自动驾驶汽车的发展.

    随着自动驾驶开放测试道路的城市持续增加, 无人驾驶系统测试场地逐渐由常规道路转为封闭园区和规范化路段, 技术研发与测试迈向标准化、专业化. 为了让无人车进行针对性的改进和提升, Waymo构建了一个名为Castle的结构化测试训练基地, 在基地内复现所遇到的场景, 供无人车反复练习. 2015年, 由西安交通大学、中国科学院自动化研究所等研究机构与常熟市共建的中国智能车综合技术研发与测试中心(iVPC)正式成立, 构建典型真实交通场景中路测和硬软件测试相融合的一体化测试训练场, 成为国内首个智能车研发测试中心. 此后, 北京、上海、西安、重庆、泰兴、襄阳等地陆续获批自动驾驶封闭场地测试基地, 这标志着中国的智能联网和无人驾驶汽车从国家战略高度正式进入实际操作阶段.

    伴随着测试场地和相关法规的完善, 自动驾驶车辆测试的数量递增, 自动驾驶的道路测试规模和测试里程, 逐步成为了系统性能水平评估的重要指标. 从美国加州车辆管理局公布的2021年度自动驾驶测试数据来看, 谷歌的Waymo与通用的Cruise累积测试里程分别为374万公里、141万公里, 两者测试里程占据当年全部自动驾驶车辆测试里程的近80%. 然而, 自动驾驶路测面临周期长、效率低、成本高等弊端, 自动驾驶测试中人工建模的仿真测试方法不可或缺. 据美国兰德公司研究, 从统计学角度出发, 自动驾驶汽车需要在真实或者虚拟环境中至少进行110亿英里的里程测试, 才能证明自动驾驶系统比人类驾驶员更可靠. 因此, 基于自动驾驶的现阶段算法水平和有限的算力性能, 单纯依靠传统的自动驾驶实车路测难以满足多样化场景的完全覆盖.

    同时, 在现实道路中运行测试, 往往受限于天气状态等因素, 且车辆行驶速度缓慢导致测试耗时周期长, 严重制约着车辆的智能化升级, 基于此, 数字测试场概念和自动驾驶仿真测试技术应运而生[5]. 在虚拟场景中进行自动驾驶技术测试有着效率高、成本低、配置灵活、重复性强、过程安全等种种优点, 能有效实现自动驾驶功能检验和测试加速, 从而引起了高校、研究机构和企业的广泛关注. 美国的Waymo和中国的百度等自动驾驶公司均建立了自动驾驶模拟系统, 开展了大量的虚拟测试, 如: Waymo推出的CarCraft的道路模拟器, 可以使车辆在同样的驾驶条件下经历数千次的练习来学习新的行为方法. 而虚拟场景中的测试场景对现实世界的覆盖率越高, 仿真测试结果的准确性就越高[56]. 仿真测试大大降低了实车路测中的测试成本, 但毕竟虚拟仿真不是现实, 使用计算机图像技术构建的场景和车况相较于真实的驾驶场景过于理想化, 测试效果往往和真实测试差距较大, 难以形成切实有效的测试经验.

    为解决仿真测试中的这一问题, 自2016年起, 智能车挑战赛提出在自动驾驶测试比赛中额外增加一项针对复杂环境车辆认知能力的离线测试. 离线测试在真实的交通场景数据库的基础上, 通过车辆在还原场景下的反应, 评估车辆的基本认知能力, 如前方车辆检测、车道线检测、前方车辆距离监测、车道保住状态监测与交通信号检测等. 考察了测试车辆在仿真环境下对于真实交通场景数据的反应, 在降低测试成本加速测试效率的同时, 有效提高仿真测试过渡到真实场景测试的系统的泛用性和有效性. 为系统化评估车辆的认知水平, 由中国科学院自动化研究所青岛智能产业技术研究院和慧拓智能机器有限公司基于平行测试理论联合研发的智能车综合测评系统应用自2017年起, 应用在中国智能车未来挑战赛中, 实现了对比赛车辆的状态的实时记录, 并自动分析评估结果.

    随着自动驾驶测试的逐步深入, 中国科学院自动化研究所的王飞跃研究员提出平行测试的概念、框架和方法论[6, 57]. 2017年基于平行测试理论的智能车综合测评系统在中国智能车挑战赛中得到了良好的应用检验. 2019年平行测试研究成果作为“焦点”文章发表在机器人顶级期刊Science Robotics上[7]. 本文认为, 平行测试作为一种融合了实车路测、虚拟测试和离线测试的创新型自动驾驶测试方法, 实现了物理数据和虚拟数据的交互融合, 有效拓展了当前自动驾驶的场景, 将成为目前解决自动驾驶路测效率低和提升系统智能水平的重要途径. 同时, 测试系统在实车和云端平行部署协同运行, 能够借助本地简单远程复杂的系统架构, 实现云端对边缘端场景数据和算力的补充, 改善当前自动驾驶车辆在面向罕见场景和突发状况时模型覆盖有限、场景认知不足的问题.

    自动驾驶测试中对于大批量数据的信息挖掘和深入理解程度直接影响系统解决异构、移动、融合的交通网络环境下智能车辆的管理与控制问题的效率. 为此, 有效利用行驶过程中收集的各种感知信息进行决策, 同步“预测”、“引导”并“评估”驾驶行为成为认知智能训练提升的关键.

    平行测试通过任务描述、任务采样和任务测试三部分实现对任务生成机制的构建、对挑战性任务的选择以及对测试结果的评估, 并以此形成测试闭环, 逐步探索车辆的能力边界. 平行测试系统设计并模拟出一套基于数据驱动的与真实场景相匹配的学习训练场[58-60], 在复现真实场景的同时, 利用计算实验将认知模块化管理, 根据不同的认知功能对数据进行分割重组, 形成多维度全方位的认知系统[61-62]. 根据输入的真实数据进行模型训练, 引入平行学习的方法生成大量“人工数据”, 在真实“小数据”与人工“大数据”组成的“混合海量数据”中, 实现数据的扩展与泛化, 从中完成驾驶行为的学习、模仿与进化, 加速机器智能向类人智能的迭代与演化[63-67].

    平行测试适用于车辆功能开发与智能提升的全流程, 包括单元功能测试、软件在环(Software-in-the-loop, SIL)、硬件在环(Hardware-in-the-loop, HIL)、车辆在环(Vehicle-in-the-loop, VIL), 再到最后的场地测试、道路测试、对标测试等方法, 可涵盖从零部件到系统再到整车的全链条测试. 测试与评估贯穿车辆的整个生命周期, 在车辆行驶过程中记录行车数据, 保持与云端的实时数据交互, 并完成阶段化远程升级, 以便更新场景覆盖与认知水平, 实现对车辆运行状态的超实时全面监管.

    其主要任务为: 1)构建自动驾驶区域范围的测试场地虚拟环境, 完成有限区域内多种常见道路中存在的典型道路状况的复现. 同时要求测试场内包括规范化的道路指示牌、GPS (Global positioning system)基站、通讯基站和路口信号灯等基础道路设施. 在试验场内对无人汽车在特殊危险场景下的表现进行测试与提升, 更加具有针对性和严谨性. 2)采用数字化程序完成自动驾驶车辆的虚拟建模, 并构建实时的测试场, 通过天气参数、车辆数目、车辆参数的调控提升车辆测试的多样性, 有效降低无人车程序试验阶段的测试成本; 同时发挥在环境条件可控性上的优势, 实现天气状况、路面条件、车辆状态的无缝切换, 大大扩充车辆在不同环境下的泛用性测试.

    基于数字化测试场景的实时构建, 平行测试实现了对环境感知和行为决策的分离化管理, 有效实现基于大规模数据的场景认知模型训练. 其云端的高算力支持、大数据汇集、广场景存储等显著特征, 在面对自动驾驶中的特殊罕见场景时, 能够及时识别并完成针对性方案应对, 解决车辆智能模型升级慢迭代周期长的自动驾驶长尾问题, 也为认知智能奠定了坚实的发展基础. 具体表现为以下两方面.

    2.3.1   静态关系分析与情景认知

    平行测试借助云端存储和实时通讯优势, 便于快速更新场景知识库和学习陌生的场景实体单元. 场景知识库将感知信息对应知识网络的实体单元, 以网络中的先验实体关联为引导, 构建车辆感知信息间的关联关系, 并建立一体化的“感知−认知”评估系统. 测试中通过综合分析感知目标间的关联性, 推断驾驶情景特性, 识别异常感知[68], 具体表现为: 在传感单元引入误差或噪声干扰时, 能够借助知识网络找出数据信息的关联性, 定位干扰信息的来源, 实现数据的剔除与净化, 并根据历史或相近的场景信息对数据进行有效的推理补全.

    2.3.2   动态行为预估与意图推理

    平行测试基于虚实混合的大规模场景数据和云端高算力平台, 在面对意图推理的认知学习和计算上具有先天的优势. 近20年以来, 深度学习的爆发和计算机视觉的蓬勃发展促使自动驾驶技术在环境感知方面获得了显著的提高. 然而, 如何在真实复杂高动态交通环境中做出高效驾驶策略, 不仅受限于自动驾驶系统的环境感知能力, 也同时取决于对于动态行为的理解与推理能力. 车辆在动态环境中正确理解驾驶意图, 有利于及时评估行为决策的安全性和可行性, 做出安全的驾驶行为和合理的车辆运动控制[69]. 具体表现为: 在开放环境下能够有效捕捉并追踪可能与自身运动产生关联的动态行为, 基于行驶意图完成一系列连续动作的规划, 可基于以下3项对意图认知进行信任度评估: 行驶任务与避障任务协调优化后的通行时间, 车辆加速度曲线的平滑度, 以及与其他动态单元在时空交集上的最小距离.

    在自动驾驶的研究历程中, 面向开放的驾驶场景因多变的天气状态、复杂的道路信息、多样的驾驶任务和动态的交互行为而产生的系统异常时有发生, 成为了自动驾驶测试中的长尾问题. 针对这一难题, 在本节中, 系统化研究了自动驾驶测试技术的诞生由来和发展历程, 提出将平行测试作为应对长尾问题的有效解决途径, 进一步阐述了平行测试在车辆认知提升上的理论优势和技术发展潜力.

    早在1973年关于Lighthill人工智能报告辩论会的评论中, 希金斯就提出“认知科学”, 将人工智能与人类思维的研究相联系, 以研究大脑信息处理的综合运作机制[70]. 中国科学院生物物理所陈霖院士强调对认知科学的研究将为新一代人工智能的计算体系结构提供深刻启发[71]. 人类的认知能力是同物理世界交互过程中一系列的心理反应. 认知能力的一个关键要素在于, 当有需要时, 能够合理地利用自身关于这个世界的知识去应对所发生的问题, 结合自身已有经验或创造性地给出新的解决方案. 这种泛化性的问题处理能力是一种以自我为目的的任务实现, 是对储备知识灵活运用的具体表现, 人类在成长学习过程中, 逐步完善应对不同问题的能力, 实现自我认知能力的构建、升级与突破. 这些认知能力, 不仅包含知觉、表象、记忆等基本内部过程, 还包括联想、假定、计划、决策等高级心理活动[72-73].

    认知计算利用计算机技术让计算机模仿人类大脑的思维计算过程, 实现机器类人一样的思考、理解、推理、决策等能力[19]. 与人工智能相结合可针对观察的现象构建可解释的认知系统. 在自动驾驶方面, 西安交通大学郑南宁院士提出通过构建认知地图[74]使自动驾驶系统从类人的角度理解交通场景的动态及随机变化, 为认知计算与自动驾驶的结合提供了思路.

    本文提出的认知自动驾驶智能将认知计算引入自动驾驶的“感知−规划−决策”架构中, 融合人类司机在驾驶过程中会出现的瞬时反应、短时反应、长时反应需求, 提出在原有的自动驾驶框架中构建以知识网络为主导的认知系统, 将已有的处理经验嵌入应用于综合处理无限变化可能的交通场景信息中, 增强系统对于复杂环境信息的认知理解和对知识的提炼学习能力, 进而与实际任务结合完成知识的有效转换, 应用于复杂环境交互过程中的自主认知决策问题, 作为增强自动驾驶场景泛用性、提高系统智能性的一种切实有效方案.

    与驾驶者在驾驶过程中的观察分析过程相比, 当前的自动驾驶系统绝大多数采用有限的规则来描述复杂场景, 当场景信息具有未知、不可结构化描述、不确定和难以预测等特性时, 相对片面的信息将限制系统对环境的解释和理解能力. 自动驾驶汽车在参与实际交通(尤其在当前人机混驾阶段)系统时无法表现出与人类驾驶者相当的操作水平, 除了当下性能有限的硬件系统和难以突破的软件算法外, 主要原因在于认知体系上的欠缺[20, 29, 75-76]. 现阶段的自动驾驶系统由感知系统接受外界的环境信息后, 将信息直接交由决策系统用于行为的规划, 这种简单的串级处理方式通常表现为信息−行为的映射. 规则系统隐含在“感知−决策”的过程中, 驱动信息数据的筛选和任务行为的触发. 由于关注的信息有限, 这种系统在处理封闭场景任务时, 具有较高的效率和可解释性.

    人类在驾驶中的认知过程包括四个主要环节: 1)接受驾驶环境的物理刺激; 2)结合驾驶任务对环境信息进行评估; 3)以实现任务目标为导向展开思考决策; 4)形成对于车辆的准确合理的操作控制. 为跨越现有自动驾驶系统从数据到决策之间的认知鸿沟, 本文提出构建知识驱动的认知子系统作为实现认知自动驾驶智能的核心环节, 仿照人类驾驶过程中对信息的综合处理、因果分析和逻辑推理过程, 利用已有经验知识解析物理刺激、制定决策并指导外部驾驶行为. 融合人类认知过程的自动驾驶认知流程架构如图6所示.

    图 6  类人驾驶行为的认知与决策流程图
    Fig. 6  Cognitive and decision flowchart of humanoid driving behavior

    其中信息认知过程即是对信息的深入加工的过程[77], 能否在构建的人工世界中全面客观地描述环境, 并基于目标任务的解析对答案进行搜索推理是认知系统能力的评判标准. 认知系统的功能构建总体分为三部分: 1)在信息的预认知部分, 利用传感系统采集的数据和感知系统部分预处理信息, 根据先验知识进一步建立信息间的内部关联关系, 形成结构化、可计算的知识图谱; 2)在信息的深入加工部分, 通过数据转化、信息抽取、知识融合、知识加工等一系列信息的深度挖掘工作, 形成用于知识表示、储存和推理的语义知识网络; 3)在构建的知识网络下, 逐步实现联想、记忆、思考、推理、想象等高级思维的认知知识系统, 以应对陌生、未知条件下的环境认知任务, 实现对感知数据的合理解读与分析并制定有效的行为动作策略.

    系统强调在车辆自动化的基础上进一步增强对周围环境的深入思考和对决策行为的评估反馈能力, 着重开发无人车辆对环境信息的结构化知识建模、综合理解驾驶情景, 并构建车辆自发性推理和自主决策的能力. 认知自动驾驶智能旨在通过学习人类驾驶中观察、思考、定向、行动一系列闭环行为和对于整体行为过程的评估, 构架自动驾驶的认知知识系统, 驱动自动驾驶车辆的“感知−认知−决策”过程, 使自动驾驶车辆具备主动感知、逻辑推理、持续学习等类人智能, 以提高系统的智能性、可解释性和鲁棒性, 实现驾驶过程中的信息获取自发性、知识构建自动化、行为交互自主化.

    从人工智能和自动驾驶技术整体发展来看, 机器智能正经历从计算智能、感知智能到认知智能转变的阶段, 受此影响, 自动驾驶技术也逐步从以规则驱动、数据驱动走向以知识为驱动的新阶段, 并朝着高级认知水平快速发展, 实现对人类思维运算的进一步解放[19, 76, 78]. 现阶段自动驾驶智能性提升的关键在于如何解决系统的内部认知问题.

    构建自动驾驶的认知知识系统, 尤其强调开展对驾驶员的研究, 主要分析随着车外环境的改变驾驶员观察、心理和行为之间的因果关联, 尝试利用人工智能技术、脑科学以及神经科学等对其“高级认知”能力进行解释, 并期望在机器上复现类似高效的“感知−认知−决策”一体化行为[79]. 研究过程中发现, 人类驾驶相比于现阶段自动驾驶系统在不同行为决策时长上, 主要存在三个关键环节的差异表现.

    3.2.1   瞬时的应变反应需求

    在自动驾驶车辆的信息传递过程中, 部分特异或危险信号需要被额外特殊关注, 并应具有一定的保护性应急措施. 现阶段的自动驾驶车辆的安全标准绝大部分仅围绕自车行为安全定义, 缺少对于车辆主动避险的技术规范. 在Waymo公开的自动驾驶报告中提及的8起严重事故, 责任均在其他车辆的人类司机. 尽管报告的真实性有待考究, 但也警示了研究者, 对自动驾驶系统应激反应, 以及如何及时主动躲避潜在危险的研究应置于重要的地位. 此外, 当前自动驾驶系统未对危险行为进行系统化的等级划分, 导致面对具有不同危险程度的交通情形时, 无人车辆所采取的相同的应对策略将难以及时规避事故. 在危急时刻更应该以最小损失(而不是零损失)作为效用函数重新制定行为策略.

    3.2.2   短时的直觉反应需求

    驾驶的直觉, 通俗上可称为驾驶经验, 决定了一个驾驶员的驾驶熟练度和安全性, 也是区别驾驶水平的主要标志[80-81]. 驾驶直觉的产生来自长期的驾驶经验累计和驾驶技巧磨练, 包括观察直觉和操作直觉. 观察直觉表现在对繁杂环境的信息过滤能力、合理分配注意力, 使精神集中在和车辆驾驶最相关的信息上, 从而提升有效信息获取的效率和对险情的捕捉灵敏度[82]. 而操作直觉指驾驶员对于车辆控制的熟悉度, 除了对驾驶仓和车况的熟悉程度外还包括在特殊环境下的驾驶技巧, 如雨雪路面、急弯通行、车距保持等, 在复杂驾驶操作上具有一套成熟的操作技巧, 大大节省了对特殊环境的适应过程. 当前自动驾驶算法单一, 模型固化严重, 缺乏将经验数据主动训练为操作技巧的能力, 无法在行驶过程中有效总结驾驶经验, 在环境适应性上表现为学习能力低, 更新迭代速度慢. 而在系统迁移能力上, 当前自动驾驶系统通常只针对部分型号的车辆进行调试适配, 难以实现自动驾驶系统在其他车辆上的快速移植.

    3.2.3   长时的策略优化需求

    驾驶策略是驾驶员在面对动态环境变化时表现出的应对方法[83]. 类比人类驾驶员, 无人车辆基于全局环境和动态信息的理解, 分析未来行车环境并预测变化趋势, 逐步完成行驶策略的调整与优化[61, 84-85]. 由于环境动态交互性强, 事件的长期发展随机性高, 且行为决策通常具有较高的控制空间, 无人驾驶策略存在短期内难以评估策略优劣的现象. 以拥堵路段的换道行为为例, 为提高自车的通行速度, 驾驶者通常在行驶过程中会将车辆变更至行进更快的车道, 期间根据对不同车道的观察与总结, 做出向左变道、向右变道、跟车行驶或连续变道等行为; 以及在得知前方路段发生交通事故后, 根据前方车辆的变道规律, 推测出事故发生的车道位置, 并提前调整车辆位置以远离该车道方便后续通行[86-87]. 这种关联前后信息以及对于事件连贯性的推理分析能力, 是现阶段自动驾驶系统中最为缺乏的部分, 而对于整体环境的情景分析和对未来态势发展的把控也有待进一步开发, 如何根据记录下的有限场景信息实现长期任务的逻辑推理分析, 将成为自动驾驶高效规划驾驶策略的关键技术环节.

    由于缺乏对于场景整体的实时理解与分析能力, 以及无法综合筛选处理感知信息以有效理解场景语义, 现有自动驾驶系统在面对具有较高道路复杂度、交通复杂度和天气复杂度等困难场景时, 系统稳定性和泛化能力受到严重挑战, 自动驾驶技术仍迫切需要持续性技术突破和长期全方位的稳定性检验.

    平行测试方法[7, 25, 88]为认知行为的分析与提升提供了可控、安全、低成本的实验环境. 基于已有的交通场景, 以交通参与者状态和行为等因素为研究对象, 通过控制变量方法定制化地扩充已有场景, 添加日常行驶过程中难以遇到的状态和交互行为. 根据场景调整所引发的驾驶行为的改变, 量化分析环境改变对驾驶决策规划等环节的影响, 建模驾驶过程中的认知机理; 在此基础上, 进行定向数据扩充, 以针对性认知能力提升为目标, 产生大量的场景扩充实例, 以此训练自动驾驶系统, 实现对自动驾驶认知能力的增强, 其整体框架如图7所示.

    图 7  基于平行测试的认知智能训练空间
    Fig. 7  Cognitive intelligence training space based on parallel testing

    基于平行测试的认知智能通过融合路侧传感及车载采集设备的实时通讯数据, 能够有效弥补单车传感中的局部信息缺失; 同时, 在车辆行驶过程中, 实时接收行车状态反馈, 监测驾驶过程. 基于真实数据和虚拟仿真数据, 将知识与经验数字化、动态化和即时化, 在完成模型的学习与训练后, 构建集成化测试系统, 如图8所示. 通过真实数据和虚拟场景数据融合, 为平行驾驶系统[89]提供不同场景变体, 测试自动驾驶对于不同场景的认知理解程度. 特别针对收集的罕见情景(如逆光、雨雪、打滑)进行特征分析, 完成当前驾驶场景的演化迁移.

    图 8  基于平行测试的复杂环境数据生成
    Fig. 8  Data generation for complex environment based on parallel testing

    测试过程中, 通过对场景复杂度和任务复杂度的探索, 逐步构建具有不同挑战等级的认知任务, 以分析特定环境下的认知水平和驾驶表现. 场景复杂度主要与场景开放程度和构成场景的各元素种类、行为及关系多样性等因素相关; 任务复杂度则与构成任务的原子任务种类及数量相关, 同时还要考虑待测试对象的能力, 因此需要通过测试过程的进行不断获得挖掘更具挑战性的任务[9]. 通过与实车驾驶司机的互动, 开展集成测试, 平行测试的架构可有效评测无人驾驶车辆的智能水平、环境认知能力、自主驾驶能力以及对道路交通环境的适应能力; 通过真车测试和虚拟测试平行执行的方式, 进行实时且在线的借鉴、预估与引导, 循环往复, 协同优化[80-81]. 与此同时, 通过引入对抗性的学习模型[90-91], 根据已有的测试结果自动生成更具挑战性的环境, 可推动系统的升级迭代, 以及在陌生环境下的类比学习能力, 以认知水平提升增强对抗罕见事件的应对能力. 基于平行测试研发的平行矿山操作系统(慧拓)[92]实现了露天煤矿的无人化升级, 如图8所示, 针对矿山环境恶劣、工况复杂、场景难以模拟等问题, 实现了复杂环境海量数据生成, 加速测试迭代速度, 有效推动自动驾驶产业化应用进程[93].

    本文结合人类驾驶的认知智能与平行系统理论, 深入分析因社会复杂度、环境复杂度和任务复杂度导致的自动驾驶技术挑战. 围绕现阶段自动驾驶技术发展的挑战, 提出认知自动驾驶智能架构, 将认知计算和人类认知过程引入自动驾驶流程中, 并结合平行测试提出构建智能驾驶空间用于认知能力的提升, 给出了解决复杂环境下自动驾驶长尾问题的新思路与有效技术路径.

    现阶段, 认知智能领域的研究已引起国际的广泛认可和高度重视, 随着前沿领域的发展, 认知自动驾驶作为一个融合多领域知识的交叉技术, 必将成为未来智能发展中的重要方向, 和促进工程应用落地的催化剂, 也是推动社会智能化变革、技术全面迭代升级的关键动力.

    我们认为, 随着计算架构、车载算力升级以及信息通讯、计算机视觉、机器学习等技术的发展, 未来自动驾驶研究和系统构建将进一步结合社会学、心理学和神经科学, 形成多学科、跨学科知识体系, 不仅实现对车辆外部环境更好的解析能力, 还会更进一步赋予车辆理解与思考等能力, 使车辆的逻辑思维更具有创造性, 能够更好地理解人类意图, 以服务情感、情绪等高级交互需求.


  •  收稿日期 2020-03-16 录用日期 2020-06-11  Manuscript received March 16, 2020; accepted June 11, 2020 国家重点研发计划 (2018TFE0200200), 教育部重大科技创新研究项目, 北京智源人工智能研究院资助 Supported by National Key Research and Development Program of China (2018YFE0200200), Key Scientific Technological Innovation Research Project by Ministry of Education, Beijing Academy of Artificial Intelligence 本文责任编委 黄庆明
  • Recommended by Associate Editor HUANG Qing-Ming  1. 西安交通大学电子与信息学部自动化科学与工程学院 西安 710049 2. 清华大学精密仪器系类脑计算研究中心 北京 100084 1. School of Automation Science and Engineering, Faculty of Electronic and Information Engineering, Xi' an Jiaotong University, Xi' an 710049 2. Center for Brain Inspired Computing Research, Department of Precision Instrument, Tsinghua University, Beijing 100084
  • 图  1  传统非局部均值算法的执行流程图

    Fig.  1  Schematic diagrams of non-local means denoising algorithm

    图  2  参数$ h $对算法去噪效果的影响

    Fig.  2  The effect of parameter $ h $ on the denoising effect of the algorithm

    图  3  UM-NLF去噪算法的整体流程图

    Fig.  3  The overall flowchart of the UM-NLF denoising algorithm

    图  4  硬阈值加入前后相似权重值的对比

    Fig.  4  Comparisons of similar weight values before and after adding a hard threshold

    图  5  可微分的硬阈值函数

    Fig.  5  Differentiable hard threshold function

    图  6  不同算法对噪声等级$ \sigma = 20 $Airplane噪声图像的去噪结果PSNR (dB)和SSIM ((a) 原始无失真图像;(b) 噪声图像(22.08 dB/0.4397); (c) NLM (28.33 dB/0.8328); (d) NLM-SAP (28.94 dB/0.8526); (e) PNLM(29.04 dB/0.8490); (f) LJS-NLM (28.37 dB/0.8410); (g) ANLM (27.86 dB/0.8489); (h) BM3D (29.55 dB/0.8755); (i) NLM-DT (28.60 dB/0.8418); (j) UM-NLF (29.83 dB/0.8760))

    Fig.  6  Denoising results PSNR (dB) and SSIM on noisy image Airplane with noise level $ \sigma = 20 $ by different methods ((a) Ground truth; (b) Noisy image (22.08 dB/0.4397); (c) NLM (28.33 dB/0.8328); (d) NLM-SAP (28.94 dB/0.8526); (e) PNLM (29.04 dB/0.8490); (f) LJS-NLM (28.37 dB/0.8410); (g) ANLM (27.86 dB/0.8489); (h) BM3D (29.55 dB/0.8755); (i) NLM-DT (28.60 dB/0.8418); (j) UM-NLF (29.83 dB/0.8760))

    图  7  不同算法对噪声等级$ \sigma = 35 $“Test016” 噪声图像的去噪结果PSNR (dB)和SSIM ((a) 原始无失真图像;(b) 噪声图像(17.25 dB/0.4201); (c) NLM (24.41 dB/0.7202); (d) NLM-SAP (24.75 dB/0.7293); (e) PNLM(24.85 dB/0.7376); (f) LJS-NLM (23.94 dB/0.7168); (g) ANLM (24.89 dB/0.7540); (h) BM3D(25.48 dB/0.7850); (i) NLM-DT (25.04 dB/0.7422); (j) UM-NLF (25.91 dB/0.7853))

    Fig.  7  Denoising results PSNR (dB) and SSIM on noisy image “Test016” with noise level $ \sigma = 35 $ by different methods ((a) Ground truth; (b) Noisy image (17.25 dB/0.4201); (c) NLM (24.41 dB/0.7202); (d) NLM-SAP (24.75 dB/0.7293); (e) PNLM (24.85 dB/0.7376); (f) LJS-NLM (23.94 dB/0.7168); (g) ANLM (24.89 dB/0.7540); (h) BM3D (25.48 dB/0.7850); (i) NLM-DT (25.04 dB/0.7422); (j) UM-NLF (25.91 dB/0.7853))

    图  8  不同算法对噪声等级$ \sigma = 50 $Baboon噪声图像的去噪结果PSNR (dB)和SSIM ((a) 原始无失真图像;(b) 噪声图像 (14.16 dB/0.2838); (c) NLM (21.40 dB/0.4674); (d) NLM-SAP (21.33 dB/0.4386); (e) PNLM(21.48 dB/0.4793); (f) LJS-NLM (21.35 dB/0.4866); (g) ANLM (21.40 dB/0.4529); (h) BM3D(22.35 dB/0.5489); (i) NLM-DT (21.62 dB/0.4840); (j) UM-NLF (22.53 dB/0.5739))

    Fig.  8  Denoising results PSNR (dB) and SSIM on noisy image Baboon with noise level $ \sigma = 50 $ by different methods ((a) Ground truth; (b) Noisy image (14.16 dB/0.2838); (c) NLM (21.40 dB/0.4674); (d) NLM-SAP (21.33 dB/0.4386); (e) PNLM (21.48 dB/0.4793); (f) LJS-NLM (21.35 dB/0.4866); (g) ANLM (21.40 dB/0.4529); (h) BM3D (22.35 dB/0.5489); (i) NLM-DT (21.62 dB/0.4840); (j) UM-NLF (22.53 dB/0.5739))

    图  9  不同算法对Baboon噪声图像去噪后并经过XDoG滤波的结果

    Fig.  9  XDoG filtered results of the denoised images of different algorithms on noisy image Baboon

    表  1  UM-NLF算法的参数选择

    Table  1  Parameter selection of UM-NLF algorithm

    图像大小参数参数值
    邻域块的直径$[5, 7, 11]$
    搜索窗的直径$[13, 21]$
    高斯核的系数$[1, 2, 4]$
    $256\times 256$滤波参数$[0.8, 1.0, 1.2, \cdots, 2.4]$
    硬阈值参数$[0, 0.02, 0.04]\times \rm exp(-\frac{1}{\sigma^2})$
    线性组合的数目40
    蒙特卡洛的次数80
    加权移动平均的数目8
    邻域块的直径$[5, 7, 11]$
    搜索窗的直径$[13, 21]$
    高斯核的系数$[1, 2, 4]$
    $512\times 512$滤波参数$[0.8, 0.95, 1.1,\cdots, 2.3]$
    硬阈值参数$[0, 0.04, 0.08]\times \rm exp(-\frac{1}{\sigma^2})$
    线性组合的数目70
    蒙特卡洛的次数150
    加权移动平均的数目8
    下载: 导出CSV

    表  2  在13张噪声水平$\sigma$分别为10、15、20、25、35和50的噪声图像上不同算法去噪结果的PSNR (dB)

    Table  2  The PSNR (dB) results of different methods on 13 gray images with noise level $\sigma$ at 10、15、20、25、35 and 50

    LevelImagesC.manHousePeppersStarfishMonarchAirplaneParrotLenaBarbaraBoatManCoupleBaboon
    NLM31.8335.3533.2332.2232.4731.0231.4234.8533.8032.7032.6632.5928.55
    NLM-SAP33.5035.4934.2032.4433.6932.8632.9235.0633.7732.9733.1833.0829.78
    PNLM33.5035.2833.6632.7433.4932.8532.8234.6333.3932.9033.1532.7829.92
    LJS-NLM33.0835.1833.2732.1032.5432.2332.5534.5433.5632.6432.8232.5630.11
    $\sigma=10$ANLM30.3334.6632.0530.6930.9929.4429.8434.3332.7331.8832.0631.8626.97
    BM3D34.1936.7134.6833.3034.1233.3333.5735.9334.9833.9233.9834.0430.58
    NLM-DT32.0635.3933.2332.0533.3131.0331.5334.9033.6332.8732.9232.7428.64
    UM-NLF34.1336.0734.7133.5434.3433.5433.6035.7034.4433.6833.9833.6430.66
    NLM30.3533.7531.3530.3730.7529.5930.0632.8931.6730.8030.7130.4926.92
    NLM-SAP31.1833.8532.2430.3731.2830.5430.6833.3231.9331.0231.0330.9427.41
    PNLM31.2533.4631.4030.4231.1330.5830.6432.6031.0630.8630.9530.4527.59
    LJS-NLM30.8633.2631.0529.8930.2929.9330.3532.4331.1930.4530.5830.1127.54
    $\sigma=15$ANLM29.3733.3430.8329.5429.7928.6528.9832.8731.3230.5630.5830.4726.18
    BM3D31.9134.9332.6931.1431.8531.0731.3734.2633.1032.1331.9232.1028.18
    NLM-DT30.5533.7931.5230.3430.6929.6730.1233.0931.8431.0831.0830.8727.18
    UM-NLF31.9234.4732.7031.3632.1231.3431.4434.0132.5731.8231.9531.6128.32
    NLM29.2432.2629.8628.6829.3528.3328.9631.4129.9129.3229.3128.7925.44
    NLM-SAP29.6932.4830.7728.7829.5828.9429.2331.9230.3829.6029.5829.3125.94
    PNLM29.7331.9529.7928.6929.5129.0429.2431.1529.2729.3829.4428.7626.00
    LJS-NLM29.3531.6929.4328.1528.7528.3728.9230.9629.3828.9129.0528.3425.82
    $\sigma=20$ANLM28.5632.4129.6528.4728.7627.8628.2331.6830.1229.4529.4129.2525.27
    BM3D30.4933.7731.2929.6730.3529.5529.9633.0531.7830.8830.5930.7626.61
    NLM-DT29.3732.5130.1028.9729.3828.6029.0131.6830.2829.7029.7429.3525.97
    UM-NLF30.4433.2931.2229.8030.6129.8230.0332.7731.1730.5130.5930.2326.80
    NLM28.2930.8928.6227.2528.1927.2728.0530.2628.4928.1728.2427.4624.26
    NLM-SAP28.6131.2029.5527.4328.2627.7528.2430.7629.0528.4728.4827.9824.74
    PNLM28.5830.6828.5227.3328.2627.8328.2130.0227.8528.2328.3027.4624.77
    LJS-NLM28.1630.3928.1126.7627.5327.1627.8429.8627.9527.7427.9127.0424.57
    $\sigma=25$ANLM27.9131.6228.6627.4927.8827.0727.5730.6929.0528.5028.4928.1624.38
    BM3D29.4532.8530.1628.5629.2528.4228.9332.0730.7129.9029.6129.7125.46
    NLM-DT28.4731.2428.9527.7228.2927.7028.1130.5428.9728.6428.6928.1024.97
    UM-NLF29.3532.2930.0428.5629.4228.6729.0031.7930.0729.5129.5629.1225.69
    NLM26.5728.6426.6625.1626.3025.4826.5828.5326.3526.4426.6725.6722.69
    NLM-SAP26.8828.8827.4725.2726.3025.7626.7028.9426.9026.7226.8926.0622.89
    PNLM26.7628.5626.5425.3226.3425.8626.6528.2825.7626.4726.6225.6623.02
    LJS-NLM26.1928.2226.1124.7525.5825.1626.2228.2025.8626.0126.3025.3022.86
    $\sigma=35$ANLM26.8230.0527.1625.7626.4325.7926.4629.1627.2426.9727.1126.3122.86
    BM3D27.9231.3628.5126.8627.5826.8327.4030.5628.9828.4328.2228.1523.82
    NLM-DT26.9829.0527.0325.6526.5426.0126.7328.7626.8526.9127.0326.1523.38
    UM-NLF27.7730.6428.2626.7027.7026.8627.5430.2228.4227.9628.0727.4524.09
    NLM24.3926.1424.4823.1724.0023.3624.8226.6124.2624.6525.0724.0621.40
    NLM-SAP24.7526.3225.1023.1424.0723.3724.9527.0724.6324.9425.3624.3921.33
    PNLM24.6725.9624.2323.1723.9923.5424.8426.3423.7124.6124.8923.9621.48
    LJS-NLM24.0625.7923.8422.8323.3123.0624.3826.3423.8324.3024.7023.7121.35
    $\sigma=50$ANLM25.4327.9525.4423.8424.8224.2425.2127.6125.1925.3625.6924.5321.40
    BM3D26.1329.6926.6825.0425.8225.1025.9029.0527.2226.7826.8126.4622.35
    NLM-DT25.0826.6224.9423.6924.4924.0225.0426.7924.6525.0525.3024.3821.81
    UM-NLF26.0628.5726.2924.8025.8524.9926.0428.5126.5826.3126.5225.7122.53
    注: 最佳的两个结果分别以粗体和斜体突出显示
    下载: 导出CSV

    表  3  不同算法在BSD68灰度数据集上的平均PSNR (dB)和SSIM

    Table  3  Average PSNR (dB) and SSIM results of different methods on BSD68 gray dataset

    $\sigma$NLMNLM-SAPPNLMLJS-NLMANLMBM3DNLM-DTUM-NLF
    1031.37/0.880932.47/0.900632.52/0.900032.30/0.898430.72/0.883433.32/0.916331.57/0.893433.35/0.9184
    1529.64/0.828130.29/0.847230.25/0.847229.95/0.844829.44/0.841231.07/0.872029.96/0.846431.16/0.8760
    2028.31/0.780328.84/0.797328.73/0.799428.38/0.796728.41/0.802929.62/0.834228.72/0.801529.70/0.8367
    2527.28/0.736827.75/0.755027.60/0.756327.22/0.753927.56/0.768528.57/0.801727.73/0.758528.64/0.8034
    3525.75/0.660226.17/0.685425.95/0.681225.58/0.681426.25/0.709927.08/0.748226.20/0.676727.12/0.7451
    5024.20/0.564324.59/0.606924.29/0.589323.99/0.594524.88/0.640325.62/0.686924.52/0.568525.63/0.6768
    下载: 导出CSV

    表  4  不同算法在大小为$256\times 256$灰度噪声图像上的去噪时间(秒)

    Table  4  Denoising time (seconds) of different algorithms on gray noisy images with a size of $ 256\times 256$

    $\sigma$NLMNLM-SAPPNLMLJS-NLMANLMBM3DNLM-DTUM-NLF
    1071.74$\pm$0.8210.89$\pm$0.217.39$\pm$0.641.41$\pm$0.016.35$\pm$0.340.67$\pm$0.0968.49$\pm$1.4525.55$\pm$0.59
    1572.85$\pm$3.4511.11$\pm$0.207.79$\pm$0.581.41$\pm$0.036.31$\pm$0.040.68$\pm$0.0960.01$\pm$1.4224.41$\pm$1.23
    2072.58$\pm$4.3411.23$\pm$0.158.09$\pm$0.461.40$\pm$0.026.25$\pm$0.080.70$\pm$0.0970.68$\pm$0.8625.27$\pm$1.56
    2572.76$\pm$1.6211.36$\pm$0.108.37$\pm$0.581.40$\pm$0.016.26$\pm$0.200.68$\pm$0.1164.71$\pm$2.4524.98$\pm$3.12
    3571.68$\pm$0.7011.43$\pm$0.128.74$\pm$0.311.39$\pm$0.036.25$\pm$0.130.67$\pm$0.1060.40$\pm$0.7824.68$\pm$2.32
    5071.48$\pm$1.0711.48$\pm$0.058.95$\pm$0.401.39$\pm$0.016.27$\pm$0.190.87$\pm$0.0562.52$\pm$1.4524.30$\pm$1.22
    下载: 导出CSV

    表  5  不同算法在大小为$512\times 512$灰度噪声图像上的去噪时间(秒)

    Table  5  Denoising time (seconds) of different algorithms on gray noisy images with a size of $512\times 512$

    $\sigma$NLMNLM-SAPPNLMLJS-NLMANLMBM3DNLM-DTUM-NLF
    10284.37$\pm$13.8266.46$\pm$0.6638.48$\pm$3.4610.37$\pm$0.4025.27$\pm$0.653.16$\pm$0.13281.63$\pm$11.13155.64$\pm$8.90
    15282.18$\pm$11.2567.77$\pm$2.2241.25$\pm$3.5510.30$\pm$0.3325.46$\pm$0.683.26$\pm$0.11281.31$\pm$10.23160.28$\pm$5.34
    20285.50$\pm$11.3468.70$\pm$1.8242.85$\pm$2.5010.15$\pm$0.4925.70$\pm$0.663.32$\pm$0.11287.31$\pm$13.33155.94$\pm$9.91
    25283.65$\pm$12.7269.53$\pm$0.6344.46$\pm$4.0110.18$\pm$0.3125.54$\pm$0.323.33$\pm$0.08275.43$\pm$14.23151.56$\pm$5.23
    35284.15$\pm$15.7070.41$\pm$0.6046.88$\pm$1.8910.21$\pm$0.2525.40$\pm$0.713.20$\pm$0.17279.51$\pm$13.32150.65$\pm$4.43
    50279.63$\pm$19.0771.46$\pm$2.1149.37$\pm$2.8310.36$\pm$0.1825.40$\pm$0.493.86$\pm$0.09289.26$\pm$14.24158.75$\pm$6.45
    下载: 导出CSV

    表  6  传统算法和深度学习算法在BSD68灰度数据集上的平均PSNR (dB)和SSIM

    Table  6  Average PSNR (dB) and SSIM results of traditional and deep learning methods on BSD68 gray dataset

    传统的无监督去噪方法无监督式神经网络去噪方法有监督式神经网络去噪方法
    $\sigma$BM3DUM-NLFNoise2VoidGCBDTNRDDnCNN-S
    1531.07/0.872031.16/0.8760−/−31.59/−31.42/0.882231.73/0.8906
    2528.57/0.801728.64/0.803427.71/−29.15/−28.92/0.814829.23/0.8278
    5025.62/0.686925.62/0.6762−/−−/−25.97/0.702126.23/0.7189
    注: “−”表示原始论文中没有给出相应的实验结果
    下载: 导出CSV
  • [1] Tian C W, Fei L K, Zheng W X, Xu Y, Zuo W M, Lin C W. Deep learning on image denoising: an overview [online], available: http://arxiv.org/abs/1912.13171, January 16, 2020
    [2] Dong W S, Wang P Y, Yin W T, Shi G M, Wu F F, Lu X T. Denoising prior driven deep neural network for image restoration. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2019, 41(10): 2305−2318 doi: 10.1109/TPAMI.2018.2873610
    [3] Geman S, Geman D. Stochastic relaxation, gibbs distributions, and the bayesian restoration of images. IEEE Transactions on Pattern Analysis and Machine Intelligence, 1984, 6(5-6): 721−741
    [4] Buades A, Coll B, Morel J M. A non-local algorithm for image denoising. In: Proceedings of the 2005 IEEE Computer Society Conference on Computer Vision and Pattern Recognition. San Diego, California, USA: IEEE, 2005.60−65
    [5] Mahmoudi M, Sapiro G. Fast image and video denoising via non-local means of similar neighborhoods. IEEE Signal Processing Letters, 2005, 12(12), 839−842 doi: 10.1109/LSP.2005.859509
    [6] Coupe P, Yger P, Prima S, Hellier P, Kervrann C, Barillot C. An optimized blockwise nonlocal means denoising filter for 3-D magnetic resonance images. IEEE Transactions on Medical Imaging, 2008, 27(4), 425−441 doi: 10.1109/TMI.2007.906087
    [7] Vignesh R, Oh B T, Kuo C C J. Fast non-local means (NLM) computation with probabilistic early termination. IEEE Signal Processing Letters, 2010, 17(3), 277−280 doi: 10.1109/LSP.2009.2038956
    [8] Tasdizen T. Principal neighborhood dictionaries for nonlocal means image denoising. IEEE Transactions on Image Processing, 2009, 18(12): 2649−2660 doi: 10.1109/TIP.2009.2028259
    [9] Chan S H, Zickler T, Lu Y M. Monte carlo non-local means: random sampling for large-scale image filtering. IEEE Transactions on Image Processing, 2014, 23(8): 3711−3725 doi: 10.1109/TIP.2014.2327813
    [10] Karam C, Hirakawa K. Monte-carlo acceleration of bilateral filter and non-local means. IEEE Transactions on Image Processing, 2018, 27(3): 1462−1474 doi: 10.1109/TIP.2017.2777182
    [11] Wang J, Guo Y W, Ying Y T, Liu Y L, Peng Q S. Fast nonlocal algorithm for image denoising. In: Proceedings of the 2006 IEEE International Conference on Image Processing. Atlanda, GA, USA: IEEE, 2006.1429−1432
    [12] Chaudhury K N, Singer A. Non-local euclidean medians. IEEE Signal Processing Letters, 2012, 19(11), 745−748 doi: 10.1109/LSP.2012.2217329
    [13] Wu Y, Tracey B, Natarajan P, Noonan J P. Probabilistic non-local means. IEEE Signal Processing Letters, 2013, 20(8), 763−766 doi: 10.1109/LSP.2013.2263135
    [14] Deledalle C A, Duval V, Salmon J. Non-local methods with shape-adaptive patches (NLM-SAP). Journal of Mathematical Imaging and Vision, 2012, 43(2): 103−120 doi: 10.1007/s10851-011-0294-y
    [15] Grewenig S, Zimmer S, Weickert J. Rotationally invariant similarity measures for nonlocal image denoising. Journal of Visual Communication and Image Representation, 2011, 22(2): 117−130 doi: 10.1016/j.jvcir.2010.11.001
    [16] Wu Y, Tracey B, Natarajan P, Noonan J P. James-stein type center pixel weights for non-local means image denoising. IEEE Signal Processing Letters, 2013, 20(4), 411−414 doi: 10.1109/LSP.2013.2247755
    [17] Nguyen M P, Chun S Y. Bounded self-weights estimation method for non-local means image denoising using minimax estimators. IEEE Transactions on Image Processing, 2017, 26(4): 1637−1649 doi: 10.1109/TIP.2017.2658941
    [18] Salmon J. On two parameters for denoising with nonlocal means. IEEE Signal Processing Letters, 2010, 17(3), 269−272 doi: 10.1109/LSP.2009.2038954
    [19] Van D V D, Kocher M. SURE-based non-local means. IEEE Signal Processing Letters, 2009, 16(11), 973−976 doi: 10.1109/LSP.2009.2027669
    [20] Stein C M. Estimation of the mean of a multivariate normal distribution. The Annals of Statistics, 1981, 9(6), 1135−1151 doi: 10.1214/aos/1176345632
    [21] Dong W S, Zhang L, Shi G M, Li X. Nonlocally centralized sparse representation for image restoration. IEEE Transactions on Image Processing, 2013, 22(4): 1620−1630 doi: 10.1109/TIP.2012.2235847
    [22] May V, Keller Y, Sharon N, Shkolnisky Y. An algorithm for improving non-local means operators via low-rank approximation. IEEE Transactions on Image Processing, 2016, 25(3): 1340−1353 doi: 10.1109/TIP.2016.2518805
    [23] Dabov K, Foi A, Katkovnik V, Egiazarian K. Image denoising by sparse 3-D transform-domain collaborative filtering. IEEE Transactions on Image Processing, 2007, 16(8): 2080−2095 doi: 10.1109/TIP.2007.901238
    [24] Li X Y, Zhou Y C, Zhang J, Wang L H. Multipatch unbiased distance non-local adaptive means with wavelet shrinkage. IEEE Transactions on Image Processing, 2020, 29: 157−169 doi: 10.1109/TIP.2019.2928644
    [25] Wan L, Zeiler M D, Zhang S, Yann L C, Fergus R. Regularization of neural networks using dropconnect. In: Proceedings of the 2013 IEEE International Conference on Machine Learning. Atlanta, GA, USA: IEEE, 2013.1058−1066
    [26] 邢笑笑, 王海龙, 李健, 张选德. 渐近非局部平均图像去噪算法. 自动化学报, 2020, 46(9): 1952−1960

    Xing Xiao-Xiao, Wang Hai-Long, Li Jian, Zhang Xuan-De. Asymptotic non-local means image denoising algorithm. Acta Automatica Sinica, 2020, 46(9): 1952−1960
    [27] Chen Y J, Pock T. Trainable nonlinear reaction diffusion: a flexible framework for fast and effective image restoration. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2017, 39(6): 1256−1272 doi: 10.1109/TPAMI.2016.2596743
    [28] Zhang K, Zuo W M, Chen Y J, Meng D Y, Zhang L. Beyond a gaussian denoiser: residual learning of deep CNN for image denoising. IEEE Transactions on Image Processing, 2017, 26(7): 3142−3155 doi: 10.1109/TIP.2017.2662206
    [29] Chen J W, Chen J W, Cao H Y, Yang M. Image blind denoising with generative adversarial network based noise modeling. In: Proceedings of the 2018 IEEE Conference on Computer Vision and Pattern Recognition. Salt Lake City, Utah, USA: IEEE, 2018. 3155−3164
    [30] Krull A, Buchholz T O, Jug F. Noise2Void-learning denoising from single noisy images. In: Proceedings of the 2019 IEEE Conference on Computer Vision and Pattern Recognition. Long Beach, CA, USA: IEEE, 2019. 2129−2137
    [31] Roth S, Black M J. Fields of experts. International Journal of Computer Vision, 2009, 82(2): 205−229 doi: 10.1007/s11263-008-0197-6
    [32] Wang Z, Bovik A C, Sheikh H R, Simoncelli E P. Image quality assessment: from error visibility to structural similarity. IEEE Transactions on Image Processing, 2004, 13(4): 600−612 doi: 10.1109/TIP.2003.819861
    [33] Winnemoller H, Kyprianidis J E, Olsen S C. XDoG: an extended difference-of-gaussians compendium including advanced image stylization. Computers & Graphics, 2012, 36(6): 740−753
  • 期刊类型引用(7)

    1. 沈卉卉,李宏伟,钱坤. 基于RBM无监督学习模型的图像数据去噪. 计算机辅助设计与图形学学报. 2025(01): 167-175 . 百度学术
    2. 何佑明,刘睿,刘金地. 基于提升小波的数字图像混合噪声抑制算法. 吉林大学学报(信息科学版). 2024(04): 610-616 . 百度学术
    3. 李华. 面向安全监管可视化的作业现场视频图像处理技术. 自动化技术与应用. 2024(10): 200-203+220 . 百度学术
    4. 田国红,关亮亮. 无人驾驶车前方不确定障碍物检测方法仿真. 计算机仿真. 2023(02): 471-474+481 . 百度学术
    5. 石雪洁. 基于机器视觉技术的高层建筑施工现场危险区域识别方法. 佳木斯大学学报(自然科学版). 2023(03): 104-107 . 百度学术
    6. 张祯祥. 基于图像特征的高速铁路轨道焊缝缺陷检测. 现代城市轨道交通. 2023(07): 27-31 . 百度学术
    7. 吕晓琪,李浩,谷宇. 基于深度学习算法的人脸图像活体特征变换尺度提取. 吉林大学学报(工学版). 2023(11): 3201-3206 . 百度学术

    其他类型引用(10)

  • 加载中
  • 图(9) / 表(6)
    计量
    • 文章访问数:  1747
    • HTML全文浏览量:  637
    • PDF下载量:  482
    • 被引次数: 17
    出版历程
    • 收稿日期:  2020-03-16
    • 录用日期:  2020-06-11
    • 网络出版日期:  2021-12-06
    • 刊出日期:  2022-01-25

    目录

    /

    返回文章
    返回