2.793

2018影响因子

(CJCR)

  • 中文核心
  • EI
  • 中国科技核心
  • Scopus
  • CSCD
  • 英国科学文摘

留言板

尊敬的读者、作者、审稿人, 关于本刊的投稿、审稿、编辑和出版的任何问题, 您可以本页添加留言。我们将尽快给您答复。谢谢您的支持!

姓名
邮箱
手机号码
标题
留言内容
验证码

基于事件相机的定位与建图算法: 综述

马艳阳 叶梓豪 刘坤华 陈龙

马艳阳, 叶梓豪, 刘坤华, 陈龙. 基于事件相机的定位与建图算法: 综述. 自动化学报, 2020, 46(x): 1−11. doi: 10.16383/j.aas.c190550
引用本文: 马艳阳, 叶梓豪, 刘坤华, 陈龙. 基于事件相机的定位与建图算法: 综述. 自动化学报, 2020, 46(x): 1−11. doi: 10.16383/j.aas.c190550
Ma Yan-Yang, Ye Zi-Hao, Liu Kun-Hua, Chen Long. Event-based visual localization and mapping algorithms: a survey. Acta Automatica Sinica, 2020, 46(x): 1−11. doi: 10.16383/j.aas.c190550
Citation: Ma Yan-Yang, Ye Zi-Hao, Liu Kun-Hua, Chen Long. Event-based visual localization and mapping algorithms: a survey. Acta Automatica Sinica, 2020, 46(x): 1−11. doi: 10.16383/j.aas.c190550

基于事件相机的定位与建图算法: 综述


DOI: 10.16383/j.aas.c190550
详细信息
    作者简介:

    中山大学数据科学与计算机学院硕士研究生. 2014年获得中山大学计算机科学与技术学士学位. 主要研究方向为机器人定位与建图技术. E-mail: mayany3@mail2.sysu.edu.cn

    中山大学数据科学与计算机学院本科生. 主要研究方向为机器人定位与建图技术. E-mail: yezh9@mail2.sysu.edu.cn

    中山大学数据科学与计算机学院博士后. 2019年获得山东科技大学机电工程学院博士学位. 主要研究方向为自动驾驶环境感知. E-mail: lkhzyf@163.com

    中山大学数据科学与计算机学院副教授. 于2007年、2013年获得武汉大学学士、博士学位. 主要研究方向为自动驾驶, 机器人, 人工智能. 本文通信作者. E-mail: chenl46@mail.sysu.edu.cn

  • 基金项目:  国家重点研发计划(2018YFB1305002), 国家自然科学基金(61773414)资助

Event-based Visual Localization and Mapping Algorithms: A Survey

More Information
  • Fund Project:  Supported by National Key Research and Development Program of China (2018YFB1305002), National Natural Science Foundation of China (61773414)
  • 摘要: 事件相机是一种新兴的视觉传感器, 通过检测单个像素点光照强度的变化来产生“事件”. 基于其工作原理, 事件相机拥有传统相机所不具备的低延迟、高动态范围等优良特性. 而如何应用事件相机来完成机器人的定位与建图则是目前视觉定位与建图领域新的研究方向. 本文从事件相机本身出发, 介绍事件相机的工作原理、现有的定位与建图算法以及事件相机相关的开源数据集. 其中, 本文着重对现有的、基于事件相机的定位与建图算法进行详细的介绍和优缺点分析.
  • 图  1  事件相机输出的地址 − 事件流[47]

    Fig.  1  Address-event stream output by event-based camera[47]

    图  2  DVS像素结构原理图[34]

    Fig.  2  Abstracted DVS pixel core schematic[34]

    图  3  DVS工作原理图[34]

    Fig.  3  Principle of DVS operation[34]

    图  4  Bryner算法工作流程[51]

    Fig.  4  The workflow of Bryner's algorithm[51]

    表  1  文中叙述的部分基于事件相机的SLAM算法及应用

    Table  1  Event-based SLAM algorithms and applications

    相关文献所使用传感器维度算法类型是否需要输入地图发表时间(年)
    [44]DVS2D定位2012
    [45]DVS2D定位与建图2013
    [47]DVS3D定位2014
    [48]DVS3D定位与建图2016
    [49]DVS3D定位与建图2016
    [51]DVS3D定位2019
    [52]DVS, 灰度相机3D定位2014
    [53]DVS, RGB-D相机3D定位与建图2014
    [55]DAVIS3D定位2016
    [56]DAVIS(内置IMU)3D定位2017
    [59]DAVIS(内置IMU)3D定位与建图2017
    [64]DAVIS(内置IMU), RGB相机3D定位与建图2018
    [65]DAVIS(内置IMU)3D定位2018
    下载: 导出CSV

    表  2  DVS公开数据集

    Table  2  Dataset provided by event cammera

    相关文献所使用传感器相机运动自由度数据采集场景载具是否提供真值发表时间(年)
    [53]eDVS相机, RGB-D相机6DOF室内手持2014
    [68]DAVIS(内置IMU)3DOF(纯旋转)室内, 仿真旋转基座2016
    [69]DAVIS, RGB-D相机4DOF室内, 仿真地面机器人和云台2016
    [70]DAVIS(内置IMU)6DOF室内 室外 仿真手持室内: 是 室外: 否 仿真: 是2016
    [71]DAVIS6DOF室外汽车2017
    [72] 2*DAVIS(内置IMU) 2*RGB相机(内置IMU) 16线激光雷达 6DOF 室内 室外 室内
    到室外
    四轴飞行器 摩托车 汽车 手持 2018
    [73] 2*DAVIS(内置IMU) RGB-D相机3DOF 室内 3*地面机器人 2018
    [74]DAVIS6DOF室内手持2019
    [51]DAVIS, IMU6DOF室内, 仿真手持2019
    下载: 导出CSV
  • [1] Burri M, Oleynikova H, Achtelik M W, Siegwart R. Realtime visual-inertial mapping, re-localization and planning onboard MAVs in unknown environments. In: Proceedings of the 2015 IEEE/RSJ International Conference on Intelligent Robots and Systems (IROS). Hamburg, Germany: IEEE, 2015. 1872−1878
    [2] Chatila R, Laumond J P. Position referencing and consistent world modeling for mobile robots. In: Proceedings of the 1985 IEEE International Conference on Robotics and Automation. Louis, Missouri, USA: IEEE, 1985. Vol. 2: 138−145.
    [3] 3 Chatzopoulos D, Bermejo C, Huang Z, P Hui. Mobile augmented reality survey: From where we are to where we go. Ieee Access, 2017, 5: 6917−6950 doi:  10.1109/ACCESS.2017.2698164
    [4] 4 Taketomi T, Uchiyama H, Ikeda S. Visual SLAM algorithms: a survey from 2010 to 2016. Transactions on Computer Vision and Applications, 2017, 9(1): 16 doi:  10.1186/s41074-017-0027-2
    [5] 5 Strasdat H, Montiel J M M, Davison A J. Visual SLAM: why filter?. Image and Vision Computing, 2012, 30(2): 65−77 doi:  10.1016/j.imavis.2012.02.009
    [6] 6 Younes G, Asmar D, Shammas E, J Zelek. Keyframe-based monocular SLAM: design, survey, and future directions. Robotics and Autonomous Systems, 2017, 98: 67−88 doi:  10.1016/j.robot.2017.09.010
    [7] 7 Olson C F, Matthies L H, Schoppers M, Maimore M W. Rover navigation using stereo ego-motion. Robotics and Autonomous Systems, 2003, 43(4): 215−229 doi:  10.1016/S0921-8890(03)00004-6
    [8] 8 Zhang Z. Microsoft kinect sensor and its effect. IEEE multimedia, 2012, 19(2): 4−10 doi:  10.1109/MMUL.2012.24
    [9] Huang A S, Bachrach A, Henry P, et al. Visual odometry and mapping for autonomous flight using an RGB-D camera. Robotics Research. Springer, Cham, 2017: 235−252
    [10] 10 Jones E S, Soatto S. Visual-inertial navigation, mapping and localization: A scalable real-time causal approach. The International Journal of Robotics Research, 2011, 30(4): 407−430 doi:  10.1177/0278364910388963
    [11] 11 Martinelli A. Vision and IMU data fusion: Closed-form solutions for attitude, speed, absolute scale, and bias determination. IEEE Transactions on Robotics, 2011, 28(1): 44−60
    [12] Klein G, Murray D. Parallel tracking and mapping for small AR workspaces In: Proceedings of the 2007 6th IEEE and ACM International Symposium on Mixed and Augmented Reality. Nara, Japan: IEEE, 2007. 1−10
    [13] 13 Mur-Artal R, Montiel J M M, Tardos J D. ORB-SLAM: a versatile and accurate monocular SLAM system. IEEE transactions on robotics, 2015, 31(5): 1147−1163 doi:  10.1109/TRO.2015.2463671
    [14] 14 Mur-Artal R, Tardós J D. Orb-slam2: An open-source slam system for monocular, stereo, and rgb-d cameras. IEEE Transactions on Robotics, 2017, 33(5): 1255−1262 doi:  10.1109/TRO.2017.2705103
    [15] Forster C, PizzoliM, Scaramuzza D. SVO: Fast semi-direct monocular visual odometry. In: Proceedings of the 2014 IEEE international conference on robotics and automation (ICRA). Hong Kong, China: IEEE, 2014. 15−22
    [16] Engel J, Schops T, Cremers D. LSD-SLAM: Large-scale direct monocular SLAM. In: Proceedings of the 2014 European conference on computer vision. Zurich, Switzerland: Springer, 2014. 834−849
    [17] Engel J, Stückler J, Cremers D. Large-scale direct SLAM with stereo cameras. In: Proceedings of the 2015 IEEE/RSJ International Conference on Intelligent Robots and Systems (IROS). Hamburg, Germany: IEEE, 2015. 1935−1942
    [18] 18 Li M, Mourikis A I. High-precision, consistent EKFbased visual-inertial odometry. The International Journal of Robotics Research, 2013, 32(6): 690−711 doi:  10.1177/0278364913481251
    [19] 19 Leutenegger S, Lynen S, Bosse M, Siegwart R, Furgale P. Keyframe-based visual inertial odometry using nonlinear optimization. The International Journal of Robotics Research, 2015, 34(3): 314−334 doi:  10.1177/0278364914554813
    [20] 20 Qin T, Li P, Shen S. Vins-mono: A robust and versatile monocular visual-inertial state estimator. IEEE Transactions on Robotics, 2018, 34(4): 1004−1020 doi:  10.1109/TRO.2018.2853729
    [21] 21 Fossum E R. CMOS image sensors: Electronic camera-ona-chip. IEEE transactions on electron devices, 1997, 44(10): 1689−1698 doi:  10.1109/16.628824
    [22] Delbruck T. Neuromorophic vision sensing and processing. In: Proceedings of the 2016 46th European SolidState Device Research Conference (ESSDERC). Lansanne, Switzerland: IEEE, 2016. 7−14
    [23] Delbruck T, Lichtsteiner P. Fast sensory motor control based on event-based hybrid neuromorphic-procedural system. In: Proceedings of the IEEE international symposium on circuits and systems. New Orleans, USA: IEEE, 2007. 845−848
    [24] 24 Delbruck T, Lang M. Robotic goalie with 3 ms reaction time at 4% CPU load using event-based dynamic vision sensor. Frontiers in neuroscience, 2013, 7: 223
    [25] Glover A, Bartolozzi C. Event-driven ball detection and gaze fixation in clutter. In: Proceedings of the 2016 IEEE/RSJ International Conference on Intelligent Robots and Systems (IROS). Daejeon, Korea: IEEE, 2016. 2203−2208
    [26] 26 Benosman R, Ieng S H, Clercq C, Bartolozzi C, Srinivasan M. Asynchronous frameless event-based optical flow. Neural Networks, 2012, 27: 32−37 doi:  10.1016/j.neunet.2011.11.001
    [27] 27 Benosman R, Clercq C, Lagorce X, leng S H, Bartolozzi C. Event-based visual flow. IEEE transactions on neural networks and learning systems, 2013, 25(2): 407−417
    [28] 28 Rueckauer B, Delbruck T. Evaluation of event-based algorithms for optical flow with ground-truth from inertial measurement sensor. Frontiers in neuroscience, 2016, 10: 176
    [29] Bardow P, Davison A J, Leutenegger S. Simultaneous optical flow and intensity estimation from an event camera. In: Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. LAS VEGAS, USA: IEEE, 2016. 884−892
    [30] 30 Reinbacher C, Graber G, Pock T. Real-time intensityimage reconstruction for event cameras using manifold regularisation. International Journal of Computer Vision, 2018, 126(12): 1381−1393 doi:  10.1007/s11263-018-1106-2
    [31] Mahowald M. VLSI analogs of neuronal visual processing: a synthesis of form and function. California Institute of Technology, 1992.
    [32] 32 Posch C, Serrano-Gotarredona T, Linares-Barranco B, Delbruck T. Retinomorphic event-based vision sensors: bioinspired cameras with spiking output. Proceedings of the IEEE, 2014, 102(10): 1470−1484 doi:  10.1109/JPROC.2014.2346153
    [33] Lichtsteiner P, Posch C, Delbruck T. A 128 X 128 120 db 30 mw asynchronous vision sensor that responds to relative intensity change. In: Proceedings of the 2006 IEEE International Solid State Circuits Conference-Digest of Technical Papers. San Francisco, CA, USA: IEEE, 2006. 2060−2069
    [34] 34 Lichtsteiner P, Posch C, Delbruck T. A 128×128 120 dB 15 μs Latency Asynchronous Temporal Contrast Vision Sensor. IEEE Journal of Solid-State Circuits, 2008, 43(2): 566−576 doi:  10.1109/JSSC.2007.914337
    [35] Son B, Suh Y, Kim S, et al. 4. 1 A 640×480 dynamic vision sensor with a 9 μm pixel and 300 Meps address-event representation. In: Proceedings of the 2017 IEEE International Solid-State Circuits Conference (ISSCC). San Francisco, CA, USA: IEEE, 2017. 66−67
    [36] 36 Posch C, Matolin D, Wohlgenannt R. A QVGA 143 dB Dynamic Range Frame-Free PWM Image Sensor With Lossless Pixel-Level Video Compression and Time-Domain CDS. IEEE Journal of Solid-State Circuits, 2010, 46(1): 259−275
    [37] Posch C, Matolin D, Wohlgenannt R. A QVGA 143 dB dynamic range asynchronous address-event PWM dynamic image sensor with lossless pixel-level video compression. In: Proceedings of the 2010 IEEE International Solid-State Circuits Conference-(ISSCC). San Francisco, CA, USA: IEEE, 2010. 400−401
    [38] Berner R, Brandli C, Yang M, Liu S C, Delbruck T. A 240x180 120 db 10 mw 12 us-latency sparse output vision sensor for mobile applications. In: Proceedings of the International Image Sensors Workshop. Snowbird, Utah, USA: IEEE, 2013. 41−44
    [39] 39 Brandli C, Berner R, Yang M, Liu S C, Delbruck T. A 240×180 130 db 3 μs latency global shutter spatiotemporal vision sensor. IEEE Journal of Solid-State Circuits, 2014, 49(10): 2333−2341 doi:  10.1109/JSSC.2014.2342715
    [40] Guo M, Huang J, Chen S. Live demonstration: A 768×640 pixels 200 Meps dynamic vision sensor. In: Proceedings of the 2017 IEEE International Symposium on Circuits and Systems (ISCAS). Baltimore, Maryland, USA: IEEE, 2017. 1−1
    [41] Li C, Brandli C, Berner R, et al. Design of an RGBW color VGA rolling and global shutter dynamic and active-pixel vision sensor. In: Proceedings of the 2015 IEEE International Symposium on Circuits and Systems (ISCAS). Liston, Portulgal: IEEE, 2015. 718−721
    [42] Moeys D P, Li C, Martel J N P, et al. Color temporal contrast sensitivity in dynamic vision sensors. In: Proceedings of the 2017 IEEE International Symposium on Circuits and Systems (ISCAS). Baltimore, Maryland, USA: IEEE, 2017. 1−4
    [43] 43 Marcireau A, Ieng S H, Simon-Chane C, Benosman R B. Event-based color segmentation with a high dynamic range sensor. Frontiers in neuroscience, 2018, 12: 135 doi:  10.3389/fnins.2018.00135
    [44] Weikersdorfer D, Conradt J. Event-based particle filtering for robot self-localization. In: Proceedings of the 2012 IEEE International Conference on Robotics and Biomimetics (ROBIO). Guangzhou, China: IEEE, 2012. 866−870
    [45] Weikersdorfer D, Hoffmann R, Conradt J. Simultaneous localization and mapping for event-based vision systems. In: Proceedings of the 2013 International Conference on Computer Vision Systems. St. Petersburg, Russia: Springer, 2013. 133−142
    [46] Hoffmann R, Weikersdorfer D, Conradt J. Autonomous indoor exploration with an event-based visual SLAM system. In: Proceedings of the 2013 European Conference on Mobile Robots. Barcelona, Catalonia, Spain: IEEE, 2013. 38−43
    [47] Mueggler E, Huber B, Scaramuzza D. Event-based, 6-DOF pose tracking for high-speed maneuvers. In: Proceedings of the 2014 IEEE/RSJ International Conference on Intelligent Robots and Systems. Chicago, USA: IEEE, 2014. 2761−2768
    [48] Kim H, Leutenegger S, Davison A J. Real-time 3D reconstruction and 6-DoF tracking with an event camera. In: Proceedings of the 2016 European Conference on Computer Vision. Amsterdam, The Netherlands: Springer, 2016. 349−364
    [49] 49 Rebecq H, Horstschafer T, Gallego G, Scaramuzza D. EVO: A geometric approach to event-based 6-DOF parallel tracking and mapping in real time. IEEE Robotics and Automation Letters, 2016, 2(2): 593−600
    [50] Rebecq H, Gallego G, Scaramuzza D. EMVS: Event-based multi-view stereo. In: Proceedings of the 2016 British machine vision conference (BMVC). York, UK: Springer, 2016(CONF).
    [51] Bryner S, Gallego G, Rebecq H, Scaramuzza D. Eventbased, direct camera tracking from a photometric 3D map using nonlinear optimization. In: the 2019 International Conference on Robotics and Automation (ICRA). Montreal, Canada: IEEE, 2019. 2
    [52] Censi A, Scaramuzza D. Low-latency event-based visual odometry. In: Proceedings of the 2014 IEEE International Conference on Robotics and Automation (ICRA). Hong Kong, China: IEEE, 2014. 703−710
    [53] Weikersdorfer D, Adrian D B, Cremers D, Conradt J. Eventbased 3D SLAM with a depth-augmented dynamic vision sensor. In: Proceedings of the 2014 IEEE International Conference on Robotics and Automation (ICRA). Hong Kong, China: IEEE, 2014. 359−364
    [54] Tedaldi D, Gallego G, Mueggler E, Scaramuzza D. Feature detection and tracking with the dynamic and active-pixel vision sensor (DAVIS). In: Proceedings of the 2016 Second International Conference on Event-based Control, Communication, and Signal Processing (EBCCSP). Krakow, Poland: IEEE, 2016. 1−7
    [55] Kueng B, Mueggler E, Gallego G, Scaramuzza D. Lowlatency visual odometry using event-based feature tracks. In: Proceedings of the 2016 IEEE/RSJ International Conference on Intelligent Robots and Systems (IROS). Daejeon, Korea: IEEE, 2016. 16−23
    [56] Zhu A Z, Atanasov N, Daniilidis K. Event-based visual inertial odometry. In: Proceedings of the 2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Honolulu, Hawaii, USA: IEEE, 2017. 5816−5824
    [57] Zhu A Z, Atanasov N, Daniilidis K. Event-based feature tracking with probabilistic data association. In: Proceedings of the 2017 IEEE International Conference on Robotics and Automation (ICRA). Marina Bay, Singapore: IEEE, 2017. 4465−4470
    [58] Mourikis A I, Roumeliotis S I. A multi-state constraint Kalman filter for vision-aided inertial navigation. In: Proceedings of the 2007 IEEE International Conference on Robotics and Automation (ICRA). Roma, Italy: IEEE, 2007. 3565−3572
    [59] Rebecq H, Horstschaefer T, Scaramuzza D. Real-time Visual-Inertial Odometry for Event Cameras using Keyframe-based Nonlinear Optimization. In: Proceedings of the 2017 British machine vision conference (BMVC). London, UK: Springer, 2017(CONF).
    [60] 60 Gallego G, Scaramuzza D. Accurate angular velocity estimation with an event cameras. IEEE Robotics and Automation Letters, 2017, 2(2): 632−639 doi:  10.1109/LRA.2016.2647639
    [61] Rosten E, Drummond T. Machine learning for high-speed corner detection. In: Proceedings of the 2006 European conference on computer vision. Graz, Austria: Springer, 2006. 430−443
    [62] Lucas B D, Kanade T. An iterative image registration technique with an application to stereo vision. 1981. 121-130
    [63] Leutenegger S, Furgale P, Rabaud V, et al. Keyframe-based visual-inertial slam using nonlinear optimization. In: Proceedings of the 2013 Robotis Science and Systems (RSS). Berlin, German, 2013.
    [64] 64 Vidal A R, Rebecq H, Horstschaefer T, Scaramuzza D. Ultimate SLAM? Combining events, images, and IMU for robust visual SLAM in HDR and high-speed scenarios. IEEE Robotics and Automation Letters, 2018, 3(2): 994−1001 doi:  10.1109/LRA.2018.2793357
    [65] 65 Mueggler E, Gallego G, Rebecq H, Scaramuzza D. Continuous-time visual-inertial odometry for event cameras. IEEE Transactions on Robotics, 2018, 34(6): 1425−1440 doi:  10.1109/TRO.2018.2858287
    [66] Mueggler E, Gallego G, Scaramuzza D. Continuous-time trajectory estimation for event-based vision sensors[R]. 2015
    [67] 67 Patron-Perez A, Lovegrove S, Sibley G. A spline-based trajectory representation for sensor fusion and rolling shutter cameras. International Journal of Computer Vision, 2015, 113(3): 208−219 doi:  10.1007/s11263-015-0811-3
    [68] 68 Rueckauer B, Delbruck T. Evaluation of event-based algorithms for optical flow with ground-truth from inertial measurement sensor. Frontiers in neuroscience, 2016, 10: 176
    [69] 69 Barranco F, Fermuller C, Aloimonos Y, Delbruck T. A dataset for visual navigation with neuromorphic methods. Frontiers in neuroscience, 2016, 10: 49
    [70] 70 Mueggler E, Rebecq H, Gallego G, Delbruck T, Scaramuzza D. The event-camera dataset and simulator: Event-based data for pose estimation, visual odometry, and SLAM. The International Journal of Robotics Research, 2017, 36(2): 142−149 doi:  10.1177/0278364917691115
    [71] Binas J, Neil D, Liu S C, Delbruck T. DDD17: End-to-end DAVIS driving dataset. arXiv: 1711. 01458, 2017
    [72] 72 Zhu A Z, Thakur D, Ozaslan T, Pfrommer B, Kumar V, Daniilidis K. The multivehicle stereo event camera dataset: An event camera dataset for 3D perception. IEEE Robotics and Automation Letters, 2018, 3(3): 2032−2039 doi:  10.1109/LRA.2018.2800793
    [73] Leung S, Shamwell E J, Maxey C, Nothwang W D. Toward a large-scale multimodal event-based dataset for neuromorphic deep learning applications. In: Proceedings of the 2018 Micro-and Nanotechnology Sensors, Systems, and Applications X. International Society for Optics and Photonics. Orlando, Florida, USA: SPIE, 2018. 10639: 106391T
    [74] Mitrokhin A, Ye C, Fermuller C, Aloimonos Y, Delbruck T. EV-IMO: Motion segmentation dataset and learning pipeline for event cameras. arXiv: 1903. 07520, 2019
  • [1] 杨飞, 谈树萍, 薛文超, 郭金, 赵延龙. 饱和约束测量扩张状态滤波与无拖曳卫星位姿自抗扰控制[J]. 自动化学报, doi: 10.16383/j.aas.c190515
    [2] 闵永智, 陶佳, 任维卓. 基于特征点位置校正的靶标位姿测量方法[J]. 自动化学报, doi: 10.16383/j.aas.c190217
    [3] 张芳, 王萌, 肖志涛, 吴骏, 耿磊, 童军, 王雯. 基于全卷积神经网络与低秩稀疏分解的显著性检测[J]. 自动化学报, doi: 10.16383/j.aas.2018.c170535
    [4] 范蓉蓉, 唐付林, 吴劭桓, 刘青山. 基于两个共面圆的无匹配相机位姿计算[J]. 自动化学报, doi: 10.16383/j.aas.c180596
    [5] 俞毓锋, 赵卉菁. 基于相机与摇摆激光雷达融合的非结构化环境定位[J]. 自动化学报, doi: 10.16383/j.aas.2018.c170281
    [6] 谢理想, 万刚, 曹雪峰, 王庆贺, 王龙. 基于凸优化改进的相机全局位置估计方法[J]. 自动化学报, doi: 10.16383/j.aas.2018.c160639
    [7] 丁文东, 徐德, 刘希龙, 张大朋, 陈天. 移动机器人视觉里程计综述[J]. 自动化学报, doi: 10.16383/j.aas.2018.c170107
    [8] 李晓航, 朱芳来. 延迟不确定马尔科夫跳变系统的执行器和传感器故障同时估计方法[J]. 自动化学报, doi: 10.16383/j.aas.2017.c150389
    [9] 张勇刚, 黄玉龙, 李宁, 赵琳. 带一步随机延迟量测非线性序列贝叶斯估计的条件后验克拉美罗下界[J]. 自动化学报, doi: 10.16383/j.aas.2015.c140391
    [10] 刘毅, 陈圣磊, 冯国富, 黄兵, 夏德深. 基于图割的低景深图像自动分割[J]. 自动化学报, doi: 10.16383/j.aas.2015.c140734
    [11] 彭义刚, 索津莉, 戴琼海, 徐文立. 从压缩传感到低秩矩阵恢复: 理论与应用[J]. 自动化学报, doi: 10.3724/SP.J.1004.2013.00981
    [12] 吴培良, 孔令富, 孔亮. 一种普适机器人系统同时定位、标定与建图方法[J]. 自动化学报, doi: 10.3724/SP.J.1004.2012.00618
    [13] 杨晶东, 杨敬辉, 洪炳熔. 一种有效的移动机器人里程计误差建模方法[J]. 自动化学报, doi: 10.3724/SP.J.1004.2009.00168
    [14] 秦丽娟, 朱枫. 一种新的基于直线的定位方法[J]. 自动化学报, doi: 10.3724/SP.J.1004.2008.00130
    [15] 罗继亮, 吴维敏, 苏宏业, 褚健. 事件图的混合控制器设计[J]. 自动化学报, doi: 10.1360/aas-007-0218
    [16] 任思成, 徐德, 王芳, 谭民. 基于赋时事件图的周期可重构流水作业构形建模与优化[J]. 自动化学报
    [17] 杨明, 董斌, 王宏, 张钹, Helder Araújo. 基于激光雷达的移动机器人实时位姿估计方法研究[J]. 自动化学报
    [18] 周江华, 刘磊, 管晓宏, 孙国基. Markov离散事件动态系统参数灵敏度估计算法[J]. 自动化学报
    [19] 隋家贤, 黄苏南, 夏圈世. 故障检测与定位[J]. 自动化学报
    [20] 杨小军, 郑应平. 离散事件系统监控与状态反馈方法的等价性[J]. 自动化学报
  • 加载中
图(4) / 表(2)
计量
  • 文章访问数:  596
  • HTML全文浏览量:  890
  • PDF下载量:  92
  • 被引次数: 0
出版历程
  • 收稿日期:  2019-07-25
  • 录用日期:  2019-12-15
  • 网络出版日期:  2020-01-03

基于事件相机的定位与建图算法: 综述

doi: 10.16383/j.aas.c190550
    基金项目:  国家重点研发计划(2018YFB1305002), 国家自然科学基金(61773414)资助
    作者简介:

    中山大学数据科学与计算机学院硕士研究生. 2014年获得中山大学计算机科学与技术学士学位. 主要研究方向为机器人定位与建图技术. E-mail: mayany3@mail2.sysu.edu.cn

    中山大学数据科学与计算机学院本科生. 主要研究方向为机器人定位与建图技术. E-mail: yezh9@mail2.sysu.edu.cn

    中山大学数据科学与计算机学院博士后. 2019年获得山东科技大学机电工程学院博士学位. 主要研究方向为自动驾驶环境感知. E-mail: lkhzyf@163.com

    中山大学数据科学与计算机学院副教授. 于2007年、2013年获得武汉大学学士、博士学位. 主要研究方向为自动驾驶, 机器人, 人工智能. 本文通信作者. E-mail: chenl46@mail.sysu.edu.cn

摘要: 事件相机是一种新兴的视觉传感器, 通过检测单个像素点光照强度的变化来产生“事件”. 基于其工作原理, 事件相机拥有传统相机所不具备的低延迟、高动态范围等优良特性. 而如何应用事件相机来完成机器人的定位与建图则是目前视觉定位与建图领域新的研究方向. 本文从事件相机本身出发, 介绍事件相机的工作原理、现有的定位与建图算法以及事件相机相关的开源数据集. 其中, 本文着重对现有的、基于事件相机的定位与建图算法进行详细的介绍和优缺点分析.

English Abstract

马艳阳, 叶梓豪, 刘坤华, 陈龙. 基于事件相机的定位与建图算法: 综述. 自动化学报, 2020, 46(x): 1−11. doi: 10.16383/j.aas.c190550
引用本文: 马艳阳, 叶梓豪, 刘坤华, 陈龙. 基于事件相机的定位与建图算法: 综述. 自动化学报, 2020, 46(x): 1−11. doi: 10.16383/j.aas.c190550
Ma Yan-Yang, Ye Zi-Hao, Liu Kun-Hua, Chen Long. Event-based visual localization and mapping algorithms: a survey. Acta Automatica Sinica, 2020, 46(x): 1−11. doi: 10.16383/j.aas.c190550
Citation: Ma Yan-Yang, Ye Zi-Hao, Liu Kun-Hua, Chen Long. Event-based visual localization and mapping algorithms: a survey. Acta Automatica Sinica, 2020, 46(x): 1−11. doi: 10.16383/j.aas.c190550
    • 感知自身在空间中的位置、方向、速度以及周围环境信息, 是自动驾驶系统、移动机器人等无人系统进行自主导航、路径规划[1]等任务的前提. 因此, 同时定位与建图(Simultaneous Localization and Mapping, SLAM)技术[2]被广泛应用于自动驾驶、移动机器人、无人机、增强现实[3]等领域. 在SLAM算法中常用的传感器包括全球导航卫星系统(Global Navigation Satellite System, GNSS)、惯性导航系统(Inertial Navigation System, INS)、激光雷达(Light Detection and Ranging, Lidar)、毫米波雷达(Radio Detection and Ranging, Radar)、相机等. 相较于其他传感器, 相机具有体积小、成本低、易部署、低功耗、能够提供丰富的信息等优点; 但由于其视野受限、容易受光照影响, 同时无法直接获得深度信息, 基于视觉的定位与建图[4-6]方法比其它传感器的方法更复杂. 因此, 视觉SLAM一直是SLAM领域里备受关注的研究方向.

      单目相机无法获得深度信息, 这不仅使单目SLAM算法更复杂, 而且导致通过单目SLAM算法得到的相机位姿和地图具有尺度不确定性. 而利用多个相机之间的内参(Intrinsic)和外参(Extrinsic), 则可以将多个相机组成双目或多目相机系统; 然后根据多目相机系统对同一点的组合观测, 再利用三角测量的原理便可以计算出该点的深度. 早在2003年, Olson等人[7]便使用这种方法进行相机的位姿估计. 然而由于计算量较大, 三角测量通常只能针对稀疏的特征点; 对所有像素进行三角测量和深度恢复, 需要有额外的设备和算法来支持. 随着传感器技术的发展, 以微软的Kinect[8]为代表的RGB-D相机可以通过红外结构光或飞行时间法(Time of Flight, TOF)来直接获取场景中的三维信息, 使得RGB-D相机成为视觉SLAM中代替双目相机的可选方案[9]. 除此之外, 一些研究者结合相机和IMU两种传感器来构建视觉 − 惯性系统(Visual-Inertial System, VIS)[10-11], 利用视觉信息修正IMU的累积误差, 同时利用IMU提供的线加速度和角速度获得相机的绝对位姿, 为视觉里程计提供良好的位姿初值, 并且可以为图像进行运动矫正. 视觉SLAM技术发展至今, 领域内已经有许多经典的算法, 其中基于纯视觉的代表性算法有PTAM[12]、ORB-SLAM[13-14]、SVO[15]、LSD-SLAM[16-17]等, 基于视觉 − 惯性系统的代表性工作有MSCKF[18]、OKVIS[19]以及香港科技大学研发的VINS[20]等.

      尽管相机凭借其自身的优势, 在SLAM领域中被广泛地应用, 但是传统的CMOS[21]相机(Active Pixel Sensor, APS)存在着不少缺陷: 每个像素需要统一时间曝光, 快速运动时图像容易产生运动模糊; 相机获取信息的频率受曝光时间的限制; 在高动态范围(High Dynamic Range, HDR)的场景下容易出现图像部分过曝或部分欠曝的现象, 导致场景细节丢失. 这些缺陷的存在限制了视觉SLAM的使用场景, 因此一类新型的基于事件的动态视觉相机进入了SLAM研究者们的视野. 基于事件的相机(简称事件相机)是一类异步(asynchronous)的相机[22], 它的诞生是受到了生物视网膜的启发. 事件相机不再像传统的相机那样需要外部信号来触发像素统一曝光而获得完整的图像, 而是每个像素单独检测相对光照变化, 并输出光照变化的像素地址-事件(Address-Event, AE)流. 图1[47]为带一个黑色圆点的匀速旋转圆盘在事件相机中产生地址-事件流的示意图. 其中X、Y轴张成像素地址空间, 不同时刻被激发的像素点在时空上形成一条螺旋线.

      图  1  事件相机输出的地址 − 事件流[47]

      Figure 1.  Address-event stream output by event-based camera[47]

      传统相机的曝光时间是固定的, 即便某个像素上的光照没有发生变化, 它也会重复曝光. 这种工作原理导致传统相机输出的图像有高延迟、高冗余的缺点. 而事件相机只输出由光照变化所触发的“事件”, 因此其输出的事件流是稀疏的、低延迟以及低冗余的. 此外, 事件相机在高动态范围的场景下也能良好地工作. 有着上述的优势, 事件相机在运动物体追踪[23-25]、光流估计[26-29]、高动态范围图像重建[30]等问题上都得到成功的应用.

      本文将对事件相机及其在SLAM领域的算法做详细的介绍, 文章结构如下: 第二节将介绍不同类型的事件相机; 第三节将介绍与分析基于事件相机的定位与建图算法; 用于定位与建图算法的事件相机数据集将在第四节介绍; 最后, 第五节是总结与展望.

    • 事件相机的出现, 可以追溯到1992年, Misha Mahowald在他的博士论文[31]中提出了一种新型视觉传感器“硅视网膜”(“Silicon Retina”). 这是首个输出地址 − 事件流的视觉传感器, 但它只是事件相机的雏形; 像素面积过大导致它无法被实际使用. 在随后几十年的发展中, 越来越多像素面积更小, 填充因数(Fill Factor)更大的事件相机被研发出来[32]. 其中被广泛接受并使用的可分为以下三类: DVS(Dynamic Vision Sensor)、ATIS(Asynchronous Time Based Image Sensor)、DAVIS(Dynamic and Active Pixel Vision Sensor). DVS是输出只有事件流的事件相机, 而ATIS和DAVIS除了能够输出事件流, 还能够输出灰度信息. 上述三种事件相机已经有商用产品的版本, 包括iniVation公司的DVS128[34]、DAVIS240[39], Prophesee公司的ATIS[37], CelePixel公司的CeleX-IV[40]. 除此之外, 考虑到无论是自然界动物的视觉还是传统的APS相机都可以获取颜色信息, 研究者们尝试利用滤镜或分色棱镜, 将颜色信息融入到事件相机中[41-43]. 不过这方面的工作仍处在学术研究的阶段. 本章节的后续部分将对DVS、ATIS、DAVIS这三种事件相机的工作原理进行介绍.

    • DVS是只输出地址 − 事件流(简称事件流)的一类事件相机[33-35], 它的单个像素结构和工作原理简化图分别如图2[34]以及图3[34]所示. 其工作原理与传统的APS相机截然不同: 每个像素单独地检测照射到该像素上的光强对数(Log Intensity)的变化, 并根据光强对数的变化异步地输出变亮(“ON”)或者变暗(“OFF”)事件. 更具体地说, 当某个像素激发一个变亮或变暗事件时, 它会通过重置操作(Reset)来记录当前时刻的光强对数, 并持续检测光强对数的变化. 一旦某个时刻的光强对数相较于记录中的光强对数的增大或减小量超过一定的阈值, 该像素会激发一个新的变亮或变暗事件, 并记录新的光强对数. 由像素阵列激发的事件, 经过外围器件的处理后便可以发送给上位机.

      图  2  DVS像素结构原理图[34]

      Figure 2.  Abstracted DVS pixel core schematic[34]

      图  3  DVS工作原理图[34]

      Figure 3.  Principle of DVS operation[34]

      通常, DVS输出的事件$ e_k $包含该事件发生的像素地址、时间和事件的类型(极性). 即$ e_k = ({ x}_k,$$t_k,p_k) $, 其中$ { x}_k = (x_k,y_k)^{\rm{T}} $, 表示像素地址; $ t_k $表示该事件发生的时间; $ p_k\in\{+1,-1\} $表示事件的极性, $ p_k = +1 $为变亮事件, 反之则为变暗事件. 规定在像素$ x_k $$ t_k $时刻的光强对数表示为$L({ x}_k,t_k) = $$ \log(I({ x}_k,t_k)) $, 其中$ I $表示光照强度. 事件$ e_k $被激发, 意味着像素$ { x}_k $上的光强对数与该像素上一次激发事件时的光强对数之差, 达到了预先设置的阈值$ \pm C $, 即:

      $$ \Delta L({ x}_k,t_k) = p_k C $$ (1)

      其中,

      $$ \Delta L({ x}_k,t_k) = L({ x}_k,t_k)-L({ x}_k,t_k-\Delta t_k) $$ (2)

      $ \Delta t_k $表示从像素$ { x}_k $上次激发事件开始经过的时间.

      上述的事件生成模型, 仅考虑了没有噪声的理想情况. 实际上, 任何相机都会受到噪声的影响, 包括来自感光器的外部噪声以及内部电路产生的噪声, DVS也不例外. 通过设置阈值$ C $, 可以调节DVS对噪声的敏感度: 阈值$ C $越大, DVS对噪声越不敏感, 但是DVS捕捉到的事件也会相应地减少. 阈值$ C $越小, DVS捕捉到的事件越多, 但信噪比会严重降低.

      在某个像素上的光照强度的改变, 通常是由两种情况造成的: 场景亮度的改变、场景中的物体或相机自身发生了移动. 并且, 当场景亮度变化越快、场景中的物体或相机自身移动越快时, 单位时间内DVS产生的事件就越多. 事件源源不断地从DVS中异步地输出, 形成事件流. 根据硬件和设计的不同, DVS输出速率可高达300 Meps(events per second, eps)[35], 延迟可低至3微秒[39], 动态范围可达130 dB. 这样的特性让DVS在捕捉高速运动的物体、应对高动态范围的光照环境、低延迟控制等应用上有着巨大的优势.

    • 单纯的DVS输出的事件流, 只提供了事件的像素地址、事件和极性, 而ATIS不仅能输出上述信息, 还能输出发生事件的像素的灰度值[36-37]. ATIS的像素结构可以划分为两个子像素(以下简称甲、乙子像素): 甲子像素包含完整的DVS像素结构, 它可以感应光强对数的变化并激发相应的事件; 在甲子像素激发事件的同时, 它还会激发乙子像素进行“曝光”. ATIS像素中的乙子像素的曝光方式, 与传统APS相机像素的曝光方式不同. 传统相机的曝光方式是预置曝光时间, 通过测定曝光后电容两端的电压来确定像素的灰度值. 因此, 光照强度越大、曝光时间越长, 像素的灰度值越大. 而ATIS像素中的乙子像素采用一种基于时间的异步曝光方式: 甲子像素激发事件的同时, 乙子像素内的一个电容被重置为高电平. 随着乙子像素持续受到光照, 电容两端的电压下降, 其两端电压从高电平下降到低电平所需的时间决定了该像素的灰度值. 电压下降时间越短, 说明该像素上光照强度越强, 灰度值越高; 下降时间越长, 则说明灰度值越低. 像素的灰度信息是以独立的事件流的形式输出的. 这种由事件触发的基于时间的曝光方式, 使得ATIS相机在高动态范围的场景下也能获得较好的灰度图(传统APS相机容易过曝或欠曝). 并且只有产生事件的像素会输出灰度信息, 减少了信息的时间冗余和空间冗余. 然而ATIS相机也有一定的缺陷: 在亮度过低的情况下曝光时间过长. 当曝光时间超过了下一次时间触发的时间, 电容会被强行重置导致曝光异常终止, 从而导致信息丢失.

    • DAVIS[38-39]相机也是一种能够输出事件流和灰度信息的时间相机, 它是DVS相机和传统的APS相机的结合体. DAVIS像素也分为两个子结构, 其中一个子结构用于监测光照变化的事件, 而另一个子结构像传统的APS相机一样进行同步的曝光. 不同于ATIS的是, DAVIS像素的两个子结构是共用同一个感光器的, 而ATIS像素的两个子像素有各自的感光器. 因此, DAVIS相机的像素面积较ATIS相机的像素面积更小, 前者的填充因数较后者的更大. 通过DAVIS获取的灰度图, 和通过传统APS相机获取的灰度图一样, 具有时间冗余性和空间冗余性, 并且无法承受高动态范围的环境. 因此, 从功能上看, DAVIS只是DVS和APS的简单结合体.

    • 从2012年开始, 机器人领域逐渐出现基于事件相机和事件流的定位与建图算法的研究. 它们对事件流的使用方式各不相同, 并且其中的部分算法结合了其它传感器数据, 取得了良好的效果. 本节将按照算法中使用的传感器和数据作为分类的依据, 对基于事件相机的定位与建图算法做详细的介绍. 最后, 我们将本节中介绍的算法概要汇总整理至表1.

      表 1  文中叙述的部分基于事件相机的SLAM算法及应用

      Table 1.  Event-based SLAM algorithms and applications

      相关文献所使用传感器维度算法类型是否需要输入地图发表时间(年)
      [44]DVS2D定位2012
      [45]DVS2D定位与建图2013
      [47]DVS3D定位2014
      [48]DVS3D定位与建图2016
      [49]DVS3D定位与建图2016
      [51]DVS3D定位2019
      [52]DVS, 灰度相机3D定位2014
      [53]DVS, RGB-D相机3D定位与建图2014
      [55]DAVIS3D定位2016
      [56]DAVIS(内置IMU)3D定位2017
      [59]DAVIS(内置IMU)3D定位与建图2017
      [64]DAVIS(内置IMU), RGB相机3D定位与建图2018
      [65]DAVIS(内置IMU)3D定位2018
    • Weikersdorfer等在2012年提出了一种基于事件流与粒子滤波的定位算法[44]. 常规的基于粒子滤波的定位算法迭代主要分为两个步骤, 即用运动模型预测位姿和用观测模型校正位姿.[44]预测位姿所使用的运动模型为随机扩散模型, 而校正位姿使用的观测模型则是作者提出的指数递减模型. 传统相机所拍摄的图像帧之间是独立的, 而DVS所输出的事件流中, 每一个事件并不是独立的, 作者正是针对该特性提出了指数递减的事件观测模型. 此外, 算法每一次位姿预测都是基于单个事件的, 这种方式利用了DVS相机低延迟的特性, 使定位算法的延迟更低、响应更快. 在[44]的实验中, 机器人在地面上进行二维运动, 并且相机固定朝向天花板, 天花板上有预先布置好的纹理, 机器人到天花板的距离需要预先设定, 同时需要为算法提供天花板纹理的地图.

      2013年, Weikersdorfer等对[44]中的文章进行拓展[45], 在粒子滤波的框架外维护了一个动态地图. 在粒子滤波的每一次迭代中, 先用上一次迭代产生的地图进行位姿的更新, 再用更新后的位姿来更新地图. 这使得算法从一个单纯的定位算法拓展为同时定位与建图算法, 不再需要提供先验的地图, 移动机器人可以进行定位与建图. 在[45]的基础上, 作者结合碰撞检测器搭建了机器人空间自主探索系统[46]. 系统利用[45]中的算法进行定位和建图, 并利用碰撞开关来探测墙壁和障碍物, 再利用启发式的算法进行路径规划.[44-46]中, 机器人都只在室内的地面上做3自由度的运动, 并且要求天花板上有特殊的纹理作为算法的前置条件, 这些缺陷限制了算法在实际环境中的应用.

      Mueggler等在2014年提出了一种基于事件流的6自由度定位算法[47], 该算法建立于一个假设: DVS所检测到的事件是由地图中灰度变化强烈的边缘产生的. 因此算法以预先建好的三维边缘地图为输入, 将地图中的边和它产生的事件联系起来. 在初始化阶段, 算法累积一定的事件点形成初始事件图像帧, 并在该图像上用Hough变换进行直线检测, 根据检测到的线段将事件点与地图中的边缘形成关联.

      在算法的位姿追踪阶段, 算法根据产生的事件持续更新事件与地图边缘的关联, 将地图中的边重投影到像素平面坐标系, 并最小化投影后的边与相关联的事件的平方和误差, 从而计算出相机的位姿$ P $, 下文的公式(3)用数学语言概括了这个过程. 其中, $ l $代表事件相机像素平面某条线段, 它是地图中的线段$ L_l $在像素平面的投影, $ e_{l,i} $表示与线段$ l $关联的第$ i $个事件.

      $$ P^* = \mathop{\arg\min}\limits_{P}\sum\limits_{l = 1}^M {\mathop \sum \limits_{i = 1}^N } {\Vert d({\text{π}}(L_l,P),e_{l,i}) \Vert}^2 $$ (3)

      算法实验是在空中机器人(无人机)上进行的: 实验中机器人在空中进行快速的翻转, 而算法能很好地跟踪机器人的位姿. 然而, 文章实验中用到的地图较为简单: 在白墙上贴了一个黑色的正方形, 而且机器人一直面朝这个正方形. 这种形状简单, 边缘明显的场景为算法的运行提供了便利, 作者并没有验证算法在复杂场景下的鲁棒性.

      Hanme Kim等提出了一种基于事件流和拓展卡尔曼滤波的定位与建图算法[48]. 文章分别使用了三个不同的拓展卡尔曼滤波器(EKF)来估计相机的六自由度位姿、场景的灰度信息以及场景的深度信息. 三个滤波器交错运行, 每一个滤波器输出的结果都会被用在其它两个滤波器中. 算法仅使用DVS事件流, 对相机位姿的估计, 场景灰度的估计以及深度的估计都有着良好的效果. 但在文章的实验中, 事件相机都是在一个很小的范围内移动的(在几十厘米内来回摆动), 而且相机的朝向也没有很大的变化, 对场景深度和灰度的估计不仅需要对场景同一区域进行多次重复观测, 还需要较长时间才能收敛. 这些限制可能导致算法无法在相机进行长距离运动的情况下运行.

      2017年, Rebecq等将事件流累积成事件图像帧, 提出了基于事件图像帧的定位与建图算法EVO[49]. 在算法的建图部分, Rebecq等使用了他们在2016年提出的基于事件的空间扫描法[50]. 基于事件的空间扫描法将传统图像三维重建中常用的空间扫描法拓展到事件相机中, 算法可以总结为三个步骤:

      1. 根据相机的运动轨迹和记录的对应时刻产生的事件, 利用相机的内参, 将对应的事件投影到空间中, 形成一条经过相机光心和成像平面上该事件位置的射线.

      2. 选取一个参考视角, 基于参考视角建立视差空间图(DSI), 统计DSI中的每个体素被所有射线经过的次数.

      3. 根据DSI的统计结果来确定某个体素中是否存在物体, 从而完成三维重建.

      算法[49]中定位的部分, 则是将一定个数的事件累积成事件图像帧, 并用事件图像帧与当前已经建出的三维半稠密地图作匹配, 从而计算出相机的当前位姿. 文章中的实验表明, 在室内外环境、高动态范围环境以及相机快速运动的情况下, 算法都具有良好的表现. 作者用开关灯模拟亮度剧烈变化, EVO也能良好地进行位姿追踪. 唯一的问题在于, 将事件累积成事件图像帧的过程, 会在一定程度上增加算法的延迟, 这就浪费了DVS低延迟的特性.

      2019年, Bryner等人提出了一种新的基于非线性优化的定位算法[51]. 与传统的优化特征点重投影误差的思路不同的是, Bryner等设计了一种基于光强变化图像(Intensity-Change Image)的误差函数. 如图4所示, 算法根据输入的三维光度地图和当前估计的相机位姿, 用GPU计算出当前相机位姿下的灰度图和深度图, 然后对灰度图提取边缘, 同时根据估计相机速度求出对深度图求出光流图, 再结合边缘图和光流图构造估计的光强变化图$ \Delta \hat{L}({\bf u}) $. 算法根据事件生成模型, 对事件流进行积分获得测量的光强变化图$ \Delta L({\bf u}) $. 对$ \Delta \hat{L}({\bf u}) $$ \Delta L({\bf u}) $归一化后求差值, 便得到了光强变化误差. 最后, 算法根据光强变化误差来优化估计的相机位姿以及相机速度, 直到优化收敛. 算法在实验中的精度表现十分优异: 在合成数据下算法的角度误差低于0.52°, 在真实数据下算法的角度误差低于3.84°. 然而由于优化的过程复杂, 算法无法做到实时运行, 甚至比实时慢了2-3个数量级.

      图  4  Bryner算法工作流程[51]

      Figure 4.  The workflow of Bryner's algorithm[51]

    • Censi等结合使用DVS和普通相机, 提出了一种基于滤波的视觉里程计[52]. 文章提出了一种结合了普通相机输出的灰度图和DVS输出的事件流的观测模型. 其中心思想是, DVS输出的事件流是由场景中灰度梯度较大的区域产生的, 而这些区域在灰度图中能直接获取. 因此, 算法利用事件流与作者提出的观测模型相结合, 追踪两个普通图像帧之间的相机位姿, 使定位算法的延迟比普通的基于图像的视觉里程计更低. 经过作者的实验, 该算法在姿态估计上有较好的表现, 但对位移的估计表现不佳.

      Weikersdorfer等基于他们在[45]中的工作, 结合使用DVS和RGB-D相机, 提出了一种6自由度的定位与建图算法[53]. 与前面的工作一致, 该算法的核心也是粒子滤波算法, 不过粒子中位姿由原先的二维位姿拓展为三维位姿. 对RGB-D相机和DVS相机标定内外参后, 利用RGB-D相机提供的深度图构建深度映射, 为DVS输出的事件提供深度, 从而将滤波器中粒子的状态从二维空间提升到三维空间. 类似[45], 算法也维护了一个动态地图, 地图由三维体素网格构成, 采用和[45]中类似的更新方式. 在实验中, 该算法的最低误差达到3.1 cm(RMSE); 在不使用GPU加速地情况下, 算法运行速度也能达到实时的20倍. 算法的不足之处在于, 相比起低延迟、高响应速度的DVS, RGB-D提供的深度图是有延迟的; 这就意味着在快速运动的情况下, 根据深度映射计算出的事件的深度是不够准确的.

      Tedaldi等在2016年提出了一种结合图像和事件流的特征点检测与追踪算法[54]. 该算法使用DAVIS相机作为传感器, 在灰度图上进行特征点检测, 并利用事件流来对特征点进行追踪. 在特征点提取阶段, 算法对相机输出的原始灰度图使用Canny算子进行边缘提取, 形成边缘图; 同时, 对原始灰度图提取Harris角点, 作为特征点; 然后对以特征点为中心的方形区块内的边缘图进行二值化, 形成模型点集(model point set), 作为特征点的描述子以供后续的特征点追踪. 在特征点追踪阶段, 算法将特征点的描述子区块内发生的事件累积形成数据点集(data point set), 然后将数据点集和描述子的模型点集使用ICP算法进行几何上的配准, 解算出特征点移动.

      Kueng等的工作[55]中使用了[54]中的算法进行特征点提取和追踪, 然后和常规的基于优化的视觉里程计类似, 用深度滤波器来估计特征点的深度, 并且用最小化重投影误差的方式来解算相机的位姿. 文中的特征点追踪算法有着很高的时空分辨率, 使得定位延迟低. 不过限于DAVIS中APS部分的自身缺陷, 在特征点提取和边缘提取的过程中还是会受到运动模糊的影响, 并且APS部分所能承受的动态范围仍然有限, 这限制了算法的适用场景.

    • Alex等在2017年提出基于特征和卡尔曼滤波的VIO方法[56], 在传统的VIO算法上进行了改进, 从事件流中提取特征点在图像中的移动轨迹并使用滤波方法将该轨迹与IMU的测量数据融合, 完成相机的位姿估计. 在[56]中, 系统将单个特征点和多个与其空间相邻的事件关联起来并完成追踪[57]. 得到特征点在图像中的移动轨迹后, 使用多状态约束的卡尔曼滤波器[58]将特征点轨迹与IMU信息相结合, 最终得到估计的相机位姿模型, 并不断通过新获取的IMU数据以及高频的事件流对位姿模型进行更新和修正. 文章中的实验表明, 使用事件相机来进行特征追踪较传统视觉相机而言拥有更小的漂移误差, 在长距离追踪中拥有更好的效果. 但由于实验采用了迭代的EM算法来进行特征的追踪, 开销较大, 因此算法无法做到在常规算力平台(如笔记本电脑)及载具中实时运行.

      使用滤波方法的SLAM系统的定位和建图的精度会因为线性化过程导致的误差的累积而迅速降低. 针对这个现象, Rebecq等在2017年提出基于事件帧和非线性优化的定位与建图算法[59]. 这个算法的主要思想是将连续的事件流通过给定长度的时间窗口划分成事件帧, 基于事件帧进行非线性优化完成位姿追踪. 首先, 将从事件相机得到的连续事件流拆分成一组重叠的时间窗口, 将同窗口内的事件流累计成一个事件帧, 并通过IMU采集到的数据对得到的事件帧进行运动补偿[60]. 对于修正完成的事件帧, 使用经典的FAST角点检测方法[61]和Lucas-Kanade追踪方法[62]提取和追踪其中的特征点, 得到用于相机位姿估计的特征点移动轨迹. 最后, 使用非线性优化方法[63]将由特征点的移动轨迹与来自IMU的数据结合, 将IMU误差项以完全概率的方式与特征重投影误差紧耦合, 优化联合了重投影误差和IMU误差的非线性代价函数, 周期性地改进相机的轨迹和3D界标的位置. 文章中通过实验验证了其方法可在普通笔记本上完成实时的6自由度位姿追踪以及3D地标的稀疏图还原.

      在2018年, Rebecq等继续对他们在[59]中的工作进行拓展, 首次提出了将事件流、标准图像帧以及IMU测量数据三者紧耦合融合的状态估计方法[64]. 方法同时对来自事件相机的事件帧和来自标准相机的图像帧进行了特征点的追踪, 并将二者的追踪结果都作为非线性优化方法的输入并完成相机位姿的估计. 在[64]中, 作者在四旋翼无人机上搭载了事件相机以及标准相机, 在光源高频切换、高速旋转的几种极端情况下对提出的特征点追踪方法进行了测试, 并实验证明了论文提出的方法在多种极端情况下(高动态光照场景和高速运动)均具有优秀的性能, 并且能够在算力有限的平台上完成实时计算. 同时, 该方法也拥有更高的准确度, 与仅基于事件帧以及IMU的方法[59]相比提升了130 %, 与仅基于标准图像帧以及IMU的方法相比提升了85 %.

      当前主流的VIO算法大多是基于特征的, 即从事件中提取特征点的移动轨迹并与IMU的数据融合完成位姿的追踪. Mueggler等则在2018年提出了一个不依赖特征点的新方法: 使用连续的时间框架描述基于事件相机的VIO过程[65]. 与基于特征的传统VIO算法不同, [65]中应用了连续时间框架[66-67], 直接应用事件流中的时间和位置属性, 将事件和相机位姿建立对应关系, 使用平滑参数模型来描述相机的位姿变化情况. 最后, 使用三次样条插值、视觉-惯性束调整等优化方法来完成模型的优化, 减少存储开销, 提高计算效率. 文章中的实验显示在普通算力平台下方法无法实现实时运行, 需要通过使用高算力平台(如多GPU)来达到实时运行的结果.

    • 在硬件方面, 事件相机目前在市场上并不普及, 种类少且价格昂贵. 因此, 关于事件相机的开源数据集是算法开发和测试的重要工具. 好的数据集不仅可以帮助研究者避免硬件系统搭建的麻烦, 还可以帮助研究者对算法进行客观准确的评估. 本节总结了用于定位与建图的事件相机数据集, 并对其进行简要介绍, 最后将数据集的概要归纳至节末的表2中.

      表 2  DVS公开数据集

      Table 2.  Dataset provided by event cammera

      相关文献所使用传感器相机运动自由度数据采集场景载具是否提供真值发表时间(年)
      [53]eDVS相机, RGB-D相机6DOF室内手持2014
      [68]DAVIS(内置IMU)3DOF(纯旋转)室内, 仿真旋转基座2016
      [69]DAVIS, RGB-D相机4DOF室内, 仿真地面机器人和云台2016
      [70]DAVIS(内置IMU)6DOF室内 室外 仿真手持室内: 是 室外: 否 仿真: 是2016
      [71]DAVIS6DOF室外汽车2017
      [72] 2*DAVIS(内置IMU) 2*RGB相机(内置IMU) 16线激光雷达 6DOF 室内 室外 室内
      到室外
      四轴飞行器 摩托车 汽车 手持 2018
      [73] 2*DAVIS(内置IMU) RGB-D相机3DOF 室内 3*地面机器人 2018
      [74]DAVIS6DOF室内手持2019
      [51]DAVIS, IMU6DOF室内, 仿真手持2019

      [53]的工作中, 作者开放了实验用的数据集. 数据集中包含了eDVS相机和RGB-D相机输出的事件流、彩色图像以及深度图像. 相机在室内环境做6自由度的运动, 相机位姿的真值则是通过运动采集系统获取的.

      [68]中使用内置IMU的DAVIS相机, 采集了在室内环境下相机做纯旋转运动的数据, 相机姿态的真值是通过对陀螺仪的输出进行角度积分获取的.

      数据集[69]中, 作者使用一个地面机器人和一个云台搭载了DAVIS和RGB-D相机, 提供了机器人在室内运动采集的数据以及作者合成的数据. 由于云台只能进行偏航角和俯仰角方向的旋转, 相机的运动只有4自由度. 相机位姿的真值是结合机器人的里程计以及云台的角度计算出来的.

      数据集[70]提供了多场景的DAVIS及其内置IMU的数据, 数据集包括室内数据、室外数据以及合成数据. 室内数据的真值来自运动采集系统, 而室外数据部分作者并未提供真值.

      数据集[71]提供了长距离室外道路场景的DAVIS数据, 由于该数据集原本目的是自动驾驶的车辆控制, 数据集提供了多种车辆控制信息, 但并未提供准确的6自由度位姿真值, 相机位置只能通过车载GPS提供的经纬度信息来获取.

      数据集[72]中, 作者搭建了多传感器的数据采集系统, 该系统包含了一对内置IMU的DAVIS相机、一对内置IMU的RGB相机、一个16线的激光雷达以及一个GPS传感器. 作者采集了多种场景的数据, 包括室内、室外、室内外切换、白天和黑夜. 除此之外, 数据采集系统搭载于不同的载具: 四轴飞行器、汽车、摩托车以及手持. 作者利用室内运动采集系统和室外运动采集系统等方法提供了真值. 该数据集不仅满足了第3节中所包含的类型的算法研究需求, 还满足了双目事件视觉算法研究的需求. 同时, 多场景和多载具的数据也大大方便了对算法适应性和鲁棒性的验证.

      数据集[73]使用了三个地面机器人, 每个地面机器人搭载了一对内置IMU的DAVIS相机, 以及一个RGB-D相机. 三个地面机器人在室内地面上同时运动, 并由运动采集系统采集机器人的位姿.

      文章[51][74]的作者也将他们实验中所使用的DAVIS数据开放出来.

      上述数据集都提供了相机运动的真值, 可以用于对基于事件相机的定位与建图算法进行评估. 值得注意的是, 数据集[68]中相机只做三维空间中的旋转运动; 数据集[69]中的相机运动缺少竖直方向的位移和滚转旋转; 数据集[73]中相机只有水平位移和偏航旋转. 这三个数据集相机运动均未达到6自由度, 不能够全面地评估基于事件相机定位与建图算法的性能. 数据集[71]虽然相机运动达到了6自由度, 但数据集提供的真值只包含其中两个自由度的信息. 研究者在选用以上四个数据集时, 须注意与其它数据集搭配使用. 此外, 数据集[73]为同一场景下, 多机器人同时采集的数据, 可以用于基于事件相机的多智体协同定位与建图的研究. 除了用于对基于事件相机的定位与建图算法的研究, 上述数据集中部分也可以用于对基于事件相机的深度估计、基于事件相机的运动分割等方面的研究. 例如, 数据集[72][74]给出了深度图的真值, 可以用于研究基于事件相机的深度估计算法. 数据集[69]给出了二维图像运动场真值, 数据集[74]给出了精确的场景内物体运动轨迹, 可以用于研究基于事件相机的运动分割算法.

    • 本文以基于事件相机的定位与建图算法为中心, 介绍了事件相机的种类及其工作原理, 介绍了一些具有代表性的、基于事件相机的定位与建图算法, 以及与事件相机定位与建图相关的数据集. 尽管已经有许多基于事件相机的定位与建图算法被提出来, 但它们仍存在问题. 比如说, [55]中的算法仍然受到了APS相机的限制, 无法应对快速运动; [49]中的算法要把事件流累积成事件图像帧, 浪费了事件相机低延迟的特性; [48]中的算法被局限于小范围的相机运动; [51]中的算法需要很长时间才能收敛, 并且需要预先建立精确的三维光度地图.

      总的来说, 基于纯事件流的定位建图算法存在的问题主要在于, 微小时间内事件相机获取的信息较少, 这是由事件相机的分辨率、信噪比以及带宽所决定的. 这导致基于纯事件流的定位建图算法或要求场景或相机运动简单, 或需要通过累积事件流形成事件图像帧. 前者使得算法的实用性下降, 而后者则牺牲了事件相机低延迟的优良特性. 基于事件流与传统图像的定位建图算法存在的问题在于, 对传统APS相机的依赖导致算法仍会受到相机延迟、运动模糊、高动态范围环境的影响. 而基于事件相机和IMU的算法是目前表现最佳的一类算法, 既保持了VIO低延迟、高频输出的优势, 又结合了事件相机可以应对低光照和高动态范围环境的优良特性. 然而IMU的使用会为算法带来额外的成本.

      从本文介绍的算法可以看出, 事件相机可以应用于实现低延迟的定位与建图算法, 可以帮助克服视觉传感器受运动模糊和高动态范围环境的影响, 可以提升视觉定位与建图算法的精度. 但是对于如何利用事件相机进行回环检测, 降低累积误差, 并没有很好的研究工作. 在未来的研究中, 有望对事件相机做进一步的挖掘, 实现更加完善鲁棒的定位与建图算法.

参考文献 (74)

目录

    /

    返回文章
    返回