王婷娴 贾克斌 姚萌

王婷娴, 贾克斌, 姚萌. 面向轻轨的高精度实时视觉定位方法. 自动化学报, 2021, 47(9): 2194−2204 doi: 10.16383/j.aas.c200009
Wang Ting-Xian, Jia Ke-Bin, Yao Meng. Real-time visual localization method for light-rail with high accuracy. Acta Automatica Sinica, 2021, 47(9): 2194−2204 doi: 10.16383/j.aas.c200009
基金项目: 国家重点研发计划(2018YFF01010100), 国家自然科学基金(61672064), 青海省基础研究计划(2020-ZJ-709)资助

    王婷娴:北京工业大学信息学部硕士研究生. 主要研究方向为图像处理与视觉信息定位.E-mail: wangtingxian@emails.bjut.edu.cn

    贾克斌:博士, 北京工业大学信息学部教授. 主要研究方向为图像/视频信号与信息处理. 本文通信作者.E-mail: kebinj@bjut.edu.cn

    姚萌:工程师. 2018年获得北京工业大学信息学部博士学位. 主要研究方向为图像处理与视觉信息定位.E-mail: yaomeng@emails.bjut.edu.cn

Real-time Visual Localization Method for Light-rail With High Accuracy

Funds: Supported by National Key Research and Developmet Program of China (2018YFF01010100), National Natural Science Foundation of China (61672064), and Basic Research Program of Qinghai Province (2020-ZJ-709)
    WANG Ting-Xian Master student at the Faculty of Information Technology, Beijing University of Technology. Her research interest covers image processing and visual information localization

    JIA Ke-Bin Ph.D., professor at the Faculty of Information Technology, Beijing University of Technology. His research interest covers image/video signal and information processing. Corresponding author of this paper

    YAO Meng Received his Ph.D. degree from the Faculty of Information Technology, Beijing University of Technology in 2018. His research interest covers image processing and visual information localization

  • 摘要: 轻轨作为城市公共交通系统的重要组成部分, 对其实现智能化的管理势在必行. 针对城市轻轨定位系统要求精度高、实时强且易于安装等特点, 本文提出一种基于全局−局部场景特征与关键帧检索的定位方法. 该方法在语义信息的指导下, 从单目相机获取的参考帧中提取区别性高的区域作为关键区域. 并结合像素点位置线索利用无监督学习的方式筛选关键区域中描述力强的像素对生成二值化特征提取模式, 不仅能够提升匹配精度还显著提高了在线模块场景特征提取与匹配的速度. 其次, 以场景显著性分数为依据获取的关键帧避免了具有相似外观的场景给定位带来的干扰, 并能辅助提高场景在线匹配的精度与效率. 本文使用公开测试数据集以及具有挑战性的轻轨数据集进行测试. 实验结果表明, 本系统在满足实时性要求的同时, 其定位准确率均可达到90%以上.
  • 图  1  所提轻轨定位系统框架

    Fig.  1  The framework of our proposed light-rail localization system

    图  2  计算像素显著性分数的示意图

    Fig.  2  Illustration of computing saliency score of pixel

    图  3  关键帧在参考序列中的分布

    Fig.  3  Distribution of keyframes in the reference sequence

    图  4  关键区域检测结果

    Fig.  4  The result of key region detection

    图  5  在线场景序列匹配中的关键帧检索窗口

    Fig.  5  Illustration of the keyframe retrieval window for online sequence

    图  6  中国香港轻轨数据集中复杂多变的场景示例

    Fig.  6  Examples of complex and volatile scenes in the China Hong Kong light-rail dataset

    图  7  不同语义分割网络获得的结果示例

    Fig.  7  Example results of different semantic segmentation network

    图  8  不同方法的匹配偏差和计算时间

    Fig.  8  Matching offset and computation time of different methods

    图  9  系数K对匹配精度的影响

    Fig.  9  The influence of coefficient K for matching accuracy

    图  10  不同方法在单帧场景识别中的性能表现

    Fig.  10  Performance of different methods in single frame scene recognition

    图  11  本文方法在MTRHK数据集中的匹配结果

    Fig.  11  Illustration of matching results from the MTRHK dataset

    表  1  Nordland和MTRHK数据集中所需参数设置

    Table  1  Parameter settings for Norland and MTRHK datasets

    参数符号参数定义参数值 (Nordland)参数值 (MTRHK)
    表  2  不同语义分割模型间的精度对比

    Table  2  Accuracy comparison of different semantic segmentation network

    语义分割网络平均交并比 (%)
    表  3  不同方法对每帧图像的平均描述时间对比(s)

    Table  3  Comparison of average describing time for each image by different methods (s)

    表  4  不同场景跟踪算法的准确率(%)与召回率(%)

    Table  4  Precision (%) and recall (%) of different scene tracking methods

    数据集 准确率 (召回率)
    SeqSLAM SeqCNNSLAM 本文方法
    Nordland 89.56 (100) 99.67 (100) 99.24 (100)
    MTRHK 39.71 (100) 60.72 (100) 90.20 (100)
    表  5  在Nordland数据集和MTRHK数据集中不同场景跟踪算法的消耗时间(s)

    Table  5  The consumption time of different scene tracking methods in the Nordland and the MTRHK dataset (s)

    数据集 平均消耗时间
    SeqSLAM SeqCNNSLAM 本文方法
    Nordland 0.67×10−1 6.51×10−3 3.17×10−3
    MTRHK 0.50×10−1 4.90×10−3 2.37×10−3
