司马双霖 黄岩 何科技 安东 袁辉 王亮

Sima Shuang-Lin, Huang Yan, He Ke-Ji, An Dong, Yuan Hui, Wang Liang. Recent advances in vision-and-language navigation. Acta Automatica Sinica, 2023, 49(1): 1−14 doi: 10.16383/j.aas.c210352
doi: 10.16383/j.aas.c210352

    司马双霖:中国科学院自动化研究所智能感知与计算研究中心硕士研究生. 2020年获郑州大学学士学位. 主要研究方向为视觉语言导航和具身智能. E-mail: shuanglin.sima@cripac.ia.ac.cn

    黄岩:中国科学院自动化研究所智能感知与计算研究中心副研究员. 2017年获中国科学院自动化研究所博士学位. 主要研究方向为计算机视觉和跨模态数据分析. E-mail: yhuang@nlpr.ia.ac.cn

    何科技:中国科学院自动化研究所智能感知与计算研究中心博士研究生. 2019年获南京邮电大学学士学位. 主要研究方向为视觉语言多模态和机器人. E-mail: keji.he@cripac.ia.ac.cn

    安东:中国科学院自动化研究所智能感知与计算研究中心博士研究生. 2019年获北京大学学士学位. 主要研究方向为计算机视觉和具身智能. E-mail: andong2019@ia.ac.cn

    袁辉:中国科学院自动化研究所智能感知与计算研究中心机器人算法工程师. 2021年获湘潭大学硕士学位. 主要研究方向为视觉语言理解和机器人导航. E-mail: hui.yuan@cripac.ia.ac.cn

    王亮:中国科学院自动化研究所研究员. 主要研究方向为模式识别, 计算机视觉, 机器学习和数据挖掘. 本文通信作者. E-mail: wangliang@nlpr.ia.ac.cn

Recent Advances in Vision-and-language Navigation

More Information
    Author Bio:

    SIMA Shuang-Lin Master stud-ent at the Center of Research on Intelligent Perception and Computing, Institute of Automation, Chinese Academy of Sciences. He received his bachelor degree from Zhengzhou University in 2020. His research interest covers vision-and-language navigation and embodied artificial intelligence

    HUANG Yan Associate professor at the Center of Research on Intelligent Perception and Computing, Institute of Automation, Chinese Academy of Sciences. He received his Ph.D. degree from Institute of Automation, Chinese Academy of Sciences in 2017. His research interest covers computer vision and cross-modal data analysis

    HE Ke-Ji Ph.D. candidate at the Center of Research on Intelligent Perception and Computing, Institute of Automation, Chinese Academy of Sciences. He received his bachelor degree from Nanjing University of Posts and Telecommunications in 2019. His research interest covers vision-and-language multi-modality and robot

    AN Dong Ph.D. candidate at the Center of Research on Intelligent Perception and Computing, Institute of Automation, Chinese Academy of Sciences. He received his bachelor degree from Peking University in 2019. His research interest covers computer vision and embodied artificial intelligence

    YUAN Hui Engineer at the Center of Research on Intelligent Perception and Computing, Institute of Automation, Chinese Academy of Sciences. He received his master degree from Xiangtan University in 2021. His research interest covers vision-and-language comprehension and robot navigation

    WANG Liang Professor at Institute of Automation, Chinese Aca-demy of Sciences. His research interest covers pattern recognition, computer vision, machine learning and data mining. Corresponding author of this paper

  • 摘要: 视觉语言导航, 即在一个未知环境中, 智能体从一个起始位置出发, 结合指令和周围视觉环境进行分析, 并动态响应生成一系列动作, 最终导航到目标位置. 视觉语言导航有着广泛的应用前景, 该任务近年来在多模态研究领域受到了广泛关注. 不同于视觉问答和图像描述生成等传统多模态任务, 视觉语言导航在多模态融合和推理方面, 更具有挑战性. 然而由于传统模仿学习的缺陷和数据稀缺的现象, 模型面临着泛化能力不足的问题. 系统地回顾了视觉语言导航的研究进展, 首先对于视觉语言导航的数据集和基础模型进行简要介绍; 然后全面地介绍视觉语言导航任务中的代表性模型方法, 包括数据增强、搜索策略、训练方法和动作空间四个方面; 最后根据不同数据集下的实验, 分析比较模型的优势和不足, 并对未来可能的研究方向进行了展望.
  • 图  1  视觉语言导航过程示意图

    Fig.  1  The process of vision-and-language navigation

    图  2  “说话者”和“跟随者”[13]模型的数据增强过程

    Fig.  2  The data augmentation process in “speaker-follower”[13]

    图  3  视觉语言导航任务中的不同搜索策略[22]

    Fig.  3  Different search strategies in vision-and-language navigation[22]

    图  4  低级动作空间和高级动作空间表示[29]

    Fig.  4  Low-level action space and high-level action space[29]

    图  5  视觉语言导航中的 seq2seq 模型

    Fig.  5  The seq2seq model in vision and language navigation

    图  6  融合强化学习和模仿学习的过程

    Fig.  6  The mixture of reinforcement learning and imitation learning

    表  1  视觉语言导航不同数据集的对比

    Table  1  The comparison of different datasets in vision-and-language navigation

    数据集训练集 (条)可见验证集 (条)不可见验证集 (条)测试集 (条)平均指令长度 (单词个数)语言种类
    FGR2R[7]51 3773 7758 48115 3857.2英语
    REVERIE[4]10 4664 9443 5736 29218.0英语
    BL-R2R[12]14 0251 0202 3494 18820.6英语/中文
    R2R[1]14 0391 0212 3494 17329.4英语
    R4R[8]233 6131 03545 16258.4英语
    R6R[9]89 63235 77791.2英语
    R8R[9]94 73143 273121.6英语
    RxR[10]79 4678 81313 62524 16477.8英语/印地语/泰卢固语
    Landmark-RxR[11]133 60213 59119 54721.0英语
    表  2  视觉语言导航任务中的评价指标

    Table  2  The metrics of vision-and-language navigation

    路径长度起始位置到停止位置的导航轨迹长度$\mathop {\displaystyle\sum d }\limits_{ { {\boldsymbol{v} }_i} \in V} \left( { { {\boldsymbol{v} }_i},{ {\boldsymbol{v} }_{i + 1} } } \right)$
    理想成功率预测路径中任意节点距离参考路径终点的阈值距离内的概率${\mathbb{I}}\left[ {\left( {\mathop {\min }\limits_{{{\boldsymbol{v}}_i} \in V} d\left( {{{\boldsymbol{v}}_i},{{\boldsymbol{v}}_e}} \right)} \right) \le {d_{th}}} \right]$
    导航成功率停止位置与参考路径终点的距离不大于 3 米的概率${\mathbb{I}}\left[ {NE({{\boldsymbol{v}}_t},{{\boldsymbol{v}}_e}) \le {d_{th}}} \right]$
    基于路径加权的成功率基于路径长度加权的导航成功率${SR}({\boldsymbol{v} }_t, {\boldsymbol{v} }_e) \cdot \dfrac{d_{gt} }{\max \left\{ {PL}({ V}), d_{gt}\right\} }$
    长度加权的覆盖分数[59]预测路径相对于参考路径的路径覆盖率和长度分数${PC}\left(P, R\right)\cdot LS\left( P, R\right)$
    基于动态时间规整加权成功率[59]由成功率加权的预测路径和参考路径的时空相似性$SR({ {\boldsymbol{v} }_t},{ {\boldsymbol{v} }_e}) \cdot \exp \left( { - \dfrac{ {\mathop {\min }\limits_{ {\boldsymbol{w} } \in W} \sum\nolimits_{\left( { {i_k},{j_k} } \right) \in {\boldsymbol{w} } } d \left( { { {\boldsymbol{r} }_{ {i_k} } },{ {\boldsymbol{q} }_{ {j_k} } } } \right)} }{ {|R| \cdot {d_{th} } } }} \right)$
    表  3  在 R2R 测试数据集上的视觉语言导航方法对比

    Table  3  The comparison of vision-and-language navigation methods on the R2R test dataset

    方法路径长度 (米)SR (%)SPL (%)
    RCM[30]11.97 43.038.0
    表  4  在 R4R 测试数据集上的视觉语言导航方法对比

    Table  4  The comparison of vision-and-language navigation methods on the R4R test dataset

    方法SR (%)CLS (%)SDTW (%)
    表  5  视觉语言导航中的不同方法改进的对比

    Table  5  The comparison of different improvements in vision-and-language navigation

    SR (%)
    SR (%)
