Long-term Autonomous Environment Adaptation of Mobile Robots: State-of-the-art Methods and Prospects
-
摘要: 真实世界中存在光照、天气、季节及场景结构等复杂环境因素, 这些因素的改变对移动机器人基本行为和任务能力带来巨大挑战.随着机器人与人工智能技术的不断发展, 如何使移动机器人在长期运行中与复杂多变的环境条件相适应是智能机器人领域的研究热点.本文重点从地图构建与动态维护、重定位及场景理解等移动机器人基本行为能力的系统综述入手, 对移动机器人长期自主环境适应的前沿技术与研究方向进行了着重论述与分析.最后对该领域的研究重点和技术发展趋势进行了探讨.Abstract: In real-world applications, mobile robots will work in complex open environments, where there are various changing factors such as time-varying illumination, weather, seasons and scene layout, which are all challenging tasks for a mobile robot with a long-term autonomous environment adaptation ability. With the rapid development and improvement of the technology in mobile robotics and artificial intelligence, how to make mobile robots adapt to changing environments is a hot research topic. This paper starts with a systematic review of the basic capabilities of mobile robots such as mapping and map updating, relocalization and scene understanding in dynamic environments, and then focuses on the cutting-edge technologies of long-term autonomous environment adaptation of mobile robots. The research emphases and prospective technical development trends are also presented at the end of this paper.
-
Key words:
- Environment adaptation /
- long-term autonomy /
- mapping /
- relocalization /
- scene understanding /
- mobile robots
-
自然语言推理(Natural language inference, NLI)又称为文本蕴含识别(Recognizing textual entailment, RTE)[1-2], 是自然语言处理(Natural language processing, NLP)中一个重要的研究问题.自然语言推理是一个确定两个或多个句子之间逻辑关系的任务, 例如:给定一个前提(Premise)和一个假设(Hypothesis), 目标是确定它们之间的逻辑关系是蕴涵、中立还是矛盾. SNLI[3]和Breaking-NLI[4]等一系列高质量、大规模标准数据集的发布推动了自然语言推理的发展, 促进了大量相关研究[5-11], 表 1展示了几个SNLI数据集中的例子.目前基于神经网络的推理模型主要有两类:一类侧重前提和假设分别进行句子嵌入, 然后使用分类器将其组合起来; 另一类不是分别处理两个句子, 而是使用交互注意力机制进行句子之间的交互.本文关注基于句子嵌入的方法, 因为该方法没有限定要求两个句子, 可以延展到更多任务上.
表 1 SNLI数据集上的三个例子Table 1 Three examples from the SNLI datasetPremise (前提) Hypothesis (假设) Label (标签) A soccer game with multiple males playing. Some men are playing a sport. Entailment (译文) 一场有多名男子参加的足球比赛. 有些男人在做运动. 蕴涵 A person on a horse jumps over a broken down airplane. A person is training his horse for a competition. Neutral (译文) 一个人骑着马跳过了一架坏掉的飞机. 为了参加比赛, 一个人正在训练他的马. 中立 A black race car starts up in front of a crowd of people. A man is driving down a lonely road. Contradiction (译文) 一辆黑色赛车在一群人面前启动. 一个男人开着车行驶在荒凉的路上. 矛盾 对自然语言推理广泛的研究使得很多复杂模型在基准数据集上取得了越来越高的表现, 但是最近的研究[11]表明多数模型很少关注前提和假设的句义关系, 而是大量利用句子中个别词之间对立或相似等浅显关系进行推理作答, 更有甚者只是根据假设就可以进行推理.可想而知这些推理模型很难应用到复杂的现实场景中, 它们根据句子中特定词之间的关系进行盲目推理, 比如根据前提中的"expensive"词和假设中的"cheap"词, 简单推理出两个句子是对立关系, 而实际上两句话描述的不是同一件事情, 正确的逻辑关系应该是中立.推理模型过度依赖特定词, 说明模型只是抓住数据集中的语言偏置, 而不是依据前提和假设所表达的句义关系进行逻辑推理.
一种检测语言偏置对推理模型影响的方式是设计一个仅依赖词编码表示进行推理的模型(为了方便描述, 本文使用WIM (Word inference model)表示仅依赖词编码表示进行推理的模型), 事实上WIM也可以作为一个标准的基线模型.本文提出使用对抗正则化方法来降低语言偏置的影响, 具体方法是让一个标准的推理模型和这个只依赖词编码表示进行推理的对手进行博弈, 以减少语言偏置的影响.在对抗机制下, 一方面训练WIM, 使得该模型尽可能推理正确, 其中WIM模型的词编码表示是由标准推理模型提供; 另一方面训练标准推理模型, 调整它的词编码和句编码部分, 目的是在提高自身推理准确率的同时, 尽量降低WIM模型的性能.在这种新颖的对抗正则化机制下, 优化自然语言推理模型.
本文提出的模型可以端到端训练, 而且扩展和延伸性比较强.在SNLI和Breaking-NLI数据集上的实验结果表明了该方法的有效性:本文提出的方法在SNLI数据集基于句子嵌入的推理模型中取得了最好的结果, 而且在Breaking-NLI数据集中也取得了领先的表现.
本文的主要贡献如下: 1)通过多样信息整合, 多层级句子编码, 增强自然语言推理模型对句子的表示能力, 以探索更多语义信息. 2)关注自然语言推理中的语言偏置现象, 并使用对抗正则化方法来解决这个问题, 此外该方法没有增加模型的参数, 不会增加模型测试时的复杂度. 3)通过在SNLI和Breaking-NLI数据集上的实验表明本文提出方法的有效性, 模型推理表现取得了有效的提升.
1. 相关工作
1.1 自然语言推理
目前句子嵌入在自然语言推理的众多方法中得到了广泛的应用, 这些方法背后的基本思想是分别对前提语句和假设语句进行编码, 然后将它们的句子表示结合起来使用神经网络进行分类, 具体结构如图 1所示.在已有的工作中, 很多研究工作使用卷积神经网络(Convolution neural network, CNN)和长短时记忆网络(Long short-time memory, LSTM)作为构建模块, 如Liu等[12]提出基于双向长短时记忆网络(Bidirectional LSTM, BiLSTM)的句子编码结构, Mou等[13]提出基于树的CNN句子编码结构.也有很多使用更加复杂的神经网络进行句子嵌入的研究工作, 如Munkhdalai等[14]提出NSE (Neural semantic encoder)的记忆增强神经网络, 用于自然语言推理任务.最近一些研究者开始探索应用于句子嵌入表示的自注意力机制. Shen等[6]提出DiSAN模型, 该模型没有使用CNN和循环神经网络(Recurrent neural network, RNN), 而是完全依赖于研究者提出的多维注意力和双向自注意力机制. Shen等[15]提出ReSAN (Reinforced self-attention network)模型, 该模型使用强化学习将软注意力和硬注意力融合在一起. Im等[16]提出基于距离的自注意力网络模型, 该模型利用距离掩蔽来关注单词之间的距离, 从而对局部依赖关系进行建模.此外, 还有研究者将胶囊网络中的动态路由机制应用到自然语言推理任务中[17], 并且取得了不错的效果.虽然在自然语言推理中, 句子嵌入方法已经显示出其有效性, 但是也有多项研究表明, 将前提和假设句子对在句子编码期间联合处理, 关注它们之间的复杂交互, 模型会得到更好的结果.然而, 这些交互式的方法不能在很多单个句子处理的任务上直接使用, 也不能像句子嵌入一样直接提供关于句子的语义理解.本文选择基于句子嵌入的体系结构, 以便应用于更多NLP任务.
1.2 对抗学习
Goodfellow等[18]提出生成对抗网络(Generative adversarial network, GAN)作为一种学习数据分布的新方式.生成对抗网络包含一个生成器$G$和一个判别器$D$, $G$和$D$在一个极小极大的博弈中被同步训练, 优化目标是达到纳什均衡
$ \begin{align}\label{eq1} &\mathop {\min }\limits_G \mathop {\max }\limits_D V(D, G) = {{\rm E}_{x \sim {p_{\rm data}}}}\left[ {\log D(x)} \right] +\notag\\ &\qquad {{\rm E}_{z \sim {p_z}}}\left[ {\log (1 - D(G(z)))} \right] \end{align} $
(1) 其中, 生成器$G$根据从先验分布${p_z}$中采样的隐含输入变量$z$来产生真实的数据, 以愚弄判别器$D$.另一方面, 判别器$D$是一个典型的二元分类器, 它试图去辨别它的输入数据是来自训练集还是来自生成器生成的集合.生成对抗网络通过判别器为生成器提供损失梯度进行训练, 目的是学习一个生成模型, 使该模型的输出满足特定的分布${p_{\rm data}}$.
生成对抗网络具有强大的模拟复杂分布的能力, 已受到广泛关注, 并且在图像和文本生成等领域演化出很多变体, 取得了大量令人瞩目的效果.如针对对抗网络自身的改进LSGAN[19]和WGAN[20], 对抗网络在图像生成上的应用BicycleGAN[21]和DualGAN[22], 在文本生成上的应用SeqGAN[23]和RankGAN[24]等.最近, 研究人员提出了其他对抗训练的策略[25-26], 以鼓励中间模型表示各种形式的不变性.
2. 本文方法
图 2是本文提出的基于对抗正则化的自然语言推理模型框图, 图中上半部分的标准NLI模型对应本文提出的增强的多层级表示推理模型(Enhanced multi-level representations inference model, EMRIM), 下半部分的针对词编码的NLI对手对应前面提到的WIM模型.其中EMRIM模型主要包括词编码器、句编码器、分类器三部分, 该模型通过增强的多层级编码结构探索丰富语言信息.并且本文提出使用对抗正则化方法降低语言偏置的影响, 从而进一步提升模型的推理能力.本文从以下几个方面对提出的方法进行具体描述.
2.1 词编码器
丰富的表示信息在自然语言推理中扮演着重要的角色.在我们的模型中, 我们将统筹多种类型的表示, 以更好地挖掘前提和假设句义信息, 这也是这项任务的基本组成部分.首先将前提和假设中的每个单词转换成连续的表示形式, 对词信息进行融合和提取.图 3中展示了词编码的处理方式, 具体包含以下部分:
1) 词嵌入:与之前方法的设置相似, 使用预训练的词向量GloVe[27]将每一个单词映射到向量空间.
2) 字符嵌入:将卷积神经网络(CNN)应用到每个单词的字符上.实践证明, 该方法对处理集外词(Out of vocabulary, OOV)有一定的帮助[28].
3) POS和NER标签:使用词性标注(Part-of-speech, POS)和命名实体识别(Named-entity recognition, NER)来获得单词的词性信息和实体信息, 然后每一个单词可以通过查表获得对应的POS嵌入表示和NER嵌入表示.这种方法比常用的独热码包含更多信息.
4) 精确匹配(Exact match, EM):受机器阅读理解的启发, 使用3个二进制特征来表示这个词是否能与任何词准确匹配, 分别表示原始形式、小写形式和词干形式.
5) CoVe:通过机器翻译[29]得到词的上下文向量表示, 本文的模型对其进行降维处理, 以减少模型的参数量.
本文将前面提到的多种词信息串联起来使用, 这样不仅可以从更多角度获得词相关的表示信息, 而且为后续句子编码提供良好的基础表征, 以更准确地理解句子上下文含义, 从而做出合理的推理.
2.2 句子编码器
为了获得句子的语义信息, 将所有向量序列传递给使用BiLSTM和最大池化(Max pooling)的句子编码器.输入一个长度为$T$的序列$({w_1}, {w_2}, {w_3}$, $\cdots $, ${w_T})$, 双向长短时记忆网络的输出是, $\cdots $, ${h_T})$, 序列输出中的每一项计算如下:
$ \overrightarrow {{h_t}} = \overrightarrow {LST{M_t}} ({w_1}, {w_2}, \cdots , {w_T}) $
(2) $ \overleftarrow {{h_t}} = \overleftarrow {LST{M_t}} ({w_1}, {w_2}, \cdots , {w_T}) $
(3) $ {h_t} = \left[ {\overrightarrow {{h_t}} , \overleftarrow {{h_t}} } \right] $
(4) 接下来为了学习每个句子的整体表示, 对序列编码器隐藏层的输出应用最大池化处理, 得到与${h_t}$同维度大小的向量
$ \begin{align}\label{eq5} x = MaxPooling({h_1}, {h_2}, {h_3}, \cdots , {h_T}) \end{align} $
(5) 先进的自然语言推理模型通常将句子编码器实现为多层结构, 鼓励模型模拟复杂函数, 同时捕获复杂的语言结构.此外, 一些研究人员已经证实, 不同层能够提取不同类型的语法和语义信息[30].本文通过设置多层级结构, 探索每一层潜在的语义信息.在推理模型中, 使用基于BiLSTM和Max Pooling的层次化句子编码器, 句子编码器包括三层, 每一层BiLSTM都是将原始输入语句序列作为输入; 而且, 除了第一层BiLSTM之外的其他BiLSTM层, 均使用前一层网络的最终状态来初始化其隐层状态.对每一层BiLSTM的输出进行最大池化, 句子编码的最终输出是每一个最大池化层输出的串联拼接.图 3显示了具体的网络结构.
2.3 顶层分类器
句子编码器的输出是前提和假设的固定维度的向量表示$u$和$v$, 然后将它们传递给顶层分类器.在自然语言推理任务中, 顶层分类器一般使用多层感知机(Multilayer perceptron, MLP)和Softmax函数来预测每个类别的概率.本文以多种方式将这两个句子的表示聚合在一起, 并作为多层感知机的输入, 然后把多层感知机的输出传递给Softmax函数, 公式表示如下所示:
$ x = [u;v;u \odot v;|u - v|] $
(6) $ Output ={\rm Softmax} (MLP(x)) $
(7) 其中, $ \odot$表示逐个对应元素相乘, 多层感知机包含两个带有修正线性单元(Rectified linear unit, ReLU)激活函数的隐层.最后通过最小化带有L2正则项的多类交叉熵损失函数, 对整个模型进行端到端训练.
2.4 对抗正则化方法
1) 标准推理模型:给定数据集$D = \{{p_i}, {q_i}, {a_i}\}$, 其中包含前提句${p_i} \in {\cal P}$、假设句${q_i} \in {\cal Q}$、推理标签${a_i}$ $\in$ ${\cal A}$三部分, 自然语言推理任务就是从前提和假设句子中推理出它们的逻辑关系.为了描述方便, 定义词编码器的操作为$G$, 定义句子编码器为$H$, 最后的分类层为$F$, $p$和$q$为数据集$D$中某样本的两个句子, 所以我们的推理模型可以表示为, 首先这两个句子通过词编码器分别得到表示${g_u}$和${g_v}$
$ {g_u} = G(p) $
(8) $ {g_v} = G(q) $
(9) 然后输出的结果经过句编码器的处理得到句子表示$u$和$v$
$ u = H({g_u}) $
(10) $ v = H({g_v}) $
(11) 最后将两者的句子表示传递给顶层分类器预测逻辑关系
$ \begin{align}\label{eq12} P({\cal A}|p, q) = F(u, v) \end{align} $
(12) 现有的自然语言推理模型一般都遵循类似的模式, 通过标准的交叉熵函数进行训练, 通过优化参数最小化损失函数
$ \begin{align}\label{eq13} {{\cal L}_{NLI}}(G, H, F) = {{\mathbb{E}}_{{\cal P}, {\cal Q}, {\cal A}}}[ - \log (P({a_i}|{p_i}, {q_i}))] \end{align} $
(13) 2) WIM:对NLI中关于词的语言偏置强弱直观的度量是模型仅从词编码就可以预测答案的能力.我们将这个模型形式化为一个映射${F_G}$, 如上所述, 我们假设${F_G}$是可微的, 并把从标准推理模型获得的词编码作为输入, 以便${F_G}$可以进行预测
$ \begin{align}\label{eq14} {P_{{F_G}}}({\cal A}|p, q) = {F_G}({g_u}, {g_v}) \end{align} $
(14) 将这个模型参数化为与顶层分类器相似的结构, 只是为了便于后续处理.在其基础上加入了最大池化层.如上所述, 该模型可以用交叉熵函数进行训练
$ \begin{align}\label{eq15} {{\cal L}_G}(G, {F_G}) = {{\mathbb{E}}_{{\cal P}, {\cal Q}, {\cal A}}}[ - \log ({P_{{F_G}}}({a_i}|{p_i}, {q_i}))] \end{align} $
(15) 3) 对抗正则化减少语言偏置:如图 2所示, 本文将标准推理模型和只依赖词编码的推理模型设置为对抗状态, 引入对抗正则化的方法优化自然语言推理模型.其中只依赖词编码的推理模型为了推理成功, 需要学习训练数据集中的语言偏置, 但是因为这种语言偏置忽略了句义信息, 导致标准推理模型推理错误.为了减少语言偏置, 将两个模型设置为对抗状态, 通过修改词编码部分来降低只依赖词编码模型的表现; 同时强化句子编码部分, 以捕获更多上下文信息和语义信息, 从而达到在提升标准推理模型推理表现的同时减少对语言偏置的依赖的目的.可以将这两个模型的对立关系描述为
$ \begin{align}\label{eq16} \mathop {\min }\limits_{G, H, F} \mathop {\max }\limits_{{F_G}} ({{\cal L}_{NLI}}(G, H, F) - \lambda {{\cal L}_G}(G, {F_G})) \end{align} $
(16) 基于对抗正则化的自然语言推理模型的训练过程如下, 首先训练只依赖词编码的推理模型, 该模型的训练目标是最小化其对应的交叉熵损失函数, 但是词编码器$G(\cdot)$不会根据这个梯度信息更新, 这个操作对应了图 2中的梯度拒绝部分.潜在地, 这迫使分类器${F_G}$要基于标准推理模型给出的词编码表示尽可能好地进行推理.然后训练更新标准推理模型, 该模型的梯度信息来自于两部分:一部分是标准推理模型本身对应的交叉熵损失函数; 另一部分来自于只依赖词编码的推理模型负的加权的交叉熵损失函数, 其中分类器${F_G}$的参数是不更新的, 分类器只是起到梯度传递的作用.最后这两个训练过程进行交替训练更新, 通过不断对抗博弈, 以到达理想的纳什均衡状态.
我们使用正则化系数$\lambda $来调控推理模型的性能和语言偏置的权衡. $\lambda $取值较小表明较少的正则化发生, 标准推理模型继续学习语言偏置.另一方面, 当$\lambda $取值较大时, 表示去除较多语言偏置, 可能导致标准推理模型和只依赖词编码的模型的表现都不好; 此外权重过大会加重对词编码的影响, 以至于词编码器没有能力学习合理的词表示, 从而进一步影响句子表征等高层表示.所以要设置合适的权重来权衡两者之间的重要性.
3. 实验
3.1 数据集
我们在SNLI和Breaking-NLI数据集上验证本文的方法.
SNLI (Stanford natural language inference)[3]数据集大约有57万人工标注的句子对, 该数据集比其他同类数据集大两个数量级.其中前提数据来源于Flickr30k语料库中的字幕, 而假设句数据和标签是人工合成的.数据集提供的标签分别是"entailment", "neutral", "contradiction", "-".其中"-"表示注释者之间无法达成共识.遵照Bowman等[3]提出的方式删除标签为"-"的句子对, 然后生成训练集、验证集和测试集.
Breaking-NLI[4]数据集是一个自然语言推理的测试集, 包括8 193个前提和假设句子对, 其中前提和假设只是有一个词或短语被替换了, 其他成分是相同的.该数据集被用来测试自然语言推理模型, 推理模型需要一定的词汇和世界知识才能实现合理的表现.
3.2 实验设置
本文在实验中使用预先训练好的300维的GloVe 840B词向量来初始化词嵌入向量, 词嵌入中的集外词使用[-0.1, 0.1]随机初始化, 在模型训练期间词嵌入向量被不断更新, 以学习适合NLI任务的更有效的表示.我们使用Spacy对单词进行标记并生成POS和NER标签, POS和NER的嵌入维度分别是26和20.所有BiLSTM的隐层大小设置为250, 为了避免过拟合, 在层间使用dropout[31]和层归一化(Layer normalization)[32]处理方法.使用Adam[33]算法优化模型参数, 并设置学习率为0.0001, 权重衰减为$1\times 10^{-8}$.设置批次大小为32, 以进行更多探索.在对抗训练过程中, 两个模型交替训练的频率为$1$ : $1$.在所有方法中都是使用500维的BiLSTM (250维前向LSTM + 250维后向LSTM).
3.3 实验结果
表 2显示了使用句子嵌入方法的不同模型在SNLI训练集和测试集的结果.我们使用以下几种方法进行实验对比:
表 2 不同方法在SNLI上的实验结果(%)Table 2 Experimental results for different methods on SNLI (%)对比方法 模型 训练准确率 测试准确率 Mou等[13] (2015) 300D Tree-based CNN encoders 83.3 82.1 Liu等[12] (2016) 600D (300 + 300) BiLSTM encoders 86.4 83.3 Liu等[12] (2016) 600D BiLSTM encoders with intra-attention 84.5 84.2 Conneau等[34] (2017) 4096D BiLSTM with max-pooling 85.6 84.5 Shen等[6] (2017) Directional self-attention network encoders 91.1 85.6 Yi等[7] (2018) 300D CAFE (no cross-sentence attention) 87.3 85.9 Im等[16] (2017) Distance-based Self-Attention Network 89.6 86.3 Kim等[35] (2018) DRCN (-Attn, -Flag) 91.4 86.5 Talman等[36] (2018) 600D HBMP 89.9 86.6 Chen等[37] (2018) 600D BiLSTM with generalized pooling 94.9 86.6 Kiela等[38] (2018) 512D Dynamic Meta-Embeddings 91.6 86.7 Yoon等[17] (2018) 600D Dynamic Self-Attention Model 87.3 86.8 Yoon等[17] (2018) Multiple-Dynamic Self-Attention Model 89.0 87.4 本文方法 BiLSTM_MP 89.46 86.51 本文方法 EMRIM 92.71 87.36 本文方法 BiLSTM_MP + AR 89.02 86.73 本文方法 EMRIM + AR 93.26 $\textbf{87.60}$ 1) BiLSTM_MP:该模型的词编码器使用本文提出的多信息融合编码方式, 但是句编码器使用了简单堆叠的三层BiLSTM网络, 并根据最后一层BiLSTM的输出进行最大池化处理, 最后经过顶层分类器得到推理结果.
2) BiLSTM_MP + AR:该方法是在BiLSTM_ MP基础上使用对抗正则化.
3) EMRIM:该方法是第2节提出的增强的多层级表示推理模型.
4) EMRIM + AR:在EMRIM中加入对抗正则化方法.
表 2显示了本文实验结果与SNLI官方排行榜结果, 根据实验对比, 本文提出的EMRIM方法达到了87.36 %的准确率, 已经接近排行榜中的最好结果87.4 %, 这说明在推理模型中使用多种类型信息增强的词编码器和多层级的句编码器, 确实可以提取更丰富更准确的语义表示, 从而利于模型推理.当分别为标准推理模型BiLSTM_MP和EMRIM增加只依赖词编码进行推理的对抗模型之后, 在不断博弈的进化过程中, 两个标准模型的推理性能进一步提升, BiLSTM_MP + AR比BiLSTM_MP高出约0.22 %的准确率, EMRIM + AR比EMRIM高出约0.24 %的准确率.这表明了本文提出的对抗正则化方法的有效性:该方法可以减少标准推理模型对语言偏置的依赖, 避免依据词间浅显的关系进行盲目推理; 而是强调语义理解, 通过对句义的整体把握做出选择.需要注意的是对抗正则方法没有增加标准推理模型的参数量, 并且不会增加模型测试时的复杂度.
表 3是不同方法在Breaking-NLI测试集上的实验结果[4], 这些模型都是在SNLI数据集上训练, 然后在Breaking-NLI数据集上测试.实验发现在SNLI测试集上表现不错的ESIM模型, 在这个测试集上的性能急剧下降.本文提出的EMRIM + AR模型在该测试集上取得了目前公开的最高准确率, 这说明本文提出的模型具有良好的词汇知识和世界知识; 通过应用对抗正则化方法, 推理模型在理解词汇的同时, 关注句义表达, 整体把握推理需求, 做出合理推理.
注意到在对抗训练过程中, 随着标准推理模型在SNLI测试集上的表现提升, 只依赖词编码进行推理的模型的性能上升到一定程度之后不再增加, 而且有稍微下降的趋势.这表明对抗优化策略执行得很好, 这也是和我们的直觉是一致的.
表 4是权重$\lambda$对SNLI测试集推理准确率的影响.根据权重和准确率的变化趋势, 可以得到以下分析.在较高的权值下, 基于词编码的大部分判别信息都已经丢失, 即标准推理模型是通过牺牲自己的性能, 从而降低了只作用于词编码模型的性能, 但是事实上在推理中根据词信息进行判别还是占有一定重要地位的, 不应完全忽略; 另外, 权重过大也导致模型底层学习不到合理的词向量表示, 继而影响模型高层网络对句子编码能力和推理能力.在权值较小时, 标准推理模型的性能相较之前也没有明显提升, 毕竟完全根据词中的判别信息进行推理是片面的, 因为忽略了对句子内容的整体理解和把握, 会导致模型的推理脱离了对应的描述场景, 从而难于做出正确抉择.只有兼顾词中表达的判别信息和句义分析这两方面, 自然语言推理模型才会做出正确的推理.
表 4 权重$\lambda$对NLI准确率的影响Table 4 Impact of weight $\lambda$ on NLI accuracy权重值 测试准确率(%) 0.5 86.90 0.25 87.14 0.10 87.60 0.05 87.35 0.01 87.39 4. 结束语
本文提出增强的多层级表示推理模型, 通过多样信息整合和多层级句子编码, 增强模型对句子的表示能力, 探索更多语义信息.在标准推理模型中引入对抗正则化方法, 通过标准推理模型和只依赖词编码进行推理的模型进行博弈训练, 以减少语言偏置对推理模型的影响, 使模型能够基于上下文进行有效推理.在SNLI和Breaking-NLI数据集上的实验结果验证了本文方法的有效性.在未来的研究工作中, 我们希望将该方法应用到更多任务中去.
-
表 1 动态环境下长航时机器人地图构建与长期维护方法
Table 1 Methods of mapping and long-term maintenance for mobile robots in dynamic environment
测试场景 关键词 主要思想 局限性 文献 停车场 临时地图 用临时地图跟踪由环境中半静态物体引起的矛盾观测, 并临时地扩展环境的静态地图, 进而利用粒子滤波算法实现机器人的定位 该算法默认动态物体被成功地检测并滤除 [24] 动态栅格地图 将每个栅格定义为隐式马尔科夫模型, 利用初始状态分布和观测模型预测状态转换概率 模型假设与真实环境中的动态变化的一致性问题; 栅格与栅格之间的独立假设不合理 [23] 非马尔科夫过程; 插曲片段 释放了马尔科夫过程的独立性假设, 分析观测数据与地图中未标记的物体之间的关联; 利用关联分析将对环境的观测分为长期、短期和动态特征 依赖提前构建的地图先验信息 [26] 生产车间 独立马尔科夫链; 栅格地图 将每个栅格定义为有两个状态的独立马尔科夫链; 栅格状态转换被定义为两个泊松过程, 且转换模型参数通过在线学习获得 算法模型假设环境中的动态变化属于齐次过程, 而事实上动态变化是有时间依赖性的 [25] 正态分布变换栅格地图 结合正态分布变换地图的简洁和栅格地图的稳定来表述动态环境, 并定义了精确的栅格状态递归更新模型; 该方法可用于多分辨率地图 该方法依赖一个外部准确的定位系统 [7] 室内环境 记忆消退 利用多重时间尺度下的环境模型表述环境; 随时间推移, 新的环境模型不断更新, 旧的不断消退 需要不断地对环境进行访问和建模; 只适应渐进的环境变化 [27] 多重记忆存储模型 模仿人类多重记忆模型, 用选择机制将环境观测分为传感器记忆、临时记忆和永久记忆; 并利用永久记忆对地图进行更新维护 地图中缺少尺度度量信息, 且只考虑了环境中有限的环境变化 [28] 多重记忆存储模型/3D构图 该方法利用短期记忆和永久记忆机制, 保证只利用永久的环境信息构建地图 环境中稳定的元素需要经常被观测和识别才能加入到永久记忆中 [29] 频谱分析 利用频谱对环境中的时空动态变化进行建模; 较小的存储需求适用于大范围环境 假设人类的行为是有规律可循的, 只适用于部分情形 [30] 摘要地图 摘要地图中只保存被认为有用的路标信息 地图中有限的环境信息, 只适用于解决特定的任务 [36] 城市环境 端到端分割聚类 搭建了输入是原始点云数据、输出是分割聚类结果的端到端架构; 利用二分类解决多分类问题 只考虑了车辆、行人和自行车三类动态目标 [32] 统一的栅格环境模型 构建了新颖的基于栅格的环境模型, 其中对动静态物体及其不确定性、速度等特征进行统一建模 利用栅格地图表述城市环境, 存在栅格分辨率选择和边缘混淆问题 [33] 校园环境 无监督增量学习 利用AP聚类算法对三维点云进行聚类; 并通过机器人与环境的交互得到聚类目标是障碍的概率 该方法只判断聚类目标是否为障碍, 没有进一步估计其速度等特性 [34] 地图长期维护 构建了包含位姿估计、全局地图维护和速度估计三个模块长期定位与构图系统, 通过对环境的重复观测, 直接对三维点进行状态预测与更新 该方法假设动态目标运动平滑 [35] 表 2 移动机器人基于人工设计图像特征的重定位方法
Table 2 Visual methods of relocalization based on hand-crafted features for mobile robots in term of long-term autonomy
目标环境 关键词 主要思想 发表年份 文献 光照/季节/环境结构变化 基于经验描述的重定位 将环境的模型表述定义为一条"经验", 利用视觉相对定位将场景的多种经验串联起来 2013 [49] 光照/季节变化 基于图像序列的重定位 利用较长的图像序列代替单幅图像实现场景匹配, 完成重定位 2012 [50] 光照条件变化 光照不变性图像 将RGB图像转换为具有光照不变性的图像, 进而利用FAST特征检测器和BRIEF特征描述符实现场景匹配 2014 [54] 光照/季节变化 光照不变性图像; 图像序列 利用光照不变性图像和图像序列等技术手段实现重定位; 同时提取全局二进制描述符来提高效率 2018 [56] 光照/季节变化 外观变化预测 鉴于自然条件下环境外观呈现周期性变化, 该方法通过预测不同条件下的环境外观来实现长期重定位 2013 [57] 光照/季节/动态因素 场景动态模型 通过分析场景中各种动态元素对局部特征的影响, 学习并利用场景中稳定的静态特征, 实现鲁棒的重定位 2013 [60] 表 3 移动机器人基于三维点云的重定位方法
Table 3 Methods of relocalization based on point clouds for mobile robots in term of long-term autonomy
算法类型 主要思想 局限性 发表年份 文献 直接法 对三维点云进行降采样, 利用关键点投票的方法实现高效的场景配准 不能解决环境的结构变化 2013 [70] 特征法 从三维点云中提取线性特征、面性特征以及球性特征, 并利用对不同类型特征的分布统计来实现场景间的高效匹配 众多的参数调节, 时间成本高 2009 [71] 将三维点云转换为二维图像, 利用视觉的方法实现机器人的重定位 生成二维图像不具有视点不变性 2018 [73] 将三维点云向若干个平面投影, 统计每个平面上点的投影分布生成全局特征, 进而实现场景匹配 对季节变化敏感 2016 [76] 分割聚类 对三维点云进行分割聚类, 利用聚类目标替代特征点实现场景匹配 对车辆等可能被移动的半静态物体敏感 2017 [75] 基于经验的方法 通过对同一场景的重复观测, 捕获其在结构或外观上的变化, 进而利用基于经验的方法实现机器人的长期稳定重定位 为了捕获某一场景的所有变化, 需要不断对该场景重复访问, 代价昂贵, 在大范围场景中易造成信息爆炸 2015 [77] 表 4 动态环境下长航时机器人自主场景理解方法
Table 4 Methods of scene understanding for mobile robots in term of long-term autonomy in dynamic environment
关键词 主要思想 目标问题 发表年份 文献 经典学习方法 将三维点云转换为二维图模型, 利用图像纹理和尺度协调技术解决多尺度分类问题 尺度不变性 2015 [85] 深度学习方法 利用大量训练数据训练目标识别模型, 利用训练数据的多样性解决多视角/多尺度目标识别 视角/尺度不变性 2015 [87] 结合深度学习和立体视觉重构算法实现了具有尺度不变性的语义分割方法 尺度不变性 2016 [92] 利用深度信息学习网络估计充足的深度, 进而利用深度信息调整分割网络中池化域的尺寸, 进而实现了具有尺度不变性的语义场景分割网络 尺度不变性 2018 [93] 利用图像和三维点云联合训练语义分割网络结构, 学习并结合2D和3D特征, 实现鲁棒的语义场景分割方法 光照/季节不变性 2018 [94] 迁移学习方法 提出基于在线学习的跨领域特征变换算法, 并结合$k$-NN分类器实现了跨领域的多类物体识别 跨领域多分类 2018 [88] 通过跨领域动态合成实例和"有选择性"地进行实例迁移来再平衡目标领域中训练数据的类分布 类不平衡问题 2017 [89] 通过共享碎片特征的方式联合训练多个目标检测器, 并且提出了一个基于数据采样技术的类不平衡算法, 对低置信率检测输出矩形框的再分类进一步提高了多类目标检测的准确率 类不平衡/小样本问题 2018 [90] -
[1] 柴天佑.自动化科学与技术发展方向.自动化学报, 2018, 44(11):1923-1930 doi: 10.16383/j.aas.2018.c180252Chai Tian-You. Development directions of automation science and technology. Acta Automatica Sinica, 2018, 44(11): 1923-1930 doi: 10.16383/j.aas.2018.c180252 [2] Barfoot T, Kelly J, Sibley G. Special issue on long-term autonomy. The International Journal of Robotics Research, 2013, 32(14): 1609-1610 http://www.wanfangdata.com.cn/details/detail.do?_type=perio&id=10.1177/0278364913511182 [3] Kunze L, Hawes N, Duckett T, Hanheide M, Krajník T. Artificial intelligence for long-term robot autonomy: a survey. IEEE Robotics and Automation Letters, 2018, 3(4): 4023-4030 [4] Garg S, Jacobson A, Kumar S, Milford M. Improving condition- and environment-invariant place recognition with semantic place categorization. In: Proceedings of the 2017 IEEE/RSJ International Conference on Intelligent Robots and Systems IROS). Vancouver, Canada: IEEE, 2017. 6863-6870 [5] Garg S, Suenderhauf N, Milford M. Don't look back: robustifying place categorization for viewpoint- and condition-invariant place recognition. In: Proceedings of the 2018 IEEE International Conference on Robotics and Automation ICRA). Brisbane, Australia: IEEE, 2018. 3645-3652 [6] Naseer T, Burgard W, Stachniss C. Robust visual localization across seasons. IEEE Transactions on Robotics, 2018, 34(2): 289-302 [7] Saarinen J P, Andreasson H, Stoyanov T, Lilienthal A J. 3D normal distributions transform occupancy maps: an efficient representation for mapping in dynamic environments. The International Journal of Robotics Research, 2013, 32(14): 1627-1644 [8] Lázaro M T, Capobianco R, Grisetti G. Efficient long-term mapping in dynamic environments. In: Proceedings of the 2018 IEEE/RSJ International Conference on Intelligent Robots and Systems IROS). Madrid, Spain: IEEE, 2018. 153-160 [9] Siva S, Zhang H. Omnidirectional multisensory perception fusion for long-term place recognition. In: Proceedings of the 2018 IEEE International Conference on Robotics and Automation ICRA). Brisbane, Australia: IEEE, 2018. 5175-5181 [10] Zhu J L, Ai Y F, Tian B, Cao D P, Scherer S. Visual place recognition in long-term and large-scale environment based on CNN feature. In: Proceedings of the 2018 IEEE Intelligent Vehicles Symposium IV). Changshu, China: IEEE, 2018. 1679-1685 [11] Se S, Lowe D G, Little J J. Vision-based global localization and mapping for mobile robots. IEEE Transactions on Robotics, 2005, 21(3): 364-375 [12] Pitzer B, Stiller C. Probabilistic mapping for mobile robots using spatial correlation models. In: Proceedings of the 2010 IEEE International Conference on Robotics and Automation. Anchorage, USA: IEEE, 2010. 5402-5409 [13] de la Puente P, Rodriguez-Losada D, Valero A, Matia F. 3D feature based mapping towards mobile robots' enhanced performance in rescue missions. In: Proceedings of the 2009 IEEE/RSJ International Conference on Intelligent Robots and Systems. St. Louis, USA: IEEE, 2009. 1138-1143 [14] 辛菁, 苟蛟龙, 马晓敏, 黄凯, 刘丁, 张友民.基于Kinect的移动机器人大视角3维V-SLAM.机器人, 2014, 36(5):560-568 http://d.old.wanfangdata.com.cn/Periodical/jqr201405007Xin Jing, Gou Jiao-Long, Ma Xiao-Min, Huang Kai, Liu Ding, Zhang You-Min. A large viewing angle 3-dimensional V-SLAM algorithm with a Kinect-based mobile robot system. Robot, 2014, 36(5): 560-568 http://d.old.wanfangdata.com.cn/Periodical/jqr201405007 [15] 杨鸿, 钱堃, 戴先中, 马旭东, 房芳.基于Kinect传感器的移动机器人室内环境三维地图创建.东南大学学报(自然科学版), 2013, 43(S1): 183-187 http://d.old.wanfangdata.com.cn/Periodical/dndxxb2013z1038Yang Hong, Qian Kun, Dai Xian-Zhong, Ma Xu-Dong, Fang Fang. Kinect-based 3D indoor environment map building for mobile robot. Journal of Southeast University Natural Science Edition), 2013, 43(S1): 183-187 http://d.old.wanfangdata.com.cn/Periodical/dndxxb2013z1038 [16] 丁文东, 徐德, 刘希龙, 张大朋, 陈天.移动机器人视觉里程计综述.自动化学报, 2018, 44(3): 385-400 doi: 10.16383/j.aas.2018.c170107Ding Wen-Dong, Xu De, Liu Xi-Long, Zhang Da-Peng, Chen Tian. Review on visual odometry for mobile robots. Acta Automatica Sinica, 2018, 44(3): 385-400 doi: 10.16383/j.aas.2018.c170107 [17] Montemerlo M, Thrun S, Whittaker W. Conditional particle filters for simultaneous mobile robot localization and people-tracking. In: Proceedings of the 2002 International conference on Robotics and Automation. Washington, USA: IEEE, 2002. 695-701 [18] Wolf D F, Sukhatme G S. Mobile robot simultaneous localization and mapping in dynamic environments. Autonomous Robots, 2005, 19(1): 53-65 doi: 10.1007-s10514-005-0606-4/ [19] Montesano L, Minguez J, Montano L. Modeling dynamic scenarios for local sensor-based motion planning. Autonomous Robots, 2008, 25(3): 231-251 http://www.wanfangdata.com.cn/details/detail.do?_type=perio&id=578b332117cc1fba3aa17d98a66ee403 [20] Wang C C, Thorpe C, Thrun S, Hebert M, Durrant-Whyte H. Simultaneous localization, mapping and moving object tracking. The International Journal of Robotics Research, 2007, 26(9): 889-916 http://d.old.wanfangdata.com.cn/NSTLQK/NSTL_QKJJ028484490/ [21] Henriques J F, Vedaldi A. Mapnet: an allocentric spatial memory for mapping environments. In: Proceedings of the 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Salt Lake City, USA: IEEE, 2018. 8476-8484 [22] Bürki M, Dymczyk M, Gilitschenski I, Cadena C, Siegwart R, Nieto J. Map management for efficient long-term visual localization in outdoor environments. In: Proceedings of the 2018 IEEE Intelligent Vehicles Symposium IV). Changshu, China: IEEE, 2018. 682-688 [23] Tipaldi G D, Meyer-Delius D, Burgard W. Lifelong localization in changing environments. The International Journal of Robotics Research, 2013, 32(14): 1662-1678 http://www.wanfangdata.com.cn/details/detail.do?_type=perio&id=10.1177/0278364913502830 [24] Meyer-Delius D, Hess J, Grisetti G, Burgard W. Temporary maps for robust localization in semi-static environments. In: Proceedings of the 2010 IEEE/RSJ International Conference on Intelligent Robots and Systems. Taipei, China: IEEE, 2010. 5750-5755 [25] Saarinen J, Andreasson H, Lilienthal A J. Independent Markov chain occupancy grid maps for representation of dynamic environment. In: Proceedings of the 2012 IEEE/RSJ International Conference on Intelligent Robots and Systems. Vilamoura, Portugal: IEEE, 2012. 3489-3495 [26] Biswas J, Veloso M. Episodic non-Markov localization: reasoning about short-term and long-term features. In: Proceedings of the 2014 IEEE International Conference on Robotics and Automation ICRA). Hong Kong, China: IEEE, 2014. 3969-3974 [27] Biber P, Duckett T. Dynamic maps for long-term operation of mobile service robots. In: Proceedings of the 2005 Robotics: Science and Systems Conference. Cambridge, USA: Massachusetts Institute of Technology, 2005. 17-24 [28] Dayoub F, Cielniak G, Duckett T. Long-term experiments with an adaptive spherical view representation for navigation in changing environments. Robotics and Autonomous Systems, 2011, 59(5): 285-295 http://www.wanfangdata.com.cn/details/detail.do?_type=perio&id=41aa241ec4c3d77da06633964020821e [29] Morris T, Dayoub F, Corke P, Wyeth G, Upcroft B. Multiple map hypotheses for planning and navigating in non-stationary environments. In: Proceedings of the 2014 IEEE International Conference on Robotics and Automation ICRA). Hong Kong, China: IEEE, 2014. 2765-2770 [30] Krajnik T, Fentanes J P, Cielniak G, Dondrup C, Duckett T. Spectral analysis for long-term robotic mapping. In: Proceedings of the 2014 IEEE International Conference on Robotics and Automation ICRA). Hong Kong, China: IEEE, 2014. 3706-3711 [31] Zhang J, Singh S. Low-drift and real-time lidar odometry and mapping. Autonomous Robots, 2017, 41(2): 401-416 http://www.wanfangdata.com.cn/details/detail.do?_type=perio&id=96d086fad7e673afa04089e3f0bd785e [32] Wang D Z, Posner I, Newman P. What could move? Finding cars, pedestrians and bicyclists in 3D laser data. In: Proceedings of the 2012 IEEE International Conference on Robotics and Automation. Saint Paul, USA: IEEE, 2012. 4038-4044 [33] Tanzmeister G, Thomas J, Wollherr D, Buss M. Grid-based mapping and tracking in dynamic environments using a uniform evidential environment representation. In: Proceedings of the 2014 IEEE International Conference on Robotics and Automation ICRA). Hong Kong, China: IEEE, 2014. 6090-6095 [34] Ott L, Ramos F. Unsupervised online learning for long-term autonomy. The International Journal of Robotics Research, 2013, 32(14): 1724-1741 http://www.wanfangdata.com.cn/details/detail.do?_type=perio&id=10.1177/0278364913505657 [35] Pomerleau F, Krüsi P, Colas F, Furgale P, Siegwart R. Long-term 3D map maintenance in dynamic environments. In: Proceedings of the 2014 IEEE International Conference on Robotics and Automation ICRA). Hong Kong, China: IEEE, 2014. 3712-3719 [36] Dymczyk M, Lynen S, Cieslewski T, Bosse M, Siegwart R, Furgale P. The gist of maps -- summarizing experience for lifelong localization. In: Proceedings of the 2015 IEEE International Conference on Robotics and Automation ICRA). Seattle, USA: IEEE, 2015. 2767-2773 [37] 庄严, 卢希彬, 李云辉, 王伟.移动机器人基于三维激光测距的室内场景认知.自动化学报, 2011, 37(10): 1232-1240 doi: 10.3724/SP.J.1004.2011.01232Zhuang Yan, Lu Xi-Bin, Li Yun-Hui, Wang Wei. Mobile robot indoor scene cognition using 3D laser scanning. Acta Automatica Sinica, 2011, 37(10): 1232-1240 doi: 10.3724/SP.J.1004.2011.01232 [38] 闫飞, 庄严, 王伟.移动机器人基于多传感器信息融合的室外场景理解.控制理论与应用, 2011, 28(8): 1093-1098Yan Fei, Zhuang Yan, Wang Wei. Outdoor scene comprehension of mobile robot based on multi-sensor information fusion. Control Theory & Applications, 2011, 28(8): 1093-1098 [39] 余淼, 胡占义.高阶马尔科夫随机场及其在场景理解中的应用.自动化学报, 2015, 41(7): 1213-1234 doi: 10.16383/j.aas.2015.c140684Yu Miao, Hu Zhan-Yi. Higher-order markov random fields and their applications in scene understanding. Acta Automatica Sinica, 2015, 41(7): 1213-1234 doi: 10.16383/j.aas.2015.c140684 [40] 朱博, 高翔, 赵燕喃.机器人室内语义建图中的场所感知方法综述.自动化学报, 2017, 43(4): 493-508 doi: 10.16383/j.aas.2017.c160350Zhu Bo, Gao Xiang, Zhao Yan-Nan. Place perception for robot indoor semantic mapping: a survey. Acta Automatica Sinica, 2017, 43(4): 493-508 doi: 10.16383/j.aas.2017.c160350 [41] Sun L, Yan Z, Zaganidis A, Zhao C, Duckett T. Recurrent-OctoMap: learning state-based map refinement for long-term semantic mapping with 3-D-lidar data. IEEE Robotics and Automation Letters, 2018, 3(4): 3749-3756 [42] Drouilly R, Rives P, Morisset B. Semantic representation for navigation in large-scale environments. In: Proceedings of the 2015 IEEE International Conference on Robotics and Automation ICRA). Seattle, USA: IEEE, 2015. 1106-1111 [43] Wang S, Clark R., Wen H K, Trigoni N. End-to-end, sequence-to-sequence probabilistic visual odometry through deep neural networks. The International Journal of Robotics Research, 2018, 37(4-5): 513-542 http://www.wanfangdata.com.cn/details/detail.do?_type=perio&id=10.1177/0278364917734298 [44] Kendall A, Grimes M, Cipolla R. PoseNet: a convolutional network for real-time 6-dof camera relocalization. In: Proceedings of the 2015 IEEE international conference on computer vision ICCV). Santiago, Chile: IEEE, 2015. 2938-2946 [45] Lowry S, Sünderhauf N, Newman P, Leonard J J, Cox D, Corke P, et al. Visual place recognition: a survey. IEEE Transactions on Robotics, 2016, 32(1): 1-19 http://d.old.wanfangdata.com.cn/Periodical/zhlxbx200807004 [46] Kim G, Kim A. Scan context: egocentric spatial descriptor for place recognition within 3D point cloud map. In: Proceedings of the 2018 IEEE/RSJ International Conference on Intelligent Robots and Systems IROS). Madrid, Spain: IEEE, 2018. 4802-4809 [47] Cummins M J, Newman P M. FAB-MAP: appearance-based place recognition and mapping using a learned visual vocabulary model. In: Proceedings of the 27th International Conference on Machine Learning. Haifa, Israel: Omnipress, 2010. 3-10 [48] Galvez-López D, Tardos J D. Bags of binary words for fast place recognition in image sequences. IEEE Transactions on Robotics, 2012, 28(5): 1188-1197 http://www.wanfangdata.com.cn/details/detail.do?_type=perio&id=67749a17e9b82a5f605904c28b2ebb2f [49] Churchill W, Newman P. Experience-based navigation for long-term localisation. The International Journal of Robotics Research, 2013, 32(14): 1645-1661 http://www.wanfangdata.com.cn/details/detail.do?_type=perio&id=10.1177/0278364913499193 [50] Milford M J, Wyeth G F. SeqSLAM: visual route-based navigation for sunny summer days and stormy winter nights. In: Proceedings of the 2012 IEEE International Conference on Robotics and Automation. Saint Paul, USA: IEEE, 2012. 1643-1649 [51] Tang L, Wang Y, Ding X Q, Yin H, Xiong R, Huang S D. Topological local-metric framework for mobile robots navigation: a long term perspective. Autonomous Robots, 2019, 43(1): 197-211 [52] Rublee E, Rabaud V, Konolige K, Bradski G. ORB: an efficient alternative to SIFT or SURF. In: Proceedings of the 2011 IEEE International Conference on Computer Vision. Barcelona, Spain: IEEE, 2011. 2564-2571 [53] Milford M, Lowry S, Sunderhauf N, Shirazi S, Pepperell E, Upcroft B, et al. Sequence searching with deep-learnt depth for condition- and viewpoint-invariant route-based place recognition. In: Proceedings of the 2015 IEEE Conference on Computer Vision and Pattern Recognition Workshops CVPRW). Boston, USA: IEEE, 2015. 18-25 [54] McManus C, Churchill W, Maddern W, Stewart A D, Newman P. Shady dealings: robust, long-term visual localisation using illumination invariance. In: Proceedings of the 2014 IEEE International Conference on Robotics and Automation ICRA). Hong Kong, China: IEEE, 2014. 901-906 [55] Ratnasingam S, McGinnity T M. Chromaticity space for illuminant invariant recognition. IEEE Transactions on Image Processing, 2012, 21(8): 3612-3623 http://www.wanfangdata.com.cn/details/detail.do?_type=perio&id=79cf7cfaef24ccac564aee125992328e [56] Arroyo R, Alcantarilla P F, Bergasa L M, Romera E. Are you ABLE to perform a life-long visual topological localization. Autonomous Robots, 2018, 42(3): 665-685 http://www.wanfangdata.com.cn/details/detail.do?_type=perio&id=8f3c8ff51defba77bc2d7c0ccc9a5df8 [57] Neubert P, Sünderhauf N, Protzel P. Appearance change prediction for long-term navigation across seasons. In: Proceedings of the 2013 European Conference on Mobile Robots. Barcelona, Spain: IEEE, 2013. 198-203 [58] Cummins M, Newman P M. Appearance-only SLAM at large scale with FAB-MAP 2.0. The International Journal of Robotics Research, 2011, 30(9): 1100-1123 http://www.wanfangdata.com.cn/details/detail.do?_type=perio&id=10.1177/0278364910385483 [59] Sünderhauf N, Protzel P. BRIEF-Gist - closing the loop by simple means. In: Proceedings of the 2011 IEEE/RSJ International Conference on Intelligent Robots and Systems. San Francisco, USA: IEEE, 2011. 1234-1241 [60] Johns E, Yang G Z. Dynamic scene models for incremental, long-term, appearance-based localisation. In: Proceedings of the 2013 IEEE International Conference on Robotics and Automation. Karlsruhe, Germany: IEEE, 2013. 2731-2736 [61] Han F, Wang H, Huang G Q, Zhang H. Sequence-based sparse optimization methods for long-term loop closure detection in visual SLAM. Autonomous Robots, 2018, 42(7): 1323-1335 http://www.wanfangdata.com.cn/details/detail.do?_type=perio&id=7b0e7ff1905f0527bf750d954e7776ae [62] McManus C, Upcroft B, Newman P. Learning place-dependant features for long-term vision-based localisation. Autonomous Robots, 2015, 39(3): 363-387 http://www.wanfangdata.com.cn/details/detail.do?_type=perio&id=31f1d3f30d5eb5242d977cf0617c6e41 [63] Linegar C, Churchill W, Newman P. Made to measure: bespoke landmarks for 24-hour, all-weather localisation with a camera. In: Proceedings of the 2016 IEEE International Conference on Robotics and Automation ICRA). Stockholm, Sweden: IEEE, 2016. 787-794 [64] 张慧, 王坤峰, 王飞跃.深度学习在目标视觉检测中的应用进展与展望.自动化学报, 2017, 43(8): 1289-1305 doi: 10.16383/j.aas.2017.c160822Zhang Hui, Wang Kun-Feng, Wang Fei-Yue. Advances and perspectives on applications of deep learning in visual object detection. Acta Automatica Sinica, 2017, 43(8): 1289-1305 doi: 10.16383/j.aas.2017.c160822 [65] Chen L C, Papandreou G, Kokkinos I, Murphy K, Yuille A L. DeepLab: semantic image segmentation with deep convolutional nets, atrous convolution, and fully connected CRFs. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2018, 40(4): 834-848 http://d.old.wanfangdata.com.cn/Periodical/zgtxtxxb-a201911017 [66] Shelhamer E, Long J, Darrell T. Fully convolutional networks for semantic segmentation. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2017, 39(4): 640-651 http://d.old.wanfangdata.com.cn/Periodical/nygcxb201918019 [67] Arroyo R, Alcantarilla P F, Bergasa L M, Romera E. Fusion and binarization of CNN features for robust topological localization across seasons. In: Proceedings of the 2016 IEEE/RSJ International Conference on Intelligent Robots and Systems IROS). Daejeon, South Korea: IEEE, 2016. 4656-4663 [68] Hou Y, Zhang H, Zhou S L. BoCNF: efficient image matching with Bag of ConvNet features for scalable and robust visual place recognition. Autonomous Robots, 2018, 42(6): 1169-1185 [69] Sünderhauf N, Shirazi S, Dayoub F, Upcroft B, Milford M. On the performance of ConvNet features for place recognition. In: Proceedings of the 2015 IEEE/RSJ International Conference on Intelligent Robots and Systems IROS). Hamburg, Germany: IEEE, 2015. 4297-4304 [70] Bosse M, Zlot R. Place recognition using keypoint voting in large 3D lidar datasets. In: Proceedings of the 2013 IEEE International Conference on Robotics and Automation. Karlsruhe, Germany: IEEE, 2013. 2677-2684 [71] Magnusson M, Andreasson H, Nuchter A, Lilienthal A J. Appearance-based loop detection from 3D laser data using the normal distributions transform. In: Proceedings of the 2009 IEEE International Conference on Robotics and Automation. Kobe, Japan: IEEE, 2009. 23-28 [72] Zhuang Y, Jiang N, Hu H S, Yan F. 3-D-laser-based scene measurement and place recognition for mobile robots in dynamic indoor environments. IEEE Transactions on Instrumentation and Measurement, 2013, 62(2): 438-450 http://www.wanfangdata.com.cn/details/detail.do?_type=perio&id=d0e502be8383632ba1735f10900c3417 [73] Cao F K, Zhuang Y, Zhang H, Wang W. Robust place recognition and loop closing in laser-based SLAM for UGVs in urban environments. IEEE Sensors Journal, 2018, 18(10): 4242-4252 http://www.wanfangdata.com.cn/details/detail.do?_type=perio&id=9075705a40bec6d3065347a2892bc30b [74] Kim G, Park B, Kim A. 1-day learning, 1-year localization: long-term LiDAR localization using scan context image. IEEE Robotics and Automation Letters, 2019, 4(2): 1948-1955 [75] Dubé R, Dugas D, Stumm E, Nieto J, Siegwart R, Cadena C. SegMatch: segment based place recognition in 3D point clouds. In: Proceedings of the 2017 IEEE International Conference on Robotics and Automation ICRA). Singapore, Singapore: IEEE, 2017. 5266-5272 [76] He L, Wang X L, Zhang H. M2DP: a novel 3D point cloud descriptor and its application in loop closure detection. In: Proceedings of the 2016 IEEE/RSJ International Conference on Intelligent Robots and Systems. Daejeon, South Korea: IEEE, 2016. 231-237 [77] Maddern W, Pascoe G, Newman P. Leveraging experience for large-scale LIDAR localisation in changing cities. In: Proceedings of the 2015 IEEE International Conference on Robotics and Automation ICRA). Seattle, USA: IEEE, 2015. 1684-1691 [78] Latif Y, Cadena C, Neira J. Robust loop closing over time for pose graph SLAM. The International Journal of Robotics Research, 2013, 32(14): 1611-1626 http://www.wanfangdata.com.cn/details/detail.do?_type=perio&id=10.1177/0278364913498910 [79] Uy M A, Lee G H. PointNetVLAD: deep point cloud based retrieval for large-scale place recognition. In: Proceedings of the 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Salt Lake City, USA: 2018. 4470-4479 [80] 庄严, 陈东, 王伟, 韩建达, 王越超.移动机器人基于视觉室外自然场景理解的研究与进展.自动化学报, 2010, 36(1): 1-11 doi: 10.3724/SP.J.1004.2010.00001Zhuang Yan, Chen Dong, Wang Wei, Han Jian-Da, Wang Yue-Chao. Status and development of natural scene understanding for vision-based outdoor moblie robot. Acta Automatica Sinica, 2010, 36(1): 1-11 doi: 10.3724/SP.J.1004.2010.00001 [81] Li L J, Socher R, Li F F. Towards total scene understanding: classification, annotation and segmentation in an automatic framework. In: Proceedings of the 2009 IEEE Conference on Computer Vision and Pattern Recognition. Miami, USA: IEEE, 2009. 2036-2043 [82] Kumar M P, Koller D. Efficiently selecting regions for scene understanding. In: Proceedings of the 2010 IEEE Conference on Computer Vision and Pattern Recognition. San Francisco, USA: IEEE, 2010. 3217-3224 [83] Kim B S, Kohli P, Savarese S. 3D scene understanding by voxel-CRF. In: Proceedings of the 2013 IEEE International Conference on Computer Vision. Sydney, Australia: IEEE, 2013. 1425-1432 [84] Su H, Maji S, Kalogerakis E, Learned-Miller E. Multi-view convolutional neural networks for 3D shape recognition. In: Proceedings of the 2015 IEEE International Conference on Computer Vision ICCV). Santiago, Chile: IEEE, 2015. 945-953 [85] Zhuang Y, Lin X Q, Hu H S, Guo G. Using scale coordination and semantic information for robust 3-D object recognition by a service robot. IEEE Sensors Journal, 2015, 15(1): 37-47 http://www.wanfangdata.com.cn/details/detail.do?_type=perio&id=d0235780d49ee238dbfe97d36ae136b4 [86] Eitel A, Springenberg J T, Spinello L, Riedmiller M, Burgard W. Multimodal deep learning for robust RGB-D object recognition. In: Proceedings of the 2015 IEEE/RSJ International Conference on Intelligent Robots and Systems. Hamburg, Germany: IEEE, 2015. 681-687 [87] Wang A R, Lu J W, Cai J F, Cham T J, Wang G. Large-margin multi-modal deep learning for RGB-D object recognition. IEEE Transactions on Multimedia, 2015, 17(11): 1887-1898 http://www.wanfangdata.com.cn/details/detail.do?_type=perio&id=71e349bf5320c3caac8bb60f7142f0ee [88] Zhang X S, Zhuang Y, Wang W, Pedrycz W. Transfer boosting with synthetic instances for class imbalanced object recognition. IEEE Transactions on Cybernetics, 2018, 48(1): 357-370 [89] Zhang X S, Zhuang Y, Hu H S, Wang W. 3-D laser-based multiclass and multiview object detection in cluttered indoor scenes. IEEE Transactions on Neural Networks and Learning Systems, 2017, 28(1): 177-190 http://www.wanfangdata.com.cn/details/detail.do?_type=perio&id=6a862dbd69f8c258307137e739b878d0 [90] Zhang X S, Zhuang Y, Wei W, Pedrycz W. Online feature transformation learning for cross-domain object category recognition. IEEE Transactions on Neural Networks and Learning Systems, 2018, 29(7): 2857-2871 [91] Zhuang Y, Liu Y S, He G J, Wang W. Contextual classification of 3D laser points with conditional random fields in urban environments. In: Proceedings of the 2015 IEEE/RSJ International Conference on Intelligent Robots and Systems IROS). Hamburg, Germany: IEEE, 2015. 3908-3913 [92] Krešo I, Čaušević D, Krapac J, šegvić S. Convolutional scale invariance for semantic segmentation. In: Proceedings of the 38th German Conference on Pattern Recognition. Hannover, Germany: Springer, 2016. 64-75 [93] Ansari M D, KraußS, Wasenmüller O, Stricker D. ScaleNet: scale invariant network for semantic segmentation in urban driving scenes. In: Proceedings of the 13th International Joint Conference on Computer Vision, Imaging and Computer Graphics Theory and Applications. Funchal, Madeira, Portugal: Scitepress, 2018. 399-404 [94] Kim D K, Maturana D, Uenoyama M, Scherer S. Season-invariant semantic segmentation with a deep multimodal network. Field and Service Robotics. Cham, Germany: Springer, 2018. 255-270 [95] 熊丹, 卢惠民, 肖军浩, 郑志强.具有尺度和旋转适应性的长时间目标跟踪.自动化学报, 2019, 45(2): 289-304 doi: 10.16383/j.aas.2018.c170359Xiong Dan, Lu Hui-Min, Xiao Jun-Hao, Zheng Zhi-Qiang. Robust long-term object tracking with adaptive scale and rotation estimation. Acta Automatica Sinica, 2019, 45(2): 289-304 doi: 10.16383/j.aas.2018.c170359 [96] Bansal A, Badino H, Huber D. Understanding how camera configuration and environmental conditions affect appearance-based localization. In: Proceedings of the 2014 IEEE Intelligent Vehicles Symposium. Dearborn, USA: IEEE, 2014. 800-807 [97] Maddern W, Pascoe G, Linegar C, Newman P. 1 year, 1000 km: The Oxford RobotCar dataset. The International Journal of Robotics Research, 2017, 36(1): 3-15 [98] Carlevaris-Bianco N, Ushani A K, Eustice R M. University of Michigan North Campus long-term vision and lidar dataset. The International Journal of Robotics Research, 2016, 35(9): 1023-1035 http://www.wanfangdata.com.cn/details/detail.do?_type=perio&id=10.1177/0278364915614638 [99] Liu Y S, Wang F, Dobaie A M, He G J, Zhuang Y. Comparison of 2D image models in segmentation performance for 3D laser point clouds. Neurocomputing, 2017, 251: 136-144 http://www.wanfangdata.com.cn/details/detail.do?_type=perio&id=30709a9943019170c59af0c88fa64f27 [100] Dosovitskiy A, Ros G, Codevilla F, Lopez A, Koltun V. CARLA: an open urban driving simulator. In: Proceedings of the 1st Annual Conference on Robot Learning. Mountain View, United States: PMLR, 2017. [101] Quiter C, Ernst M. deepdrive/deepdrive: 2.0 [Online]. available: https://doi.org/10.5281/zenodo.1248998, March 26, 2018. 期刊类型引用(3)
1. 郑文康,魏志晴,白艳萍,黄嘉俊,禹秀梅,谭秀辉,王鹏. 基于可分离替代函数算法的DOA估计方法. 陕西科技大学学报. 2024(01): 197-205 . 百度学术
2. 罗军,张顺生. 联合自适应LASSO与块稀疏贝叶斯直接定位方法. 雷达科学与技术. 2024(03): 265-274 . 百度学术
3. 杨静,韩丽东. 基于改进SSD算法的城市轨道交通多通道闸机控制研究. 计算机测量与控制. 2023(12): 160-166 . 百度学术
其他类型引用(6)
-