2.845

2023影响因子

(CJCR)

  • 中文核心
  • EI
  • 中国科技核心
  • Scopus
  • CSCD
  • 英国科学文摘

留言板

尊敬的读者、作者、审稿人, 关于本刊的投稿、审稿、编辑和出版的任何问题, 您可以本页添加留言。我们将尽快给您答复。谢谢您的支持!

姓名
邮箱
手机号码
标题
留言内容
验证码

基于显著性特征提取的图像描述算法

王鑫 宋永红 张元林

王鑫, 宋永红, 张元林. 基于显著性特征提取的图像描述算法. 自动化学报, 2022, 48(3): 735−746 doi: 10.16383/j.aas.c190279
引用本文: 王鑫, 宋永红, 张元林. 基于显著性特征提取的图像描述算法. 自动化学报, 2022, 48(3): 735−746 doi: 10.16383/j.aas.c190279
Wang Xin, Song Yong-Hong, Zhang Yuan-Lin. Salient feature extraction mechanism for image captioning. Acta Automatica Sinica, 2022, 48(3): 735−746 doi: 10.16383/j.aas.c190279
Citation: Wang Xin, Song Yong-Hong, Zhang Yuan-Lin. Salient feature extraction mechanism for image captioning. Acta Automatica Sinica, 2022, 48(3): 735−746 doi: 10.16383/j.aas.c190279

基于显著性特征提取的图像描述算法

doi: 10.16383/j.aas.c190279
基金项目: 陕西省自然科学基础研究计划(2018JM6104), 国家重点研究开发项目 (2017YFB1301101)资助
详细信息
    作者简介:

    王鑫:西安交通大学软件学院硕士研究生. 主要研究方向为图像内容描述. E-mail: 18991371026@163.com

    宋永红:西安交通大学人工智能学院研究员. 主要研究方向为图像与视频内容理解、智能软件开发. 本文通信作者. E-mail: songyh@xjtu.edu.cn

    张元林:西安交通大学人工智能学院副教授. 主要研究方向为计算机视觉及机器学习. E-mail: ylzhangxian@xjtu.edu.cn

Salient Feature Extraction Mechanism for Image Captioning

Funds: Supported by Natural Science Basic Research Program of Shaanxi (2018JM6104) and National Key Research and Development Program of China (2017YFB1301101)
More Information
    Author Bio:

    WANG Xin Master student at the School of Software Engineering, Xi'an Jiaotong University. His main research interest is image captioning

    SONG Yong-Hong Researcher at the College of Artificial Intelligence, Xi'an Jiaotong University. Her research interest covers image and video content understanding, intelligent software development. Corresponding author of this paper

    ZHANG Yuan-Lin Associate professor at the College of Artificial Intelligence, Xi'an Jiaotong University. His research interest covers computer vision and machine learning

  • 摘要: 图像描述(Image captioning)是一个融合了计算机视觉和自然语言处理这两个领域的研究方向, 本文为图像描述设计了一种新颖的显著性特征提取机制(Salient feature extraction mechanism, SFEM), 能够在语言模型预测每一个单词之前快速地向语言模型提供最有价值的视觉特征来指导单词预测, 有效解决了现有方法对视觉特征选择不准确以及时间性能不理想的问题. SFEM包含全局显著性特征提取器和即时显著性特征提取器这两个部分: 全局显著性特征提取器能够从多个局部视觉向量中提取出显著性视觉特征, 并整合这些特征到全局显著性视觉向量中; 即时显著性特征提取器能够根据语言模型的需要, 从全局显著性视觉向量中提取出预测每一个单词所需的显著性视觉特征. 本文在MS COCO (Microsoft common objects in context)数据集上对SFEM进行了评估, 实验结果表明SFEM能够显著提升基准模型 (baseline)生成图像描述的准确性, 并且SFEM在生成图像描述的准确性方面明显优于广泛使用的空间注意力模型, 在时间性能上也大幅领先空间注意力模型.
  • 图像描述(Image captioning)是涉及到计算机视觉和自然语言处理这两个领域的一个重要的研究方向, 主要工作是实现图像到文本的多模态转换[1-3], 需要计算机能够识别图像上的对象, 理解对象的属性、对象之间的关系, 并用人类的语言表达出图像上的内容.

    目前常用于图像描述的编码器−解码器 (Encoder-Decoder)框架最早受启发于机器翻译[4-6], NIC (Neural image caption)[7]模型作为第一个使用这个框架的图像描述模型, 以卷积神经网络(Convolutional neural network, CNN) 作为编码器来提取图像上的视觉信息[8-9], 得到一个包含有整幅图像上视觉信息的全局视觉向量, 以单层的长短期记忆网络(Long-short term memory, LSTM)[10]作为解码器, 在生成图像描述的初始时刻将全局视觉向量输入LSTM网络中, 之后逐步生成图像描述中的每个单词. 文献[11]中提出了g-LSTM (Guiding LSTM)模型, 它与NIC模型最大的不同在于, 不仅将全局视觉向量作为LSTM网络的输入, 也将全局视觉向量用来构建LSTM网络的各个门, 作者尝试以这种方法来引导LSTM生成更加贴合于图像内容的描述. 文献[12]中使用多标签分类的方法, 对图像进行多标签分类, 从而将图像上的多个高层属性编码进一个0-1向量中, 该向量的每一维都对应属性库中的一个属性, 如果图像上具有该属性, 向量对应维度的值取1否则取0, 作者使用该向量代替编码器给出的全局视觉向量, 取得了比较好的效果.

    虽然这几种编码器−解码器模型都取得了不错的效果, 但存在两个主要的问题:

    1)包含整幅图像视觉信息的全局视觉向量在初始时刻被输入解码器中, 解码器需要自己从中抽取预测单词所需的视觉信息, 造成解码器负担过重.

    2)作为解码器的LSTM网络在预测每个单词时都会接收新的输入并遗忘掉现有的部分信息, 这就造成了随着预测的进行一些重要的视觉信息会被遗忘掉, 从而导致语言模型[13-15]预测出的单词逐渐缺乏图像上视觉信息的指导, 偏离了图像的真实内容.

    在编码器−解码器框架的基础上, 相继提出了多种注意力模型. 文献[16]中最早将空间注意力机制引入到图像描述领域, 在预测单词时空间注意力模型能够根据LSTM的隐含层状态来为每个局部视觉向量分配不同的权重, 然后通过加权求和得到当前单词所需的视觉向量. 空间注意力模型与编码器−解码器模型的结合, 一定程度上解决了编码器−解码器模型的上述两个问题. 但是同时也产生了3个新的问题:

    1)在空间注意力模型中, 每个局部视觉向量只对应一个标量权重, 所以特征向量的每一维都需要乘以相同的权重, 空间注意力的这种操作相当于认为同一个图像区域中所有视觉特征具有同等重要性, 但实际情况并不是这样, 所以本文认为空间注意力模型对特征的选择是不准确的.

    2)空间注意力模型对局部视觉向量上视觉特征的选择是强制性的, 解码器在预测每个单词时, 空间注意模型都要求局部视觉向量权重之和为1, 这就造成了局部视觉向量上没有解码器需要的视觉特征时, 空间注意力模型也会向解码器中输入视觉特征, 这些视觉特征就如同噪声一般, 会干扰解码器对单词的预测.

    3)空间注意力模型是一种自顶向下的注意力模型, 对于生成一个长度为$ n $的句子, 空间注意力模块需要被执行$ n $次, 并且每次执行空间注意力模块时所有的局部视觉向量都需要参与运算, 这无疑大大限制了模型的时间性能.

    针对空间注意力模型存在的第2个问题, 文献[17]提出了自适应注意力机制(Adaptive attention), 这种方法在局部视觉向量集合中添加一个编码有已生成单词序列语义信息的向量, 当局部视觉向量上没有解码器需要的视觉信息时, 该语义向量所对应的权重就会接近于1, 从而可防止空间注意力模型强制向解码器中输入视觉特征. 但是自适应注意力机制没能解决第1个问题和第3个问题, 而且增加了空间注意力模型的参数量和计算复杂度. 文献[18]提出的SCA-CNN (Spatial and channel-wise attention in CNN)一定程度上对空间注意力模型的第1个问题做出了改进, 它的通道级注意力模型能够为编码器输出特征图的每一个通道赋予一个权重, 与空间注意力模型结合在一起既实现了对空间位置的选择也实现了对通道的选择. 但是通道级注意力模型本质上只能为特征图的每个通道计算一个权重, 这种对通道的筛选仍然不灵活、不充分, 并没有完全解决第1个问题. 另外SCA-CNN没有考虑解决第2个问题和第3个问题, 相反的通道级注意力模型同样作为一个自顶向下的注意力模型, 在空间注意力模型的基础上进一步增加了模型的参数量和计算复杂度.

    NIC模型[7]的应用揭示了单个全局视觉向量能够用来生成整幅图像对应的描述, 这就意味着全局视觉向量是对图像上的多种视觉信息的编码, 相应的每条局部视觉向量都是对局部图像上的多种视觉信息的编码. 换句话说, 视觉特征提取器输出的每条视觉向量都包含了多种视觉特征. 一般而言, 单个句子无法描述出图像中的所有内容, 所以语言模型在生成单条图像描述句子时, 也无法用到所有的视觉特征. 我们称视觉向量上对生成准确图像描述有用的特征为显著性视觉特征, 其余为非显著性视觉特征, 显然对于语言模型来说, 非显著性视觉特征就是噪声, 会影响其生成准确的图像描述. 由于神经网络模型的可解释性不强从而导致特征向量每一维的含义难以被人类所理解, 所以对显著性特征和非显著性特征的定义比较模糊, 但是我们仍然希望在这种思想的指导下, 设计出一种特征提取机制, 能够在训练过程中学会区分这两种特征, 提取显著性视觉特征, 过滤非显著性视觉特征, 本文称这种特征提取机制为显著性特征提取机制(Salient feature extraction mechanism, SFEM). SFEM由全局显著性特征提取器(Global salient feature extractor, GE)和即时显著性特征提取器(Instant salient feature extractor, IE)构成. 实验证明本文的SFEM能够有效解决编码器−解码器模型存在的两个问题, 并且能够避免空间注意力模型所存在的三个问题.

    本文在MS COCO (Microsoft common objects in context)数据集上对SFEM进行了评估, 使用编码器−解码器模型[7, 19]作为基准模型 (baseline), 实验表明添加SFEM模块后, 模型在BLEU (Bilingual evaluation understudy)/CIDER (Consensus-based image description evaluation)值上比基准模型有8.63%/11.24%的提升. 并且SFEM可以完全取代空间注意力模型, 我们在与SFEM完全一致的基准模型上实现了空间注意力模型[16, 19], 实验表明SFEM在BLEU4/CIDER值上比空间注意力模型有4.29%/5.79%的提升. 另外本文还进行了两种模型在图形处理器 (Graphics processing unit, GPU)和中央处理器 (Central processing unit, CPU)环境下的时间性能对比实验, 在单块Nvidia TITAN X GPU环境下本文模型的FPS值比空间注意力模型高17.34%, 在Intel Xeon CPU环境下优势更加明显, 本文模型的FPS (Frames per second)值比空间注意力模型高43.80%. 由于现有的大多数图像描述算法都是在空间注意力模型上添加新的模块而设计的[17-21], 时间复杂度在空间注意力模型的基础上都有不同程度的增加, 所以相比于其他目前先进的模型, 本文方法在时间性能上具有明显优势.

    本文的网络模型如图1所示, 整个模型分解为多个步骤, 主要是为了说明每个模块的作用, 实际中无论是前向传播还是反向传播, 本模型都是一个端到端的网络模型. 本文算法的主要步骤如下:

    图 1  本文网络模型
    Fig. 1  Structure of our network

    步骤 1. 视觉特征提取. 本文选用在ImageNet数据集上预训练过的Inception-V4模型作为特征提取器, 用来对输入图像提特征, 从而得到一个包含有多个特征向量的局部视觉向量集合, 以及一个全局视觉向量.

    步骤 2. 全局显著性视觉特征提取. GE会从局部视觉向量集合中提取出各个向量上包含的显著性视觉特征, 然后将整幅图像上的显著性视觉信息编码进一个和单个局部视觉向量维度相同的特征向量中, 本文将该特征向量称为全局显著性视觉向量.

    步骤 3. 即时显著性视觉特征提取. IE根据解码器当前的隐含层状态, 动态决定从全局显著性视觉向量中获取哪些视觉特征, 同时决定视觉特征在当前步预测单词时的参与比例, 从而向语言模型提供对预测本时刻单词最有用的显著性视觉特征.

    步骤 4. 单词预测. 本文选用单层LSTM网络作为语言模型, 其需要凭借显著性视觉特征和上文的语义特征, 预测本时刻的输出单词. 如果输出单词不是句子终止符号, 则转到步骤3, 否则完成预测.

    1)提出了全局显著性特征提取器. 本文的全局显著性特征提取器有三方面的作用: 首先, 全局显著性特征提取器会从各个局部视觉向量中提取并整合显著性视觉特征, 这个操作会为局部视觉向量的每一维都生成一个权重, 能够有效克服空间注意力模型对特征选择不准确的问题; 其次, 全局显著性特征提取器不需要使用自上而下的语义信息, 所以对于单幅图像其只需要提取一次显著性视觉特征就可以用来生成任意长度和任意数量的句子; 最后, 全局显著性特征提取器只输出一条全局显著性视觉向量, 能够显著减少解码器端提取视觉信息时的计算量.

    2)提出了即时显著性特征提取器. 本文的即时显著性特征提取器有两方面的作用: 首先即时显著性特征提取器能够根据解码器当前的隐含层状态, 动态决定从全局显著性视觉向量中获取哪些视觉特征, 并有效控制视觉特征在语言模型预测单词时的参与比例, 该比例可以为0, 避免了空间注意力模型强制向语言模型输入视觉特征的问题; 其次即时显著性特征提取器的计算量明显小于空间注意力模型, 执行速度要优于空间注意力模型.

    3)提出由全局显著性特征提取器和即时显著性特征提取器组成的SFEM, 使用SFEM能够大幅提高编码器−解码器模型生成图像描述的准确性, 并且相比于广泛使用的空间注意力模型, SFEM在生成图像描述的准确性和时间性能两方面都具有明显的优势.

    4)将全局显著性特征提取器和即时显著性特征提取器分别与空间注意力模型组合使用, 实验结果表明本文的全局显著性特征提取器和即时显著性特征提取器单独使用时也能提升空间注意力模型生成图像描述的准确性.

    视觉特征提取器通常也称为编码器, 主要作用是从输入图像中提取整张图像上的视觉特征. 本文选用在ImageNet数据集上预训练过的Inception-V4作为编码器. 首先将任意尺寸的图像预处理为$ 229\times229 $像素, 然后将图像送入编码器中提取其视觉特征. 在Inception-V4中, 第3个Inception-C模块输出1 536个通道的特征图, 每个特征图的尺寸为$8\times8$, 将这些特征图由$ C\times W\times H $形变为$(W\times H)\times $$ C$, 从而得到局部视觉向量集合$\{{\boldsymbol v}_{1},{\boldsymbol v}_{2},\cdots,{\boldsymbol v}_{64}\}, {\boldsymbol v}_{i}\in $$ {\bf{R}}^{1\;536}$, 如图2所示, 本文将图像划分为规则的网格, $ {\boldsymbol v}_{i} $的感受野对应于图像上第$ i $个格子, 另外取平均层的输出为全局视觉向量${\boldsymbol g}\in{\bf{R}}^{1\;536}$, 对应的感受野是整幅图像.

    图 2  局部视觉向量与图像的对应关系
    Fig. 2  Correspondence between local visual vectors and image

    语言模型通常也称为解码器, 对于给定的一幅图像$ {\cal I} $, 我们的目标是生成描述这幅图像内容的一条句子$ {\cal S} = \left\{{\cal S}_{1},{\cal S}_{2},\cdots,{\cal S}_{N}\right\} $, 其中$ {\cal S}_{i} $表示句子中第$ i $个单词. 遵循图像描述中有监督学习的优化方式, 建立语言模型时的优化目标是最大化产生图像正确描述的概率, 所以理想情况下, 模型的参数$ \theta $应该满足

    $$ \theta^{\ast} = \arg\max\limits_{\theta} \sum\limits_{\left({\cal I},{\hat{\cal S}}\right)}\log p\left({\hat{\cal S}}|{\cal I};\theta\right) $$ (1)

    其中, $ \theta $是模型的参数, $ {\cal I} $是一幅图像, $ {\hat{\cal S}} $是这幅图像对应的正确描述. 使用链式法则展开$ p({\hat{\cal S}}|{\cal I};\theta) $

    $$ \log p\left({\hat{\cal S}}|{\cal I}\right) = \sum\limits_{t = 1}^N\log p\left({\hat{\cal S}}_{t}|{\cal I},{\hat{\cal S}}_{1},\cdots,{\hat{\cal S}}_{t-1}\right) $$ (2)

    为了在表达上简洁, 我们去掉了$ \theta $. 本文使用单层的LSTM网络对$p({\hat{\cal S}}_{t}|{\cal I},{\hat{\cal S}}_{1},\cdots,{\hat{\cal S}}_{t-1})$进行建模, 即

    $$ \begin{split} &{\boldsymbol i}_{t} = \sigma\left(W_{ix}{\boldsymbol x}_{t} + W_{ih}{\boldsymbol h}_{t-1} + W_{i{\hat{v}}}{\hat{\boldsymbol v}}_{t}\right)\\ &{\boldsymbol f}_{t} = \sigma\left(W_{fx}{\boldsymbol x}_{t} + W_{fh}{\boldsymbol h}_{t-1} + W_{f{\hat{v}}}{\hat{\boldsymbol v}}_{t}\right)\\ &{\boldsymbol o}_{t} = \sigma\left(W_{ox}{\boldsymbol x}_{t} + W_{oh}{\boldsymbol h}_{t-1} + W_{o{\hat{v}}}{\hat{\boldsymbol v}}_{t}\right) \\ &{\boldsymbol g}_{t} = \tanh\left(W_{gx}{\boldsymbol x}_{t} + W_{gh}{\boldsymbol h}_{t-1} + W_{g{\hat{v}}}{\hat{\boldsymbol v}}_{t}\right)\\ &{\boldsymbol c}_{t} = {\boldsymbol f}_{t}\odot {\boldsymbol c}_{t-1} + {\boldsymbol i}_{t}\odot {\boldsymbol g}_{t}\\ &{\boldsymbol h}_{t} = {\boldsymbol o}_{t}\odot\tanh\left({\boldsymbol c}_{t}\right)\\ &p\left({\hat{\cal S}}_{t}|{\cal I},{\hat{\cal S}}_{1},\cdots,{\hat{\cal S}}_{t-1}\right) = \delta\left({\rm{softmax}}\left({\boldsymbol h}_{t}\right),k\right)\\ &{\boldsymbol x}_{0} = \tanh\left(W_{x{\hat{v}}}{\hat{\boldsymbol v}}\right) \end{split} $$ (3)

    其中, $ \delta({\boldsymbol x},k) $表示取向量$ {\boldsymbol x} $$ k $维上的值, $ {\hat{\boldsymbol v}} $表示全局显著性视觉向量, $ {\hat{\boldsymbol v}}_{t} $表示解码器在$ t $时刻所需的显著性视觉向量, W表示网络权重.

    在图像描述领域, 解码器之所以可以生成描述图像内容的句子, 核心之处在于向解码器中输入了视觉特征, 这些视觉特征能够指导编码器生成与图像内容相关的图像描述. 而如何在合适的时间向解码器中输入合适的视觉特征则是让解码器生成最符合图像内容的描述的关键之处. 本文提出了显著性特征的概念, 并在提取显著性视觉特征, 过滤非显著性视觉特征的思想指导下设计出SFEM, 如图3所示, SFEM包含GE和IE两个部分. GE能够自适应地提取视觉向量$ {\boldsymbol v}_{i} $上的显著性视觉特征, 过滤掉非显著性视觉特征. 然后GE会将所有局部视觉向量$ {\boldsymbol v}_{i} $上的显著性视觉特征整合到唯一的一条特征向量中, 称其为全局显著性视觉特征向量$ {\hat{\boldsymbol v}} $, 之后解码器所需的一切视觉信息只需要从$ {\hat{\boldsymbol v}} $上获取. GE为

    $$ {\hat{\boldsymbol v}} = \phi({\boldsymbol g},V) $$ (4)
    图 3  SFEM网络结构
    Fig. 3  Structure of SFEM

    IE能够根据LSTM的隐含层状态$ {\boldsymbol h}_{t-1} $$ {\hat{\boldsymbol v}} $中自适应地提取$ t $时刻所需的显著性视觉特征, 并能够灵活地控制视觉信息在解码器中的参与比例, 避免无关的视觉信息干扰解码器预测单词, 这一点十分有益于解码器生成语法和语义上正确的句子. IE为

    $$ {\hat{\boldsymbol v}}_{t} = \gamma\left({\hat{\boldsymbol v}},{\boldsymbol h}_{t-1}\right) $$ (5)
    2.3.1   全局显著性特征提取器

    使用编码器对给定图像提特征得到全局视觉向量$ {\boldsymbol g}\in{\bf{R}}^{D} $和局部视觉向量集合$ \{{\boldsymbol v}_{1},{\boldsymbol v}_{2},\cdots,{\boldsymbol v}_{N}\}, {\boldsymbol v}_{i}\in$$ {\bf{R}}^{K}. $ $ {\boldsymbol g} $是对整幅图像上视觉信息的编码, $ {\boldsymbol v}_{i} $是对图像上局部区域上视觉信息的编码. 正如之前所提到的, 我们认为在每条视觉向量上都存在显著性视觉特征和非显著性视觉特征, 其中显著性视觉特征对于解码器生成图像描述有用, 需要保留下来, 而非显著性视觉特征则会作为噪声干扰解码器生成图像描述, 需要过滤掉. 对于${\boldsymbol v}_{i} = [\alpha_{1},\alpha_{2},\cdots,\alpha_{K}]^{\mathrm{T}},$在GE中直观地将$ {\boldsymbol v}_{i} $的每个维度$ \alpha_{i} $视为一种特征, 并定义权重系数$ d^{\phi}_{j} $对该特征进行过滤

    $$ \begin{split} &\alpha^{\prime}_{j} = \alpha_{j} d^{\phi}_{j}\\ &d^{\phi}_{j} = \sigma\left(\sum\limits_{h}w^{v}_{jh}\alpha_{h} + \sum\limits_{h}w^{g}_{jh}\beta_{h}\right) \end{split}$$ (6)

    其中, 参数$ w^{v}_{jh} $$ w^{g}_{jh} $需要网络在训练中学习, $ \sigma $表示sigmoid函数, $ \beta_{h} $是全局视觉向量$ {\boldsymbol g} $$ h $维的值. 因此相比于空间注意力模型为$ \{{\boldsymbol v}_{1},{\boldsymbol v}_{2},\cdots,{\boldsymbol v}_{N}\} $构建$ N $个权重系数, 本文的GE能够会为其构建$ N\times K $个权重系数, 这意味着每个局部视觉向量的每个特征值都能被关注到, 从而最大程度地保证了模型对非显著性特征的过滤, 为单个视觉向量构建权重系数如下:

    $$ {\boldsymbol d}^{\phi}_{i} = \sigma\left(W_{vd} {\boldsymbol v}_{i}+W_{gd}{\boldsymbol g}\right) $$ (7)

    其中, $ W_{vd}\in{\bf{R}}^{K\times K}, W_{gd}\in{\bf{R}}^{K\times D} .$ 值得注意的是, 对于任意的$ {\boldsymbol v}_{i} {\text{,}}$ GE为其构建$ {\boldsymbol d}^{\phi}_{i} $时共用同一套参数$ W_{vd} $$ W_{gd}{\text{.}} $ 所以就网络的参数量而言, GE其实和空间注意力模型基本一致. 另外为了减少解码器一端的计算量, 本文将GE从各个局部视觉向量中提取到的显著性视觉特征融合到$ {\hat{\boldsymbol v}} $中, $ {\hat{\boldsymbol v}} $的计算方式为

    $$ {\hat{\boldsymbol v}} = \frac{ {\sum \limits_{i = 1}^{N}} {\boldsymbol d}^{\phi}_{i}\odot{\boldsymbol v}_{i} }{N} $$ (8)

    $ {\hat{\boldsymbol v}} $实际上包含了整幅图像上所有重要的视觉信息, 所以解码器只需要从$ {\hat{\boldsymbol v}} $获取视觉信息就能够生成正确的图像描述, 从而能够减少解码器提取视觉特征时的计算量. 最后由于本文的GE位于解码器一端, 所以对于单幅图像GE只需要执行一次就可以用来生成任意数量、任意长度的图像描述. 而生成一个长度为$ n $的句子, 空间注意力模型需要执行$ n $次.

    2.3.2   即时显著性特征提取器

    解码器在预测图像描述时需要两种信息的支持, 首先是前文的语义信息, 其次是图像上的视觉信息. 在本文方法中, 通过GE对局部视觉向量集合$ \{{\boldsymbol v}_{1},{\boldsymbol v}_{2},\cdots,{\boldsymbol v}_{N}\} $中的显著性视觉特征进行提取, 大量的非显著性视觉特征已经被过滤, 但是解码器是按时间顺序逐个预测单词来生成图像描述的, 对于不同的单词, 解码器所需的显著性视觉特征不同, 而于同一个单词, 在图像描述中出现第$ i $次和第$ i+1 $次时, 其所需的显著性视觉特征也不相同. 为此本文提出IE用来从$ {\hat{\boldsymbol v}} $中提取解码器在每一时刻所需显著性视觉特征. 对于$ {\hat{\boldsymbol v}} = [\alpha_{1},\alpha_{2},\cdots,\alpha_{K}]^{\mathrm{T}} $, 在IE中采取与GE类似的方法, 为每一维的特征值$ \alpha_{i} $赋予一个权重, 来衡量$ \alpha_{i} $的显著性程度. 所以对于$ {\hat{\boldsymbol v}} $, IE需要为其生成$ K $维的权重向量$ {\boldsymbol d}_{t}^{\gamma} .$ $ {\boldsymbol d}_{t}^{\gamma} $的构建使用解码器的$ t-1 $时刻的隐含层状态$ {\boldsymbol h}_{t-1}\in $$ {\bf{R}}^{L} $作为指导, 因为$ {\boldsymbol h}_{t-1} $包含了已生成单词序列的语义信息, 所以训练好的模型可以通过$ {\boldsymbol h}_{t-1} $来选择$ t $时刻预测单词可能会用到的显著性视觉特征, 即

    $$ {\boldsymbol d}_{t}^{\gamma} = W_{hv}{\boldsymbol h}_{t-1} $$ (9)

    其中, $ W_{hv}\in{\bf{R}}^{K\times L} $是网络需要在训练中学习的参数. 将$ {\boldsymbol d}_{t}^{\gamma} $$ {\hat{\boldsymbol v}} $对应元素相乘就可以获得$ t $时刻输入解码器的显著性视觉向量$ {\hat{\boldsymbol v}}_{t} $

    $$ {\hat{\boldsymbol v}}_{t} = {\boldsymbol d}_{t}^{\gamma}\odot{\hat{\boldsymbol v}} $$ (10)

    从网络的参数量上来看, 本文的IE是非常少的, 并且IE在计算上也非常精简, 因为虽然本文的IE需要在预测每个单词时都执行一次, 但IE只涉及到$ {\boldsymbol h}_{t-1} $$ {\hat{\boldsymbol v}} $这两个输入, 并且计算过程仅仅是对$ {\boldsymbol h}_{t-1} $进行一个线性变换, 再加一个向量间的对应元素相乘的操作, 所以本文的IE每次执行所需的时间要远远小于包括空间注意力模型在内的自定向下注意力模型. 值得注意的是, 本文的IE不会强制向解码器输入视觉信息, 因为$ \|{\boldsymbol d}_{t}^{\gamma}\|\geq0 $, 所以当$ {\hat{\boldsymbol v}} $中没有解码器在t时刻需要的视觉特征时, $ {\boldsymbol d}_{t}^{\gamma} $每一维的值都为0, 从而将$ {\hat{\boldsymbol v}} $上所有特征都作为非显著性特征进行过滤.

    本文网络采用端到端的训练方式, 训练过程中固定视觉特征提取器的参数, 只对SFEM和语言模型进行训练. 语言模型的损失函数也是整个网络的损失函数, 即

    $$ {\cal L} = -\log p\left({\hat{\cal S}}|{\cal I}\right) = -\sum\limits_{t = 2}^{N}\log p\left({\hat{\cal S}}_{t}|{\cal I},{\hat{\cal S}}_{1},\cdots,{\hat{\cal S}}_{t-1}\right) $$ (11)

    我们使用MS COCO数据集[22]来评价本文提出的方法. MS COCO的训练集有82 783幅图像, 验证集中有40 504幅图像, 并且每幅图像对应5个标注句子, 这5个句子的表达方式以及描述内容不尽相同, 但这5个句子都是对图像中内容的描述. 本文使用Karpathy[23]中的数据划分方式进行模型的训练和评估, 训练集不变, 依旧是82 783幅图像, 从原来的验证集中选择5 000幅图像来做验证集, 选择5 000幅图像来做测试集. 对数据集的处理参照文献[19]的一系列处理方式, 包括将句子中的字母都转换为小写、删除非字母数字的符号、使用空格将单词分割等. 本文只保留在所有句子组成的集合中, 至少出现5次的单词, 这样一来, 本文最终的词库大小为10 516. 对于句子长度, 本文限制在30个单词以内, 并且这30个单词包括句子的开始符号BOS和句子的结束符号EOS.

    本文使用BLEU1, BELU2, BELU3, BELU4[24], METEOR (Metric for evaluation of translation with explicit ordering)[25], 以及CIDER[26], ROUGE (Recall-oriented understudy for gisting evaluation)[27], SPICE (Semantic propositional image caption evaluation)[28]作为评价标准. 对于这些评价标准的计算, 使用的是MS COCO图像描述评价工具.

    本文的GE能够从局部视觉向量中获取到显著性视觉特征, 但是GE是通道级别的注意力, 人类很难去理解每个通道表示的是什么, 所以本文采用了一种间接的方式, 可视化出显著性特征在图像上的分布, 以此来展示显著性特征与图像中的哪些内容能够对应起来.

    本文通过$ W_{i} $来衡量GE从$ {\boldsymbol v}_{i} $提取的显著性视觉特征的量, 具体表示为

    $$ W_{i} = \frac{\|{\boldsymbol d}^{\phi}_{i}\odot{\boldsymbol v}_{i}\|_{1}}{K} $$ (12)

    其中, $ \|{\boldsymbol v}\|_{1} $表示向量的L1范数, $ K $$ {\boldsymbol v}_{i} $的维度. 结合第2.3.1节对GE的介绍, 可以看出当$ W_{i} $为0时, GE未从$ {\boldsymbol v}_{i} $上提取到任何视觉特征. $ W_{i} $越大, 说明GE从$ {\boldsymbol v}_{i} $上提取的显著性视觉特征越多.

    图4$ W_{i} $的可视化结果, 每个子图中左边是原图, 中间是$ W_{i} $的可视化图, 右边是原图和$ W_{i} $的可视化图的叠加, 文字为本文的SFEM生成的图像描述. 在本文的实验中, 视觉特征提取器会从图像中提取出64个局部视觉向量, 按顺序对应于图像的64个区域. 本文将每个$ {\boldsymbol v}_{i} $对应的$ W_{i} $平铺于对应的区域, 得到$ W_{i} $的可视化图, 其中灰度值越大表示GE从该区域的显著性视觉特征越多, 反之则越少. 从图4中可以发现, GE更加关注图像上与周围环境差异比较大的区域, 对于形状、纹理、颜色相似的区域则会适当降低关注. 由此可以推测, 通过GE在训练过程中的学习可以得知, 这些相似的区域能够向语言模型提供的视觉特征基本一致, 并且这些区域大概率是背景. 为了避免这部分视觉特征在$ {\hat{\boldsymbol v}} $所占比重过高, GE通常认为这些区域的视觉特征的显著性程度低; 而与周围环境差异比较大的区域通常会存在模型感兴趣的实体对象, 所以GE认为这些区域的视觉特征显著性程度高. 需要注意的是模型不会将图像上所有实体对象所在区域都作为感兴趣区域. 由于一句话所能表达的内容有限, 因此模型会与人的表达行为相似, 通常只表达自己感兴趣的内容, 从这一点来看, 本文的GE其实是一个内容注意力模块, 对照图5可以看出GE能够决定语言模型将要描述的图像内容.

    图 4  显著性特征在空间上的分布
    Fig. 4  Spatial distribution of salient features
    图 5  即时显著性特征随预测单词的变化
    Fig. 5  The change of instant salient features with predicted words

    全局显著性视觉向量$ {{\hat{\boldsymbol v}}} $中包含了整幅图像中的显著性视觉特征, 但是语言模型预测不同单词时需要的视觉特征并不相同, 每个单词只与$ {\hat{\boldsymbol v}} $中部分视觉特征相关, 所以IE需要向语言模型提供t时刻最需要的视觉特征, 这些视觉特征和模型在t时刻预测出的单词具有较强的相关性, 这些视觉特征称为t时刻预测单词对应的显著性视觉特征.

    本文通过$ D_{t} $来衡量IE在$ t $时刻提取显著性视觉特征的量, $ D_{t} $等于$ {\boldsymbol d}_{t}^{\gamma}\odot{\hat{\boldsymbol v}} $的L1范数除以$ {\hat{\boldsymbol v}} $的维数, 即

    $$ D_{t} = \frac{\|{\boldsymbol d}_{t}^{\gamma}\odot{\hat{\boldsymbol v}}\|_{1}}{K} $$ (13)

    结合第2.3.2节对IE的介绍, 可以看出当$ D_{t} $为0时, IE不会从全局显著性视觉向量中提取到任何视觉特征, 此时解码器对单词的预测完全参考LSTM在$ t $时刻之前累积的语义特征. 当$ D_{t} $越大时, 说明LSTM在$ t $时刻参考的视觉特征越多.

    本文认为一个完全符合图像内容的句子, 它的每一个单词都应该在图像上有据可查, 所以单词对应的$ D_{t} $值通常不会为0, 而$ D_{t} $值的高低主要取决于3个因素: 首先是单词的抽象程度(抽象程度越低则$ D_{t} $值越高); 其次是单词对应的图像内容应大致位于GE给出的显著性程度较高的区域(GE会过滤掉大量视觉特征); 最后是单词在数据集中出现的频数(频数越高则$ D_{t} $值越高). 通常情况下不考虑单词出现的频数, 只有当单词出现的频数过低时, 频数才会成为主因. 本文对单词的抽象程度进行了简单定义: 可以从图像上直接观察到, 不需要根据图像内容做出推理的单词我们认为其抽象程度比较低, 需要根据图像内容进行推理或者需要根据英语语法进行推理的单词我们认为其抽象程度比较高(注意单词的抽象程度与词性没有直接关系, 实体对象的名称、数量和属性通常都可以从图像上直接观察到, 所以它们的抽象程度一般都比较低).

    我们使用本文模型为测试集中所有图像生成对应句子, 然后统计该单词在所有句子中$ D_{t} $的均值, 从而得到$ \overline{D}_{t} $, 在表1中给出了$ \overline{D}_{t} $值最高的20个单词. 可以看出这些单词包括实体对象的名称以及属性, 通常情况下可以从图像上直接观察到. 我们对图5第1张图中每个单词进行详细分析: 第1个单词“a”表示摩托车的数量, 可以直接从图像中观察到, 所以其抽象程度较低; 第2个单词“motorcycle”表示摩托车的类别名称, 可以直接从图像中观察到, 所以其抽象程度较低; 第3个单词“parked”抽象程度比较高, 因为模型需要从摩托车上没有人来推测它的状态是停放的; 第4个单词“in”抽象程度比较高, 因为模型需要根据语法和图像内容进行推理才能得到; 第5个单词“a”抽象程度比较高, 因为这一个“a”并不是很直观, 它需要从语法和图像内容进行推理才能得到; 第6个单词“dirt”表示地面的属性, 但是模型不需要识别出“field”, 模型从“field”所在的显著性程度较高的单块区域就可以判断出泥地面是脏的; 第7个单词“field”对应的图像内容大部分位于GE给出的显著性程度较低的区域, 从仅剩的几块显著性较高的区域模型很难识别出“field”; 第8个单词“next”抽象程度比较高, 因为模型需要从摩托车和栅栏的位置关系推理得到, 以此类推后面的几个单词的$ D_{t} $值.

    表 1  $\bar{D_{t}}$值最高的20个单词
    Table 1  The top-20 words with $\bar{D_{t}}$ value
    单词$\overline{D}_{t}$单词$\overline{D}_{t}$单词$\overline{D}_{t}$
    hood0.0592ducks0.0565doughnut0.0546
    cats0.0589pug0.0564baby0.0546
    teddy0.0576rug0.0561bird0.0545
    little0.0573hummingbird0.0556pen0.0543
    duck0.0571pasta0.0549motorcycle0.0543
    bananas0.0569horse0.0547colorful0.0542
    seagull0.0565panda0.0546
    下载: 导出CSV 
    | 显示表格

    1) Encoder-Decoder + SFEM. 本文使用第2.1节的视觉特征提取器作为编码器, 以第2.2节提到的语言模型作为解码器, 搭建出编码器−解码器模型作为实验的基准模型, 在基准模型上面分别添加空间注意力模型和本文提出的SFEM进行对比实验. 如表2所示, 本文模型比基准模型在BLEU-4值上提升了8.63%, 在CIDER值上提升了11.24%. 本文模型比空间注意力模型在BLEU-4值上提升了4.29%, 在CIDER上提升了5.79%.

    表 2  Encoder-Decoder + SFEM在MS COCO数据集上的表现(%)
    Table 2  The performance of Encoder-Decoder + SFEM on MS COCO dataset (%)
    模型名称BLEU-1BLEU-2BLEU-3BLEU-4METEORROUGE-LCIDERSPICE
    Encoder-Decoder[7, 19]72.255.441.731.324.653.095.517.2
    Encoder-Decoder + Spatial Attention[7, 19]73.457.043.232.625.354.0100.118.5
    Encoder-Decoder + SFEM75.158.844.934.026.355.2105.919.5
    下载: 导出CSV 
    | 显示表格

    2) Up-Down-SFEM. 为了充分对比SFEM和空间注意力模型的性能, 并验证显著性目标检测方法能否提高SFEM的性能, 本文以文献[20]中提出的Up-Down模型作为基准模型进行实验. Up-Down模型包含自底向上注意力模型和自顶向下注意力模型, 其中自底向上注意力模型也是视觉特征提取器, 由一个Faster-RCNN (Region-based convolutional neural network)[29] 构成, 自顶向下注意力模型就是空间注意力模型. Up-Down模型使用Faster-RCNN从图像上检测出显著性目标, 并提取出显著性目标对应的视觉向量, 每个显著性目标对应一个视觉向量, 所以视觉特征提取器输出的也是一个局部视觉向量集合, 接下来这些局部视觉向量会送给空间注意力模型用来获得语言模型预测每个单词时所需的视觉特征. 由于文献[20]中训练Up-Down模型使用了额外的VG (Visual genome)[30]数据集, 以及强化学习[31], 所以本文对Up-Down模型的实现细节以及训练方式可参考文献[21]. 实验中使用SFEM替换掉空间注意力模型来对比SFEM和空间注意力的性能, 表3中Up-Down-Spatial Attention表示按照文献[21] 方法实现的Up-Down模型, Up-Down-SFEM表示用SFEM替换空间注意力模块后的模型. 我们取Faster-RCNN中(Region proposal network)之前的视觉特征提取网络作为编码器, 构造了一个编码器−解码器模型并为其添加SFEM模块, 以此来验证用显著性目标检测方法替换掉编码器能否提高SFEM的性能, 在表3中将该模型表示为Encoder-Decoder$ ^{\star} $+ SFEM. 对比Encoder-Decoder$ ^{\star} $+ SFEM和Up-Down-SFEM的结果, 可以看出使用显著性目标检测方法并没有明显提高SFEM的性能, 其中BLEU-4和ROUGE-L值有轻微的下降, 我们认为有两方面的原因, 首先是SFEM中GE本身就具有选取显著性区域的能力, 所以显著性目标检测方法对SFEM的增益有限; 其次是显著性目标检测方法会将实体对象分割开来, 可能会丧失表示实体对象相互关系的特征. 另外对比Encoder-Decoder$ ^{\star} $+ SFEM和Up-Down-Spatial Attention的结果, 可以看出在显著性目标检测方法的辅助下, 空间注意力模型的性能才能够接近本文的SFEM, 但这样进一步降低了空间注意力模型的时间性能.

    表 3  Up-Down + SFEM在MS COCO数据集上的表现(%)
    Table 3  The performance of Up-Down + SFEM on MS COCO dataset (%)
    模型名称BLEU-1BLEU-2BLEU-3BLEU-4METEORROUGE-LCIDERSPICE
    Encoder-Decoder$^{\star}$+ SFEM74.355.842.133.225.754.5105.219.4
    Up-Down-Spatial Attention[20-21]74.255.742.333.225.954.1105.219.2
    Up-Down-SFEM74.656.042.433.126.054.2106.119.7
    下载: 导出CSV 
    | 显示表格

    3) SFEM的时间性能. 在表4中给出了空间注意力模型和本文的SFEM的时间性能对比, 对于Karpathy划分下的测试集中的5 000个样本, 本文模型在单块Nvidia TITAN X GPU环境下测试得到FPS值比空间注意力模型高17.34%, 在Intel Xeon CPU环境下本文模型的FPS值比空间注意力模型高43.80%. 事实上, 现有的很多图像方法都是在空间注意力模型的基础上添加模块得到的, 所以这些方法的计算复杂度都要比空间注意力模型高, 相应在速度上都要比空间注意力模型慢. 所以, 本文方法相比这些方法在速度上的优势明显.

    表 4  本模型和空间注意力模型的时间性能对比(帧/s)
    Table 4  Time performance comparison between our model and the spatial attention model (frame/s)
    模型名称帧速率
    (GPU)
    帧速率
    (CPU)
    Encoder-Decoder + Spatial Attention[7, 19]69.836.3
    Encoder-Decoder + SFEM81.952.2
    下载: 导出CSV 
    | 显示表格

    空间注意力模型可以表示为

    $$ \begin{split} &{\hat{\boldsymbol v}}_{t} = \sum\limits_{i = 1}^{N}\dfrac{\exp\left(\alpha\left({\boldsymbol v}_{i},{\boldsymbol h}_{t-1}\right)\right)}{\sum\limits_{j = 1}^{N}\exp\left(\alpha\left({\boldsymbol v}_{j},{\boldsymbol h}_{t-1}\right)\right)}{\boldsymbol v}_{i}\\ &\alpha\left({\boldsymbol v}_{i},{\boldsymbol h}_{t-1}\right) = {\boldsymbol w}_{\alpha}^{\rm{T}}\tanh\left(W_{v\alpha} {\boldsymbol v}_{i}+W_{h\alpha} {\boldsymbol h}_{t-1}\right) \end{split} $$ (14)

    实验中, $ W_{h\alpha} $与式(9)中$ W_{hv} $参数量相同, 所以$ W_{h\alpha} {\boldsymbol h}_{t-1} $与式(9)的计算量是一致的, 式(10)是两个向量对应元素相乘, 它的计算量相比矩阵乘法可以忽略不记, 所以$ W_{h\alpha} {\boldsymbol h}_{t-1} $的计算量几乎等同于整个IE的计算量, 另外由于生成每个单词时$\alpha({\boldsymbol v}_{i}, $$ {\boldsymbol h}_{t-1}) $需要计算$ N $次, 所以IE的计算量远远小于空间注意力模型.

    表5中是各个模块单次执行时平均花费的时间, 其中GE单次执行花费的时间和空间注意力模型相当, 但是由于GE对于单幅图像只需要执行一次就可以用来生成任意长度、任意数量的图像描述, 所以在生成图像描述的完整过程中GE花费的时间小于空间注意力模型. IE与空间注意力模型类似, 在生成每个单次时都要执行一次, 但是GPU环境下空间注意力模型花费的时间是IE的4.79倍, CPU环境下空间注意力模型花费的时间是IE的21.84倍.

    表 5  各个模块单次执行平均花费时间(s)
    Table 5  The average time spent by each module in a single execution (s)
    模型名称单次执行时间 (GPU)单次执行时间 (CPU)
    Spatial Attention[7, 19]0.000350.0019
    GE0.000340.0020
    IE0.0000730.000087
    下载: 导出CSV 
    | 显示表格

    4) SFEM与其他注意力模型的对比. 表6中列出了近几年在图像描述领域常用的一些注意力模型, 其中Soft-Attention、Hard-Attention与本文中对比的空间注意力模型基本一致, 本文的SFEM性能优于这两种注意力模型, SCA-CNN和Up-Down是在空间注意力模型上添加新的模块改进得到的, 可以看出本文的SFEM与这些改进过的空间注意力模型也是具有可比性的, 所以我们认为本文提出的SFEM能够作为一种新的注意力模型应用在图像描述领域.

    表 6  本文模型在MS COCO数据集上的表现(%)
    Table 6  The performance of our model on MS COCO dataset (%)
    模型名称BLEU-1BLEU-2BLEU-3BLEU-4METEORROUGE-LCIDERSPICE
    Soft-Attention[16]70.749.234.424.323.9
    Hard-Attention[16]71.850.435.725.023.0
    Semantic Attention[9]70.953.740.230.424.3
    SCA-CNN[18]71.954.841.131.125.0
    Up-Dwon[20]74.255.742.333.225.954.1105.219.2
    本文: SFEM75.158.844.934.026.355.2105.919.5
    下载: 导出CSV 
    | 显示表格
    图 6  本文模型生成的图像描述展示
    Fig. 6  Image descriptions generated by the model of this paper

    1) 全局显著性特征提取器+空间注意力模型. 本文的全局显著性特征提取器与空间注意力模型配合使用时需要做以下两个改变: 首先是使用全局显著性视觉信息向量$ {\hat{\boldsymbol v}} $替代全局视觉向量${\boldsymbol g};$ 其次是重新构建一个局部显著性视觉信息向量集合$\left\{{\boldsymbol v}^{\prime}_{1}, \right. $$\left. {\boldsymbol v}^{\prime}_{2},\cdots,{\boldsymbol v}^{\prime}_{N}\right\} $替代局部视觉向量集合, 具体表示为

    $$ {\boldsymbol v}^{\prime}_{i} = {\boldsymbol d}^{\phi}_{i}\odot {\boldsymbol v}_{i} $$ (15)

    2) 即时显著性特征提取器+空间注意力模型. 本文的即时显著性特征提取器和空间注意力模型配合使用时有两种方式: 第1种是空间注意力模型在前, 而即时显著性特征提取器在后; 第2种则是即时显著性特征提取器在前, 而空间注意力模型在后. 这两种方式都能够提升空间注意力模型的性能, 但是第2种方式的提升更加明显, 所以本文仅对第2种组合方式进行介绍. 第2种组合方式将即时显著性特征提取器作用于每一个局部视觉向量上, 相当于重新构建了一个局部显著性视觉信息向量集合$ \left\{{\boldsymbol v}^{\prime\prime}_{1},{\boldsymbol v}^{\prime\prime}_{2},\cdots,{\boldsymbol v}^{\prime\prime}_{N}\right\} $替代最初的局部视觉向量集合, 具体表示为

    $$ {\boldsymbol v}^{\prime\prime}_{i} = {\boldsymbol d}_{t}^{\gamma}\odot {\boldsymbol v}_{i} $$ (16)

    表7中给出了全局显著性特征提取器结合空间注意力模型的实验结果以及即时显著性特征提取器结合空间注意力模型的实验结果, 可以看出空间注意力模型添加了全局显著性特征提取器和即时显著性特征提取器之后, 在各个评估标准上都能取得一定程度的提高.

    表 7  组合模型在MS COCO数据集上的表现(%)
    Table 7  Performance of the combined model on MS COCO dataset (%)
    模型名称BLEU-1BLEU-2BLEU-3BLEU-4METEORROUGE-LCIDERSPICE
    Spatial Attention[7, 19]73.457.043.232.625.354.0100.118.5
    GE+Spatial Attention74.557.944.033.125.954.4103.619.0
    IE+Spatial Attention74.357.844.033.325.954.7102.718.9
    下载: 导出CSV 
    | 显示表格

    目前空间注意力模型结合编码器−解码器框架在图像描述领域得到了广泛的应用, 但是空间注意力模型有3个主要的缺陷. 本文按照语言模型对图像上视觉信息的需求, 将每条视觉向量上的特征分为显著性视觉特征和非显著性视觉特征, 在提取显著性视觉特征过滤非显著性特征的思想指导下, 本文尝试提出一种新的显著性特征提取机制(SFEM) 用来替代空间注意力模型, 实验表明, 本文的SFEM在图像描述的各个评价指标上均优于空间注意力模型, 并且时间性能明显优于空间注意力模型.

  • 图  1  本文网络模型

    Fig.  1  Structure of our network

    图  2  局部视觉向量与图像的对应关系

    Fig.  2  Correspondence between local visual vectors and image

    图  3  SFEM网络结构

    Fig.  3  Structure of SFEM

    图  4  显著性特征在空间上的分布

    Fig.  4  Spatial distribution of salient features

    图  5  即时显著性特征随预测单词的变化

    Fig.  5  The change of instant salient features with predicted words

    图  6  本文模型生成的图像描述展示

    Fig.  6  Image descriptions generated by the model of this paper

    表  1  $\bar{D_{t}}$值最高的20个单词

    Table  1  The top-20 words with $\bar{D_{t}}$ value

    单词$\overline{D}_{t}$单词$\overline{D}_{t}$单词$\overline{D}_{t}$
    hood0.0592ducks0.0565doughnut0.0546
    cats0.0589pug0.0564baby0.0546
    teddy0.0576rug0.0561bird0.0545
    little0.0573hummingbird0.0556pen0.0543
    duck0.0571pasta0.0549motorcycle0.0543
    bananas0.0569horse0.0547colorful0.0542
    seagull0.0565panda0.0546
    下载: 导出CSV

    表  2  Encoder-Decoder + SFEM在MS COCO数据集上的表现(%)

    Table  2  The performance of Encoder-Decoder + SFEM on MS COCO dataset (%)

    模型名称BLEU-1BLEU-2BLEU-3BLEU-4METEORROUGE-LCIDERSPICE
    Encoder-Decoder[7, 19]72.255.441.731.324.653.095.517.2
    Encoder-Decoder + Spatial Attention[7, 19]73.457.043.232.625.354.0100.118.5
    Encoder-Decoder + SFEM75.158.844.934.026.355.2105.919.5
    下载: 导出CSV

    表  3  Up-Down + SFEM在MS COCO数据集上的表现(%)

    Table  3  The performance of Up-Down + SFEM on MS COCO dataset (%)

    模型名称BLEU-1BLEU-2BLEU-3BLEU-4METEORROUGE-LCIDERSPICE
    Encoder-Decoder$^{\star}$+ SFEM74.355.842.133.225.754.5105.219.4
    Up-Down-Spatial Attention[20-21]74.255.742.333.225.954.1105.219.2
    Up-Down-SFEM74.656.042.433.126.054.2106.119.7
    下载: 导出CSV

    表  4  本模型和空间注意力模型的时间性能对比(帧/s)

    Table  4  Time performance comparison between our model and the spatial attention model (frame/s)

    模型名称帧速率
    (GPU)
    帧速率
    (CPU)
    Encoder-Decoder + Spatial Attention[7, 19]69.836.3
    Encoder-Decoder + SFEM81.952.2
    下载: 导出CSV

    表  5  各个模块单次执行平均花费时间(s)

    Table  5  The average time spent by each module in a single execution (s)

    模型名称单次执行时间 (GPU)单次执行时间 (CPU)
    Spatial Attention[7, 19]0.000350.0019
    GE0.000340.0020
    IE0.0000730.000087
    下载: 导出CSV

    表  6  本文模型在MS COCO数据集上的表现(%)

    Table  6  The performance of our model on MS COCO dataset (%)

    模型名称BLEU-1BLEU-2BLEU-3BLEU-4METEORROUGE-LCIDERSPICE
    Soft-Attention[16]70.749.234.424.323.9
    Hard-Attention[16]71.850.435.725.023.0
    Semantic Attention[9]70.953.740.230.424.3
    SCA-CNN[18]71.954.841.131.125.0
    Up-Dwon[20]74.255.742.333.225.954.1105.219.2
    本文: SFEM75.158.844.934.026.355.2105.919.5
    下载: 导出CSV

    表  7  组合模型在MS COCO数据集上的表现(%)

    Table  7  Performance of the combined model on MS COCO dataset (%)

    模型名称BLEU-1BLEU-2BLEU-3BLEU-4METEORROUGE-LCIDERSPICE
    Spatial Attention[7, 19]73.457.043.232.625.354.0100.118.5
    GE+Spatial Attention74.557.944.033.125.954.4103.619.0
    IE+Spatial Attention74.357.844.033.325.954.7102.718.9
    下载: 导出CSV
  • [1] Kulkarni G, Premraj V, Ordonez V, Dhar S, Li S M, Choi Y, et al. BabyTalk: Understanding and generating simple image descriptions. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2013, 35(12): 2891-2903 doi: 10.1109/TPAMI.2012.162
    [2] Mao J H, Xu W, Yang Y, Wang J, Yuille A L. Deep captioning with multimodal recurrent neural networks (m-RNN). In: Proceedings of the 3rd International Conference on Learning Representations. San Diego, USA: ICLR, 2015.
    [3] 汤鹏杰, 王瀚漓, 许恺晟. LSTM逐层多目标优化及多层概率融合的图像描述. 自动化学报, 2018, 44(7): 1237-1249

    Tang Peng-Jie, Wang Han-Li, Xu Kai-Sheng. Multi-objective layer-wise optimization and multi-level probability fusion for image description generation using LSTM. Acta Automatica Sinica, 2018, 44(7): 1237-1249
    [4] Cho K, Van Merriënboer B, Gulcehre C, Bahdanau D, Bougares F, Schwenk H, et al. Learning phrase representations using RNN encoder-decoder for statistical machine translation [Online], available: https://arxiv.org/pdf/1406.1078v3.pdf, September 3, 2014
    [5] Bahdanau D, Cho K, Bengio Y. Neural machine translation by jointly learning to align and translate. In: Proceedings of the 3rd International Conference on Learning Representations. San Diego, USA: ICLR, 2015.
    [6] Sutskever I, Vinyals O, Le Q V. Sequence to sequence learning with neural networks. In: Proceedings of the 27th International Conference on Neural Information Processing Systems. Montreal, Canada: NIPS, 2014.
    [7] Vinyals O, Toshev A, Bengio S, Erhan D. Show and tell: A neural image caption generator. In: Proceedings of the 2015 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Boston, USA: IEEE, 2015. 3156−3164
    [8] 张雪松, 庄严, 闫飞, 王伟. 基于迁移学习的类别级物体识别与检测研究与进展. 自动化学报, 2019, 45(7): 1224-1243

    Zhang Xue-Song, Zhuang Yan, Yan Fei, Wang Wei. Status and development of transfer learning based category-level object recognition and detection. Acta Automatica Sinica, 2019, 45(7): 1224-1243
    [9] You Q Z, Jin H L, Wang Z W, Fang C, Luo J B. Image captioning with semantic attention. In: Proceedings of the 2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Las Vegas, USA: IEEE, 2016. 4651−4659
    [10] Hochreiter S, Schmidhuber J. Long short-term memory. Neural Computation, 1997, 9(8): 1735-1780 doi: 10.1162/neco.1997.9.8.1735
    [11] Jia X, Gavves E, Fernando B, Tuytelaars T. Guiding the long-short term memory model for image caption generation. In: Proceedings of the 2015 IEEE International Conference on Computer Vision (ICCV). Santiago, Chile: IEEE, 2015. 2407−2415
    [12] Wu Q, Shen C H, Liu L Q, Dick A, Van Den Hengel A. What value do explicit high level concepts have in vision to language problems? In: Proceedings of the 2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Las Vegas, USA: IEEE, 2016. 203−212
    [13] Yang Z L, Yuan Y, Wu Y X, Cohen W W, Salakhutdinov R R. Review networks for caption generation. In: Proceedings of the 30th International Conference on Neural Information Processing Systems. Barcelona, Spain: NIPS, 2016.
    [14] 奚雪峰, 周国栋. 面向自然语言处理的深度学习研究. 自动化学报, 2016, 42(10): 1445-1465

    Xi Xue-Feng, Zhou Guo-Dong. A survey on deep learning for natural language processing. Acta Automatica Sinica, 2016, 42(10): 1445-1465
    [15] 侯丽微, 胡珀, 曹雯琳. 主题关键词信息融合的中文生成式自动摘要研究. 自动化学报, 2019, 45(3): 530-539

    Hou Li-Wei, Hu Po, Cao Wen-Lin. Automatic Chinese abstractive summarization with topical keywords fusion. Acta Automatica Sinica, 2019, 45(3): 530-539
    [16] Xu K, Ba J, Kiros R, Cho K, Courville A, Salakhudinov R, et al. Show, attend and tell: Neural image caption generation with visual attention. In: Proceedings of the 32nd International Conference on Machine Learning. Lille, France: JMLR.org, 2015. 2048−2057
    [17] Lu J S, Xiong C M, Parikh D, Socher R. Knowing when to look: Adaptive attention via a visual sentinel for image captioning. In: Proceedings of the 2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Honolulu, USA: IEEE, 2017. 3242−3250
    [18] Chen L, Zhang H W, Xiao J, Nie L Q, Shao J, Liu W, et al. SCA-CNN: Spatial and channel-wise attention in convolutional networks for image captioning. In: Proceedings of the 2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Honolulu, USA: IEEE, 2017. 6298−6306
    [19] Chen X P, Ma L, Jiang W H, Yao J, Liu W. Regularizing RNNs for caption generation by reconstructing the past with the present. In: Proceedings of the 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Salt Lake City, USA: IEEE, 2018. 7995−8003
    [20] Anderson P, He X D, Buehler C, Teney D, Johnson M, Gould S, et al. Bottom-up and top-down attention for image captioning and visual question answering. In: Proceedings of the 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Salt Lake City, USA: IEEE, 2018. 6077−6086
    [21] Lu J S, Yang J W, Batra D, Parikh D. Neural baby talk. In: Proceedings of the 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Salt Lake City, USA: IEEE, 2018. 7219−7228
    [22] Lin T Y, Maire M, Belongie S, Hays J, Perona P, Ramanan D, et al. Microsoft COCO: Common objects in context. In: Proceedings of the 13th European Conference on Computer Vision. Zurich, Switzerland: Springer, 2014. 740−755
    [23] Karpathy A, L F F. Deep visual-semantic alignments for generating image descriptions. In: Proceedings of the 2015 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Boston, USA: IEEE, 2015. 3128−3137
    [24] Papineni K, Roukos S, Ward T, Zhu W J. BLEU: A method for automatic evaluation of machine translation. In: Proceedings of the 40th Annual Meeting on Association for Computational Linguistics. Philadelphia, USA: ACL, 2002. 311−318
    [25] Banerjee S, Lavie A. METEOR: An automatic metric for MT evaluation with improved correlation with human judgments. In: Proceedings of the ACL Workshop on Intrinsic and Extrinsic Evaluation Measures for Machine Translation and/or Summarization. Ann Arbor, USA: ACL, 2005. 65−72
    [26] Vedantam R, Zitnick C L, Parikh D. CIDEr: Consensus-based image description evaluation. In: Proceedings of the 2015 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Boston, USA: IEEE, 2015. 4566−4575
    [27] Lin C Y. ROUGE: A package for automatic evaluation of summaries. In: Proceedings of the Workshop on Text Summarization Branches Out, Post-Conference Workshop of ACL 2004. Barcelona, Spain: Association for Computational Linguistics, 2004.
    [28] Anderson P, Fernando B, Johnson M, Gould S. SPICE: Semantic propositional image caption evaluation. In: Proceedings of the 14th European Conference on Computer Vision. Amsterdam, the Netherlands: Springer, 2016.
    [29] Ren S Q, He K M, Girshick R, Sun J. Faster R-CNN: Towards real-time object detection with region proposal networks. In: Proceedings of the 28th International Conference on Neural Information Processing Systems. Montreal, Canada: NIPS, 2015. 91−99
    [30] Krishna R, Zhu Y K, Groth O, Johnson J, Hata K, Kravitz J, et al. Visual genome: Connecting language and vision using crowdsourced dense image annotations. International Journal of Computer Vision, 2017, 123(1): 32-73 doi: 10.1007/s11263-016-0981-7
    [31] Rennie S J, Marcheret E, Mroueh Y, Ross J, Goel V. Self-critical sequence training for image captioning. In: Proceedings of the 2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Honolulu, USA: IEEE, 2017. 1179−1195
  • 期刊类型引用(4)

    1. 马勇. 基于时空轨迹数据的交通流量的预警方法研究. 自动化技术与应用. 2024(04): 138-141 . 百度学术
    2. 乔新博,赵永强,张景程. 基于空间偏振混叠特性的红外偏振视频目标跟踪. 兵工学报. 2024(09): 3274-3287 . 百度学术
    3. 连政,王瑞,李海昌,姚辉,胡晓惠. 基于语境辅助转换器的图像标题生成算法. 自动化学报. 2023(09): 1889-1903 . 本站查看
    4. 刘青茹,李刚,赵创,顾广华,赵耀. 基于多重注意结构的图像密集描述生成方法研究. 自动化学报. 2022(10): 2537-2548 . 本站查看

    其他类型引用(16)

  • 加载中
图(6) / 表(7)
计量
  • 文章访问数:  1037
  • HTML全文浏览量:  633
  • PDF下载量:  292
  • 被引次数: 20
出版历程
  • 收稿日期:  2019-04-01
  • 录用日期:  2019-09-12
  • 网络出版日期:  2022-01-12
  • 刊出日期:  2022-03-25

目录

/

返回文章
返回