2.845

2023影响因子

(CJCR)

  • 中文核心
  • EI
  • 中国科技核心
  • Scopus
  • CSCD
  • 英国科学文摘

留言板

尊敬的读者、作者、审稿人, 关于本刊的投稿、审稿、编辑和出版的任何问题, 您可以本页添加留言。我们将尽快给您答复。谢谢您的支持!

姓名
邮箱
手机号码
标题
留言内容
验证码

LSTM逐层多目标优化及多层概率融合的图像描述

汤鹏杰 王瀚漓 许恺晟

汤鹏杰, 王瀚漓, 许恺晟. LSTM逐层多目标优化及多层概率融合的图像描述. 自动化学报, 2018, 44(7): 1237-1249. doi: 10.16383/j.aas.2017.c160733
引用本文: 汤鹏杰, 王瀚漓, 许恺晟. LSTM逐层多目标优化及多层概率融合的图像描述. 自动化学报, 2018, 44(7): 1237-1249. doi: 10.16383/j.aas.2017.c160733
TANG Peng-Jie, WANG Han-Li, XU Kai-Sheng. Multi-objective Layer-wise Optimization and Multi-level Probability Fusion for Image Description Generation Using LSTM. ACTA AUTOMATICA SINICA, 2018, 44(7): 1237-1249. doi: 10.16383/j.aas.2017.c160733
Citation: TANG Peng-Jie, WANG Han-Li, XU Kai-Sheng. Multi-objective Layer-wise Optimization and Multi-level Probability Fusion for Image Description Generation Using LSTM. ACTA AUTOMATICA SINICA, 2018, 44(7): 1237-1249. doi: 10.16383/j.aas.2017.c160733

LSTM逐层多目标优化及多层概率融合的图像描述

doi: 10.16383/j.aas.2017.c160733
基金项目: 

江西省教育厅科学技术研究项目 GJJ170643

上海高校特聘教授(东方学者)跟踪计划 GZ2015005

国家自然科学基金 61622115

国家自然科学基金 61472281

详细信息
    作者简介:

    汤鹏杰  同济大学计算机科学与技术系博士研究生.主要研究方向为计算机视觉和深度学习.E-mail:5tangpengjie@tongji.edu.cn

    许恺晟  同济大学计算机科学与技术系硕士研究生.主要研究方向为图像理解和深度学习.E-mail:iaalm@tongji.edu.cn

    通讯作者:

    王瀚漓 同济大学计算机科学与技术系教授.主要研究方向为视频编码, 计算机视觉和机器学习.本文通信作者.E-mail:hanliwang@tongji.edu.cn

Multi-objective Layer-wise Optimization and Multi-level Probability Fusion for Image Description Generation Using LSTM

Funds: 

Scientific Research Foundation of the Education Bureau of Jiangxi Province GJJ170643

Program for Professor of Special Appointment (Eastern Scholar) at Shanghai Institutions of Higher Learning GZ2015005

National Natural Science Foundation of China 61622115

National Natural Science Foundation of China 61472281

More Information
    Author Bio:

    Ph. D. candidate in the Department of Computer Science and Technology, Tongji University. His research interest covers computer vision and deep learning

    Master student in the Department of Computer Science and Technology, Tongji University. His research interest covers image understanding and deep learning

    Corresponding author: WANG Han-Li Professor in the Department of Computer Science and Technology, Tongji University. His research interest covers video coding, computer vision, and machine learning. Corresponding author of this paper
  • 摘要: 使用计算模型对图像进行自动描述属于视觉高层理解,要求模型不仅能够对图像中的目标及场景进行描述,而且能够对目标与目标之间、目标与场景之间的关系进行表达,同时能够生成符合一定语法和结构的自然语言句子.目前基于深度卷积神经网络(Convolutional neural network,CNN)和长短时记忆网络(Long-short term memory,LSTM)的方法已成为解决该问题的主流,虽然已取得巨大进展,但存在LSTM层次不深,难以优化的问题,导致模型性能难以提升,生成的描述句子质量不高.针对这一问题,受深度学习思想的启发,本文设计了基于逐层优化的多目标优化及多层概率融合的LSTM(Multi-objective layer-wise optimization/multi-layer probability fusion LSTM,MLO/MLPF-LSTM)模型.模型中首先使用浅层LSTM进行训练,收敛之后,保留原LSTM模型中的分类层及目标函数,并添加新的LSTM层及目标函数重新对模型进行训练,对模型原有参数进行微调;在测试时,将多个分类层使用Softmax函数进行变换,得到每层对单词的预测概率分值,然后将多层的概率分值进行加权融合,得到单词的最终预测概率.在MSCOCO和Flickr30K两个数据集上实验结果显示,该模型性能显著,在多个统计指标上均超过了同类其他方法.
  • 通过计算机将一幅图像使用自然语言自动描述出来具有广泛的应用前景, 例如早期婴幼儿教育[1]、视觉生理功能障碍者辅助[1-2]、智能人机交互及机器人开发等.该任务对于人类而言非常简单, 给定一幅图像, 人类能够很轻易地对图像中的信息进行形象化描述, 但对于计算机来说则非常困难.它属于图像理解中的高层部分, 对于图像的语义信息理解要求较高; 不同于较为简单的图像分类和目标识别, 它不仅要求能够识别出图像中的目标, 还要求对目标的属性、动作、目标与目标之间的关系、目标与背景之间的关系等进行理解; 同时还要求系统能够将这些信息组合成人类易于理解的、具有一定语法结构的自然语言形式.在众多工作中, 使用基于模板的方法生成图像描述非常具有代表性, 它将检测到的图像目标信息填入结构固定的句子模板中[3-7]; 此外, 还有基于转换的方法, 它通过检索相似的图像, 将已有的图像信息转移到待描述的图像上[8-11].

    这些方法虽然具有一定的效果, 但也有着极大的局限性, 例如基于模板的方法不能生成新的句子结构, 基于转换的方法则不能描述图像中新出现的目标或场景.受机器翻译技术的启发, 人们又提出基于"编码--解码"流程的图像描述模型.它首先将图像视为源语言, 将其编码为特征向量, 然后使用循环神经网络(Recurrent neural network, RNN)等技术将其翻译成目标语言[12].这种方法生成的句子更加灵活, 也更符合人们的习惯, 目前该技术已经在图像描述任务上取得了重要进展, 尤其是基于卷积神经网络(Convolutional neural network, CNN)和长短时记忆网络(Long-short term memory, LSTM)的模型, 在多个数据集上都获得了较好的效果[1-2, 13-15].但目前基于该技术的模型也存在LSTM网络层次不深, 难以训练的缺点, 导致模型的性能受到限制, 其生成的句子在语义信息丰富程度及连贯性等方面效果欠佳.

    为解决这一问题, 本文设计了基于逐层优化的多目标优化及多层概率融合的LSTM (Multi-objective layer-wise optimization and multi-level probability fusion LSTM, MLO/MLPF-LSTM)模型.该模型借鉴了Hinton等提出的在深度学习中使用逐层优化的思想[16]及文献[17-19]中的深度模型优化方法, 首先训练出一个浅层LSTM网络, 在此基础上, 为模型添加新的LSTM层, 继续训练, 同时对低层参数进行微调; 为使得低层参数能够得到进一步的优化, 也为了避免模型陷入过拟合状态, 给模型增加额外的正则化信息, 使用多目标优化策略[17-19], 在为LSTM网络添加新的层次时, 保留原有的分类层和目标函数.在测试时, 提出多层概率融合的方法, 即通过投票的方式, 将多个分类层输出的概率分值使用加权平均的方法计算最终概率分值.在MSCOCO和Flickr30K两个数据集上的实验结果表明, 本文模型生成的句子语义更加丰富, 质量更高, 在多个指标上均高于同类其他模型.

    本文结构为:第1节介绍图像描述方面的相关工作; 第2节展示设计的模型和方法, 对相关的CNN、LSTM等技术进行说明, 通过图示、形式化方法等对MLO/MLPF-LSTM模型进行描述; 第3节是实验, 通过多组实验对模型进行验证, 并与当前其他主流模型进行对比, 证明所提出模型的有效性.第4节是结论, 总结本文工作, 并明确下一步的研究方向.

    使用自然语言描述视觉信息已具有一定的研究历史, 但早期的研究主要集中于视频描述领域[20], 人们借助模式识别和机器学习等技术开发视频到文字描述的转换系统.这类系统一般采用手工特征, 系统鲁棒性不强, 且应用范围不广.近期对于图像的描述生成也在快速发展, 其主要任务是给定一副图像, 让计算机能够自动识别出其中的背景、主要物体及图像中各部分之间的相互关系, 并将其转换成自然语言的形式表达出来.它不同于传统的图像分类、模式识别及目标检测等, 是一种更为高级、更为复杂的图像理解任务.

    在图像描述中, 基于模板的方法是常用的方法之一, 首先对图像中的物体、动作、场景等信息进行检测, 然后将对应的词汇填入格式固定的句子模板中, 从而将图像转换成自然语言[3-7].这种方法较为直观, 但要求为每类信息都加上明确的人工标注, 并严重依赖分类器的性能, 当训练数据较少时, 其性能受到极大制约; 此外, 由于模板固定, 生成的句子较为呆板, 灵活性不够, 与人工标注的参考句子相差较大.

    除基于模板的方法之外, 基于转换的方法也是一种重要的图像描述生成策略.在文献[8-11]的工作中, 首先在训练库中为测试样本检索相似的图像, 然后将检索到的图像描述转移到待测图像上, 进而生成图像描述.这种方法比基于模板的方法更为灵活, 生成的描述句子也更为自然, 但过于依赖查询库, 当查询库中没有相似的图像时, 生成的句子与原图内容之间具有很大偏差.

    目前, 随着深度学习在图像分类[18, 21-25]、目标检测[18, 22]、复杂系统控制[26]、游戏开发[27]及机器翻译等领域的巨大成功, 很多研究者开始尝试将深度学习中的CNN技术应用到图像描述领域, 并取得了一系列重要成果, 使得生成句子的质量有了很大提高.这些方法大都借鉴了机器翻译的流程.采用"编码--解码"的方式生成图像描述句子. Karpathy等在工作中结合RCNN (Region-based CNN)和双向RNN等多种技术, 根据图像中目标的结构和位置, 提出一种新的多模RNN模型[14].文献[1]使用了多模RNN技术, 认为图像特征和嵌入的单词序列是任务的多个模态, 通过对多个模态的共同学习, 最终生成图像描述句子. Xu等在文献[15]中提出一种新的思路, 将视觉注意机制与LSTM相结合, 通过学习物体的位置信息, 模拟人类的视觉注意机制, 并生成相关的单词序列.文献[28]认为上述模型只关注于图像的局部信息, 对全局信息捕捉不够, 对图像中物体之间的位置关系描述不够准确, 因此提出gLSTM模型, 提取图像与其描述之间的关系作为整体语义信息, 指导句子的生成.

    以上工作虽然获得了巨大成功, 但总体来说流程较为复杂, 模型复杂度较高, 例如文献[14]首先使用RCNN技术, 识别出图像中的各种物体, 然后对各物体的位置信息进行建模排序, 最后使用双向RNN组合成新的句子; 文献[15]要求在训练和测试时对视觉注意区域进行定位采样.

    文献[2]和文献[13]采用"端到端"的生成方式, 过程较为简单, 将图像看作源语言, 将自然语言看作目标语言.首先使用CNN模型提取图像特征, 对图像进行编码, 然后送入LSTM网络, 对特征进行解码, 生成对应的图像内容描述句子.以上工作在多个数据集上取得了显著效果, 但在其模型中, 解码部分在使用LSTM网络时层数较浅, 对图像和单词序列嵌入向量的非线性变换次数较少, 性能受到限制; 而在较深的LSTM模型中, 性能反而有所下降[13].本文提出的方法遵循与其相似的流程, 采用"编码--解码"的方式生成图像描述句子.但与同类研究工作不同的是使用了更深层次的LSTM网络, 在训练时使用逐层优化的策略, 并使用多级目标函数对模型进行监督, 克服了多层LSTM模型难以优化的弊端, 在测试时融合多层LSTM输出的概率分值, 进一步提升预测精度, 使得生成的描述句子质量更高.

    CNN模型由一系列的卷积、激活及池化等线性或非线性变换模块所组成.图像信息经过多次变换, 得到的特征更为抽象, 泛化能力更强.众多研究已经证明, 基于CNN特征的视觉模型性能远超基于手工特征(例如HOG (Histogram of oriented gradient), SIFT (Scale invariant feature transform)等)的模型, 且在一定程度上, 模型层次越多, 深度越深, CNN特征的表达能力和可辨别能力越强, 模型性能越好[18, 21-23, 29].

    Lecun等提出并设计的LeNet5模型在手写数字识别上性能显著[30], 证明了CNN模型的优越性; Krizhevsky等将深度学习的思想应用于CNN模型, 增加了模型的深度, 并使用ReLU (Rectified linear unit)和Dropout等技术解决梯度消失和过拟合问题, 设计的Alex-Net在ILSVRC2012的竞赛中获得冠军[21].以Alex-Net为标志, 基于CNN的深度模型获得了快速发展, 此后出现的Chatfield-Net[31], GoogLeNet[18]和VGG16/VGG19[22]等模型在ILSVRC竞赛中不断取得更大成功, 并在多个视觉任务中都取得了重要进展. CNN模型的层次越来越多, 各种优化方法也不断被提出, 例如近期出现的ResNet[23], 借助增强低层残差的方式, 解决优化困难问题, 深度达152层, 并在Imagenet[32]等多个数据集上取得显著效果.综合各模型性能表现, 并保证对比的公平性, 本文使用VGG16模型提取图像的CNN特征.

    LSTM是一种特殊的RNN单元[33-34], 是为了解决传统RNN网络中存在的梯度消失问题提出来的.在传统的RNN网络中, 使用跨时间的梯度反向传播算法(Back propagation through time, BPTT)对参数进行迭代更新, 但随着时间步的增加, 后续节点的梯度在反向传播过程中逐步下降, 难以对前续节点形成有效更新, 使得模型优化失败[35].因此, 在测试阶段, 当时间序列过长时, 后续节点很难从前续节点中获得较为有效的信息, 难以解决时间序列的"长期依赖"问题, 预测精度较差.为解决该问题, 研究者们设计了LSTM单元, 在每个时间步中, 添加了记忆单元和多个门(Gate), 记忆单元用于存储状态信息, 门用于控制何时及如何更新记忆单元的状态.

    记忆单元与各种门的连接状态如图 1所示, 其中$x_t$表示$t$时刻的输入, $h_{t-1}$和$h_t$分别表示$(t-1)$时刻和$t$时刻的输出, $\sigma$表示使用sigmoid函数对信息进行变换; $\odot$表示逐点相乘, $C_t$为存储状态.忘记门(Forget gate)用于控制从存储状态丢弃或继续保存前一时刻的信息; 输入门(Input gate)用于确定需要更新的信息; 整个单元通过忘记门和输入门更新存储状态$C_t$; 输出门(Output gate)用于确定存储状态$C_t$中哪些信息用于输出.其计算过程由以下一系列公式共同完成.

    图 1  LSTM单元
    Fig. 1  LSTM unit

    $ \begin{align} \begin{cases} f_t=\sigma(W_{xf} \times x_t + W_{ht} \times h_{t-1} + b_f) \\ i_t=\sigma(W_{xi} \times x_t + W_{hi} \times h_{t-1} + b_i) \\ \tilde{c}_t=\tanh(W_{xc} \times x_t + W_{hc} \times h_{t-1} + b_c) \\ c_t=f_t \odot c_{t-1} + i_t \odot \tilde{c}_t \\ o_t=\sigma(W_{xo} \times x_t + W_{ho} \times h_{t-1} + b_o) \\ h_t=o_t \odot \tanh(c_t) \end{cases} \end{align} $

    (1)

    其中, $b$对应各个门的偏置值, $W_x$表示与输入信息$x$相关的各个门的权值, $W_h$表示与前一时刻的输出$h_{t-1}$相关的各个门的权值, $c_t$为状态$C_t$的输出, $\tilde{c}_t$为临时状态$\tilde{C}_t$的输出.

    目前, 已有多种对LSTM单元改进的工作, 例如Gers等提出的Peephole-LSTM[36], Cho等提出的GRU (Gated recurrent unit)[37]等. Greff等通过研究指出, 各种LSTM变体和传统LSTM在很多任务上性能趋同[38].为了便于比较, 本文使用文献[8, 13]采用的LSTM单元.

    相关研究已经证明, CNN + LSTM架构对于解决图像描述问题效果明显[2, 8, 13].使用CNN模型提取的图像特征表达能力及可辨别能力强, 采用LSTM结构能够记忆句子中的单词序列; 将CNN特征和单词序列共同映射到嵌入空间进行训练和测试, 模型具有结构简单、鲁棒性强的特点.一般过程为: 1)在训练阶段, 使用CNN模型提取图像特征, 将图像编码为一个长度固定的特征向量, 然后将其与单词的嵌入式向量一起组成多模特征, 并送入LSTM网络, 经过LSTM的一系列变换, 生成单词序列的概率向量矩阵, 并将其转换为对应的单词序列, 然后使用距离函数求取生成单词序列矩阵与参考句子中的单词序列矩阵之间的距离, 通过BPTT算法对LSTM中的参数进行更新优化. 2)在测试阶段, 提取图像特征后, 映射到嵌入空间, 送给LSTM, 由LSTM生成单词序列的概率矩阵, 矩阵中每个概率向量中最大值对应的单词即为预测单词, 按顺序组合在一起, 生成描述句子.

    在CNN模型中, 模型深度是保证特征抽象性及模型泛化能力的关键[18, 21-23, 29].我们尝试将这一思想应用到LSTM中.对LSTM网络来说, 其"宽度"越大, 时间步越多, 记忆能力越强, 但模型复杂度也会大幅上升. LSTM网络的深度对性能的影响, 相关研究不多, 文献[13]认为2层的LSTM已经达到深度的极限, 增加LSTM的层次反而会使性能下降, 其实验结果也证明了这一观点.通过分析, 可以发现这与深度LSTM网络的梯度衰减有关.在LSTM单元中, 激活函数多采用tanh和sigmoid函数, 梯度值被限制在$(-1, 1)$区间; 相邻两层LSTM节点之间采用全连接的方式, 当采用链式求导法则将梯度向前回传时, 其值将越来越小, 对低层LSTM网络中的参数调整有限, 进而对高层LSTM中的参数优化造成影响, 导致整个网络性能下降.为解决这一问题, 本文方法借鉴Hinton等在训练深度置信网络(Deep belief network, DBN)时采用的逐层优化方法, 即在原有已训练好的模型基础上, 添加新的层次并重新训练, 然后对整个模型进行微调.为了防止因参数规模增加导致的过拟合问题, 在逐层优化的基础上, 借鉴文献[17-19]中的模型优化方法, 设计了多目标优化模型, 对语言模型进行更加充分的优化, 同时使用多个低层目标函数对整个模型进行部分扰动, 添加额外的正则化信息.

    整个训练模型如图 2图 3所示, 图 2表示基准模型(Benchmark model), "BoS"表示句子开始字符, "EoS"表示句子结束字符, $word-t$表示$t$时刻参考句子中的单词, $word-t'$表示$t$时刻系统生成的单词, $E(\cdot)$表示交叉熵误差.在结构上, 为了防止LSTM网络在较后时间步中缺乏图像的整体信息, 本文采用将图像的CNN特征输入LSTM网络中每个时间步的方式, 同时使用"因子分解(Factored way)"的LSTM网络构建方式, 即首先将单词的嵌入式向量送入LSTM网络, 然后将其输出与上述编码后的图像特征向量一起送入另一个LSTM网络, 并由该网络及其相连的分支输出所有单词的预测概率; 文献[13]表明, 这种方法比"非因子分解(Un-factored way)"的结构性能更优.

    图 2  训练第1阶段(基准模型)
    Fig. 2  The $1$st stage in training process (benchmark model)
    图 3  训练第$K$阶段
    Fig. 3  The $K$th stage in training process

    图 3中, $K$表示模型中训练的总阶段数, Deep-1为图 2中的基准模型(Benchmark model), $\{$Deep-2, $\cdots, $ Deep-$K\}$中每项的网络结构与Deep-1相同, $\{$Deep-1, $\cdots, $ Deep-$(K-1)\}$表示已训练好的模型, Deep-$K$表示新添加的LSTM网络.在训练时, 当添加新的LSTM层进行训练时, 保留已训练好的LSTM层中的全连接层和目标函数, 并与新的全连接层及目标函数一起进行优化.模型中低层的辅助分支及其目标函数能够对低层参数提供更加充分的优化; 同时, 由于低层特征抽象能力不足, 辅助分支上的目标函数能够对模型参数产生一定的扰动, 为模型提供更多的正则化信息, 防止模型陷入过拟合状态[20].

    在测试阶段, 为了充分利用已训练好的参数, 将每个全连接层的输出使用Softmax函数进行变换, 将其转换为隶属于单词表中某个单词的概率分值; 由于低层特征输入高层LSTM网络后, 经过多次非线性变换, 其特征空间将变换到另一个特征空间, 因此各层的概率输出可近似认为是非相关的; 受集成模型的启发, 将所有输出的概率分值进行加权求和, 得到新的概率分值向量, 向量中最大值对应的位置即为预测单词的映射位置.如图 4所示, 它是一个使用三阶段训练的模型.测试时, 输入一张图像, 经过多次卷积、激活和池化等操作, 图像被编码为长度固定的特征向量, 然后送入LSTM网络, 与前一个状态输出的单词一起预测当前状态的输出单词. 图 4中$p_1^i$, $p_2^i$和$p_3^i$分别表示Deep-1, Deep-2和Deep-3输出的概率分值, 它们共同决定最终的预测单词; 若使用更深的LSTM网络, 其原理类似.

    图 4  MLPF-LSTM图像描述生成流程
    Fig. 4  The pipeline of image description generation in MLPF-LSTM

    在对模型进行优化时, 目标函数定义为

    $ \begin{align} O=\arg\min\limits_{\theta_1, \theta_2}(\mathcal{L}:f((x, \theta_1);(s, \theta_2))\mapsto {\bf R}) \end{align} $

    (2)

    其中, $f(\cdot)$为系统函数, $x$为图像训练样本, $s$为图像描述句子训练样本, $\theta_1$为CNN网络中的参数集合, $\theta_2$为LSTM网络中的参数集合, $\mathcal{L}$为损失函数.整个系统的目标是在实数域${\bf R}$中寻找一组合适的$\theta_1$和$\theta_2$, 使得$\mathcal{L}$最小. %整个系统的目标是寻找一组合适的$\theta_1$和$\theta_2$, 使得%$\mathcal{L}$最小.

    在实际操作中, 将$\mathcal{L}$分为$\mathcal{L}_1$和$\mathcal{L}_2$, $\mathcal{L}_1$表示CNN网络的损失函数, $\mathcal{L}_2$表示LSTM网络的损失函数. $\mathcal{L}$可定义为

    $ \begin{align} \mathcal{L}=\mathcal{L}_1 + \frac{1}{K}\sum\limits_{k=1}^K\mathcal{L}_2^k \end{align} $

    (3)

    其中, $K$表示LSTM网络中使用的总的阶段数, $k$表示在使用逐层多目标方法优化LSTM网络时的第$k$个阶段, $\mathcal{L}_2^k$表示LSTM网络中第$k$个阶段的损失函数.

    $\mathcal{L}$中的$\mathcal{L}_1$和$\mathcal{L}_2$都采用交叉熵进行计算, 计算过程为

    $ \begin{align} \mathcal{L}_1=&-\frac{1}{n}\sum_{i=1}^n(y^{(i)}\log(x^{(i)})\, +\nonumber\\ &\ (1-y^{(i)})\log(1-x^{(i)})) \end{align} $

    (4)

    $ \begin{align} \mathcal{L}_2^k=&-\frac{1}{n}\sum_{i=1}^n \sum_{j=1}^{L^i}(r_j^i\log((s_j^i)_k) \,+\nonumber\\ &\ (1-r_j^i)\log(1-(s_j^i)_k)) \end{align} $

    (5)

    在式(4)中, $n$表示一次迭代中训练图像张数, $y^{(i)}$表示第$i$张图像的实际值(标签), $x^{(i)}$表示CNN网络的输出; 式(5)中, $L^i$表示第$i$张图像的参考句子长度, $r_j^i$表示第$i$张图像参考句子中第$j$个单词, $(s_j^i)_k$表示在第$k$个阶段第$i$张图像生成句子中的第$j$个单词.

    对于$\mathcal{L}_1$, 由于参数规模巨大, 样本量较少的数据集难以对其进行充分优化, 极易发生过拟合现象, 所以一般先采用大规模数据集对模型参数进行初始化(例如Imagenet[32]、Place205[39]等), 然后将收敛后的模型作为预训练模型, 在新的数据集上进行微调.对于$\mathcal{L}_2^k$, 在图像描述的数据集上迭代优化; 在模型顶端, 输出采用Softmax函数进行计算, 计算公式为

    $ P_k((s_j^i)_k=v)=\dfrac{{\rm e}^{( s_j^i)_k}}{\sum\limits_{j'\in V} {\rm e}^{(s_{j'}^i)_k}} $

    (6)

    其中, $v$表示单词表中的某个词汇, $V$表示单词表.通过式(6)可以得到输出的第$j$个单词属于单词表中所有单词的概率向量.

    测试时, 将多个阶段的概率分值通过加权平均的方式进行融合, 得到新的概率向量矩阵, 通过该矩阵预测新的单词.计算公式为

    $ P=\frac{1}{K}\sum\limits_{k=1}^K w_k P_k $

    (7)

    其中, $w_k$表示在融合时第$k$个阶段使用的权值, 根据在验证集上的经验获得.

    采用MSCOCO[40]和Flickr30K[41]公开数据集对模型进行验证.这两个数据集较大, 包含的训练样本较多, 使得LSTM网络不易陷入过拟合状态. MSCOCO数据集共有123 287张图像, 其中82 783张图像用于训练, 40 504张图像用于验证; 每张图像中包含至少5条人工标注的参考描述句子(如图 5所示).为保证对比的公平性, 遵循文献[13-14, 18]等工作中使用的规则, 在验证集中取5 000张图像和相关参考句子作为新的验证集, 另取5 000张图像及其参考句子作为测试集.在Flickr30K数据集中, 共有31 783张图像, 每张图像对应5条参考句子, 同样按照统一的使用规则, 将其中的29 000张图像及其参考句子作为训练集, 1 000张图像及其参考句子作为测试集, 其余样本作为验证集.具体使用时, 首先在验证集上寻找最优参数, 记录模型的收敛位置, 然后使用该位置上的训练模型对测试集进行测试.

    图 5  MSCOCO数据集中部分训练样本
    Fig. 5  The examples for training in MSCOCO dataset

    本文使用评价方法BLEU[42]、METEOR[43]和CIDEr[44]对生成的描述句子进行评价.其中BLEU方法是一种基于精度的度量方法, 主要思想是衡量生成的句子与参考句子之间的$n-Gram$精度, 用"B-$n$"表示所有精度的平均值, 取值在$(0, 1]$之间, 其值越大, 表明模型在该"B-$n$"上的效果越好; 在不同的"B-$n$"之间, $n$越大, 表示生成的句子连贯性越好.计算公式为

    $ \begin{align} {\rm BLEU}=b\times \exp\left(\sum\limits_{n=1}^N\left(\frac{1}{N}\log p_n\right)\right) \end{align} $

    (8)

    其中, $N$一般取$\{1, 2, 3, 4\}$, $b$表示惩罚项, 用于生成句子的长度小于参考句子的情况, 其值为

    $ \begin{align} b= \begin{cases} 1, &l_c \geq l_r \\ \exp\left(1-\dfrac{l_r}{l_c}\right),&l_c < l_r \end{cases} \end{align} $

    (9)

    其中, $l_r$表示参考句子的长度, $l_c$表示生成句子的长度.当生成句子长度大于参考句子时, 其值为1;当生成句子长度小于参考句子时, 降低其BLEU分值, 表示惩罚.

    式(8)中的$p_n$表示$n-Gram$下的匹配精度, 计算公式为

    $ \begin{align} p_n=\displaystyle\dfrac{\displaystyle\sum Count_{clip}(m_{n-gram})}{\displaystyle\sum Count_{clip}(c_{n-gram})} \end{align} $

    (10)

    其中, 分子项表示生成句子与参考句子中具有$n-Gram$匹配的次数, 分母项表示生成的句子中具有$n-Gram$的总数.

    BLEU方法重点考虑了生成句子中单词的准确率, 但对召回率考虑不足. METEOR自动评测方法既考虑了准确率, 也考虑了召回率[43], 首先使用任意匹配的方式将参考句子与生成句子中的单词按照精准匹配、同义匹配和前缀匹配的方式依次寻找匹配的最大值, 当三种匹配的最大值存在相同时, 选择按顺序两两匹配中交叉数最少的匹配作为"对齐(alignment)"; 通过不断迭代, 生成对齐集合, 然后将该集合中元素的个数与参考句子中单词总数的比值作为召回率, 与生成句子中单词总数的比值作为准确率, 然后使用调和平均值的方式计算最终值, 取值在$(0, 1]$之间, 其值越大, 说明生成的句子质量越高.

    CIDEr评价方法[44]引入了"共识"的概念, 通过计算生成句子和人工标注的参考句子之间的余弦距离对生成句子进行评价, 其值越大, 表明生成句子与图像中所有参考句子之间的语义相似度越大.该评价方法更多地考虑了生成句子的语义和内涵, 更加贴近人类的评价方法.

    本文使用深度学习框架Caffe[45]开发部署提出的模型, 采用文献[13]使用的LSTM单元结构.在提取图像特征方面, 采用结构简单且性能优越的VGG16模型[22].为了多方面验证模型效果, 本文使用两种方式对模型进行测试. 1)使用文献[22]中已优化完毕的VGG16模型作为特征提取器, 但其参数固定, 使其不参与语言模型的训练, 每个阶段的训练只是对LSTM网络中的参数进行优化, 记为MLO/MLPF-LSTM; 2)使用联调机制, 将在Imagenet上训练好的VGG16模型作为预训练模型, 其参数与LSTM网络中的参数一起进行微调, 记为MLO/MLPF-LSTM$^+$.

    在建立基准语言模型时, 为公平对比, 采用文献[13]的配置.在MSCOCO数据集中, 由于图像描述句子大都在20个词以内, 为降低模型复杂度, 将每层中的LSTM网络的时间步长设置为20;整个数据集中单词表长度为8 801;每个LSTM单元中隐层单元个数设置为1 000;在训练时, 设置最大迭代次数为150 K次, 通过观察在验证集上的收敛情况, 发现经过110 K次, 网络即已收敛, 因此, 在后续实验中, 将最大迭代次数一致设置为110 K次, 并使用迭代110 K的训练模型对测试集进行测试; 初始学习率设置为0.01, 为防止网络陷入局部最优, 使用逐步降低学习率的方式, 每迭代20 K次时, 将学习率降低为原来的10 %.

    测试时, 首先在验证集上使用多组权重对融合模型进行验证, 经对比发现, 在较低层次上权重较大时, 效果更好.经多次实验验证, 在2-stage上, 不同概率向量的权值设置为$[w_1, w_2]={[0.67, 0.33]}^{\rm T}$时, 融合效果更好; 在3-stage和4-stage上, 分别将其设置为$[w_1, w_2, w_3]={[0.4, 0.4, 0.2]}^{\rm T}$和$[w_1$, $w_2, w_3, w_4]={[0.3, 0.3, 0.2, 0.2]}^{\rm T}$时, 模型性能更优.在Flickr30数据集上, 单词表长度为7 406, 每个LSTM单元中隐层单元个数设置为512, 首次最大训练迭代次数为90 K次, 在验证集上迭代70 K次时达到收敛, 其他设置与在MSCOCO数据集上相同.

    使用VGG16和两层LSTM对模型进行训练, 并作为基准模型, 然后在基准模型的基础上, 添加新的LSTM层, 并保留原有的全连接层和目标函数, 使用已训练好的基准模型参数对模型进行初始化, 重新训练.在MSCOCO数据集上, 使用非联调方式(MLO/MLPF-LSTM)时, 部分实验结果如图 6所示.

    图 6  MLO/MLPF-LSTM (3-stage)模型生成的部分图像描述示例
    Fig. 6  Examples of image descriptions with MLO/ MLPF-LSTM (3-stage)

    图 6中, R表示人工标注的参考句子, B表示使用基准模型所生成的句子, C表示MLO/MLPF-LSTM (3-stage)模型生成的候选待评价句子(即生成的句子).从图 6可以看出, 本文模型生成的句子具有更好的语义表达, 较好地描述了图像的内容.与基准模型相比, 所提模型生成的句子更为合理, 语义更加丰富.例如第2张图像中, 基准模型生成的句子B把重点放在了"床(bed)"和"电视(television)"上, 对场景则重视不够; 而C首先指明了场景信息(bedroom), 然后说明场景中包含哪些物体, 句子更贴近人们的表达习惯.同样, 在第4张图像中, 所提模型生成的句子准确描述了"繁忙的城市(busy city)"和"交通灯(traffic lights)", 而使用基准模型生成的句子则缺乏这一精确描述.与人工标注的句子相比, 本文所提模型生成的有些句子更加合理, 例如第2张图像中, 生成句子不仅描述了"床(bed)"和"电视(television)", 还找出了"桌子(table)", 而"桌子(table)"在人工标注中并没有出现.但通过对比也发现, 本文模型所生成的句子缺少对图像中物体的形象化描述, 描述虽然客观, 但缺乏感情色彩和想象力.对于"电视(TV/television)", 人们可以使用"大(big, large)"和"平板(flat screen)"来形容; 在第2张图像中, 人们对"狗(dog)"使用了"棕色(brown)"、"小的(small)"来描述, 甚至联想到"狗(dog)"可能"累了(tired)", 但在生成句子中, 缺乏这方面的词汇和描述.

    为了对本文使用的三种策略进行充分评估, 衡量每种策略对模型的贡献, 分别对不使用任何策略增加语言模型深度的情况, 只使用逐层优化加深模型深度的情况, 同时使用逐层优化和多目标优化策略增加模型深度的情况, 以及三种策略同时使用时的情况进行实验验证, 四种情况分别记为: no-MLO, MLO1, MLO2和MLO/MLPF.在不同深度下, 各种情况的B-4和CIDEr如图 7所示.

    图 7  在MSCOCO数据集上使用不同策略加深模型深度时的性能表现
    Fig. 7  Performance under different strategies at each stage on MSCOCO

    通过对比可以发现, 无论使用非联调方式还是联调方式, 在不使用任何策略的情况下, 简单加深语言模型深度, 性能将急剧下降, 这是由于梯度消失造成的, 低层参数难以得到充分优化; 当使用逐层优化方法后, 模型性能趋于稳定, 克服了低层参数难以优化的弊端, 但整体性能并没有得到明显改善; 在此基础上, 结合多目标优化策略后, 模型性能有了显著提升; 而在使用融合策略后, 其性能得到进一步的提升.

    表 1表 2分别列出了在MSCOCO数据集上使用不同深度语言模型各阶段及融合后的实验结果. 表 3列出了在Flickr30K数据集上的实验结果, 其中, Baseline表示使用非联调方式基准模型得到的结果. Baseline$^+$表示使用联调方式基准模型得到的结果, 2-stage表示在基准模型上增加了2个LSTM层, LSTM网络共有4层; 同理, 3-stage和4-stage分别表示LSTM网络共有6层和8层; P1表示单独使用某阶段模型中的第1组概率分值得到的结果; P2, P3及P4表示单独使用第2, 3, 4组概率分值得到的结果.

    表 1  MSCOCO数据集上不同层次及多层融合之后的性能对比(非联调方式) ($\%$)
    Table 1  Performance comparison under different fusion conditions on MSCOCO (non-jointly optimizing) ($\%$)
    Models B-1 B-2 B-3 B-4 C
    Baseline 67.7 49.4 35.2 25.0 78.2
    2-stage P1 67.8 49.7 35.3 25.0 78.5
    P2 67.5 49.6 35.3 25.0 79.6
    Fusion 68.0 50.0 35.5 25.1 79.1
    3-stage P1 67.9 49.8 35.5 25.2 79.0
    P2 67.5 49.6 35.3 25.0 79.6
    P3 67.3 49.4 35.1 24.8 78.9
    Fusion 68.0 50.0 35.8 25.4 80.2
    4-stage P1 67.6 49.5 35.3 25.1 78.7
    P2 67.0 49.1 34.9 24.8 79.7
    P3 66.8 49.0 34.8 24.7 79.5
    P4 66.9 49.0 34.8 24.6 78.9
    Fusion 67.7 49.8 35.6 25.3 80.4
    C表示CIDEr
    下载: 导出CSV 
    | 显示表格
    表 2  MSCOCO数据集上不同层次及多层融合之后的性能对比(联调方式) ($\%$)
    Table 2  Performance comparison under different fusion conditions on MSCOCO (jointly optimizing) ($\%$)
    Models B-1 B-2 B-3 B-4 C
    Baseline$^+$ 70.2 52.7 38.3 27.6 86.2
    2-stage P1 70.2 52.7 38.4 27.8 88.4
    P2 69.9 52.6 38.3 27.7 87.5
    Fusion 70.2 52.8 38.4 27.8 88.5
    3-stage P1 70.5 52.8 38.4 27.8 89.3
    P2 70.1 52.5 38.2 27.8 88.9
    P3 70.1 52.8 38.5 27.9 88.2
    Fusion 70.6 53.2 38.8 28.2 90.0
    C表示CIDEr
    下载: 导出CSV 
    | 显示表格
    表 3  Flickr30K数据集上不同层次及多层融合之后的性能对比(联调方式) ($\%$)
    Table 3  Performance comparison under different fusion conditions on Flickr30K (jointly optimizing) ($\%$)
    Models B-1 B-2 B-3 B-4 M
    Baseline$^+$ 60.2 41.8 28.5 19.2 19.2
    2-stage P1 61.5 42.9 29.2 19.7 19.4
    P2 60.7 42.2 29.0 19.8 19.2
    Fusion 61.4 42.8 29.2 19.8 19.6
    M表示METEOR
    下载: 导出CSV 
    | 显示表格

    实验结果显示, 无论使用联调方式还是非联调方式, 随着LSTM网络深度的增加, 性能都会提升.尤其是使用联调方式后, 在MSCOCO数据集上, 使用6层LSTM, B-4和CIDEr分别达到了$28.2 \%$和$90.0 \%$; 在Flickr30K数据集上, 使用4层LSTM, B-4和METEOR分别达到了$19.8 \%$和$19.6 \%$.但值得指出的是, 当在两个数据集上使用更深层次的LSTM网络时, 性能均有所下降.在MSCOCO数据集上, 使用MLO/MLPF-LSTM, 深度在8层时, 在CIDEr指标上效果最好; 对于BLEU指标, 深度6层时已有所下降; 在使用MLO/MLPF-LSTM$^+$时, 深度超过6层时, 无论是BLEU还是CIDEr, 性能均有所降低.

    在Flickr30K数据集上, 使用MLO/MLPF-LSTM$^+$时, LSTM网络深度达到4层时, 结果最好, 当超过4层时, BLEU和METEOR指标会有所降低.表明即使使用了逐层优化和多目标训练, LSTM网络的深度也有一定的极限.原因是当深度增加时, 参数规模也将增加, 整个系统易陷入过拟合状态.因此其深度主要由数据集大小决定.在较大的数据集上, 需要更深的LSTM网络提升性能; 而在较小的数据集上, 使用较浅的LSTM网络即可; 若要进一步提升性能, 需要使用其他技术进一步对模型进行改进.

    从实验结果可以看出, 在未使用融合方法时, 若只使用顶层用于最终输出, BLEU指标较基准模型可能会有所下降, 但CIDEr指标较Baseline/ Baseline$^+$却有明显上升(如表 1表 2所示); 说明本文使用的多目标训练方法虽然对$n-Gram$精度没有提升, 但增强了生成句子的语义信息.当使用了融合技术之后, 可以发现在两个数据集上, 性能在所有评测指标上均有显著改善.

    此外, 与其他方法一样, 在MLO/MLPF-LSTM$^+$上使用了集束搜索算法(Beam search), 为了搜索速度更快, 将Beam\_size大小设置为5.实验结果如表 4表 5所示.可以看出, 使用Beam search算法后, 模型性能有了进一步提升, 而且随着模型深度的增加, 性能也随之上升.但需要指出的是, 在MSCOCO和Flickr30K两个数据集上, 当模型深度增加到6层(3-stage)时, 融合后的模型性能并无显著提升.

    表 4  MSCOCO数据集上不同层次及多层融合之后的性能对比(使用联调方式和集束搜索算法) ($\%$)
    Table 4  Performance comparison under different fusion conditions on MSCOCO (jointly optimizing and Beam search algorithm are employed) ($\%$)
    Models B-1 B-2 B-3 B-4 C
    Baseline$^+$ 71.3 54.4 40.8 30.5 92.0
    2-stage P1 71.4 54.3 40.7 30.6 93.8
    P2 71.6 54.8 41.1 31.0 93.7
    Fusion 71.5 54.5 41.0 31.0 94.2
    C表示CIDEr
    下载: 导出CSV 
    | 显示表格
    表 5  Flickr30K数据集上不同层次及多层融合之后的性能对比(使用联调方式和集束搜索算法) ($\%$)
    Table 5  Performance comparison under different fusion conditions on Flickr30K (jointly optimizing and Beam search algorithm are employed) ($\%$)
    Models B-1 B-2 B-3 B-4 M
    Baseline$^+$ 63.4 44.5 30.9 21.1 19.0
    2-stage P1 65.1 45.8 31.8 21.9 19.2
    P2 65.0 46.0 32.0 21.9 19.3
    Fusion 66.2 47.2 33.1 23.0 19.6
    M表示METEOR
    下载: 导出CSV 
    | 显示表格

    本文还与图像描述领域中的主流模型进行了对比(如表 6表 7所示, 表中LRCN-AlexNet, m-RNN, Soft-attention和Hard-attention方法数据引自各自文献, multimodal RNN, Google NIC和gLSTM方法数据来源于文献[28]).

    表 6  不同方法在MSCOCO数据集上的性能对比($\%$)
    Table 6  Performance comparison with other state-of-the-art methods on MSCOCO ($\%$)
    Methods B-1 B-2 B-3 B-4 C
    multimodal RNN[14] 62.5 45.0 32.1 23.0 66.0
    Google NIC[2] 66.6 46.1 32.9 24.6 --
    LRCN-AlexNet[13] 62.8 44.2 30.4 21.0 --
    m-RNN[1] 67.0 49.0 35.0 25.0 --
    Soft-attention[15] 70.7 49.2 34.4 24.3 --
    Hard-attention[15] 71.8 50.4 35.7 25.0 --
    emb-gLSTM, Gaussian[28] 67.0 49.1 35.8 26.4 81.3
    MLO/MLPF-LSTM 67.7 49.8 35.6 25.3 80.4
    MLO/MLPF-LSTM$^+$ 70.6 53.2 38.8 28.2 90.0
    MLO/MLPF-LSTM$^+$(BS) 71.5 54.5 41.0 31.0 94.2
    BS表示Beam search, C表示CIDEr
    下载: 导出CSV 
    | 显示表格
    表 7  不同方法在Flickr30K数据集上的性能对比($\%$)
    Table 7  Performances comparison with other state-of-the-art methods on Flickr30K ($\%$)
    Methods B-1 B-2 B-3 B-4 M
    multimodal RNN[14] 57.3 36.9 24.0 15.7 15.3
    Google NIC[2] 66.3 42.3 27.7 18.3 --
    LRCN-AlexNet[13] 58.7 39.1 25.1 16.5 --
    m-RNN[1] 60.0 41.0 28.0 19.0 --
    Soft-attention[15] 66.7 43.4 28.8 19.1 18.5
    Hard-attention[15] 66.9 43.9 29.6 19.9 18.5
    emb-gLSTM, Gaussian[28] 64.6 44.6 30.5 20.6 17.9
    MLO/MLPF-LSTM$^+$ 61.4 42.8 29.2 19.8 19.6
    MLO/MLPF-LSTM$^+$(BS) 66.2 47.2 33.1 23.0 19.6
    M表示METEOR, BS表示Beam search
    下载: 导出CSV 
    | 显示表格

    通过对比可以发现, 在MSCOCO数据集上, 在使用非联调方式时, 在B-1和B-2上, 本文模型与基于视觉注意力的Hard-attention模型相比具有较大差距, 但在B-3和B-4指标上表现良好, 在B-4上, 甚至超过了Hard-attention方法; 当使用联调方式后, 本文模型的性能除在B-1指标上低于Hard- attention方法外, 在其他指标上均高于其他方法.

    使用Beam search后, 无论在MSCOCO还是Flickr30K数据集上, 在多个评价指标上均远超其他方法.在MSCOCO数据集上, B-4指标超过基于注意力机制的Hard-attention模型$6.0 \%$, 同时B-4和CIDEr指标分别超过gLSTM模型$4.6 \%$和$12.9 \%$; 在Flickr30K数据集上, B-4和METEOR指标分别超过Hard-attention模型$3.1 \%$和$1.1 \%$, 同时, 其性能也超过gLSTM模型.但在B-1指标上, 本文所提模型略低于基于注意力机制的方法, 其原因是, 基于视觉注意机制的模型对于单个物体更为敏感, 但对于物体与物体之间的关系、物体与背景之间的关系描述能力不足, 导致检测到的用于描述单个物体的词汇更多, 但对于描述物体之间关系的更长的词组则显得性能欠佳; 而本文提出的模型更注重图像内容的整体理解, 生成的句子更符合人们的描述习惯.

    由于增加了语言模型的深度, 模型参数更多、特征经过的非线性变换次数更多, 因此模型复杂度与基准模型相比也相应有所增加.在语言模型上, 复杂度的增加与具体数据集有关, 当数据集较大时, 可使用的LSTM层次更多, 训练需要的阶段数更多, LSTM网络中隐藏单元个数也更多, 其模型复杂度也更高.设基准模型中参数规模为$N_{\rm param}$, 计算复杂度为$C$, 则对于一个包含$n$个训练阶段的模型来说, 其参数规模为$n\times N_{\rm param}$, 计算复杂度为$n(n$ $+$ $1)/{2} \times C$; 在测试时, 参数规模为$n \times N_{\rm param}$, 但计算复杂度为$n \times C$.

    使用自然语言对静态图像进行描述是一项极具挑战性的视觉任务, 要求系统不仅能够处理图像信息, 还要能够处理文本信息.目前, 随着计算机视觉和自然语言处理技术的快速发展, 图像描述工作也取得了重要发展, 尤其是基于深度学习的模型, 采用"端到端"的训练和测试方式, 生成的描述句子结构更加灵活, 更符合人们的表达习惯.本文工作采用CNN + LSTM架构, 首先使用性能优越的深度模型VGG16提取图像的CNN特征, 对图像进行"编码", 然后将其送入LSTM网络, 对特征进行"解码".在本文设计的模型中, 使用了更深层次的LSTM网络, 但由于优化较为困难, 因此采用了逐层优化的策略保证网络收敛, 并提出使用多目标优化和多层概率融合的方法, 改善模型性能.

    但本文在实验中也发现, 在反映准确率的BLEU指标上, 模型性能还有待于进一步提升.因此, 本文下一步将结合更多基于视觉的方法对模型进行改进, 例如使用更深的ResNet[23]网络提取图像特征等; 同时, 也将在更大和更复杂的数据集(例如Visual Genome[46])上对模型做进一步验证.


  • 本文责任编委 王立威
  • 图  1  LSTM单元

    Fig.  1  LSTM unit

    图  2  训练第1阶段(基准模型)

    Fig.  2  The $1$st stage in training process (benchmark model)

    图  3  训练第$K$阶段

    Fig.  3  The $K$th stage in training process

    图  4  MLPF-LSTM图像描述生成流程

    Fig.  4  The pipeline of image description generation in MLPF-LSTM

    图  5  MSCOCO数据集中部分训练样本

    Fig.  5  The examples for training in MSCOCO dataset

    图  6  MLO/MLPF-LSTM (3-stage)模型生成的部分图像描述示例

    Fig.  6  Examples of image descriptions with MLO/ MLPF-LSTM (3-stage)

    图  7  在MSCOCO数据集上使用不同策略加深模型深度时的性能表现

    Fig.  7  Performance under different strategies at each stage on MSCOCO

    表  1  MSCOCO数据集上不同层次及多层融合之后的性能对比(非联调方式) ($\%$)

    Table  1  Performance comparison under different fusion conditions on MSCOCO (non-jointly optimizing) ($\%$)

    Models B-1 B-2 B-3 B-4 C
    Baseline 67.7 49.4 35.2 25.0 78.2
    2-stage P1 67.8 49.7 35.3 25.0 78.5
    P2 67.5 49.6 35.3 25.0 79.6
    Fusion 68.0 50.0 35.5 25.1 79.1
    3-stage P1 67.9 49.8 35.5 25.2 79.0
    P2 67.5 49.6 35.3 25.0 79.6
    P3 67.3 49.4 35.1 24.8 78.9
    Fusion 68.0 50.0 35.8 25.4 80.2
    4-stage P1 67.6 49.5 35.3 25.1 78.7
    P2 67.0 49.1 34.9 24.8 79.7
    P3 66.8 49.0 34.8 24.7 79.5
    P4 66.9 49.0 34.8 24.6 78.9
    Fusion 67.7 49.8 35.6 25.3 80.4
    C表示CIDEr
    下载: 导出CSV

    表  2  MSCOCO数据集上不同层次及多层融合之后的性能对比(联调方式) ($\%$)

    Table  2  Performance comparison under different fusion conditions on MSCOCO (jointly optimizing) ($\%$)

    Models B-1 B-2 B-3 B-4 C
    Baseline$^+$ 70.2 52.7 38.3 27.6 86.2
    2-stage P1 70.2 52.7 38.4 27.8 88.4
    P2 69.9 52.6 38.3 27.7 87.5
    Fusion 70.2 52.8 38.4 27.8 88.5
    3-stage P1 70.5 52.8 38.4 27.8 89.3
    P2 70.1 52.5 38.2 27.8 88.9
    P3 70.1 52.8 38.5 27.9 88.2
    Fusion 70.6 53.2 38.8 28.2 90.0
    C表示CIDEr
    下载: 导出CSV

    表  3  Flickr30K数据集上不同层次及多层融合之后的性能对比(联调方式) ($\%$)

    Table  3  Performance comparison under different fusion conditions on Flickr30K (jointly optimizing) ($\%$)

    Models B-1 B-2 B-3 B-4 M
    Baseline$^+$ 60.2 41.8 28.5 19.2 19.2
    2-stage P1 61.5 42.9 29.2 19.7 19.4
    P2 60.7 42.2 29.0 19.8 19.2
    Fusion 61.4 42.8 29.2 19.8 19.6
    M表示METEOR
    下载: 导出CSV

    表  4  MSCOCO数据集上不同层次及多层融合之后的性能对比(使用联调方式和集束搜索算法) ($\%$)

    Table  4  Performance comparison under different fusion conditions on MSCOCO (jointly optimizing and Beam search algorithm are employed) ($\%$)

    Models B-1 B-2 B-3 B-4 C
    Baseline$^+$ 71.3 54.4 40.8 30.5 92.0
    2-stage P1 71.4 54.3 40.7 30.6 93.8
    P2 71.6 54.8 41.1 31.0 93.7
    Fusion 71.5 54.5 41.0 31.0 94.2
    C表示CIDEr
    下载: 导出CSV

    表  5  Flickr30K数据集上不同层次及多层融合之后的性能对比(使用联调方式和集束搜索算法) ($\%$)

    Table  5  Performance comparison under different fusion conditions on Flickr30K (jointly optimizing and Beam search algorithm are employed) ($\%$)

    Models B-1 B-2 B-3 B-4 M
    Baseline$^+$ 63.4 44.5 30.9 21.1 19.0
    2-stage P1 65.1 45.8 31.8 21.9 19.2
    P2 65.0 46.0 32.0 21.9 19.3
    Fusion 66.2 47.2 33.1 23.0 19.6
    M表示METEOR
    下载: 导出CSV

    表  6  不同方法在MSCOCO数据集上的性能对比($\%$)

    Table  6  Performance comparison with other state-of-the-art methods on MSCOCO ($\%$)

    Methods B-1 B-2 B-3 B-4 C
    multimodal RNN[14] 62.5 45.0 32.1 23.0 66.0
    Google NIC[2] 66.6 46.1 32.9 24.6 --
    LRCN-AlexNet[13] 62.8 44.2 30.4 21.0 --
    m-RNN[1] 67.0 49.0 35.0 25.0 --
    Soft-attention[15] 70.7 49.2 34.4 24.3 --
    Hard-attention[15] 71.8 50.4 35.7 25.0 --
    emb-gLSTM, Gaussian[28] 67.0 49.1 35.8 26.4 81.3
    MLO/MLPF-LSTM 67.7 49.8 35.6 25.3 80.4
    MLO/MLPF-LSTM$^+$ 70.6 53.2 38.8 28.2 90.0
    MLO/MLPF-LSTM$^+$(BS) 71.5 54.5 41.0 31.0 94.2
    BS表示Beam search, C表示CIDEr
    下载: 导出CSV

    表  7  不同方法在Flickr30K数据集上的性能对比($\%$)

    Table  7  Performances comparison with other state-of-the-art methods on Flickr30K ($\%$)

    Methods B-1 B-2 B-3 B-4 M
    multimodal RNN[14] 57.3 36.9 24.0 15.7 15.3
    Google NIC[2] 66.3 42.3 27.7 18.3 --
    LRCN-AlexNet[13] 58.7 39.1 25.1 16.5 --
    m-RNN[1] 60.0 41.0 28.0 19.0 --
    Soft-attention[15] 66.7 43.4 28.8 19.1 18.5
    Hard-attention[15] 66.9 43.9 29.6 19.9 18.5
    emb-gLSTM, Gaussian[28] 64.6 44.6 30.5 20.6 17.9
    MLO/MLPF-LSTM$^+$ 61.4 42.8 29.2 19.8 19.6
    MLO/MLPF-LSTM$^+$(BS) 66.2 47.2 33.1 23.0 19.6
    M表示METEOR, BS表示Beam search
    下载: 导出CSV
  • [1] Mao J H, Xu W, Yang Y, Wang J, Huang Z H, Yuille A. Deep captioning with multimodal recurrent neural networks (m-RNN). In: Proceedings of the 2015 International Conference on Learning Representations. San Diego, USA, 2015.
    [2] Vinyals O, Toshev A, Bengio S, Erhan D. Show and tell: a neural image caption generator. In: Proceedings of the 2015 IEEE Conference on Computer Vision and Pattern Recognition. Boston, USA: IEEE, 2015. 3156-3164
    [3] Kulkarni G, Premraj V, Ordonez V, Dhar S, Li S M, Choi Y, Berg A C, Berg T L. BabyTalk:understanding and generating simple image descriptions. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2013, 35(12):2891-2903 doi: 10.1109/TPAMI.2012.162
    [4] Mitchell M, Han X F, Dodge J, Mensch A, Goyal A, Berg A, Yamaguchi K, Berg T, Stratos K, Daumé H Ⅲ. Midge: generating image descriptions from computer vision detections. In: Proceedings of the 13th Conference of the European Chapter of the Association for Computational Linguistics. Avignon, France: ACL, 2012. 747-756 http://tamaraberg.com/papers/EACL12.pdf
    [5] Elliott D, Keller F. Image description using visual dependency representations. In: Proceedings of the 2013 Conference on Empirical Methods in Natural Language Processing. Seattle, USA: ACL, 2013. 1292-1302 http://www.aclweb.org/anthology/D/D13/D13-1128.pdf
    [6] Farhadi A, Hejrati M, Sadeghi M A, Young P, Rashtchian C, Hockenmaieret J, Forsyth D. Every picture tells a story: generating sentences from images. In: Proceedings of the 2010 European Conference on Computer Vision (ECCV). Berlin, Heidelberg, Germany: Springer, 2010. 15-29 https://www.cs.cmu.edu/~afarhadi/papers/sentence.pdf
    [7] 张红斌, 姬东鸿, 尹兰, 任亚峰.基于梯度核特征及N-gram模型的商品图像句子标注.计算机科学, 2016, 43(5):269-273, 287 http://kns.cnki.net/KCMS/detail/detail.aspx?filename=jsja201605053&dbname=CJFD&dbcode=CJFQ

    Zhang Hong-Bin, Ji Dong-Hong, Yin Lan, Ren Ya-Feng. Product image sentence annotation based on gradient kernel feature and N-gram model. Computer Science, 2016, 43(5):269-273, 287 http://kns.cnki.net/KCMS/detail/detail.aspx?filename=jsja201605053&dbname=CJFD&dbcode=CJFQ
    [8] Socher R, Karpathy A, Le Q V, Manning C D, Ng A Y. Grounded compositional semantics for finding and describing images with sentences. Transactions of the Association for Computational Linguistics, 2014, 2:207-218 https://nlp.stanford.edu/~socherr/SocherKarpathyLeManningNg_TACL2013.pdf
    [9] Kuznetsova P, Ordonez V, Berg T L, Choi Y. TreeTalk:composition and compression of trees for image descriptions. Transactions of the Association for Computational Linguistics, 2014, 2:351-362
    [10] Kuznetsova P, Ordonez V, Berg A, Berg T, Choi Y. Generalizing image captions for image-text parallel corpus. In: Proceedings of the 51st Annual Meeting of the Association for Computational Linguistics. Sofia, Bulgaria: ACL, 2013. 790-796 http://www.cs.unc.edu/~vicente/files/acl13_generalization.pdf
    [11] Mason R, Charniak E. Nonparametric method for data-driven image captioning. In: Proceedings of the 52nd Annual Meeting of the Association for Computational Linguistics. Baltimore, USA: ACL, 2014. 592-598 http://aclweb.org/anthology/P/P14/P14-2097.pdf
    [12] 蒋树强, 闵巍庆, 王树徽.面向智能交互的图像识别技术综述与展望.计算机研究与发展, 2016, 53(1):113-122 doi: 10.7544/issn1000-1239.2016.20150689

    Jiang Shu-Qiang, Min Wei-Qing, Wang Shu-Hui. Survey and prospect of intelligent interaction-oriented image recognition techniques. Journal of Computer Research and Development, 2016, 53(1):113-122 doi: 10.7544/issn1000-1239.2016.20150689
    [13] Donahue J, Hendricks L A, Guadarrama S, Rohrbach M, Venugopalan S, Darrell T, Saenko K. Long-term recurrent convolutional networks for visual recognition and description. In: Proceedings of the 2015 IEEE Conference on Computer Vision and Pattern Recognition. Boston, USA: IEEE, 2015. 2625-2634 http://openaccess.thecvf.com/content_cvpr_2015/papers/Donahue_Long-Term_Recurrent_Convolutional_2015_CVPR_paper.pdf
    [14] Karpathy A, Li F F. Deep visual-semantic alignments for generating image descriptions. In: Proceedings of the 2015 IEEE Conference on Computer Vision and Pattern Recognition. Boston, USA: IEEE, 2015. 3128-3137
    [15] Xu K, Ba J L, Kiros R, Cho K, Courville A, Salakhutdinov R, Zemel R S, Bengio Y. Show, attend and tell: neural image caption generation with visual attention. In: Proceedings of the 32nd International Conference on Machine Learning. Lille, France, 2015. 2048-2057
    [16] Hinton G E, Salakhutdinov R R. Reducing the dimensionality of data with neural networks. Science, 2006, 313(5786):504-507 doi: 10.1126/science.1127647
    [17] Hermans M, Schrauwen B. Training and analyzing deep recurrent neural networks. In: Proceedings of the 26th International Conference on Neural Information Processing Systems. Lake Tahoe, USA: Curran Associates Inc., 2013. 190-198 https://papers.nips.cc/paper/5166-training-and-analysing-deep-recurrent-neural-networks.pdf
    [18] Szegedy C, Liu W, Jia Y Q, Sermanet P, Reed S, Anguelov D, Erhan D, Vanhoucke V, Rabinovich A. Going deeper with convolutions. In: Proceedings of the 2015 IEEE Conference on Computer Vision and Pattern Recognition. Boston, USA: IEEE, 2015. 1-9 https://www.cs.unc.edu/~wliu/papers/GoogLeNet.pdf
    [19] Lee C Y, Xie S N, Gallagher P W, Zhang Z Y, Tu Z W. Deeply-supervised nets. In: Proceedings of the 18th International Conference on Artificial Intelligence and Statistics. San Diego, USA, 2015. 562-570
    [20] Gerber R, Nagel H H. Knowledge representation for the generation of quantified natural language descriptions of vehicle traffic in image sequences. In: Proceedings of the 1996 International Conference on Image Processing. Lausanne, Switzerland: IEEE, 1996. 805-808 https://ieeexplore.ieee.org/document/561027/
    [21] Krizhevsky A, Sutskever I, Hinton G E. ImageNet classification with deep convolutional neural networks. In: Proceedings of the 2012 Advances in Neural Information Processing Systems. Lake Tahoe, USA: MIT Press, 2012. 1097-1105 https://papers.nips.cc/paper/4824-imagenet-classification-with-deep-convolutional-neural-networks.pdf
    [22] Simonyan K, Zisserman A. Very deep convolutional networks for large-scale image recognition. In: Proceedings of the 2015 International Conference on Learning Representations. San Diego, USA, 2015.
    [23] He K M, Zhang X Y, Ren S Q, Sun J. Deep residual learning for image recognition. In: Proceedings of the 2016 IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas, USA: IEEE, 2016. 770-778
    [24] 石俊飞, 刘芳, 林耀海, 刘璐.基于深度学习和层次语义模型的极化SAR分类.自动化学报, 2017, 43(2):215-226 http://www.aas.net.cn/CN/abstract/abstract19010.shtml

    Shi Jun-Fei, Liu Fang, Lin Yao-Hai, Liu Lu. Polarimetric SAR image classification based on deep learning and hierarchical semantic model. Acta Automatica Sinica, 2017, 43(2):215-226 http://www.aas.net.cn/CN/abstract/abstract19010.shtml
    [25] 王伟凝, 王励, 赵明权, 蔡成加, 师婷婷, 徐向民.基于并行深度卷积神经网络的图像美感分类.自动化学报, 2016, 42(6):905-914 http://www.aas.net.cn/CN/abstract/abstract18881.shtml

    Wang Wei-Ning, Wang Li, Zhao Ming-Quan, Cai Cheng-Jia, Shi Ting-Ting, Xu Xiang-Min. Image aesthetic classification using parallel deep convolutional neural networks. Acta Automatica Sinica, 2016, 42(6):905-914 http://www.aas.net.cn/CN/abstract/abstract18881.shtml
    [26] 段艳杰, 吕宜生, 张杰, 赵学亮, 王飞跃.深度学习在控制领域的研究现状与展望.自动化学报, 2016, 42(5):643-654 http://www.aas.net.cn/CN/abstract/abstract18852.shtml

    Duan Yan-Jie, Lv Yi-Sheng, Zhang Jie, Zhao Xue-Liang, Wang Fei-Yue. Deep learning for control:the state of the art and prospects. Acta Automatica Sinica, 2016, 42(5):643-654 http://www.aas.net.cn/CN/abstract/abstract18852.shtml
    [27] 郭潇逍, 李程, 梅俏竹.深度学习在游戏中的应用.自动化学报, 2016, 42(5):676-684 http://www.aas.net.cn/CN/abstract/abstract18857.shtml

    Guo Xiao-Xiao, Li Cheng, Mei Qiao-Zhu. Deep learning applied to games. Acta Automatica Sinica, 2016, 42(5):676-684 http://www.aas.net.cn/CN/abstract/abstract18857.shtml
    [28] Jia X, Gavves E, Fernando B, Tuytelaars T. Guiding the long-short term memory model for image caption generation. In: Proceedings of the 2015 IEEE International Conference on Computer Vision. Santiago, Chile: IEEE, 2015. 2407-2415 https://www.cv-foundation.org/openaccess/content_iccv_2015/papers/Jia_Guiding_the_Long-Short_ICCV_2015_paper.pdf
    [29] 奚雪峰, 周国栋.面向自然语言处理的深度学习研究.自动化学报, 2016, 42(10):1445-1465 http://www.aas.net.cn/CN/abstract/abstract18934.shtml

    Xi Xue-Feng, Zhou Guo-Dong. A survey on deep learning for natural language processing. Acta Automatica Sinica, 2016, 42(10):1445-1465 http://www.aas.net.cn/CN/abstract/abstract18934.shtml
    [30] Lecun Y, Bottou L, Bengio Y, Haffner P. Gradient-based learning applied to document recognition. Proceedings of the IEEE, 1998, 86(11):2278-2324 doi: 10.1109/5.726791
    [31] Chatfield K, Simonyan K, Vedaldi A, Zisserman A. Return of the devil in the details: delving deep into convolutional nets. In: Proceedings of the 2014 British Machine Vision Conference. Nottingham, England: British Machine Vision Association, 2014.
    [32] Russakovsky O, Deng J, Su H, Krause J, Satheesh S, Ma S, Huang Z H, Karpathy A, Khosla A, Bernstein M, Berg A C, Li F F. ImageNet large scale visual recognition challenge. International Journal of Computer Vision, 2015, 115(3):211-252 doi: 10.1007/s11263-015-0816-y
    [33] Hochreiter S, Schmidhuber J. Long short-term memory. Neural Computation, 1997, 9(8):1735-1780 doi: 10.1162/neco.1997.9.8.1735
    [34] Graves A. Generating sequences with recurrent neural networks[Online], available: https://arxiv.org/pdf/1308.0850v5.pdf, June 5, 2014
    [35] Bengio Y, Simard P, Frasconi P. Learning long-term dependencies with gradient descent is difficult. IEEE Transactions on Neural Networks, 1994, 5(2):157-166 doi: 10.1109/72.279181
    [36] Gers F A, Schmidhuber J. Recurrent nets that time and count. In: Proceedings of the 2000 IEEE-INNS-ENNS International Joint Conference on Neural Networks. Como, Italy: IEEE, 2000. 189-194
    [37] Cho K, Van Merrienboer B, Gulcehre C, Bahdanau D, Bougares F, Schwenk H, Bengio Y. Learning phrase representations using RNN encoder-decoder for statistical machine translation[Online], available: https://arxiv.org/pdf/1406.1078v3.pdf, September 3, 2014
    [38] Greff K, Srivastava R K, Koutník J, Steunebrink B R, Schmidhuber J. LSTM:a search space odyssey. IEEE Transactions on Neural Networks and Learning Systems, 2017, 28(10):2222-2232 doi: 10.1109/TNNLS.2016.2582924
    [39] Zhou B L, Lapedriza A, Xiao J X, Torralaba A, Oliva A. Learning deep features for scene recognition using places database. In: Proceedings of the 2015 Advances in Neural Information Processing Systems. Montréal, Canada: MIT Press, 2015. 487-495 http://places.csail.mit.edu/places_NIPS14.pdf
    [40] Lin T Y, Maire M, Belongie S, Hays J, Perona P, Ramanan D, Dollár P, Zitnick C L. Microsoft COCO: common objects in context. In: Proceedings of the 2014 European Conference on Computer Vision (ECCV). Zurich, Switzerland: Springer, 2014. 740-755
    [41] Young P, Lai A, Hodosh M, Hockenmaier J. From image descriptions to visual denotations:new similarity metrics for semantic inference over event descriptions. Transactions of the Association for Computational Linguistics, 2014, 2:67-78 http://nlp.cs.illinois.edu/HockenmaierGroup/Papers/TACL2014/TACLDenotationGraph.pdf
    [42] Papineni K, Roukos S, Ward T, Zhu W J. BLEU: a method for automatic evaluation of machine translation. In: Proceedings of the 40th Annual Meeting on Association for Computational Linguistics. Philadelphia, USA: ACL, 2002. 311-318 http://www.aclweb.org/anthology/P02-1040.pdf
    [43] Banerjee S, Lavie A. METEOR: an automatic metric for MT evaluation with improved correlation with human judgments. In: Proceedings of the 2005 ACL Workshop on Intrinsic and Extrinsic Evaluation Measures for MT and/or Summarization. Ann Arbor, USA: ACL, 2005. 65-72 http://www.cs.cmu.edu/~alavie/METEOR/pdf/Banerjee-Lavie-2005-METEOR.pdf
    [44] Vedantam R, Zitnick C L, Parikh D. CIDEr: consensus-based image description evaluation. In: Proceedings of the 2015 IEEE Conference on Computer Vision and Pattern Recognition. Boston, USA: IEEE, 2015. 4566-4575
    [45] Jia Y Q, Shelhamer E, Donahue J, Karayev S, Long J, Girshick R, Guadarrama S, Darrell T. Caffe: convolutional architecture for fast feature embedding. In: Proceedings of the 22nd ACM International Conference on Multimedia. Orlando, Florida, USA: ACM, 2014. 675-678
    [46] Krishna R, Zhu Y K, Groth O, Johnson J, Hata K, Kravitz J, Chen S, Kalantidis Y, Li L J, Shamma D A, Bernstein M S, Li F F. Visual Genome: connecting language and vision using crowd sourced dense image annotations[Online], available: https://arxiv.org/pdf/1602.07332.pdf, February 23, 2016
  • 期刊类型引用(28)

    1. 李丹,冯新玲,付国帅,李玉香. 基于长短期记忆网络的大蒜价格预测模型研究. 乡村科技. 2024(01): 136-140 . 百度学术
    2. 沈振乾,李文强,任甜甜,王瑶,赵慧娟. 基于CNN-NLSTM的脑电信号注意力状态分类方法. 中文信息学报. 2024(04): 38-49 . 百度学术
    3. 邵景晨,柴玉梅,王黎明. 基于语义加权的双层LSTM图像描述生成方法研究. 计算机应用与软件. 2024(10): 155-162 . 百度学术
    4. 李永生,颜秉勇,周家乐. 基于语义分割的全卷积图像描述模型. 计算机工程与设计. 2023(01): 210-217 . 百度学术
    5. 傅煦嘉,周家乐,王慧锋,颜秉勇. 融合多重视觉特征与语义信息的图像描述生成. 计算机工程与设计. 2023(04): 1066-1072 . 百度学术
    6. 连政,王瑞,李海昌,姚辉,胡晓惠. 基于语境辅助转换器的图像标题生成算法. 自动化学报. 2023(09): 1889-1903 . 本站查看
    7. 李红利,丁满,张荣华,修春波,马欣. 基于特征融合神经网络的运动想象脑电分类算法. 中国医学物理学杂志. 2022(01): 69-75 . 百度学术
    8. 汤鹏杰,王瀚漓. 从视频到语言:视频标题生成与描述研究综述. 自动化学报. 2022(02): 375-397 . 本站查看
    9. 王鑫,宋永红,张元林. 基于显著性特征提取的图像描述算法. 自动化学报. 2022(03): 735-746 . 本站查看
    10. 柳长源,李文强,毕晓君. 基于RCNN-LSTM的脑电情感识别研究. 自动化学报. 2022(03): 917-925 . 本站查看
    11. 王鸣展 ,冀俊忠 ,贾奥哲 ,张晓丹 . 基于跨尺度特征融合自注意力的图像描述方法. 计算机科学. 2022(10): 191-197 . 百度学术
    12. 毕健旗,刘茂福,胡慧君,代建华. 基于依存句法的图像描述文本生成. 北京航空航天大学学报. 2021(03): 431-440 . 百度学术
    13. 谭云兰,汤鹏杰,张丽,罗玉盘. 从图像到语言:图像标题生成与描述. 中国图象图形学报. 2021(04): 727-750 . 百度学术
    14. 肖雨寒,江爱文,王明文,揭安全. 基于视觉-语义中间综合属性特征的图像中文描述生成算法. 中文信息学报. 2021(04): 129-138 . 百度学术
    15. 向曼. 视觉图像背景多目标反馈信息自动识别仿真. 计算机仿真. 2021(06): 434-438 . 百度学术
    16. 瞿红春,高鹏宇,朱伟华,许旺山,郭龙飞. 基于邻域粗糙集和灰狼算法优化Elman的民航发动机滑油量预测. 科学技术与工程. 2021(14): 6069-6074 . 百度学术
    17. 颜亮,姬少培,刘栋,谢建武. 基于GRU与特征嵌入的网络入侵检测. 应用科学学报. 2021(04): 559-568 . 百度学术
    18. 周东明,张灿龙,李志欣,王智文. 基于多层级视觉融合的图像描述模型. 电子学报. 2021(07): 1286-1290 . 百度学术
    19. 勾志竟,宫志宏,刘布春. 基于TensorFlow的LSTM算法在农业中的应用. 计算机技术与发展. 2021(08): 215-220 . 百度学术
    20. 曹渝昆,魏健强,孙涛,徐越. 基于IndRNN与BN的深层图像描述模型. 计算机工程. 2021(10): 194-200 . 百度学术
    21. 黄友文,游亚东,赵朋. 融合卷积注意力机制的图像描述生成模型. 计算机应用. 2020(01): 23-27 . 百度学术
    22. 季秀怡,李建华. 基于双路注意力机制的化学结构图像识别. 计算机工程. 2020(09): 213-220 . 百度学术
    23. 曹治博. 复合地层掘进参数预测分析. 建筑安全. 2020(12): 11-15 . 百度学术
    24. 王星峰. 基于CNN和LSTM的智能文本分类. 辽东学院学报(自然科学版). 2019(02): 126-132 . 百度学术
    25. 巫红霞,谢强. 基于加权社区检测与增强人工蚁群算法的高维数据特征选择. 计算机应用与软件. 2019(09): 285-292+301 . 百度学术
    26. 李卉,何晶,程富强,王晓薇,詹炳光. 基于LSTM模型的卫星电源系统异常检测方法. 装甲兵工程学院学报. 2019(03): 90-96 . 百度学术
    27. 刘昊俣,贺诗波,陈积明. 数据驱动的高速铁路强风报警自适应解除策略. 自动化学报. 2019(12): 2242-2250 . 本站查看
    28. 陈威,祁伟彦,袁福香,李哲敏. 基于时间序列与横截面数据的吉林省水稻产量预测对比分析. 中国农业信息. 2018(05): 91-101 . 百度学术

    其他类型引用(26)

  • 加载中
  • 图(7) / 表(7)
    计量
    • 文章访问数:  4050
    • HTML全文浏览量:  1162
    • PDF下载量:  1144
    • 被引次数: 54
    出版历程
    • 收稿日期:  2016-10-25
    • 录用日期:  2017-03-02
    • 刊出日期:  2018-07-20

    目录

    /

    返回文章
    返回