Feasible Trajectory Generation for Autonomous Vehicles Based on Quartic Bézier Curve
-
摘要: 对于实际的无人车系统来说,轨迹规划需要保证其规划出来的轨迹满足运动学约束、 侧滑约束以及执行机构约束.为了生成满足无人车初始状态约束、目标状态约束的局部可行轨迹,本文提出了一种基于四阶贝塞尔曲线的轨迹规划方法.在该方法中, 轨迹规划问题首先被分解为轨形规划及速度规划两个子问题.为了满足运动学约束、 初始状态约束、目标状态约束以及曲率连续约束,本文采用由3个参数确定的四阶贝塞尔曲线来规划轨迹形状.为了保证转向机构可行,本文进一步采用优化方法求解一组最优参数从而规划出曲率变化最小的轨线.对于轨线执行速度规划,为了满足速度连续约束、加速度连续约束、加速度有界约束以及目标状态侧滑约束,本文首先求解了可行的轨迹执行耗时区间,再进一步在该区间中求解能够保证任意轨迹点满足侧滑约束的耗时,最后再由该耗时对任意点速度进行规划.本文结合实际无人车的应用对轨迹搜索空间生成、道路行车模拟以及路径跟踪进行了仿真实验,并基于实际的环境数据进行了轨迹规划实验.Abstract: For practical autonomous vehicles, the generated trajectories should ensure the feasibility imposed by kinematic, dynamic and actuation. To generate a locally feasible trajectory from the initial state to the target state, a trajectory generation algorithm based on quartic Bzier curve is proposed. Firstly, the original problem is decomposed into shaping the trajectory and executing the shape. To satisfy the kinematic constraints, initial state and target state constraints and continuous curvature constraint, a quartic Bzier curve defined by 3 parameters is adopted to shape the trajectory. To further ensure the feasibility of steering, optimization is utilized to resolve a set of parameters to generate a trajectory that has a minimum curvature change. For velocity generation, an interval of executing time is firstly generated to ensure a continuous velocity, continuous acceleration, bounded acceleration and side-slip avoidance at the target state. Then, the executing time that could avoid side-slip at every point is resolved by adjusting the time. Finally, the executing velocity of the trajectory at each point is generated based on the executing time. To verify the algorithm, trajectory generation based on real environment data and simulations on search space generation, driving on road and path tracking are conducted.
-
Key words:
- Trajectory generation /
- feasibility /
- autonomous vehicles /
- quartic Bé
-
细粒度图像分类(Fine-grained image categorization), 又被称作子类别图像分类(Sub-category recognition), 是近年来计算机视觉、模式识别等领域一个非常热门的研究课题.其目的是对粗粒度的大类别进行更加细致的子类划分, 但由于子类别间细微的类间差异和较大的类内差异, 较之普通的图像分类任务, 细粒度图像分类难度更大.
细粒度图像分类研究, 从提出到现在, 已经经历了一段较长时间的发展.早期的基于人工特征的算法, 由于特征的表述能力有限, 分类效果也往往面临很大的局限性.近年来, 随着深度学习的兴起, 深度卷积特征促进了该领域的快速进步.另一方面, 由于该课题本身的困难性, 传统的方法不得不依赖于大量的人工标注信息, 严重制约了算法的实用性.因此, 越来越多的算法倾向于不再依赖人工标注信息, 仅仅使用类别标签来完成分类任务, 这也是该领域逐渐发展成熟的标志.
本文以卷积特征为线索, 从细粒度图像分类的概念出发, 以鸟类数据库[1]上的发展历程为轴线, 介绍了该领域一些优秀的算法, 并探讨了未来可能的研究方向.
文章剩余部分的内容组织如下:在第1节, 我们将对细粒度图像分类进行简要、系统的介绍.一些比较常用的数据库将在第2节给出, 以便对细粒度分类问题有个更直观的理解.在第3节, 我们将从其发展历程出发, 简要回顾一些基于人工特征的早期算法.由于本文介绍的大多数算法均基于卷积神经网络, 因此在第4节, 我们会对卷积神经网络进行必要的介绍说明.之后, 在第5节和第6节, 我们将从强监督、弱监督两个角度, 对现有的一些基于深度卷积特征的优秀算法展开介绍.所谓强监督就是指模型中使用了除标签以外的人工标注信息, 而弱监督则仅仅只使用了类别标签.关于该领域未来可能的发展方向及其挑战, 我们将在第7节进行介绍.最后, 相关的总结会在第8节给出.
1. 细粒度图像分类概述
图像分类是计算机视觉领域的一个经典研究课题.传统的图像分类主要处理语义级图像和实例级图像两大类:前者包括诸如场景识别[2-3]、对象识别[4-5]等语义级图像分类任务, 其目标是识别不同类别的对象, 如猫和狗等; 后者则是对不同的个体进行分类, 如人脸识别[6-7].
细粒度图像分类则位于这两者之间.不同于对象识别等粗粒度的图像分类任务, 细粒度图像的类别精度更加细致, 类间差异更加细微, 往往只能借助于微小的局部差异才能区分出不同的类别.由于其分类边界位于同一类别的不同子类之上, 如不同种类的鸟[1]等, 故而又被称作子类别分类.而与人脸识别等对象级分类任务相比, 细粒度图像的类内差异更加巨大, 存在着姿态、光照、遮挡、背景干扰等诸多不确定因素.因此, 细粒度图像分类是一项极具挑战的研究任务.
细粒度图像分类无论在工业界还是学术界都有着广泛的研究需求与应用场景.与之相关的研究课题主要包括识别不同种类的鸟[1]、狗[8]、花[9]、车[10]、飞机[11]等.以鸟类数据库为例, 单就燕鸥而言, 就存在着北极燕鸥、里海燕鸥等数种不同类别之分.而这些不同种类的燕鸥之间的差异十分细微, 挖掘出有用信息也更加困难.如图 1 (a)所示, 这两种燕鸥的差别仅仅只存在于一些局部区域中, 如翅膀和脚的颜色等.即便是对于鸟类专家而言, 想要完全识别出这些不同种类的鸟也不是一件容易的事情.但在实际生活中, 识别不同的子类别又存在着巨大的应用需求.例如, 在生态保护中, 有效识别不同种类的生物, 是进行生态研究的重要前提.以往, 这一工作只能依赖于领域专家知识, 造成了研究成本的大幅增加.如果能够借助于计算机视觉的技术, 实现低成本的细粒度图像识别, 那么无论对于学术界, 还是工业界而言, 都有着非常重要的意义.
不同于普通的图像分类任务, 细粒度图像的信噪比很小, 包含足够区分度的信息往往只存在于很细小的局部区域中.因此, 如何找到并有效利用这些有用的局部区域信息, 成为了决定细粒度图像分类算法成功与否的关键所在.目前, 绝大多数的分类算法都遵循这样的流程框架:首先找到前景对象(鸟)及其局部区域(头、脚、翅膀等), 之后分别对这些区域提取特征.对所得到的特征进行适当的处理之后, 用来完成分类器的训练和预测.
如前所述, 细粒度图像分类是一项极具挑战的研究课题, 为了达到满意的分类结果, 许多现有的分类算法都严重依赖于人工标注信息(Annotations).一些常用的标注信息如图 1 (b)所示, 其中主要包括标注框(Bounding box)和局部区域位置(Part locations)等.借助于标注框能够完成对前景对象的检测, 从而排除掉背景噪声的干扰; 而局部区域位置则可以用来对一些有用的局部区域进行定位, 或者进行姿态对齐等, 以实现局部特征的提取.然而, 人工标注信息的获取代价十分昂贵, 这在很大程度上制约了这些分类算法的实用性.近年来, 越来越多的研究倾向于不使用这些标注信息, 仅仅依靠类别标签(Label)来完成图像分类任务[12-13], 并取得了相当不错的效果.
另一方面, 特征的提取也是决定图像分类准确性的关键因素, 寻找一个更具区分度的特征一直是研究人员所追求的目标[14-16].传统的基于人工特征的分类算法往往面临很大的局限性.这类算法一般是先从图像中提取SIFT (Scale invariant feature transform)[17]或者HOG (Histogram of oriented gradient)[18]这些局部特征, 之后利用VLAD (Vector of locally aggrgeated descriptors)[19]或者Fisher vector[20-21]等编码模型进行特征编码, 得到最终所需要的特征表示.然而, 由于人工特征的描述能力有限, 导致分类效果不佳.在细粒度图像分类研究的早期, 特征的表示能力成为了制约其性能提升的主要瓶颈.
近年来, 深度学习, 尤其是深度卷积神经网络在计算机视觉领域的巨大成功, 引发了人们浓厚的研究兴趣[22-23].相对于人工特征而言, 深度学习可以看作是一个表示学习的过程[24], 即针对具体的分类任务学习一个具体的特征表示.有研究表明, 从深度卷积神经网络中所提取的特征, 比人工特征拥有更强大的描述能力, 将深度卷积特征运用到细粒度图像分类任务中, 能够取得更好的结果[25].深度卷积特征的加入, 为细粒度图像分类的发展带来了新的机遇, 使得其研究进入了一个新的阶段.
2. 细粒度图像数据库介绍
相对于普通分类任务的数据库而言, 细粒度图像数据库的获取难度更大, 需要更强的专业领域知识才能完成数据的采集与标注.但近年来, 涌现出了越来越多的细粒度图像数据库, 这也从另一个角度反映了该领域蓬勃的发展趋势与强烈的现实需求.
目前比较常用的细粒度图像数据库主要包括: 1) CUB200-2011[1]: CUB200-2011是细粒度图像分类领域最经典, 也是最常用的一个数据库, 共包含200种不同类别, 共11 788张鸟类图像数据.同时, 该数据库提供了丰富的人工标注数据1, 每张图像包含15个局部区域位置, 312个二值属性, 1个标注框, 以及语义分割图像. 2) Stanford Dogs[8]:该数据库提供了120种不同种类的狗的图像数据, 共有20 580张图, 只提供标注框这一个人工标注数据. 3) Oxford Flowers[9]:分为两种不同规模的数据库, 分别包含17种类别和102种类别的花.其中, 102种类别的数据库比较常用, 每个类别包含了40到258张图像数据, 总共有8 189张图像.该数据库只提供语义分割图像, 不包含其他额外标注信息. 4) Cars[10]:提供196类不同品牌不同年份不同车型的车辆图像数据, 一共包含有16 185张图像, 只提供标注框信息. 5) FGVC-Aircraft[11]:提供102类不同的飞机照片, 每一类别含有100张不同的照片, 整个数据库共有10 200张图片, 只提供标注框信息.
1本文将监督信息分成类别标签与人工标注信息两大类.对于分类任务而言, 类别标签是必不可少的监督信息; 而人工标注信息则主要是指标注框、语义分割图像等额外监督信息.
图 2展示了以上所介绍的几个数据库的部分示意图.对于每个数据库, 我们随机采集了4张来自不同类别的图像.从这些图像中可以看出, 不同类别之间的差异十分细微, 即便是对于人类自身而言, 也很难完全区分开这些类别.细粒度图像分类任务的困难性, 由此可见一斑.
除了以上介绍的5个数据库之外, 相关的数据库还有很多, 这里限于篇幅, 不再一一细述.需要说明的是, 尽管不同数据库的规模和难易程度不尽相同, 但其背后所蕴含的算法思想却是相类似的.在一个数据库上能够取得良好性能的分类算法, 在其余数据库上往往也能生效.而在这众多的细粒度图像数据库中, CUB200-2011鸟类数据库是最常用, 也是最经典的一个.因此, 本文将以该数据库为主线, 介绍细粒度图像分类的发展历程.
3. 基于人工特征的早期算法简述
如前所述, 相对于普通的图像分类任务, 细粒度图像分类更具挑战性.其发展的过程也见证了计算机视觉研究领域的一些重要进展.在本节, 我们将简要地回顾该领域中的一些早期研究成果, 以加深对该领域的认识.
在发布CUB200-2011数据库[1]的技术报告中, Wah等给出的基准测试的结果仅为10.3%.他们的方法是:给定一张原始的、未经过裁剪的测试图像, 利用训练得到的模型完成局部区域的定位; 之后, 提取RGB颜色直方图和向量化的SIFT特征, 经过词包(Bag of words, BoW)模型进行特征编码后, 输入到线性SVM (Support vector machine)分类器完成分类.如果在测试时给定了标注框和局部区域位置这些标注信息的话, 利用同样的方法, 得到的基准测试结果为17.3%.
从分类准确度上来看, 这个结果并不让人满意.一方面, 是由于定位不够准确, 局部区域无法归一化对齐; 另一方面, 则是因为特征的描述能力太弱, 不具备足够的区分度.之后, 研究人员发现, 使用一些更强大的特征, 如POOF[26]、Fisher-encoded[27] SIFT、KDES (Kernel descriptors)[28]等, 再利用一定的算法提高定位的精确度, 能够将分类准确度提升至50% ~ 62%左右[26, 29-31].
其中, Berg等[26]提出了一种基于局部区域的特征编码方式, 他们称之为POOF特征.该算法能够自动发现最具区分度的信息, 取得了不错的分类效果.但该算法对关键点的定位精度要求比较高, 如果用精确的标注信息实现定位的话, 能够达到73.3%的准确率, 但如果利用定位算法去确定关键点的话, 则只有56.8%的准确度.除了特征之外, 也有针对局部区域的算法研究.如Yao[32]等, Yang[33]等均尝试使用模板匹配的方法来减少滑动窗口的计算代价.
除此之外, 也有研究工作[34-35]尝试将人加入到分类任务中来.用户通过交互式的询问对答, 完成指定的操作, 如给出关键点, 回答一些简单问题等.其目的在于使用最少的询问次数, 达到最好的分类精度.这类算法在小样本规模问题上不失为一种折中方案, 对于精度要求比较高的任务而言, 可作为一种合理的补充.
从这一阶段的研究成果上可以看出, 更强大的特征描述和特征编码方式对分类准确度有着显著的影响, 随后关于卷积特征的研究也再次证实了这一点.其次, 细粒度图像分类有别于其他分类任务的一点就是局部区域的信息是至关重要的.因此, 设计一个更加精确的定位/对齐模型, 也能带来显著的性能提升.但同时, 我们也该意识到, 为了实现更精细的局部定位, 很多算法都严重依赖于人工标注信息, 这样的方式在实际应用中存在很大的局限性, 这也是前期研究的一个共性.
4. 深度卷积神经网络概述
由于下文所介绍的算法均基于深度卷积特征, 因此有必要对其进行一定的说明.在本节, 我们将会从网络结构、卷积特征以及模型的训练方法几个方面对卷积神经网络展开必要的介绍.
4.1 卷积神经网络结构
卷积神经网络(Convolutional neural networks, CNNs)是神经网络中一个非常经典的模型[36-37], 于上世纪80年代受视觉神经运作机制的启发而设计.其典型的网络结构如图 3所示:
在卷积神经网络中, 前若干层由卷积层和池化层组成, 前层的输出作为后层的输入.其中, 卷积层由一个大小固定的卷积核与输入进行卷积操作, 用来模拟生物视觉系统中的简单细胞, 而池化层则是一种下采样操作.用来扩大感受野(Receptive fields), 获得一定的不变性.随后的若干层由全连接层构成, 其作用相当于一个分类器.由于其网络层数量较多, 故而称作深度卷积神经网络, 或者深度学习.
4.2 卷积特征
不同于传统的机器学习算法, 深度卷积神经网络将特征提取、模型训练等原本分散的操作结合在一起, 构成了一个端到端(End-to-end)的系统进行整体训练, 其巨大的参数数量保证了模型的有效性与强大的表示能力.卷积层和池化层相当于一个特征提取的操作.整个系统是一个端到端的训练过程, 即针对特定的分类任务, 利用大量的参数学习得到一个具体的特征表示.因此, 与人工特征相比, 卷积神经网络获得的特征更加强大, 拥有更强的区分性.
研究表明, 前几层网络学习到的特征主要是一些边缘/纹理特征, 而随着神经网络层数的加深, 逐渐从这些低层语义特征过渡到了高层语义特征[38].在后几层, 空间信息保留的程度逐渐降低, 而到了全连接层, 则完全丢弃了空间语义信息.因此, 不同网络层的特征具有不同的描述能力, 卷积特征的抽取需要综合考虑各方面因素[25].
从神经网络特定层提取的输出, 可以作为图像的特征来训练分类模型. Gong等[39]抽取全连接层的特征, 与VLAD[19]编码相结合, 取得了不错的效果.考虑到全连接层丢失了空间信息, Cimpoi等[40]则尝试使用卷积层的输出作为特征, 并在纹理识别上取得了进步.在实际应用中, 应该根据特定的需求来选取适当的网络层输出作为卷积特征.
4.3 模型训练方法
在实际应用中, 卷积神经网络的训练方法主要包含以下三种情况: 1) 预训练模型(Pre-rrained model):这种方法是直接使用一些在ImageNet数据集上已经训练好的模型, 比较常用的模型包括Alex-Net[22]、VGG-Net[41]等.在这种情况下, 这些预训练的模型相当于一个特征提取器; 2) 模型微调(Fine-tuned model):由于深度卷积神经网络的特征数量非常庞大, 而特定任务(如细粒度图像分类)的数据集规模往往比较小, 若直接进行训练很容易造成过拟合.一种折中的方法是使用在ImageNet上预训练的模型参数, 替换掉最后的Softmax层, 在新数据集上进行重新训练, 称之为微调.在细粒度图像分类研究中, 模型微调是最常用的训练方法; 3) 从头训练(Training from scratch):以上两种方法可以被视作为一种迁移学习, 即将模型在ImageNet数据集上学习到的知识迁移到特定的数据集(如CUB200-2011) 上, 而从头训练则是自行设计网络结构并进行模型训练.如前所述, 这种情况下很容易造成数据的过拟合, 需要采取一定的方法来避免.
5. 强监督的细粒度图像分类研究
所谓强监督的细粒度图像分类算法, 是指在模型训练的时候, 除了图像的类别标签外, 还使用了标注框、局部区域位置等额外的人工标注信息.如前所述, 由于标注信息的获取代价十分昂贵, 在很大程度上限制了这类算法的实用性.因此, 也有些算法考虑仅在模型训练的时候使用标注信息, 而在进行图像分类时不使用这些信息.这在一定程度上提高了算法的实用性, 但与只依赖类别标签的弱监督分类算法相比仍有一定的差距.
5.1 DeCAF
随着深度卷积神经网络在ImageNet上的成功, 越来越多的人将目光转向了深度学习.一个很自然的想法就是, 在ImageNet上学习得到的知识能否迁移到其他的具体领域中来?也就是说, 利用ImageNet上预训练的模型, 在其他数据集上提取图像特征, 是否仍然具有强大的区分性?答案是肯定的.
Donahue等[25]通过对在ImageNet数据集上所训练得到的卷积网络模型进行分析, 发现从卷积网络中提取的特征具有更强的语义特性, 比人工特征具有更好的区分度.他们将卷积特征迁移到其他具体领域的任务中, 如场景识别、细粒度分类等, 均获得了更好的分类性能, 从实验上证明了卷积特征强大的泛化性.他们称之为DeCAF特征(Deep convolutional activation feature).
具体而言, 首先使用标注框对图像进行裁剪, 得到前景对象, 再利用预训练的卷积网络对图像提取DeCAF特征.在文献[25]中, 他们提取的是第6层网络特征, 即第一个全连接层的输出, 之后训练一个多类别的逻辑回归(Logistic regression)模型来进行图像分类.这样一个简单的框架在Caltech-UCSD数据集[42] (CUB200-2011[1]数据集的早期版本2)上取得了58.75%的分类精度, 超过了很多当时非常优秀的算法.这也证明了从卷积网络中所提取的特征, 尽管不是为细粒度图像分类专门进行优化设计的, 却捕捉到了更丰富的图像信息.
2如不加说明, 后文均是在CUB200-2011数据集上的实验结果.
总的来说, DeCAF是比较前期的工作, 并不是专门针对细粒度图像分类所优化设计的算法, 其目的在于解释卷积特征的强大泛化性与领域自适应性. DeCAF的出现, 在卷积特征与细粒度图像分类之间搭起了一座桥梁, 具有十分重要的意义.如今, 越来越多的算法倾向于使用卷积特征来进行具体领域的图像处理工作, 并取得了很大的进步.
5.2 Part R-CNN
正如我们在前文所描述的那样, 对于细粒度图像分类而言, 图像的局部信息是决定算法性能的关键所在.对图像进行检测, 并提取出重要的局部信息是大多数细粒度图像分类算法所采用的基本流程.基于这种观点, Zhang等提出了Part R-CNN[43]算法, 该算法采用了R-CNN[44]对图像进行检测.因此, 在介绍该算法之前, 有必要对R-CNN做一个简要的说明.
5.2.1 R-CNN算法
对象检测(Objection detection)[45-46]问题是计算机视觉领域一个非常重要的研究课题, 其目标是判定图像中是否存在特定的对象, 如车、人等, 并给出对象在图像中的位置信息.基于卷积特征, Girshick等提出了R-CNN (Regions with CNN features)算法[44].
该算法流程十分简单, 首先, 对于输入的图像, 采用自底向上的区域算法(如Selective search[47])产生2 000个区域候选(Part proposals).这些候选区域可能包含了想要检测的目标对象, 但绝大多数区域仅仅包含背景信息.之后, 对每一个候选区域提取卷积特征, 用事先训练好的SVM模型来对每一个特征进行分类, 判断该候选区域中是否包含想要检测的对象.这样, 每一个候选区域都能够计算得到一个相应的评分分值: $score=\omega^{\rm T}\phi(x)$.其中$\omega$是SVM的权重, $\phi(x)$是利用卷积网络从候选区域图像x中提取的特征.利用此分值作为评估该候选区域属于某一类别的可能性.如果某一候选区域与另一分值较高区域之间的IoU (Intersection-over-union)重叠值大于某一阈值的话, 则丢弃该低分值的区域, 即采用所谓的非极大抑制(Non-maximum suppression)策略.同时, 分值低于某一阈值的区域也应当被丢弃.最终所保留下来的区域即为该类的定位检测结果.
在实际应用中, 仍有一些具体的操作细节需要注意, 如卷积网络的微调、训练数据的划分等.本文由于篇幅限制, 不再一一叙述, 详细可参照文献[44].
5.2.2 Part R-CNN算法
顾名思义, Part R-CNN就是利用R-CNN算法进行对象(鸟)与局部区域(头、身体等)的检测, 图 4给出了其总体的流程图.
同R-CNN一样, Part R-CNN也使用自底向上的区域算法(如Selective search[47])来产生区域候选, 如图 4左上角所示.之后, 利用R-CNN算法来对这些区域候选进行检测, 给出评分分值.在这里, Part R-CNN只检测前景对象(鸟)和两个局部区域(头、身体).之后, 根据评分分值(图 4中间)挑选出区域检测结果(见图 4上方中间).但Zhang等认为, R-CNN给出的评分分值并不能准确地反映出每个区域的好坏.例如, 对于头部检测给出的标注框可能会在对象检测的标注框外面, 身体检测的结果与头部检测的结果可能会有重叠等.这些现象都会影响最终的分类性能.因此, 需要对检测区域进行修正.
具体而言, 用$X=\{x_0, x_1, \cdots, x_n\}$表示标注框的位置信息, 其中$x_0$表示对象(鸟)的位置, $x_1$到$x_n$分别表示n个局部区域位置(头和身体).通过求解式(1) 所示的最优化问题来获得最佳的标注框位置:
${X^*} = \arg \mathop {\max }\limits_X {\mkern 1mu} \Delta (X)\prod\limits_{i = 0}^n {{d_i}} ({x_i})$
(1) 其中, $\Delta(X)$表示评分函数, 我们稍后会对其进行介绍, $d_i(x_i)=\sigma(\omega_i^{\rm T}\phi(x_i))$表示对第i个区域所对应的R-CNN评分值求Sigmoid函数值.
关于评分函数$\Delta(X)$有两种选择, 分别表示边框约束与几何约束, 其定义如下所示:
1) 边框约束:该约束的出发点在于, 所有的局部区域的范围不能超出对象区域的某个阈值:
${{\Delta }_{box}}(X)=\prod\limits_{i=1}^{n}{{{c}_{{{x}_{0}}}}}({{x}_{i}})$
(2) 当局部区域$x_i$超出对象区域$x_0$的像素点个数不超过$\epsilon$时, $c_{x_0}(x_i)=1$; 否则, 取$0$.
2) 几何约束:由于单个检测器的结果不一定可靠, 几何约束在边框约束的基础上增加了额外的约束信息:
${{\Delta }_{\text{geometric}}}(X)={{\Delta }_{box}}(X){{\left( \prod\limits_{i=1}^{n}{{{\delta }_{i}}}({{x}_{i}}) \right)}^{\alpha }}$
(3) 其中, $\alpha$是超参, $\delta_i$是对区域i位置的评分, 考虑两种不同的形式:
a) $\delta_i^{MG}(x_i)$对区域$x_i$求在训练数据上的混合高斯模型的值;
b) $\delta_i^{NP}(x_i)$首先找到与$x_0$最接近的K个近邻, 然后使用这K个近邻来训练混合高斯模型, 并求$x_i$的值.
利用如上所述的约束条件对R-CNN检测的位置信息进行修正之后, 再分别对每一块区域提取卷积特征, 将不同区域的特征相互连接起来, 构成最后的特征表示, 用来训练SVM分类器.这里, 在进行网络训练时, 利用检测到的局部图像对网络进行了微调.实验结果显示, 如果只在训练时提供标注框与局部区域信息, 测试时不提供任何信息的情况下, Part R-CNN在CUB200-2011数据集上能够达到73.89%的分类精度.进行几何约束后可以带来1%左右的效果提升, 而且$\delta_i^{NP}$的效果最好.
相对于只是简单地引入卷积特征的DeCAF算法[25]而言, Part R-CNN的进步是明显的.从局部区域的检测定位, 到特征的提取, 该算法均基于卷积神经网络, 并针对细粒度图像的特点进行改进优化, 以改进通用物体定位检测算法在该任务上的不足, 达到了一个相对比较高的准确度.同时, 该算法进一步放松了对标记信息的依赖程度, 在测试时无需提供任何标记信息, 大大增强了算法的实用性.其不足之处在于, 利用自底向上的区域产生方法, 会产生大量无关区域, 这会在很大程度上影响算法的速度.另一方面, 该算法本身的创新性十分有限, 既然局部区域对于细粒度图像而言是关键所在, 那么对其进行定位检测则是必要的途径.只是引入现有的通用定位算法, 似乎并不能很好地解决该问题.
5.3 姿态归一化CNN (Pose normalized CNN)
在细粒度图像分类任务中, 除了至关重要的局部区域信息之外, 还有一个十分显著的特点:其巨大的类内方差会对最终的分类性能造成很大的影响.而在这些不同的干扰信息中, 姿态问题则是一个普遍存在的影响因素.有鉴于此, Branson等提出了姿态归一化CNN (Pose normalized CNN)算法[48].他们所采取的方案是:对于每一张输入图像, 利用算法完成对局部区域的定位检测, 根据检测的标注框对图像进行裁剪, 提取出不同层次的局部信息(鸟、头部), 并进行姿态对齐操作.之后, 针对不同部位的局部信息, 提取出不同层的卷积特征.最后, 将这些卷积特征连接成一个特征向量, 进行SVM的模型训练, 达到了75.7%的分类精度.其具体流程如图 5所示.
整个算法流程中, 首先要解决的就是如何检测局部区域的问题.对于输入图像, Branson等利用预先训练好的DPM (Deformable part model)算法[49]完成关键点的检测. DPM算法能够给出预先定义好的关键位置点的坐标, 以及该点是否可见等信息.之后, 利用这些关键点进行姿态对齐操作.
具体而言, 给定n张训练图像, 每张图像包含K个关键点.首先使用这些训练数据训练P个原型(Prototype) $R_p=\{i_p, b_p, S_p\}$, 原型的个数代表不同局部区域的数量.其中$i_p$表示一张参考图像, $b_p$是相应的标注框, $S_p$则是一系列关键点的位置信息.给定一张测试图像$X_t$, 利用DPM算法检测出关键点位置$Y_t$之后, 将其与原型中的位置点对齐.这可以通过一个变换函数$W(y_{tj}, \omega)$完成:
$\omega _{tp}^* = \arg \mathop {\min }\limits_{\omega \in W} {\mkern 1mu} \sum\limits_{j \in {S_p}} E ({y_{tj}},{R_p},\omega )$
(4) 其中, $E(y_{tj})=\|\hat{y}_{i_pj}-W(y_{tj}, \omega)\|^2$表示像素对齐误差, 即变换后的坐标与原型里的坐标之间的误差, $\hat{y}_{i_pj}$表示原型进行归一化(减去标注框左上角坐标, 再除以长/宽)之后的新坐标, $\omega$是该变换函数的参数.这样的变化函数有很多种选择, 例如简单变换、相似变换、仿射变换等.这些变换都存在着闭式解, 因此式(4) 能够十分高效地求解.
下面的问题变成了如何对P个原型$R_p$进行训练.文献[48]给出的思路是使用受约束的最小化对齐误差, 其约束条件是训练集中的每一个关键点$y_{tj}$至少与一个原型对齐.这一约束可以形式化地描述为
${R^*} = \arg \mathop {\min }\limits_R {\mkern 1mu} \lambda P + \frac{1}{{nK}}\sum\limits_{t = 1}^n {\sum\limits_{j = 1}^K {\mathop {\min }\limits_p {\mkern 1mu} } } E({y_{tj}},{R_p},\omega _{tp}^*)$
(5) 其中, 第一项表示对原型个数的惩罚项, 后一项是使得每一张图里的每一个关键点与原型的像素对齐误差最小化.通过对该函数进行优化求解即可完成原型的训练过程.
由于不同网络层提取的特征包含不同的语义信息, Branson等认为应该针对不同的局部区域提取不同网络层的卷积特征.为了证明这一点, 他们比较了不同的局部区域在各个网络层提取的特征所能达到的分类准确度.实验结果表明, 对于低层对齐图像(原始图像与前景对象)而言, 后层的卷积特征更具区分度, 能够实现更高的准确度, 相对浅层特征具有绝对的优势.但对于高层对齐图像(头部图像)来说, 情况却恰恰相反.因此, 对于不同的局部区域应当提取不同网络层的特征.
姿态归一化CNN的创新之处在于使用原型对图像进行了姿态对齐操作, 并针对不同的局部区域提取不同网络层的特征, 以试图构造一个更具区分度的特征表示, 这一方案在先前的研究工作中并不常见.它在原有的局部区域模型的基础上, 进一步考虑了鸟类的不同姿态的干扰, 减轻了类内方差造成的影响, 从而取得了较好的性能表现.但是, 该算法对于关键点的检测精度较为敏感, 利用DPM算法对关键点进行检测, 其精度为75.7%.而如果在测试时使用真实的关键点标注信息, 则可以达到85.4%, 达到了一个相当高的分类水平.
5.4 其他
除了以上所介绍的算法之外, 还有很多优秀的算法, 如Krause等[50]将协同分割[51-52]引入到细粒度图像分类中来, 提出了一种新颖的局部区域检测算法.该算法无需借助局部区域标注信息, 只依靠标注框, 便可完成分割与对齐操作, 实现了82%的分类精度.相类似的, Lin等[53]设计了一个新颖的系统, 在单个网络结构中同时实现了局部区域的定位、对齐与分类任务, 通过梯度回传的机制达到共同优化训练的目的, 实现了80.26%的精度.
另一方面, 由于细粒度图像数据库的规模较小, 即便是对预训练的网络进行微调, 也难以避免过拟合带来的问题.因此, 也有研究人员考虑使用数据增强的方式来扩大细粒度图像数据库的规模.如Xu等[54]提出利用网络图片来进行数据增强.由于数据库的规模得到了扩充, 得到的网络也更加强大, 从而能够带来性能上的提升.但网络图片包含了大量的干扰信息, 因此, Xu等利用细粒度图像数据库上的标注信息来学习相应的检测器, 并利用检测器来对噪声图片进行过滤, 实现了84.6%的分类精度.
借助于丰富的人工标注信息, 辅以精确的检测技术, 实现更高的分类精度已不再是难事.但考虑到现实应用的实际需求, 随着研究的深入, 越来越多的算法不再依赖于这些强监督信息, 仅仅使用类别标签来完成分类任务, 这就是我们以下要介绍的弱监督的细粒度图像分类.
6. 弱监督的细粒度图像分类研究
仅仅依赖于类别标签完成分类是近年来细粒度图像研究的一大趋势.得益于深度学习的发展, 以及相关研究工作的深入, 不借助人工标注信息, 也能实现良好的分类性能.如Jaderberg等[55]和Lin等[13]均实现了84.1%的分类精度, 超过了绝大多数依赖于人工标注的分类算法.
从前文的讨论中可以看出, 对于细粒度图像分类算法而言, 局部区域信息是至关重要的, 这也正是大多数算法依赖于标注信息的一大原因.因此, 要实现更好的弱监督的细粒度图像分类, 首先要解决的就是如何检测并定位这些局部区域.
6.1 两级注意力(Two level attention)算法
两级注意力(Two level attention)算法[56]是第一个尝试不依赖额外的标注信息, 而仅仅使用类别标签来完成细粒度图像分类的工作, 由Xiao等提出, 取得了不错的分类效果.顾名思义, 该模型主要关注两个不同层次的特征, 分别是对象级(Object-level)和局部级(Part-level), 即在以往强监督工作中所使用的标注框和局部区域位置这两层信息.
该模型主要包含三个处理阶段, 对应于如下三个不同的子模型:
1) 预处理模型:在预处理阶段, 主要是从原始图像中检测并提取前景对象, 以减少背景信息带来的干扰.与R-CNN[44]相类似, Xiao等使用一个卷积网络来对Selective search[47]产生的所有区域候选进行筛选, 检测该区域的图像中是否包含鸟类.不同之处在于, R-CNN只是用卷积网络来提取特征, 并针对具体检测目标专门训练一个SVM, 根据评分结果来给出标注框的位置.而Xiao等采取的方案是:仅仅使用卷积网络来对背景区域进行过滤.这样导致的结果是, 对于一张输入图像, 可能对应许多包含前景对象的候选区域.
2) 对象级模型:此模型的主要作用是对对象级图像进行分类.经过预处理后, 得到了许多包含前景对象的图片, 可以用来从头开始训练一个卷积神经网络(Training from scratch).由于一张图像包含多个候选区域, 因此, 最终对一张图片的输出结果是一个集成(Ensemble).具体而言, 就是一张图的一个区域候选, 经过卷积网络之后, 得到一个Softmax层的输出.对所有区域的输出求平均, 作为该图像最终的Softmax层输出.值得注意的是, 对象级模型本身就是一个完整的分类方案, 但对于细粒度分类任务而言, 局部信息更加重要.因此, 在对象级模型的基础上, 需要与局部级模型相结合, 才能实现最终的分类目标.
3) 局部级模型:由于预处理模型选择出来的这些候选区域大小不一, 有些可能包含了头部, 有些可能只有脚.因此, 局部级模型的作用就是为了选出这些局部区域.首先利用对象级模型得到的网络来对每一个候选区域提取特征.对这些特征进行谱聚类, 得到k个不同的聚类簇, 每个簇代表一个局部信息, 如头部、脚等.于是, 每个簇都可以被看作一个区域检测器, 可以对测试样本的局部区域进行检测.
将不同局部区域的特征级联成一个特征向量, 用来训练SVM, 作为局部级模型给出的分类器.最后, 将对象级模型的预测结果与局部级模型的结果相结合, 作为模型的最终输出, 达到了69.7%的精度.需要说明的是, 这是在Alex-Net[22]上的实验结果, 如果采用更强大的网络结构如VGG-Net[39], 则能将分类准确率提升到77.9%.这也从另一个角度说明了特征对于图像分类算法的重要性.
总体上来看, 两级注意力模型较好地解决了在只有类别标签的情况下, 如何对局部区域进行检测的问题.但是, 利用聚类算法所得到的局部区域, 准确度十分有限.在同样使用Alex Net的情况下, 其分类精度要低于强监督的Part R-CNN算法[43].
6.2 基于局部区域的图像表示
以上所介绍的算法都只是简单地将卷积网络的输出作为特征表示来使用.事实上, 卷积特征的每一个位置点, 都对应于原图中的一个局部的感受野(Receptive fields), 即卷积特征的一些局部区域对应于原图中的局部区域.
基于这种思想, Zhang等[12]提出了一种能够从卷积特征中挑选出具有分辨力的局部区域特征的算法, 与传统算法相比, 减少了产生局部区域所需的计算量.首先对于输入图像, 利用Selective search[47]产生对象区域候选.对于每一个候选, 利用MMP (Multi-max pooling)方法, 直接从候选的卷积特征中产生局部区域的特征.之后, 对这些特征做聚类, 并计算每一个聚类簇的重要性, 选择重要的聚类簇来构造最终的图像特征表示.其算法流程图如图 6所示.
对于每一个候选区域, 提取其卷积特征为一个$N\times N \times d$的张量, Zhang等采用MMP方法从卷积特征中, 直接提取出局部区域的特征, 得到若干d维的特征.该方法利用一个$M\times M$大小的滑动窗口, 从卷积特征的左上角向右下角扫描, 每次扫描都对窗口内的特征做一次Max pooling编码, 得到一条d维特征.同时, 通过变化M的取值, 可以得到不同大小的区域的特征表示, 这里$M\in [1, N]$.
这样, 利用MMP方法就能够直接得到局部候选的特征表示, 避免了基于Selective search方法的巨大计算开销.但是这些特征中, 包含着大量无关信息, 需要对其进行选择, 去除噪音.
首先, 利用FV (Fisher vector)编码[20]将每一张图像的所有局部区域候选表示成一个向量.由于FV编码使用了高斯混合模型(Gaussian mixture model, GMM)进行聚类, 因此, 每一个聚类簇可以认为是一种局部区域(如头部、翅膀、爪子等).于是, 接下来的任务就是从众多的聚类簇中, 选择那些重要的聚类簇.这可以通过计算每一个类的相互信息值(Mutual information, MI)作为该簇的重要程度分值[57].通过这样的方式能够选择出那些重要的聚类簇.
最后, Zhang等提出使用一种改进的FV编码方式(ScPM编码), 将不同的规模的局部特征编码为最终的特征表示, 用来训练SVM分类器, 达到了79.34%的分类精度.
6.3 星座(Constellations)算法
正如我们在上一节曾经提到的, 基于Selective search[47]产生区域候选的方法, 尽管有效, 却面临巨大的计算代价和资源浪费.因此, 有研究人员尝试采用其他方式来产生足够的局部区域.
Simon等[58]设计了一种新颖的局部区域检测与提取的方案, 在CUB200-2011数据集上达到81.01%的分类精度.他们利用卷积网络特征产生一些关键点, 并基于这些关键点来提取局部区域信息.通过对卷积特征进行可视化分析, Simon等发现响应比较强烈的区域往往对应于原图中一些潜在的局部区域点.从这一角度来看, 卷积特征还可以被视为一种检测分数, 响应值高的区域代表着原图中检测到的局部区域.
但是, 特征输出的分辨率与原图相差悬殊, 很难对原图中的区域进行精确定位.受前期研究工作[59-60]的启发, Simon等采用的方法是通过计算梯度图来产生区域位置.
具体而言, 卷积特征的输出是一个$W \times H\times P$维的张量, P表示通道的数量, 每一维通道可以表示成一个$W \times H$维的矩阵.通过计算每一维通道p对每一个输入像素的平均梯度值, 可以得到与原输入图像大小相同的特征梯度图:
$m_{x,y}^{(p)}(I)=\frac{\partial }{\partial {{I}_{x,y}}}\sum\limits_{j,{{j}^{'}}}{f_{j,{{j}^{'}}}^{\left( p \right)}\left( I \right)}$
(6) 式(6) 可以通过反向传播高效地完成计算[59].这样, 每一个通道的输入, 都可以转换成与原图同样大小的特征梯度图.于是, 在特征梯度图里响应比较强烈的区域, 即代表原图中的一个局部区域.通过计算每一个梯度图里响应最强烈的位置, 作为原图中的关键点:
${\mu _{i,p}} = \arg \mathop {\max }\limits_{x,y} {\mkern 1mu} |m_{x,y}^{(p)}({I_i})|$
(7) 卷积层的输出共有P维通道, 通过计算特征梯度图的方式能够产生P个关键点位置.但这些关键点中仍然存在一些无关的背景信息, 因此, 需要对关键点进行选择.这可以通过随机选择或者星座(Constellations)算法来完成.
进行特征选择之后, 关键位置点的个数就从P个减少到了M个.得到这些关键点之后, 将其作为标注框的中心, 取大小为$\sqrt{\lambda \cdot W' \cdot H'}$, 其中$\lambda\in{1}/{5}, {1}/{16}\}$是一个超参数, $W'$和$H'$是原图的大小.这样就能够利用标注框来从原图中提取出局部区域, 再利用卷积网络来提取特征.
至于前景对象, Simon等并未提出更好的解决方案, 他们采用的仍是传统的局部区域候选的方法, 即利用Selective search[47]产生候选区域, 再利用卷积神经网络对其进行分类, 取置信度最高的区域作为前景对象.最后的特征向量由三部分信息构成:原图的特征、前景对象的特征以及局部区域的特征.在训练时, 对VGG-Net[39]进行了微调, 并将所有训练数据进行水平翻转, 用来进行数据增强, 最终结果为81%.
6.4 双线性CNN(Bilinear CNN)
同样是回答如何在不依赖于标记信息的情况下, 完成对局部区域的检测问题, 以上介绍的两种算法均给出了让人满意的解决方案. Zhang等通过对卷积特征进行多尺度的划分来产生局部区域, 而星座算法则是直接从卷积特征中反推原图中的关键点, 进而确定局部区域.但这两种算法都只是把卷积网络当做一个特征提取器, 各个步骤之间的处理仍然是一个分散的过程, 并未从整体上进行端到端(End-to-end)的训练优化.与此不同的是, Lin[13]等设计了一种新颖的网络模型双线性CNN (Bilinear CNN), 在CUB200-2011数据集上实现了84.1%的分类精度.其网络结构如图所示:
顾名思义, 双线性CNN中最重要的就是双线性(Bilinear)模型.一个双线性模型$\mathcal{B}$由一个四元组组成: $\mathcal{B}=(f_A, f_B, \mathcal{P}, \mathcal{C})$.其中, $f_A, f_B$代表特征提取函数, 即图 7中的网络A、网络B, $\mathcal{P}$是一个池化函数(Pooling function), $\mathcal{C}$则是分类函数.
特征提取函数$f(\cdot)$的作用可以看作一个函数映射, $f:\mathcal{L} \times \mathcal{I} \to R^{c\times D}$, 将输入图像$\mathcal{I}$与位置区域$\mathcal{L}$映射为一个$c \times D$维的特征.而两个特征提取函数的输出, 可以通过一个双线性操作进行汇聚, 得到一个双线性特征: bilinear$(l, \mathcal{I}, f_A, f_B)=f_A(l, \mathcal{I})^{\rm T}f_B(l, \mathcal{I})$.而池化函数$\mathcal{P}$的作用则是将所有位置的双线性特征汇聚成一个特征.文章所采用的池化函数是将所有位置的双线性特征累加起来: $\phi(\mathcal{I})=\sum_{l \in \mathcal{L}}{\rm bilinear}(l, \mathcal{I}, f_A, f_B)$.如果两个特征函数$f_A$, $f_B$提取的特征维度分别是$C \times M$与$C \times N$的话, 则池化函数$\mathcal{P}$的输出将是一个$M \times N$的矩阵, 将其转化为一个$MN \times 1$的列向量, 作为所提取的特征.最后, 分类函数的作用是对提取的特征进行分类, 可以采用逻辑回归或者SVM分类器.
当双线性模型应用到实际的网络中时, 特征提取函数$f_A$, $f_B$的输出是一个$M \times N \times P$维的张量, 这时位置$\mathcal{L}$定义为$M \times N$维矩阵上的每一个位置点, 共有$MN$个位置.每个位置经过双线性操作后转化为一个$P \times P$维的矩阵, 经过池化函数之后, 最终得到一个$PP \times 1$的特征向量.
最后, 是关于模型端到端的训练过程.从图 7中可以看出, 模型的前半部分是普通的卷积层与池化层, 因此, 只要求得后半部分的梯度值, 即可完成对整个模型的训练.假设对于每个位置l, 特征提取函数$f_A$, $f_B$的输出分别是$A \in {\bf R}^{L \times M}$与$B \in {\bf R}^{L \times N}$, 则池化的双线性特征是$x=A^{\rm T}B$.令${\rm d}l/{\rm d}x$表示损失函数对特征x的梯度值, 则根据链式法则, 可以得到损失函数对两个网络输出的梯度值, 从而完成模型的端到端的训练:
$\frac{\text{d}l}{\text{d}A}=B{{\left( \frac{\text{d}l}{\text{d}x} \right)}^{\text{T}}},~~\frac{\text{d}l}{\text{d}B}=A{{\left( \frac{\text{d}l}{\text{d}x} \right)}^{\text{T}}}$
(8) 一种对双线性CNN模型的解释是, 网络A的作用是对物体进行定位, 即完成传统算法的对象与局部区域检测工作, 而网络B则是用来对网络A检测到的物体位置进行特征提取.两个网络相互协调作用, 完成细粒度图像分类过程中两个最重要的任务:区域检测与特征提取.
6.5 其他
弱监督的分类算法, 是当前细粒度图像研究的发展趋势.除了以上所介绍的若干算法之外, 相关的研究领域中还存在着如下重要工作:
在文献[55]中, Jaderberg等提出了一种端到端的模型, 他们称之为空间转换网络(Spatial transformer networks).该模型只使用类别标签就能完成对象的定位与对齐, 同样实现了84.1%的分类精度.整个系统由两部分组成:对象检测器与空间转换器.前者用来完成前景对象的检测工作, 后者则是对检测结果进行对齐操作.
Wang等[61]则提出应当进行多层次的图像分类.他们根据生物学上的分类方法, 将数据库重新划分为科、属、种等多个不同的层次.对于每个不同层次的网络, 使用不同尺度的图像和不同的监督信息进行训练, 以达到粗细互补的目的.最后的特征由多个不同层次网络的输出拼接而成, 实现了81.7%的分类精度.
相类似的研究成果还有很多, 也都取得了不错的效果, 本文限于篇幅, 不再一一介绍.
7. 未来研究方向
本文介绍了近年来基于卷积特征的细粒度图像分类算法的发展状况.我们在表 1总结了其中若干优秀算法在CUB200-2011[1]数据集上的性能表现, 给出了训练和测试阶段所使用的标注信息, 并简要地描述了算法的大致流程:如SIFT + BoW + SVM指的是, 先对图像提取SIFT特征, 并用BoW对局部特征进行编码, 最后使用SVM进行分类.
表 1 CUB200-2011[1]数据库上的算法性能比较(其中BBox指标注框信息(Bounding Box), Parts指局部区域信息)Table 1 Performance of different algorithms in CUB200-2011[1] (where BBox refers to bounding box, Parts means part annotations)算法 BBox
(训练)Parts
(训练)BBox
(测试)Parts
(测试)简要描述 准确率(%) CUB[1] √ √ SIFT + BoW + SVM 10.3 CUB[1] √ √ √ √ SIFT + BoW + SVM 17.3 [2mm] POOF[26] √ √ √ POOF + SVM 56.8 POOF[26] √ √ √ √ POOF + SVM 73.3 Alignment[31] √ √ Fisher + SVM 62.7 Symbiotic[30] √ √ Fisher + SVM 61 [2mm] DeCAF[25] √ √ Alex-Net + Logistic Regression 61 Part R-CNN[43] √ √ Alex-Net + Fine-Tune + SVM 73.9 Pose Normalized CNN[48] √ √ Alex-Net + Fine-Tune + SVM 75.7 Pose Normalized CNN[48] √ √ √ √ Alex-Net + Fine-Tune + SVM 85.4 [2mm] Two-level Attention[56] Alex-Net 69.7 Two-level Attention[56] VGG16-Net 77.9 Zhang et al.[12] VGG16-Net + Fine-Tune + SVM 79.3 Constellations[58] VGG19-Net + Fine-Tune + Flip + SVM 81 Bilinear CNN[13] VGG19-Net/VGG-M + Flip 84.1 Spatial Transformer Net[55] Inception[62] + Flip 84.1 该表主要分为4个部分, 第一部分是数据库发布之时的分类精度, 受限于当时的技术水准, 传统分类算法的表现不尽人意.第二部分是基于人造特征的早期算法, 借助于特殊的特征描述与编码方式, 以及人工标注信息, 这类算法能够实现一定的突破.第三部分是基于卷积特征的强监督的分类算法, 相比于人造特征, 卷积特征提供了更好的图像描述.其中, Alex-Net + Fine-Tune表示使用Alex-Net[22]预训练网络模型, 并在数据集上进行了微调.最后一部分是基于卷积特征的弱监督的分类算法, 这类算法不借助任何标注信息, 仅仅依靠类别标签, 实现了更高的分类精度.其中, Flip表示在训练时对图像进行了水平翻转操作, 这是一种常用的用于数据增强的方式, 能够改善因训练数据不足而带来的过拟合问题.
细粒度图像分类的研究方兴未艾, 亟待后续研究的深入进行.关于未来可能的研究方向, 我们认为可从以下几个方面进行考虑:
1) 构建更高质量的标准数据库:当前主流研究所采用的细粒度图像数据库, 尽管可供选择的余地很大, 但都存在一个共同的不足之处:数据规模与精细程度都不太高, 标注质量与类别数量也十分有限.众所周知, 深度学习的性能与数据库的规模呈正相关性, 训练图像越丰富, 所能带来的性能提升越明显, 实用性也越强.因此, 如何构建更高质量的标准数据库成为了未来研究急需解决的一个问题.
2) 有效地利用局部区域信息:细粒度图像识别有别于普通图像分类任务的一大特点, 便是具有区分度的信息隐藏在局部区域中.如何更有效地利用这些局部信息, 将成为未来研究一大突破点.其中主要包含两个方面的问题, 一是何谓"有用的"局部信息, 二是如何获取这些信息.前者主要依赖于人工经验, 由人来指定所需要提取的局部区域.其不足之处在于, 我们很难概括所有的有用区域, 而这些区域在不同的子类上往往是不同的.后者则寄希望于更高效的区域检测算法, 这可以从通用的物体定位检测任务中获取灵感.但需要注意的是, 弱监督的细粒度图像分类是未来研究的主要方向, 如何在只有类别标记的前提下, 有效地完成对局部区域的定位检测工作, 这无疑是个不小的挑战.
3) 构造更强大的特征表示:诚然, 一个更强大的特征表示离不开深度学习相关研究工作的突破.但对于细粒度图像分类而言, 最终的特征表示往往是由多个不同的局部区域特征组合而成.简单的特征拼接, 尽管有效, 但似乎并不是最佳选择.另一方面, 双线性CNN[13]的成功也为我们提供了新思路:进行端到端的训练, 构造一个整体的系统, 将特征提取与定位检测任务相结合, 以达到相互促进的目的.
4) 自然场景下的图像识别:细粒度图像分类是一门与实际应用密切相关的研究课题, 其最终目的应当是服务于实际生活.但目前学术研究中所用的数据库, 普遍具有前景对象突出, 背景单一的特点, 这样的图片在实际生活中其实并不常见.若想使细粒度图像识别系统在自然场景下得到广泛应用, 就不得不考虑诸如光照、模糊、遮挡、低分辨率, 物体干扰等复杂场景下的图像识别问题, 而这些因素在当前的系统中往往是欠缺的.另外, 除了静态图片之外, 视频中的细粒度识别[63]也是一项极具挑战的研究任务.目前, 这方面的研究工作并不丰富, 但其在智能监控, 生态研究等领域具有更强烈的实际需求, 值得未来工作的展开.
5) 向其他领域的拓展:事实上, 细粒度图像是一个综合性的研究课题, 不应局限于图像分类一个领域, 需要向计算机视觉的其他研究方向进行拓展, 如图像检索[64-65]、对象检测[66]等.在这方面, 我们看到了一些初步尝试, 如有研究人员提出细粒度图像检索的任务[67-68], 并取得了一定的效果, 但更多的研究内容仍然有待进一步挖掘.
8. 总结
细粒度图像分类算法是计算机视觉领域的一个热门研究课题, 深度卷积特征的出现为其带来了新的发展机遇.本文从强监督、弱监督两个角度, 对近年来基于卷积特征的细粒度图像分类算法的发展状况给予了介绍.针对细粒度分类中的两个核心任务:局部信息的检测与特征提取, 进行了详细讨论, 并总结了该领域未来可能的发展机遇.
-
[1] Howard T M, Kelly A. Trajectory and spline generation for all-wheel steering mobile robots. In: Proceedings of the 2006 IEEE/RSJ International Conference on Intelligent Robots and Systems. Beijing, China: IEEE, 2006. 4827-4832 [2] Yan Fei, Zhuang Yan, Bai Ming, Wang Wei. 3D outdoor environment modeling and path planning based on topology-elevation model. Acta Automatica Sinica, 2010, 36(11): 1493-1501(闫飞, 庄严, 白明, 王伟. 基于拓扑高程模型的室外三维环境建模与路径规划. 自动化学报, 2010, 36 (11): 1493-1501) [3] Chen Yang, Zhang Dao-Hui, Zhao Xin-Gang, Han Jian-Da. UAV 3D path planning based on IHDR autonomous-learning-framework. Robot, 2012, 34(5): 513-518(陈洋, 张道辉, 赵新刚, 韩建达. 基于IHDR自主学习框架的无人机3维路径规划. 机器人, 2012, 34 (5): 513-518) [4] [4] Kelly A, Nagy B. Reactive nonholonomic trajectory generation via parametric optimal control. The International Journal of Robotics Research, 2003, 22(7-8): 583-601 [5] [5] Howard T M, Kelly A. Optimal rough terrain trajectory generation for wheeled mobile robots. The International Journal of Robotics Research, 2007, 26(2): 141-166 [6] [6] Ferguson D, Howard T M, Likhachev M. Motion planning in urban environments: Part II. Intelligent robots and systems. In: Proceedings of the 2008 IEEE/RSJ International Conference on Intelligent Robots and Systems. Nice: IEEE, 2008. 1070-1076 [7] [7] Howard T M, Green C J, Kelly A. Receding horizon model-predictive control for mobile robot navigation of intricate paths. Field and Service Robotics. Berlin, Heidelberg: Springer, 2010, 62: 69-78 [8] [8] Howard T M, Pivtoraiko M, Knepper R A, Kelly A. Model-predictive motion planning: several key developments for autonomous mobile robots. IEEE Robotics and Automation Magazine, 2014, 21(1): 64-73 [9] [9] Ferguson D, Howard T M, Likhachev M. Motion planning in urban environments. Journal of Field Robotics, 2008, 25(11-12): 939-960 [10] Laumond J P, Jacobs P E, Taix M, Murray R M. A motion planner for nonholonomic mobile robots. IEEE Transactions on Robotics and Automation, 1994, 10(5): 577-593 [11] Scheuer A, Fraichard T. Continuous-curvature path planning for car-like vehicles. In: Proceedings of the 1997 IEEE/ RSJ International Conference on Intelligent Robots and Systems. Grenoble: IEEE, 1997. 2: 997-1003 [12] Gmez-Bravo F, Cuesta F, Ollero A, Viguria A. Continuous curvature path generation based on -spline curves for parking manoeuvres. Robotics and Autonomous Systems, 2008, 56(4): 360-372 [13] Li Y B, Xiao J. On-line planning of nonholonomic trajectories in crowded and geometrically unknown environments. In: Proceedings of the 2009 IEEE International Conference on Robotics and Automation. Kobe: IEEE, 2009. 3230- 3236 [14] Jolly K G, Sreerama K R, Vijayakumar R. A bezier curve based path planning in a multi-agent robot soccer system without violating the acceleration limits. Robotics and Autonomous Systems, 2009, 57(1): 23-33 [15] Choi J, Curry R E, Elkaim G H. Curvature-continuous trajectory generation with corridor constraint for autonomous ground vehicles. In: Proceedings of the 49th IEEE Conference on Decision and Control (CDC). Atlanta, GA: IEEE, 2010. 7166-7171 [16] Morten K, Nils A, Ole R. Generic trajectory representation and trajectory following for wheeled robots. In: Proceedings of the 2014 IEEE International Conference on Robotics and Automation. Hong Kong, China: IEEE, 2014. 4073-4080 [17] Kelly A, Stentz A. Rough terrain autonomous mobility Part 1: a theoretical analysis of requirements. Autonomous Robots, 1998, 5(2): 129-161 [18] Duncan M. Applied Geometry for Computer Graphics and CAD. Springer, 2005. 期刊类型引用(146)
1. 杨锁荣,杨洪朝,申富饶,赵健. 面向深度学习的图像数据增强综述. 软件学报. 2025(03): 1390-1412 . 百度学术
2. 齐妍,孙涵. 基于判别性特征增强的小样本细粒度图像识别. 计算机技术与发展. 2024(01): 44-51 . 百度学术
3. 路凯丽,杨露,李涛. 基于集成深度学习模型的空气质量指数预测. 南京信息工程大学学报. 2024(01): 56-65 . 百度学术
4. 向旭宇,刘亚捷,曾彬,谭云. 基于Transformer双线性网络的细粒度图像分类方法. 华中科技大学学报(自然科学版). 2024(02): 84-89 . 百度学术
5. 文钰栋,马琦. 基于YOLOv5的卷烟包装真伪智能识别APP系统. 自动化应用. 2024(04): 183-184+187 . 百度学术
6. 李冰锋,刘帅,杨艺. 基于改进的Transformer细粒度图像识别算法研究. 电子测量技术. 2024(02): 114-120 . 百度学术
7. 胡星辰,李妍,陈紫健,李文涛,申映华,刘忠. 粒度模糊规则建模方法研究综述. 智能系统学报. 2024(01): 22-35 . 百度学术
8. 邓昀,冯琦尧,牛照文,康燕萍. 基于渐进式生成对抗网络的农作物病虫害细粒度分类. 中国农机化学报. 2024(03): 156-162+218 . 百度学术
9. 周伯俊,陈峙宇. 基于深度元学习的小样本图像分类研究综述. 计算机工程与应用. 2024(08): 1-15 . 百度学术
10. 徐胜军,荆扬,段中兴,李明海,李海涛,刘福友. 双注意力随机选择全局上下文细粒度识别网络. 液晶与显示. 2024(04): 506-521 . 百度学术
11. 苗壮,王培龙,崔浩然,王昱菲,王家宝. 融合全局上下文关联特征的细粒度图像分类. 计算机技术与发展. 2024(06): 29-36 . 百度学术
12. 沈宇麒,崔衍. 基于双层路由注意力及特征融合的细粒度图像分类. 计算机技术与发展. 2024(06): 23-28 . 百度学术
13. 王树才,黄开虎,丁美宙,纪晓楠,陶栩. 基于改进ConvNeXt模型的真假卷烟烟丝识别方法. 烟草科技. 2024(05): 103-112 . 百度学术
14. 暴恒,邓理睿,张良,陈训逊. 基于检索增强的噪声标签细粒度图像分类方法. 北京航空航天大学学报. 2024(07): 2284-2292 . 百度学术
15. 王洪昌,夏舫,张渊媛,刘颖杰,刘松,宋飞,鉴海防. 基于深度学习算法的鸟类及其栖息地识别——以北京翠湖国家城市湿地公园为例. 生态学杂志. 2024(07): 2231-2238 . 百度学术
16. 王衍根,陈飞,陈权. 结合动态自适应调制和结构关系学习的细粒度图像分类. 计算机系统应用. 2024(08): 166-175 . 百度学术
17. 张林,易先鹏,王广杰,范心宇,刘辉,王雪松. 基于网格重构学习的染色体分类模型. 自动化学报. 2024(10): 2013-2021 . 本站查看
18. 陈权,陈飞,王衍根,程航,王美清. 融合目标定位与异构局部交互学习的细粒度图像分类. 自动化学报. 2024(11): 2219-2230 . 本站查看
19. 张东晓,袁梦,祝茜,王先艳. 考虑类间差异损失的中华白海豚个体识别. 计算机辅助设计与图形学学报. 2024(09): 1384-1393 . 百度学术
20. 李冰锋,冀得魁,杨艺. 基于改进MMAL的细粒度图像分类研究. 电子测量技术. 2024(17): 172-179 . 百度学术
21. 柏栋,于英,宋亮,程彬彬,高寒. 面向军用车辆细粒度检测的遥感图像数据集构建与验证. 中国图象图形学报. 2024(12): 3564-3577 . 百度学术
22. 李英,李至立,胡载萍,江练金,郑红,刘兴惠. 基于深度特征协作的舰船目标分类方法. 舰船科学技术. 2024(23): 174-178 . 百度学术
23. 黄乾峰,董琴,韦静. 改进MobileNetV2算法的番茄叶片病害种类识别. 计算机系统应用. 2023(01): 385-391 . 百度学术
24. 田战胜,刘立波. 基于改进Transformer的细粒度图像分类模型. 激光与光电子学进展. 2023(02): 171-178 . 百度学术
25. 方超伟,李雪,李钟毓,焦李成,张鼎文. 基于双模型交互学习的半监督医学图像分割. 自动化学报. 2023(04): 805-819 . 本站查看
26. 王坤,朱子奇. 基于加强图像块相关性的细粒度图像分类方法. 计算机技术与发展. 2023(05): 56-61 . 百度学术
27. 王伟珍,赵汝嘉. 基于改进Mask R-CNN的服装图像细粒度实例分割. 毛纺科技. 2023(06): 88-94 . 百度学术
28. 范九丹. 融合注意力机制的网络监督细粒度识别. 信息系统工程. 2023(07): 71-74 . 百度学术
29. 刘光辉,占华,孟月波. 随机选择全局多样化细粒度图像分类. 控制与决策. 2023(09): 2622-2631 . 百度学术
30. 徐胜军,荆扬,李海涛,段中兴,刘福友,李明海. 渐进式多粒度ResNet车型识别网络. 光电工程. 2023(07): 37-51 . 百度学术
31. 姜昊,凌萍,陈寸生保. 一种新的基于通道-空间融合注意力及SwinT的细粒度图像分类算法. 南京师范大学学报(工程技术版). 2023(03): 36-42 . 百度学术
32. 赵志成,罗泽. 基于注意力机制和深度残差网络的烟盒规格识别. 计算机应用与软件. 2023(09): 242-247+252 . 百度学术
33. 赵婷婷,高欢,常玉广,陈亚瑞,王嫄,杨巨成. 基于知识蒸馏与目标区域选取的细粒度图像分类方法. 计算机应用研究. 2023(09): 2863-2868 . 百度学术
34. 张延利. 基于小样本数据的空气质量指数适应性建模研究. 绿色科技. 2023(16): 116-119+149 . 百度学术
35. 杨琳琳,别书凡,王建坤,皇甫懿,刘焱,李文峰,施杰. 基于深度学习的玉米植株表型检测方法研究. 江苏农业科学. 2023(19): 165-172 . 百度学术
36. 蔡臻,雷少刚,史运喜,孙永桥,田雨. 基于手持移动设备贴近摄影获取排土场物料粒度分布. 采矿与安全工程学报. 2023(06): 1315-1322 . 百度学术
37. 杨虹,范勇. 一种基于区分区域定位的细粒度图像识别方法. 计算机技术与发展. 2023(11): 169-174 . 百度学术
38. 曾鹏,李曦,赵璐,杜彦辉. 基于MobileNet和文本识别匹配的证件图片分类算法. 中国人民公安大学学报(自然科学版). 2023(03): 52-58 . 百度学术
39. 王陈哲,陈宇佳,陶诗量,李明,胡博,贾军辉,陈浩男. 融合深度学习和特征点识别的室内定位研究. 地理与地理信息科学. 2023(06): 23-27 . 百度学术
40. 颜戚冰,周先春,昝明远,王博文,张杰. 基于残差连接的并行网络去噪. 计算机与数字工程. 2023(09): 2103-2108 . 百度学术
41. 胡晓斌,彭太乐. 基于互通道损失数据增强网络的细粒度图像分类. 江汉大学学报(自然科学版). 2023(06): 63-71 . 百度学术
42. 刘光辉,占华,孟月波,王博,王博. 多尺度显著特征双线注意力细粒度分类方法. 计算机辅助设计与图形学学报. 2023(11): 1683-1691 . 百度学术
43. 丁文谦,余鹏飞,李海燕,陆鑫伟. 基于Xception网络的弱监督细粒度图像分类. 计算机工程与应用. 2022(02): 235-243 . 百度学术
44. 宋思雨,苗夺谦. 基于多粒度空间混乱的细粒度图像分类算法. 智能系统学报. 2022(01): 144-150 . 百度学术
45. 谭润,叶武剑,刘怡俊. 结合双语义数据增强与目标定位的细粒度图像分类. 计算机工程. 2022(02): 237-242+249 . 百度学术
46. 韩成春,崔庆玉. 基于B-CNN算法的汽车数据集细粒度图像分类分析. 自动化仪表. 2022(03): 7-10 . 百度学术
47. 刘哲,刘政,王恩. 一种基于双段深度残差卷积网的强噪声超分辨率重建算法. 武汉大学学报(工学版). 2022(03): 300-309 . 百度学术
48. 董绍江,刘伟,蔡巍巍,饶志荣. 基于分层精简双线性注意力网络的鱼类识别. 计算机工程与应用. 2022(05): 186-192 . 百度学术
49. 张强,杨吉斌,张雄伟,曹铁勇,郑昌艳. CS-Softmax:一种基于余弦相似性的Softmax损失函数. 计算机研究与发展. 2022(04): 936-949 . 百度学术
50. 李宽宽,刘立波. 双线性聚合残差注意力的细粒度图像分类模型. 计算机科学与探索. 2022(04): 938-949 . 百度学术
51. 何文静,唐庭龙,吴义熔. 基于同步重建与分类的深度自编码的分类网络. 长江信息通信. 2022(05): 21-24 . 百度学术
52. 江涛,彭太乐,胡晓斌,朱仕宁,郭嘉,朱晓彤. 结合注意力与跨层双线性网络的细粒度图像分类. 宜宾学院学报. 2022(06): 9-12+59 . 百度学术
53. 焦学军,赵春峰,张瑞香,王金娜. 基于FCN露天矿山监管目标自动提取方法研究. 地理空间信息. 2022(06): 68-70 . 百度学术
54. 孙伟,常鹏帅,戴亮,张小瑞,陈旋,代广昭. 基于注意力引导数据增强的车型识别. 计算机工程. 2022(07): 300-306 . 百度学术
55. 贾兆红,张袁源,王海涛,梁栋. 基于Res2Net和双线性注意力的番茄病害时期识别方法. 农业机械学报. 2022(07): 259-266 . 百度学术
56. 岳丹阳,罗健旭. 改进半监督GAN及在糖网病分级上的应用. 计算机工程与设计. 2022(08): 2204-2212 . 百度学术
57. 莫建文,贾鹏. 基于梯形网络和改进三训练法的半监督分类. 自动化学报. 2022(08): 2088-2096 . 本站查看
58. 王铮,刘纪平,车向红,王勇,杜凯旋. 基于卷积神经网络的地图相似度匹配方法研究. 测绘科学. 2022(07): 169-175 . 百度学术
59. 陆红强,王俊林,王亚楠,安学智,宁新潮,骞琨. 基于深度聚类的目标细粒度分类方法. 应用光学. 2022(04): 669-675 . 百度学术
60. 张哲,邵允学,吕刚. 基于机器视觉的台架上钢坯位置分割. 计算机系统应用. 2022(10): 254-260 . 百度学术
61. 董娟聪,蒋文轩,原雅艺,党旭红. 基于 YOLO 的染色体着丝粒识别方法研究. 辐射防护通讯. 2022(Z1): 65-68 . 百度学术
62. 许学斌,刘燊莲,路龙宾,刘晨光. 多尺度混合注意力胶囊网络的海洋鱼类识别. 光电子·激光. 2022(11): 1158-1164 . 百度学术
63. 黄程,曾志高,朱文球,文志强,袁鑫攀. 基于弱监督多注意融合网络的细粒度图像识别. 现代信息科技. 2022(21): 78-82+87 . 百度学术
64. 刘万军,赵思琪,曲海成,王宇萍. 结合前景特征增强与区域掩码自注意力的细粒度图像分类. 智能系统学报. 2022(06): 1134-1144 . 百度学术
65. 齐爱玲,王宣淋. 融合通道与位置信息的ResNet细粒度图像识别. 国外电子测量技术. 2022(12): 103-111 . 百度学术
66. 孟莉莎,杨贤昭,刘惠康. 基于CA-EfficientNetV2的蘑菇图像分类算法研究. 激光与光电子学进展. 2022(24): 56-63 . 百度学术
67. 王建云,吴正平,雷帮军,颜洵. 基于darknet框架高空视角下车辆的细分类. 现代电子技术. 2021(03): 124-129 . 百度学术
68. 郭心悦,胡沁涵,刘纯平,杨季文. 基于迁移学习和批归一化的菜肴图像识别方法. 计算机应用与软件. 2021(03): 124-133 . 百度学术
69. 高明,陈玉涵,张泽慧,冯雨,樊卫国. 基于新型空间注意力机制和迁移学习的垃圾图像分类算法. 系统工程理论与实践. 2021(02): 498-512 . 百度学术
70. 杨丹,蒋勇,曾芳,文帅. 基于注意力机制的细粒度图像分类算法. 西南科技大学学报. 2021(01): 93-98 . 百度学术
71. 闫子旭,侯志强,熊磊,刘晓义,余旺盛,马素刚. YOLOv3和双线性特征融合的细粒度图像分类. 中国图象图形学报. 2021(04): 847-856 . 百度学术
72. 丁继文. 基于双线性卷积神经网络的车辆多属性分类算法设计. 计算机与网络. 2021(03): 68-73 . 百度学术
73. 李昆仑,王怡辉,陈栋,王珺. 结合注意力与双线性网络的细粒度图像分类. 小型微型计算机系统. 2021(05): 1071-1076 . 百度学术
74. 吕梦棋,张芮祥,贾浩,马丽. 基于改进ResNet玉米种子分类方法研究. 中国农机化学报. 2021(04): 92-98 . 百度学术
75. 李非非,杨帆,余飞,季猛,舒智慧,徐杰. 基于人工智能的竹类主要害虫识别系统开发与应用. 世界竹藤通讯. 2021(02): 27-33 . 百度学术
76. 曹渝昆,赵田. 基于AT_CNN与Attention-BiGRU融合网络的电网故障报修信息的自动分类研究. 计算机应用与软件. 2021(05): 93-98+116 . 百度学术
77. 张天放,张先玲,韩涛,施泽杰,郭永强,王惠永. 人工智能图像识别技术在高炉风口监测中的应用. 冶金自动化. 2021(03): 58-66 . 百度学术
78. 陆鑫伟,余鹏飞,李海燕,李红松,丁文谦. 基于注意力自身线性融合的弱监督细粒度图像分类算法. 计算机应用. 2021(05): 1319-1325 . 百度学术
79. 司学飞,张起贵. 弱监督对抗数据增强的细粒度视觉分类算法. 电子设计工程. 2021(11): 160-165 . 百度学术
80. 陈立潮,朝昕,曹建芳,潘理虎. 融合独立组件的ResNet在细粒度车型识别中的应用. 计算机工程与应用. 2021(11): 248-253 . 百度学术
81. 汪海龙,禹晶,肖创柏. 基于点对相似度的深度非松弛哈希算法. 自动化学报. 2021(05): 1077-1086 . 本站查看
82. 余烨,傅云翔,杨昌东,路强. 基于FR-ResNet的车辆型号精细识别研究. 自动化学报. 2021(05): 1125-1136 . 本站查看
83. 吕俊霖,麦嘉铭,熊浩,蔡海真. 基于深度学习的鱼类智能识别系统的设计与实现. 渔业现代化. 2021(03): 90-96 . 百度学术
84. 崔晓晖,陈民,陈志泊,许福,王新阳. 基于注意力机制的林木物候期识别方法. 中南林业科技大学学报. 2021(07): 11-19 . 百度学术
85. 陈文帅,任志刚,吴宗泽,付敏跃. 基于深度学习的极性电子元器件目标检测与方向识别方法. 自动化学报. 2021(07): 1701-1709 . 本站查看
86. 张鹏飞,石志良,李晓垚,欧阳祥波. 基于深度学习的主轴承盖分类识别算法. 图学学报. 2021(04): 572-580 . 百度学术
87. 郭素珍,任明武. 一种提高手机人民币图像真伪识别率的CNN框架. 计算机与数字工程. 2021(08): 1666-1671 . 百度学术
88. 谭兆湛,官振林. 基于Alexnet的金相识别研究. 机械工程师. 2021(09): 38-40+43 . 百度学术
89. 李祥霞,吉晓慧,李彬. 细粒度图像分类的深度学习方法. 计算机科学与探索. 2021(10): 1830-1842 . 百度学术
90. 白瑜颖,刘宁钟,姜晓通. 结合注意力混合裁剪的细粒度分类网络. 计算机技术与发展. 2021(10): 38-42 . 百度学术
91. 李文书,王志骁,李绅皓,赵朋. 基于注意力机制的弱监督细粒度图像分类. 计算机系统应用. 2021(10): 232-239 . 百度学术
92. 阮顺领,景莹,卢才武,顾清华,张雪飞. 基于深度卷积特征的露天矿卡车装载状况识别技术研究. 煤炭科学技术. 2021(10): 167-176 . 百度学术
93. 毛志荣,都云程,肖诗斌,施水才. 基于ECA-Net与多尺度结合的细粒度图像分类方法. 计算机应用研究. 2021(11): 3484-3488 . 百度学术
94. 曹建芳,贾一鸣,田晓东,闫敏敏,陈泽宇. 基于多通道可分离网络的古代壁画分类方法. 计算机应用研究. 2021(11): 3489-3494 . 百度学术
95. 王婷,王新,郑承宇,邓亚萍,尹甜甜. 一种基于注意力机制的细粒度图像分类方法. 云南民族大学学报(自然科学版). 2021(06): 581-586 . 百度学术
96. 肖楠,周明珠,邢军,罗泽,李晓辉. 基于高分辨率网络和注意力机制的真伪卷烟包装鉴别. 数据与计算发展前沿. 2021(05): 118-129 . 百度学术
97. 王越,冯振. 基于CAM与双线性网络的鸟类图像识别方法. 重庆理工大学学报(自然科学). 2021(11): 136-141+239 . 百度学术
98. 朱耀麟,穆婉婉,王进美,李文雅. 基于改进B-CNN模型的羊绒与羊毛纤维识别. 西安工程大学学报. 2021(06): 46-53 . 百度学术
99. 王伟,吴芳. 基于注意机制和循环卷积神经网络的细粒度图像分类算法. 西南师范大学学报(自然科学版). 2020(01): 48-56 . 百度学术
100. 李睿,章宇辉. 深度强化学习的图像特征高效分类方法仿真. 计算机仿真. 2020(01): 377-380 . 百度学术
101. 李庆生,赵丽君,张志锋. 复杂背景下兼顾跟踪实时性和跟踪精度的目标跟踪技术研究. 光电子·激光. 2020(02): 117-124 . 百度学术
102. 李国瑞,何小海,吴晓红,卿粼波,滕奇志. 基于语义信息跨层特征融合的细粒度鸟类识别. 计算机应用与软件. 2020(04): 132-136+191 . 百度学术
103. 单玉刚,胡卫国. 尺度方向自适应视觉目标跟踪方法综述. 计算机工程与应用. 2020(09): 13-23 . 百度学术
104. 吴建,许镜,丁韬. 基于集成迁移学习的细粒度图像分类算法. 重庆邮电大学学报(自然科学版). 2020(03): 452-458 . 百度学术
105. 边小勇,江沛龄,赵敏,丁胜,张晓龙. 基于多分支神经网络模型的弱监督细粒度图像分类方法. 计算机应用. 2020(05): 1295-1300 . 百度学术
106. 王晓峰,杨亚东. 基于生态演化的通用智能系统结构模型研究. 自动化学报. 2020(05): 1017-1030 . 本站查看
107. 郭恒意,贾振堂. 结合残差密集块的卷积神经网络图像去噪方法. 计算机工程与设计. 2020(07): 1998-2003 . 百度学术
108. 赵毅力,李禹成,陈皓. 云南野生鸟类图像自动识别系统. 计算机应用研究. 2020(S1): 423-425 . 百度学术
109. 郑燕红,邓湘金,姚猛,金晟毅,赵志晖,史伟. 月球表层采样样品智能确认方法. 宇航学报. 2020(08): 1094-1104 . 百度学术
110. 潘哲,张兴忠,杨罡,卢志博,吴庭栋,李琳. 弱监督细粒度分类在绝缘子故障识别中的应用. 山西大学学报(自然科学版). 2020(03): 490-498 . 百度学术
111. 孙光民,关世奎,李煜,郑鲲,刘军华. 基于改进CTPN算法的试卷手写文本检测. 信息技术. 2020(09): 94-98 . 百度学术
112. 伍思雨,冯骥. 基于改进VGGNet卷积神经网络的鲜花识别. 重庆师范大学学报(自然科学版). 2020(04): 124-131 . 百度学术
113. 黄伟锋,张甜,常东良,闫冬,王嘉希,王丹,马占宇. 基于多视角融合的细粒度图像分类方法. 信号处理. 2020(09): 1607-1614 . 百度学术
114. 顾兆军,郝锦涛,周景贤. 基于改进双线性卷积神经网络的恶意网络流量分类算法. 信息网络安全. 2020(10): 67-74 . 百度学术
115. 李启南,孙海鑫,孙可佳. 基于改进B-CNN的轨枕挡肩裂纹图像细粒度分类. 激光与光电子学进展. 2020(14): 130-138 . 百度学术
116. 卢盼成,丁勇,黄鑫城. 基于预判式学习更新策略孪生全卷积网络的目标跟踪. 计算机应用与软件. 2020(12): 169-176 . 百度学术
117. 盖杉,鲍中运. 基于深度学习的高噪声图像去噪算法. 自动化学报. 2020(12): 2672-2680 . 本站查看
118. 刘洋. 从图片验证看图像分类的研究现状. 通讯世界. 2019(01): 186-187 . 百度学术
119. 赵浩如,张永,刘国柱. 基于RPN与B- CNN的细粒度图像分类算法研究. 计算机应用与软件. 2019(03): 210-213+264 . 百度学术
120. 王培森,宋彦,戴礼荣. 基于多通道视觉注意力的细粒度图像分类. 数据采集与处理. 2019(01): 157-166 . 百度学术
121. 于明,李博昭,于洋,刘依. 基于多图流形排序的图像显著性检测. 自动化学报. 2019(03): 577-592 . 本站查看
122. 吴苗苗,刘骊,付晓东,刘利军,黄青松. 款式特征描述符的服装图像细粒度分类方法. 计算机辅助设计与图形学学报. 2019(05): 780-791 . 百度学术
123. 叶发茂,罗威,苏燕飞,赵旭青,肖慧,闵卫东. 卷积神经网络特征在遥感图像配准中的应用. 国土资源遥感. 2019(02): 32-37 . 百度学术
124. 马力,王永雄. 基于稀疏化双线性卷积神经网络的细粒度图像分类. 模式识别与人工智能. 2019(04): 336-344 . 百度学术
125. 肖辛格. 基于深度学习的电子文件自动分类技术——以电子图像文件为例. 情报探索. 2019(06): 78-82 . 百度学术
126. 袁建平,陈晓龙,陈显龙,何恩杰,张加其,高宇豆. 基于文本与视觉信息的细粒度图像分类. 图学学报. 2019(03): 503-512 . 百度学术
127. 吴穗岚,陈乐,曾涛. 基于卷积神经网络的膝关节炎患者的膝盖红外图像分类. 中国计量大学学报. 2019(02): 185-190 . 百度学术
128. 廖恩红,李会芳,王华,庞雄文. 基于卷积神经网络的食品图像识别. 华南师范大学学报(自然科学版). 2019(04): 113-119 . 百度学术
129. 刘桂雄,何彬媛,吴俊芳,林镇秋. 面向视觉检测的深度学习图像分类网络及在零部件质量检测中应用. 中国测试. 2019(07): 1-10 . 百度学术
130. 刘虎,周野,袁家斌. 基于多尺度双线性卷积神经网络的多角度下车型精细识别. 计算机应用. 2019(08): 2402-2407 . 百度学术
131. 卢鹏,邹佩岐,邹国良. 基于多尺度卷积特征融合的台风等级分类模型. 激光与光电子学进展. 2019(16): 9-15 . 百度学术
132. 韩鹏,沈建新,江俊佳,周喆. 联合YOLO和Camshift的目标跟踪算法研究. 计算机系统应用. 2019(09): 271-277 . 百度学术
133. 叶发茂,董萌,罗威,肖慧,赵旭青,闵卫东. 基于卷积神经网络和重排序的农业遥感图像检索. 农业工程学报. 2019(15): 138-145 . 百度学术
134. 吴国政. 从F03项目资助情况分析我国自动化学科的发展现状与趋势. 自动化学报. 2019(09): 1611-1619 . 本站查看
135. 李策,张栋,杜少毅,朱子重,贾盛泽,曲延云. 一种迁移学习和可变形卷积深度学习的蝴蝶检测算法. 自动化学报. 2019(09): 1772-1782 . 本站查看
136. 罗会兰,易慧. 基于三流卷积神经网络模型的图像分类方法. 江西理工大学学报. 2019(05): 86-92 . 百度学术
137. 朱阳光,刘瑞敏,王震,王枭. 基于联合优化多任务学习的细粒度图像识别. 陕西理工大学学报(自然科学版). 2019(06): 41-47 . 百度学术
138. 邹承明,罗莹,徐晓龙. 基于多特征组合的细粒度图像分类方法. 计算机应用. 2018(07): 1853-1856+1861 . 百度学术
139. 田娟秀,刘国才,谷珊珊,鞠忠建,刘劲光,顾冬冬. 医学图像分析深度学习方法研究与挑战. 自动化学报. 2018(03): 401-424 . 本站查看
140. 张号逵,李映,姜晔楠. 深度学习在高光谱图像分类领域的研究现状与展望. 自动化学报. 2018(06): 961-977 . 本站查看
141. 胡清华,王煜,周玉灿,赵红,钱宇华,梁吉业. 大规模分类任务的分层学习方法综述. 中国科学:信息科学. 2018(05): 487-500 . 百度学术
142. 董青青,银温社,易三莉. 基于卷积神经网络的皮肤癌良恶性预测. 通信技术. 2018(09): 2081-2086 . 百度学术
143. 陈斯祺. 基于视觉注意力的细粒度图像识别. 信息通信. 2018(11): 66-67 . 百度学术
144. 李奂谌. 基于增强卷积神经网络的路面裂纹检测. 电脑与电信. 2018(11): 54-56 . 百度学术
145. 陈斯祺. 基于双线性卷积网络的细粒度图像定位. 电脑与电信. 2018(11): 78-80 . 百度学术
146. 张潜,桑军,吴伟群,吴中元,向宏,蔡斌. 基于Xception的细粒度图像分类. 重庆大学学报. 2018(05): 85-91 . 百度学术
其他类型引用(310)
-
计量
- 文章访问数: 2996
- HTML全文浏览量: 136
- PDF下载量: 3119
- 被引次数: 456