2020年 第46卷 第12期
2020, 46(12): 2479-2499.
doi: 10.16383/j.aas.c190031
摘要:
图像超分辨率重构技术是一种以一幅或同一场景中的多幅低分辨率图像为输入, 结合图像的先验知识重构出一幅高分辨率图像的技术. 这一技术能够在不改变现有硬件设备的前提下, 有效提高图像分辨率. 深度学习近年来在图像领域发展迅猛, 它的引入为单幅图片超分辨率重构带来了新的发展前景. 本文主要对当前基于深度学习的单幅图片超分辨率重构方法的研究现状和发展趋势进行总结梳理: 首先根据不同的网络基础对十几种基于深度学习的单幅图片超分辨率重构的网络模型进行分类介绍, 分析这些模型在网络结构、输入信息、损失函数、放大因子以及评价指标等方面的差异; 然后给出它们的实验结果, 并对实验结果及存在的问题进行总结与分析; 最后给出基于深度学习的单幅图片超分辨率重构方法的未来发展方向和存在的挑战.
图像超分辨率重构技术是一种以一幅或同一场景中的多幅低分辨率图像为输入, 结合图像的先验知识重构出一幅高分辨率图像的技术. 这一技术能够在不改变现有硬件设备的前提下, 有效提高图像分辨率. 深度学习近年来在图像领域发展迅猛, 它的引入为单幅图片超分辨率重构带来了新的发展前景. 本文主要对当前基于深度学习的单幅图片超分辨率重构方法的研究现状和发展趋势进行总结梳理: 首先根据不同的网络基础对十几种基于深度学习的单幅图片超分辨率重构的网络模型进行分类介绍, 分析这些模型在网络结构、输入信息、损失函数、放大因子以及评价指标等方面的差异; 然后给出它们的实验结果, 并对实验结果及存在的问题进行总结与分析; 最后给出基于深度学习的单幅图片超分辨率重构方法的未来发展方向和存在的挑战.
2020, 46(12): 2500-2536.
doi: 10.16383/j.aas.c180831
摘要:
随着深度学习的快速发展, 生成式模型领域也取得了显著进展. 生成对抗网络(Generative adversarial network, GAN)是一种无监督的学习方法, 它是根据博弈论中的二人零和博弈理论提出的. GAN具有一个生成器网络和一个判别器网络, 并通过对抗学习进行训练. 近年来, GAN成为一个炙手可热的研究方向. GAN不仅在图像领域取得了不错的成绩, 还在自然语言处理(Natural language processing, NLP)以及其他领域崭露头角. 本文对GAN的基本原理、训练过程和传统GAN存在的问题进行了阐述, 进一步详细介绍了通过损失函数的修改、网络结构的变化以及两者结合的手段提出的GAN变种模型的原理结构, 其中包括: 条件生成对抗网络(Conditional GAN, CGAN)、基于Wasserstein 距离的生成对抗网络(Wasserstein-GAN, WGAN)及其基于梯度策略的WGAN (WGAN-gradient penalty, WGAN-GP)、基于互信息理论的生成对抗网络(Informational-GAN, InfoGAN)、序列生成对抗网络(Sequence GAN, SeqGAN)、Pix2Pix、循环一致生成对抗网络(Cycle-consistent GAN, Cycle GAN)及其增强Cycle-GAN (Augmented CycleGAN). 概述了在计算机视觉、语音与NLP领域中基于GAN和相应GAN变种模型的基本原理结构, 其中包括: 基于CGAN的脸部老化应用(Face aging CGAN, Age-cGAN)、双路径生成对抗网络(Two-pathway GAN, TP-GAN)、表示解析学习生成对抗网络(Disentangled representation learning GAN, DR-GAN)、对偶学习生成对抗网络(DualGAN)、GeneGAN、语音增强生成对抗网络(Speech enhancement GAN, SEGAN)等. 介绍了GAN在医学、数据增强等领域的应用情况, 其中包括: 数据增强生成对抗网络(Data augmentation GAN, DAGAN)、医学生成对抗网络(Medical GAN, MedGAN)、无监督像素级域自适应方法(Unsupervised pixel-level domain adaptation method, PixelDA). 最后对GAN未来发展趋势及方向进行了展望.
随着深度学习的快速发展, 生成式模型领域也取得了显著进展. 生成对抗网络(Generative adversarial network, GAN)是一种无监督的学习方法, 它是根据博弈论中的二人零和博弈理论提出的. GAN具有一个生成器网络和一个判别器网络, 并通过对抗学习进行训练. 近年来, GAN成为一个炙手可热的研究方向. GAN不仅在图像领域取得了不错的成绩, 还在自然语言处理(Natural language processing, NLP)以及其他领域崭露头角. 本文对GAN的基本原理、训练过程和传统GAN存在的问题进行了阐述, 进一步详细介绍了通过损失函数的修改、网络结构的变化以及两者结合的手段提出的GAN变种模型的原理结构, 其中包括: 条件生成对抗网络(Conditional GAN, CGAN)、基于Wasserstein 距离的生成对抗网络(Wasserstein-GAN, WGAN)及其基于梯度策略的WGAN (WGAN-gradient penalty, WGAN-GP)、基于互信息理论的生成对抗网络(Informational-GAN, InfoGAN)、序列生成对抗网络(Sequence GAN, SeqGAN)、Pix2Pix、循环一致生成对抗网络(Cycle-consistent GAN, Cycle GAN)及其增强Cycle-GAN (Augmented CycleGAN). 概述了在计算机视觉、语音与NLP领域中基于GAN和相应GAN变种模型的基本原理结构, 其中包括: 基于CGAN的脸部老化应用(Face aging CGAN, Age-cGAN)、双路径生成对抗网络(Two-pathway GAN, TP-GAN)、表示解析学习生成对抗网络(Disentangled representation learning GAN, DR-GAN)、对偶学习生成对抗网络(DualGAN)、GeneGAN、语音增强生成对抗网络(Speech enhancement GAN, SEGAN)等. 介绍了GAN在医学、数据增强等领域的应用情况, 其中包括: 数据增强生成对抗网络(Data augmentation GAN, DAGAN)、医学生成对抗网络(Medical GAN, MedGAN)、无监督像素级域自适应方法(Unsupervised pixel-level domain adaptation method, PixelDA). 最后对GAN未来发展趋势及方向进行了展望.
2020, 46(12): 2537-2557.
doi: 10.16383/j.aas.c180372
摘要:
近年来, 深度强化学习(Deep reinforcement learning, DRL)在诸多复杂序贯决策问题中取得巨大突破.由于融合了深度学习强大的表征能力和强化学习有效的策略搜索能力, 深度强化学习已经成为实现人工智能颇有前景的学习范式.然而, 深度强化学习在多Agent系统的研究与应用中, 仍存在诸多困难和挑战, 以StarCraft Ⅱ为代表的部分观测环境下的多Agent学习仍然很难达到理想效果.本文简要介绍了深度Q网络、深度策略梯度算法等为代表的深度强化学习算法和相关技术.同时, 从多Agent深度强化学习中通信过程的角度对现有的多Agent深度强化学习算法进行归纳, 将其归纳为全通信集中决策、全通信自主决策、欠通信自主决策3种主流形式.从训练架构、样本增强、鲁棒性以及对手建模等方面探讨了多Agent深度强化学习中的一些关键问题, 并分析了多Agent深度强化学习的研究热点和发展前景.
近年来, 深度强化学习(Deep reinforcement learning, DRL)在诸多复杂序贯决策问题中取得巨大突破.由于融合了深度学习强大的表征能力和强化学习有效的策略搜索能力, 深度强化学习已经成为实现人工智能颇有前景的学习范式.然而, 深度强化学习在多Agent系统的研究与应用中, 仍存在诸多困难和挑战, 以StarCraft Ⅱ为代表的部分观测环境下的多Agent学习仍然很难达到理想效果.本文简要介绍了深度Q网络、深度策略梯度算法等为代表的深度强化学习算法和相关技术.同时, 从多Agent深度强化学习中通信过程的角度对现有的多Agent深度强化学习算法进行归纳, 将其归纳为全通信集中决策、全通信自主决策、欠通信自主决策3种主流形式.从训练架构、样本增强、鲁棒性以及对手建模等方面探讨了多Agent深度强化学习中的一些关键问题, 并分析了多Agent深度强化学习的研究热点和发展前景.
2020, 46(12): 2558-2571.
doi: 10.16383/j.aas.c180241
摘要:
鉴于在控制实际中存在的不确定性问题, 提出了一种针对大滞后过程的不确定性抑制的新型高性能控制器(New higher performance controller, NHPC).基于在新型观测方法和新型控制方法包括新型滤波方法上的良好进展, 将一种新型超前观测器(New advanced observer, NAO)、一种内反馈控制器(Internal feedback controller, IFC)包括一种正弦跟踪滤波器(Sinusoid tracking filter, STF)等用于构造NHPC.将NHPC运用于大滞后过程控制, 能够对较宽的范围内的时变性和非线性等不确定性问题进行较好的抑制.数学分析、仿真实验和实际电力控制工程应用的结果验证了本文所提观点和方法的正确性和有效性.
鉴于在控制实际中存在的不确定性问题, 提出了一种针对大滞后过程的不确定性抑制的新型高性能控制器(New higher performance controller, NHPC).基于在新型观测方法和新型控制方法包括新型滤波方法上的良好进展, 将一种新型超前观测器(New advanced observer, NAO)、一种内反馈控制器(Internal feedback controller, IFC)包括一种正弦跟踪滤波器(Sinusoid tracking filter, STF)等用于构造NHPC.将NHPC运用于大滞后过程控制, 能够对较宽的范围内的时变性和非线性等不确定性问题进行较好的抑制.数学分析、仿真实验和实际电力控制工程应用的结果验证了本文所提观点和方法的正确性和有效性.
2020, 46(12): 2572-2582.
doi: 10.16383/j.aas.c200800
摘要:
三维信息的提取在自动驾驶等智能交通场景中正发挥着越来越重要的作用, 为了解决以激光雷达为主的深度传感器在数据采集方面面临的成本高、样本覆盖不全面等问题, 本文提出了平行点云的框架. 利用人工定义场景获取虚拟点云数据, 通过计算实验训练三维模型, 借助平行执行对模型性能进行测试, 并将结果反馈至数据生成和模型训练过程. 通过不断地迭代, 使三维模型得到充分评估并不断进化. 在平行点云的框架下, 我们以三维目标检测为例, 通过闭环迭代, 构建了虚实结合的点云数据集, 在无需人工标注的情况下, 可达到标注数据训练模型精度的72%.
三维信息的提取在自动驾驶等智能交通场景中正发挥着越来越重要的作用, 为了解决以激光雷达为主的深度传感器在数据采集方面面临的成本高、样本覆盖不全面等问题, 本文提出了平行点云的框架. 利用人工定义场景获取虚拟点云数据, 通过计算实验训练三维模型, 借助平行执行对模型性能进行测试, 并将结果反馈至数据生成和模型训练过程. 通过不断地迭代, 使三维模型得到充分评估并不断进化. 在平行点云的框架下, 我们以三维目标检测为例, 通过闭环迭代, 构建了虚实结合的点云数据集, 在无需人工标注的情况下, 可达到标注数据训练模型精度的72%.
2020, 46(12): 2583-2592.
doi: 10.16383/j.aas.c180180
摘要:
装配系统是生产系统的基本结构之一, 广泛应用于汽车、电器、电子产品等实际生产环境中.与传统的串行生产线取得的研究成果相比, 装配系统的研究, 特别是对系统暂态过程的实时性能分析的研究仍然未得到深入探讨.本文针对具有三台几何可靠性机器模型和有限缓冲区容量框架下的装配系统, 首先建立了用于此类系统暂态性能分析的数学模型, 通过马尔科夫方法导出了系统性能分析的解析公式.然后, 提出了一种基于分解的性能评估算法来近似系统的实时性能.具体来说, 本文推导出了用于计算具有三台几何可靠性机器模型的装配系统的实时生产率、消耗率、在制品数量, 以及完成一个生产批次所需时间的解析表达式.最后, 通过数值实验对所提出算法的准确性进行验证.
装配系统是生产系统的基本结构之一, 广泛应用于汽车、电器、电子产品等实际生产环境中.与传统的串行生产线取得的研究成果相比, 装配系统的研究, 特别是对系统暂态过程的实时性能分析的研究仍然未得到深入探讨.本文针对具有三台几何可靠性机器模型和有限缓冲区容量框架下的装配系统, 首先建立了用于此类系统暂态性能分析的数学模型, 通过马尔科夫方法导出了系统性能分析的解析公式.然后, 提出了一种基于分解的性能评估算法来近似系统的实时性能.具体来说, 本文推导出了用于计算具有三台几何可靠性机器模型的装配系统的实时生产率、消耗率、在制品数量, 以及完成一个生产批次所需时间的解析表达式.最后, 通过数值实验对所提出算法的准确性进行验证.
2020, 46(12): 2593-2606.
doi: 10.16383/j.aas.c180407
摘要:
深层脑结构的形态变化和神经退行性疾病相关, 对脑MR图像中的深层脑结构分割有助于分析各结构的形态变化.多图谱融合方法利用图谱图像中的先验信息, 为脑结构分割提供了一种有效的方法.大部分现有多图谱融合方法仅以灰度值作为特征, 然而深层脑结构灰度分布之间重叠的部分较多, 且边缘不明显.为克服上述问题, 本文提出一种基于线性化核多图谱融合的脑MR图像分割方法.首先, 结合纹理与灰度双重特征, 形成增强特征用于更好地表达脑结构信息.其次, 引入核方法, 通过高维映射捕获原始空间中特征的非线性结构, 增强数据间的判别性和线性相似性.最后, 利用Nyström方法, 对高维核矩阵进行估计, 通过特征值分解计算虚样本, 并在核标签融合过程中利用虚样本替代高维样本, 大大降低了核标签融合的计算复杂度.在三个公开数据集上的实验结果表明, 本文方法在较少的时间消耗内, 提高了分割精度.
深层脑结构的形态变化和神经退行性疾病相关, 对脑MR图像中的深层脑结构分割有助于分析各结构的形态变化.多图谱融合方法利用图谱图像中的先验信息, 为脑结构分割提供了一种有效的方法.大部分现有多图谱融合方法仅以灰度值作为特征, 然而深层脑结构灰度分布之间重叠的部分较多, 且边缘不明显.为克服上述问题, 本文提出一种基于线性化核多图谱融合的脑MR图像分割方法.首先, 结合纹理与灰度双重特征, 形成增强特征用于更好地表达脑结构信息.其次, 引入核方法, 通过高维映射捕获原始空间中特征的非线性结构, 增强数据间的判别性和线性相似性.最后, 利用Nyström方法, 对高维核矩阵进行估计, 通过特征值分解计算虚样本, 并在核标签融合过程中利用虚样本替代高维样本, 大大降低了核标签融合的计算复杂度.在三个公开数据集上的实验结果表明, 本文方法在较少的时间消耗内, 提高了分割精度.
2020, 46(12): 2607-2616.
doi: 10.16383/j.aas.c180469
摘要:
链路预测是研究复杂网络结构演化趋势的重要组成部分, 用于预测网络丢失的连边和未来可能出现的连边, 具有极大的理论和应用价值.当前链路预测研究成果主要基于网络结构特征对连边进行预测, 具体分析其连边机理的研究较少.网络同步的研究能够深刻反映节点的动力学演化行为与网络结构之间的内在机理.本文针对链路预测考虑的静态网络引入节点动力学模型构成动态网络, 通过分析链路预测连边与动态网络模型同步之间的关系, 对链路预测连边机理进行分析研究.通过实验与理论分析总结发现了链路预测连边具有同步能力稳定性的规律.进一步讨论了链路预测连边的动力学机理, 并揭示了链路预测连边机理与真实网络演化的差别.
链路预测是研究复杂网络结构演化趋势的重要组成部分, 用于预测网络丢失的连边和未来可能出现的连边, 具有极大的理论和应用价值.当前链路预测研究成果主要基于网络结构特征对连边进行预测, 具体分析其连边机理的研究较少.网络同步的研究能够深刻反映节点的动力学演化行为与网络结构之间的内在机理.本文针对链路预测考虑的静态网络引入节点动力学模型构成动态网络, 通过分析链路预测连边与动态网络模型同步之间的关系, 对链路预测连边机理进行分析研究.通过实验与理论分析总结发现了链路预测连边具有同步能力稳定性的规律.进一步讨论了链路预测连边的动力学机理, 并揭示了链路预测连边机理与真实网络演化的差别.
2020, 46(12): 2617-2627.
doi: 10.16383/j.aas.c180583
摘要:
针对局部搜索类非支配排序遗传算法 (Nondominated sorting genetic algorithms, NSGA II)计算量大的问题, 提出一种基于区域局部搜索的NSGA II算法(NSGA II based on regional local search, NSGA II-RLS). 首先对当前所有种群进行非支配排序, 根据排序结果获得交界点和稀疏点, 将其定义为交界区域和稀疏区域中心; 其次, 围绕交界点和稀疏点进行局部搜索. 在局部搜索过程中, 同时采用极限优化策略和随机搜索策略以提高解的质量和收敛速度, 并设计自适应参数动态调节局部搜索范围. 通过ZDT和DTLZ系列基准函数对NSGA II-RLS算法进行验证, 并将结果与其他局部搜索类算法进行对比, 实验结果表明NSGA II-RLS算法在较短时间内收敛速度和解的质量方面均优于所对比算法.
针对局部搜索类非支配排序遗传算法 (Nondominated sorting genetic algorithms, NSGA II)计算量大的问题, 提出一种基于区域局部搜索的NSGA II算法(NSGA II based on regional local search, NSGA II-RLS). 首先对当前所有种群进行非支配排序, 根据排序结果获得交界点和稀疏点, 将其定义为交界区域和稀疏区域中心; 其次, 围绕交界点和稀疏点进行局部搜索. 在局部搜索过程中, 同时采用极限优化策略和随机搜索策略以提高解的质量和收敛速度, 并设计自适应参数动态调节局部搜索范围. 通过ZDT和DTLZ系列基准函数对NSGA II-RLS算法进行验证, 并将结果与其他局部搜索类算法进行对比, 实验结果表明NSGA II-RLS算法在较短时间内收敛速度和解的质量方面均优于所对比算法.
2020, 46(12): 2628-2637.
doi: 10.16383/j.aas.c180518
摘要:
为解决故障检测方法在处理数据不确定性问题上的不足, 本文提出一种基于数据可靠性和区间证据推理(Interval evidential reasoning, IER)的故障检测方法. 该方法通过融合专家知识与考虑可靠性的监测数据, 实现报警阈值区间的更新与优化, 从而提高故障检测的准确性. 首先基于信息一致性方法计算数据可靠度, 然后基于区间证据推理理论, 构建区间阈值的更新与优化模型, 最后基于投影协方差矩阵自适应进化策略算法求解优化模型, 得到故障检测误漏报率最小的最优报警阈值区间. 对石油管道泄漏实例和航天继电器加速寿命测试实例的故障检测问题进行了研究, 通过对比分析, 验证了所提方法的有效性.
为解决故障检测方法在处理数据不确定性问题上的不足, 本文提出一种基于数据可靠性和区间证据推理(Interval evidential reasoning, IER)的故障检测方法. 该方法通过融合专家知识与考虑可靠性的监测数据, 实现报警阈值区间的更新与优化, 从而提高故障检测的准确性. 首先基于信息一致性方法计算数据可靠度, 然后基于区间证据推理理论, 构建区间阈值的更新与优化模型, 最后基于投影协方差矩阵自适应进化策略算法求解优化模型, 得到故障检测误漏报率最小的最优报警阈值区间. 对石油管道泄漏实例和航天继电器加速寿命测试实例的故障检测问题进行了研究, 通过对比分析, 验证了所提方法的有效性.
2020, 46(12): 2638-2646.
doi: 10.16383/j.aas.c180228
摘要:
提出了一种基于字典学习和拓展联合动态稀疏表示的合成孔径雷达(Synthetic aperture radar, SAR)图像的目标自动识别(Automatic target recognition, ATR)方法.首先, 在图像预处理时, 分割出目标区域和目标遮挡地面形成的阴影区域, 将这两个区域的信息结合起来能更好地表示图像.其次, 将字典学习方法LC-KSVD (Label consistent k-singular value decomposition)引入到训练阶段中, 分别学习目标区域和阴影区域的特征字典, 而不是直接将所有训练样本作为固定字典.最后, 在测试阶段提出了拓展联合动态稀疏表示算法, 使图像数据中的两个特征共享相似但不完全相同的稀疏模式, 还可处理图像噪声遮挡损坏问题.标准数据集上的实验结果表明, 该方法使不同类别更具区分性, 有效地提高了SAR图像的目标识别准确度.
提出了一种基于字典学习和拓展联合动态稀疏表示的合成孔径雷达(Synthetic aperture radar, SAR)图像的目标自动识别(Automatic target recognition, ATR)方法.首先, 在图像预处理时, 分割出目标区域和目标遮挡地面形成的阴影区域, 将这两个区域的信息结合起来能更好地表示图像.其次, 将字典学习方法LC-KSVD (Label consistent k-singular value decomposition)引入到训练阶段中, 分别学习目标区域和阴影区域的特征字典, 而不是直接将所有训练样本作为固定字典.最后, 在测试阶段提出了拓展联合动态稀疏表示算法, 使图像数据中的两个特征共享相似但不完全相同的稀疏模式, 还可处理图像噪声遮挡损坏问题.标准数据集上的实验结果表明, 该方法使不同类别更具区分性, 有效地提高了SAR图像的目标识别准确度.
2020, 46(12): 2647-2661.
doi: 10.16383/j.aas.c190540
摘要:
卷积稀疏编码(Convolutional sparse coding, CSC)已广泛应用于信号或图像处理、重构和分类等任务中, 基于深度学习思想的多层卷积稀疏编码(Multi-layer convolutional sparse coding, ML-CSC)模型的多层基追踪(Multi-layer basic pursuit, ML-BP)问题和多层字典学习问题成为研究热点. 但基于傅里叶域的交替方向乘子法(Alternating direction multiplier method, ADMM)求解器和基于图像块(Patch)空间域思想的传统基追踪算法不能容易地扩展到多层情况. 在切片(Slice)局部处理思想的基础上, 本文提出了一种新的多层基追踪算法: 多层局部块坐标下降(Multi-layer local block coordinatedescent, ML-LoBCoD)算法. 在多层迭代软阈值算法(Multi-layer iterative soft threshold algorithm, ML-ISTA)和对应的迭代展开网络ML-ISTA-Net 的启发下, 提出了对应的迭代展开网络ML-LoBCoD-Net. ML-LoBCoD-Net实现信号的表征学习功能, 输出的最深层卷积稀疏编码用于分类. 此外, 为了获得更好的信号重构, 本文提出了一种新的多层切片卷积重构网络(Multi-layer slice convolutional reconstruction network, ML-SCRN), ML-SCRN实现从信号稀疏编码到信号重构. 我们对这两个网络分别进行实验验证. 然后将ML-LoBCoD-Net和ML-SCRN 进行级联得到ML-LoBCoD-SCRN合并网, 同时实现图像的分类和重构. 与传统基于全连接层对图像进行重建的方法相比, 本文提出的ML-LoBCoD-SCRN合并网所需参数少, 收敛速度快, 重构精度高. 本文将ML-ISTA和多层快速迭代软阈值算法(Multi-layer fast iterative soft threshold algorithm, ML-FISTA) 构建为ML-ISTA-SCRN和ML-FISTA-SCRN进行对比实验, 初步证明了所提出的ML-LoBCoD-SCRN分类重构网在MNIST、CIFAR10和CIFAR100数据集上是有效的, 分类准确率、损失函数和信号重构结果都优于ML-ISTA-SCRN和ML-FISTA-SCRN.
卷积稀疏编码(Convolutional sparse coding, CSC)已广泛应用于信号或图像处理、重构和分类等任务中, 基于深度学习思想的多层卷积稀疏编码(Multi-layer convolutional sparse coding, ML-CSC)模型的多层基追踪(Multi-layer basic pursuit, ML-BP)问题和多层字典学习问题成为研究热点. 但基于傅里叶域的交替方向乘子法(Alternating direction multiplier method, ADMM)求解器和基于图像块(Patch)空间域思想的传统基追踪算法不能容易地扩展到多层情况. 在切片(Slice)局部处理思想的基础上, 本文提出了一种新的多层基追踪算法: 多层局部块坐标下降(Multi-layer local block coordinatedescent, ML-LoBCoD)算法. 在多层迭代软阈值算法(Multi-layer iterative soft threshold algorithm, ML-ISTA)和对应的迭代展开网络ML-ISTA-Net 的启发下, 提出了对应的迭代展开网络ML-LoBCoD-Net. ML-LoBCoD-Net实现信号的表征学习功能, 输出的最深层卷积稀疏编码用于分类. 此外, 为了获得更好的信号重构, 本文提出了一种新的多层切片卷积重构网络(Multi-layer slice convolutional reconstruction network, ML-SCRN), ML-SCRN实现从信号稀疏编码到信号重构. 我们对这两个网络分别进行实验验证. 然后将ML-LoBCoD-Net和ML-SCRN 进行级联得到ML-LoBCoD-SCRN合并网, 同时实现图像的分类和重构. 与传统基于全连接层对图像进行重建的方法相比, 本文提出的ML-LoBCoD-SCRN合并网所需参数少, 收敛速度快, 重构精度高. 本文将ML-ISTA和多层快速迭代软阈值算法(Multi-layer fast iterative soft threshold algorithm, ML-FISTA) 构建为ML-ISTA-SCRN和ML-FISTA-SCRN进行对比实验, 初步证明了所提出的ML-LoBCoD-SCRN分类重构网在MNIST、CIFAR10和CIFAR100数据集上是有效的, 分类准确率、损失函数和信号重构结果都优于ML-ISTA-SCRN和ML-FISTA-SCRN.
2020, 46(12): 2662-2671.
doi: 10.16383/j.aas.c190697
摘要:
图像所包含的信息是通过灰度值在空域的变化呈现的. 梯度是度量变化的基本工具, 这使得梯度成为了目前大多数图像质量评价算法的重要组成部分. 但是梯度只能度量局部变化, 而当人类视觉系统(Human visual system, HVS)感知一幅图像时, 既能感知到局部变化, 也能感知到全局变化. 基于HVS的这一特性, 本文提出了一种结合全局与局部变化的图像质量评价算法(Global and local variation similarity, GLV-SIM). 该算法利用Grünwald-Letnikov分数阶导数来度量图像的全局变化, 利用梯度模来度量图像的局部变化. 然后结合二者计算参考图像和退化图像之间的相似度谱(Similarity map), 进而得到图像的客观评分. 在TID2013、TID2008、CSIQ与LIVE四个数据库上的仿真实验表明, 较之单一度量局部变化的方法, 本文算法能更准确地模拟HVS对图像质量的感知过程, 给出的客观评分与主观评分具有较好的一致性.
图像所包含的信息是通过灰度值在空域的变化呈现的. 梯度是度量变化的基本工具, 这使得梯度成为了目前大多数图像质量评价算法的重要组成部分. 但是梯度只能度量局部变化, 而当人类视觉系统(Human visual system, HVS)感知一幅图像时, 既能感知到局部变化, 也能感知到全局变化. 基于HVS的这一特性, 本文提出了一种结合全局与局部变化的图像质量评价算法(Global and local variation similarity, GLV-SIM). 该算法利用Grünwald-Letnikov分数阶导数来度量图像的全局变化, 利用梯度模来度量图像的局部变化. 然后结合二者计算参考图像和退化图像之间的相似度谱(Similarity map), 进而得到图像的客观评分. 在TID2013、TID2008、CSIQ与LIVE四个数据库上的仿真实验表明, 较之单一度量局部变化的方法, 本文算法能更准确地模拟HVS对图像质量的感知过程, 给出的客观评分与主观评分具有较好的一致性.
2020, 46(12): 2672-2680.
doi: 10.16383/j.aas.c180271
摘要:
为了更有效地实现高噪声环境下的图像去噪, 本文提出一种基于深度学习的高噪声图像去噪算法.该算法首先采用递增扩充卷积并且融合批量标准化和Leaky ReLU函数对输入含噪图像进行特征提取与学习; 然后通过结合递减扩充卷积和ReLU函数对提取的特征进行图像重构; 最后通过整合残差学习和批量标准化的端到端网络实现图像与噪声的有效分离.实验结果表明, 本文提出的算法不仅能够有效地去除高噪声环境下的图像噪声, 获得更高的峰值信噪比(Peak signal-to-noise ratio, PSNR)与结构相似度(Structural similarity index, SSIM), 而且还能够有效地改善图像的视觉效果, 具有较好的实用性.
为了更有效地实现高噪声环境下的图像去噪, 本文提出一种基于深度学习的高噪声图像去噪算法.该算法首先采用递增扩充卷积并且融合批量标准化和Leaky ReLU函数对输入含噪图像进行特征提取与学习; 然后通过结合递减扩充卷积和ReLU函数对提取的特征进行图像重构; 最后通过整合残差学习和批量标准化的端到端网络实现图像与噪声的有效分离.实验结果表明, 本文提出的算法不仅能够有效地去除高噪声环境下的图像噪声, 获得更高的峰值信噪比(Peak signal-to-noise ratio, PSNR)与结构相似度(Structural similarity index, SSIM), 而且还能够有效地改善图像的视觉效果, 具有较好的实用性.
2020, 46(12): 2681-2689.
doi: 10.16383/j.aas.c190011
摘要:
针对现有指纹模板保护算法存在的准确性较低、安全性能较差的问题, 提出一种基于比特串异或和置乱变换的指纹模板保护算法. 该算法在已有二维映射算法的基础上, 对得到的比特串进行异或和随机索引置乱变换, 有效地将线性和非线性变换相结合, 扩展了密钥空间, 增强了指纹模板的安全性. 理论分析和仿真结果表明, 对于密钥泄露场景, 该算法在数据库FVC2002 DB1和DB2中的等错误率(Equal error rate, EER)分别为0.08 %和0.75 %, 与现有算法相比, 具有较好的准确性和安全性.
针对现有指纹模板保护算法存在的准确性较低、安全性能较差的问题, 提出一种基于比特串异或和置乱变换的指纹模板保护算法. 该算法在已有二维映射算法的基础上, 对得到的比特串进行异或和随机索引置乱变换, 有效地将线性和非线性变换相结合, 扩展了密钥空间, 增强了指纹模板的安全性. 理论分析和仿真结果表明, 对于密钥泄露场景, 该算法在数据库FVC2002 DB1和DB2中的等错误率(Equal error rate, EER)分别为0.08 %和0.75 %, 与现有算法相比, 具有较好的准确性和安全性.
2020, 46(12): 2690-2700.
doi: 10.16383/j.aas.c180528
摘要:
近年来, 深度学习在计算机视觉领域的应用取得了突破性进展, 但基于深度学习的视频多目标跟踪(Multiple object tracking, MOT)研究却相对甚少, 而鲁棒的关联模型设计是基于检测的多目标跟踪方法的核心.本文提出一种基于深度神经网络和度量学习的关联模型:采用行人再识别(Person re-identification, Re-ID)领域中广泛使用的度量学习技术和卷积神经网络(Convolutional neural networks, CNNs)设计目标外观模型, 即利用三元组损失函数设计一个三通道卷积神经网络, 提取更具判别性的外观特征构建目标外观相似度; 再结合运动模型计算轨迹片间的关联概率.在关联策略上, 采用匈牙利算法, 首先以逐帧关联方式得到短小可靠的轨迹片集合, 再通过自适应时间滑动窗机制多级关联, 输出各目标最终轨迹.在2DMOT2015、MOT16公开数据集上的实验结果证明了所提方法的有效性, 与当前一些主流算法相比较, 本文方法取得了相当或者领先的跟踪效果.
近年来, 深度学习在计算机视觉领域的应用取得了突破性进展, 但基于深度学习的视频多目标跟踪(Multiple object tracking, MOT)研究却相对甚少, 而鲁棒的关联模型设计是基于检测的多目标跟踪方法的核心.本文提出一种基于深度神经网络和度量学习的关联模型:采用行人再识别(Person re-identification, Re-ID)领域中广泛使用的度量学习技术和卷积神经网络(Convolutional neural networks, CNNs)设计目标外观模型, 即利用三元组损失函数设计一个三通道卷积神经网络, 提取更具判别性的外观特征构建目标外观相似度; 再结合运动模型计算轨迹片间的关联概率.在关联策略上, 采用匈牙利算法, 首先以逐帧关联方式得到短小可靠的轨迹片集合, 再通过自适应时间滑动窗机制多级关联, 输出各目标最终轨迹.在2DMOT2015、MOT16公开数据集上的实验结果证明了所提方法的有效性, 与当前一些主流算法相比较, 本文方法取得了相当或者领先的跟踪效果.
2020, 46(12): 2701-2710.
doi: 10.16383/j.aas.c200167
摘要:
光伏电池温度变化影响光伏系统输出的稳定性, 精准地预测光伏电池板温度的变化趋势, 对光伏系统智能运行具有重要意义. 为了更好地预测温度的变化趋势, 本文考虑了光伏电池板温度的迟滞效应, 将先前的温度输出作为延迟项引入回声状态网中, 提出了一种基于延迟回声状态网的光伏电池板温度预测模型. 给出一个延迟回声状态网具有回声状态特性的判定条件, 使得预测模型能够稳定地预测光伏电池板温度. 同时, 建立了一套光伏多传感器监测系统, 利用该监测系统采集的数据, 训练和验证模型的准确性. 与回声状态网(Echo state network, ESN), Leaky ESN (Leaky-integrator ESN)和VML ESN (ESN with variable memory length)相比, 仿真结果表明, 本文所提出的延迟回声状态网具有更好的预测性能, 平均绝对百分比误差甚至达到3.45%.
光伏电池温度变化影响光伏系统输出的稳定性, 精准地预测光伏电池板温度的变化趋势, 对光伏系统智能运行具有重要意义. 为了更好地预测温度的变化趋势, 本文考虑了光伏电池板温度的迟滞效应, 将先前的温度输出作为延迟项引入回声状态网中, 提出了一种基于延迟回声状态网的光伏电池板温度预测模型. 给出一个延迟回声状态网具有回声状态特性的判定条件, 使得预测模型能够稳定地预测光伏电池板温度. 同时, 建立了一套光伏多传感器监测系统, 利用该监测系统采集的数据, 训练和验证模型的准确性. 与回声状态网(Echo state network, ESN), Leaky ESN (Leaky-integrator ESN)和VML ESN (ESN with variable memory length)相比, 仿真结果表明, 本文所提出的延迟回声状态网具有更好的预测性能, 平均绝对百分比误差甚至达到3.45%.
2020, 46(12): 2711-2718.
doi: 10.16383/j.aas.c200870
摘要:
针对信息学部人工智能学科(F06) 2018至2020年度基金项目的申请和资助情况, 截取面上、青年、地区和重点项目, 点−线−面相结合, 从多种客观指标角度系统分析了三年来人工智能学科的申请和资助情况. 2020年度国家自然科学基金委学科代码进行了大幅度的调整和改革, 特别是在取消三级代码、增加二级代码数目的背景下, 本文的分析可以为新版代码的科学性和未来基金项目的申请、评审和资助导向提供统计支撑. 同时, 结合最近三年人工智能学科基金项目的申请资助情况, 以及科学处对人工智能领域的若干推动和工作安排, 对未来国家自然科学基金资助架构下的人工智能学科发展进行了展望.
针对信息学部人工智能学科(F06) 2018至2020年度基金项目的申请和资助情况, 截取面上、青年、地区和重点项目, 点−线−面相结合, 从多种客观指标角度系统分析了三年来人工智能学科的申请和资助情况. 2020年度国家自然科学基金委学科代码进行了大幅度的调整和改革, 特别是在取消三级代码、增加二级代码数目的背景下, 本文的分析可以为新版代码的科学性和未来基金项目的申请、评审和资助导向提供统计支撑. 同时, 结合最近三年人工智能学科基金项目的申请资助情况, 以及科学处对人工智能领域的若干推动和工作安排, 对未来国家自然科学基金资助架构下的人工智能学科发展进行了展望.