2012年 第38卷 第4期
2012, 38(4): 497-506.
doi: 10.3724/SP.J.1004.2012.00497
摘要:
三维目标检测问题是计算机视觉领域的一个基础而重要的问题, 如何解决部分遮挡、类内变化、复杂背景以及视角变化的问题是这类算法的研究重点. 近年来,随着部分遮挡、类内变化等问题的逐步解决,越来越多的研究者针对视角问题 展开研究.本文对三维目标检测问题进行了较为详细的分析,并且主要针对近几年的 热点问题—视角问题展开讨论,介绍并总结了当前该领域的主要算法. 通过对比说明了各种方法的优势与不足.
三维目标检测问题是计算机视觉领域的一个基础而重要的问题, 如何解决部分遮挡、类内变化、复杂背景以及视角变化的问题是这类算法的研究重点. 近年来,随着部分遮挡、类内变化等问题的逐步解决,越来越多的研究者针对视角问题 展开研究.本文对三维目标检测问题进行了较为详细的分析,并且主要针对近几年的 热点问题—视角问题展开讨论,介绍并总结了当前该领域的主要算法. 通过对比说明了各种方法的优势与不足.
2012, 38(4): 507-517.
doi: 10.3724/SP.J.1004.2012.00507
摘要:
信息物理融合系统 (Cyber-physical system, CPS)是计算、通信和物理过程高度集成的系统,通过在物理设备中嵌入感知、通信和计算能力,实 现对外部环境的分布式感知、可靠数据传输、智能信息处理,并通过反馈机制实现对物理过程的实时控制. 分析了CPS的基本概念和特征,对CPS的体系架构、中间件系统、实时性、安全和隐私等关键技术的现有研究 成果进行综述,并提出了相应的研究思路;然后介绍了一些现有的CPS原型系统和实例,体现出CPS的优越性; 最后对CPS和传感器网络(Wireless sensor network, WSN)、物联网(The internet of things, IOT)、网络控制系统(Networked control systems, NCSs)进行了对比分析,总结了CPS现有研究中存在的问题,并展望了CPS的发展方向.
信息物理融合系统 (Cyber-physical system, CPS)是计算、通信和物理过程高度集成的系统,通过在物理设备中嵌入感知、通信和计算能力,实 现对外部环境的分布式感知、可靠数据传输、智能信息处理,并通过反馈机制实现对物理过程的实时控制. 分析了CPS的基本概念和特征,对CPS的体系架构、中间件系统、实时性、安全和隐私等关键技术的现有研究 成果进行综述,并提出了相应的研究思路;然后介绍了一些现有的CPS原型系统和实例,体现出CPS的优越性; 最后对CPS和传感器网络(Wireless sensor network, WSN)、物联网(The internet of things, IOT)、网络控制系统(Networked control systems, NCSs)进行了对比分析,总结了CPS现有研究中存在的问题,并展望了CPS的发展方向.
2012, 38(4): 518-524.
doi: 10.3724/SP.J.1004.2012.00518
摘要:
提出一种新的人工生命动画方法—模仿学习. 模仿是一种非常有效的掌握运动技能的学习方式. 一项运动技能为无数个相关运动序列的集合. 通过模仿代表性运动序列,将蕴含的局部运动技能泛化,可获得完整的运动技能. 模仿学习以运动相似度匹配和简单--复杂行为方法论为核心,并以进化计算为优化方法. 模仿学习降低进化计算对传统评价函数的依赖,减少评价函数设计时间,提高优化复杂目标的能力,因此提高了制作效率. 基于PhysX仿真平台,本文以人工猫的着陆行为验证了本文方法的有效性,并取得了良好的效果.
提出一种新的人工生命动画方法—模仿学习. 模仿是一种非常有效的掌握运动技能的学习方式. 一项运动技能为无数个相关运动序列的集合. 通过模仿代表性运动序列,将蕴含的局部运动技能泛化,可获得完整的运动技能. 模仿学习以运动相似度匹配和简单--复杂行为方法论为核心,并以进化计算为优化方法. 模仿学习降低进化计算对传统评价函数的依赖,减少评价函数设计时间,提高优化复杂目标的能力,因此提高了制作效率. 基于PhysX仿真平台,本文以人工猫的着陆行为验证了本文方法的有效性,并取得了良好的效果.
2012, 38(4): 525-530.
doi: 10.3724/SP.J.1004.2012.00525
摘要:
提出了一个新的边导向的双三次卷积(Cubic convolution, CC)彩色图像插值算法. 对于待插值的像素, 首先在其邻域检测两个正交方向边的强度. 如果该 像素在一个强边上, 则沿着强边的方向执行CC插值估计该像素;否则, 该像素 在弱边或纹理区域, 通过加权平均两个正交方向的CC插值估计该像素. 本文方法也考虑了彩色平面之间的相关性. 实验结果显示, 本文方法显著优于经 典的CC插值和其他一些插值方法.
提出了一个新的边导向的双三次卷积(Cubic convolution, CC)彩色图像插值算法. 对于待插值的像素, 首先在其邻域检测两个正交方向边的强度. 如果该 像素在一个强边上, 则沿着强边的方向执行CC插值估计该像素;否则, 该像素 在弱边或纹理区域, 通过加权平均两个正交方向的CC插值估计该像素. 本文方法也考虑了彩色平面之间的相关性. 实验结果显示, 本文方法显著优于经 典的CC插值和其他一些插值方法.
2012, 38(4): 531-539.
doi: 10.3724/SP.J.1004.2012.00531
摘要:
多目标的稳定跟踪是计算机视觉领域的一个具有挑战性的问题. 本文提出了一种基于多相机的多目标定位跟踪算法.首先, 利用不同高度层上的标志物, 计算基于多层的不同视角间的单应性矩阵.然后, 利用码本模型对背景进行建模, 检测多个视角的前景似然信息.最后, 通过单应性变换获得多目标在不同高度层上的定位信息, 利用最短路径优化算法实现跟踪. 与其他算法相比, 本算法不需要计算多相机的隐消点, 降低了算法的复杂度, 提高了算法的准确性.采用最短路径优化算法, 提高了跟踪算法的效率. 实验结果表明, 本算法对遮挡具有很强的鲁棒性, 并且能够满足实时性要求.
多目标的稳定跟踪是计算机视觉领域的一个具有挑战性的问题. 本文提出了一种基于多相机的多目标定位跟踪算法.首先, 利用不同高度层上的标志物, 计算基于多层的不同视角间的单应性矩阵.然后, 利用码本模型对背景进行建模, 检测多个视角的前景似然信息.最后, 通过单应性变换获得多目标在不同高度层上的定位信息, 利用最短路径优化算法实现跟踪. 与其他算法相比, 本算法不需要计算多相机的隐消点, 降低了算法的复杂度, 提高了算法的准确性.采用最短路径优化算法, 提高了跟踪算法的效率. 实验结果表明, 本算法对遮挡具有很强的鲁棒性, 并且能够满足实时性要求.
2012, 38(4): 540-548.
doi: 10.3724/SP.J.1004.2012.00540
摘要:
针对滑动窗口目标检测方法需要穷举搜索目标、检测速度较慢的问题, 提出一种可变形部件模型候选点检测算法.图像先经过两种不同原理的分割方法预处理, 尽量使至少一个分割接近目标真实位置,分割的左上角附近称为候选点. 然后,将可变形部件模型作为底层检测器,模型的训练和测试都只在候选点上进行, 这大大提高了检测速度.在PASCAL 2007数据集上的实验结果表明, 候选点检测在一半类别上的正确率超过了穷举搜索方法.
针对滑动窗口目标检测方法需要穷举搜索目标、检测速度较慢的问题, 提出一种可变形部件模型候选点检测算法.图像先经过两种不同原理的分割方法预处理, 尽量使至少一个分割接近目标真实位置,分割的左上角附近称为候选点. 然后,将可变形部件模型作为底层检测器,模型的训练和测试都只在候选点上进行, 这大大提高了检测速度.在PASCAL 2007数据集上的实验结果表明, 候选点检测在一半类别上的正确率超过了穷举搜索方法.
2012, 38(4): 549-562.
doi: 10.3724/SP.J.1004.2012.00549
摘要:
依据最大间距判别准则(Maximum margin criterion, MMC)的基本原理,并结合模糊技术和张量理论, 提出一种矩阵模式的模糊最大间距判别准则(Matrix model fuzzy maximum margin criterion, MFMMC),并在此基础上形成具有模糊聚类功能的双向二维无监督特征提取方法(Two-directional two-dimensional unsupervised feature extraction method with fuzzy clustering ability, (2D)2UFFCA). 该方法不但能直接实现矩阵模式数据的模糊聚类,而且还可以对矩阵模式数据进行双向二维特征提取,实现特征降维. 同时我们还从几何的直观含义出发,合理地设定矩阵模式的模糊最大间距判别准则中的调节参数γ并从理论上证明其合理性.为了提高特征提取的效率,还提出一种能有效计算矩阵模式数据的投影变换矩阵的方法.实验结果表明该方法具有上述优势.
依据最大间距判别准则(Maximum margin criterion, MMC)的基本原理,并结合模糊技术和张量理论, 提出一种矩阵模式的模糊最大间距判别准则(Matrix model fuzzy maximum margin criterion, MFMMC),并在此基础上形成具有模糊聚类功能的双向二维无监督特征提取方法(Two-directional two-dimensional unsupervised feature extraction method with fuzzy clustering ability, (2D)2UFFCA). 该方法不但能直接实现矩阵模式数据的模糊聚类,而且还可以对矩阵模式数据进行双向二维特征提取,实现特征降维. 同时我们还从几何的直观含义出发,合理地设定矩阵模式的模糊最大间距判别准则中的调节参数γ并从理论上证明其合理性.为了提高特征提取的效率,还提出一种能有效计算矩阵模式数据的投影变换矩阵的方法.实验结果表明该方法具有上述优势.
2012, 38(4): 563-569.
doi: 10.3724/SP.J.1004.2012.00563
摘要:
定量分析班组人员行为及其与生产管理的作用关系对做好企业的班组管理具有重要的指导意义. 本文采用社会网络分析方法,对某石化企业的人员行为和管理制度数据进行了聚类分析. 分析结果表明,在人员行为方面,不同班组之间的凝聚度差异较大,同班组中某个人对整个班组的凝聚度有较大影响; 而在管理制度方面,同类管理制度具有相似的表现,但存在特殊的节点,对总体表现有较大影响; 与管理制度相比,人员行为具有更小的最小方差分组指数,说明人员行为比管理制度能够更均匀地进行分类. 上述的量化评估结果对班组人员行为管理和管理制度的改进具有指导意义.
定量分析班组人员行为及其与生产管理的作用关系对做好企业的班组管理具有重要的指导意义. 本文采用社会网络分析方法,对某石化企业的人员行为和管理制度数据进行了聚类分析. 分析结果表明,在人员行为方面,不同班组之间的凝聚度差异较大,同班组中某个人对整个班组的凝聚度有较大影响; 而在管理制度方面,同类管理制度具有相似的表现,但存在特殊的节点,对总体表现有较大影响; 与管理制度相比,人员行为具有更小的最小方差分组指数,说明人员行为比管理制度能够更均匀地进行分类. 上述的量化评估结果对班组人员行为管理和管理制度的改进具有指导意义.
2012, 38(4): 570-581.
doi: 10.3724/SP.J.1004.2012.00570
摘要:
针对同一场景的红外和可见光图像间一致特征难以提取和匹配的难题, 提出了一种在多尺度空间中基于边缘最优映射的自动配准算法. 在由粗至细的尺度空间中, 算法分别采用仿射模型和投影模型作为参考图像和待配准图像间的空间变换模型. 在每个尺度层上, 首先基于相位一致性方法提取两幅图像的边缘结构, 并在相应的空间变换模型下将在待配准图像中提取的二值边缘映射到参考图像的边缘强度图上; 接着采用并行遗传算法寻找一组全局最优的模型参数, 使两幅图像间的结构相似度最大. 在各层的寻优结束之后, 使用Powell算法对全局寻优后的模型参数进行局部精化. 实验结果表明, 该算法能够充分利用图像间的视觉相似结构, 有效地实现红外和可见光图像的自动配准.
针对同一场景的红外和可见光图像间一致特征难以提取和匹配的难题, 提出了一种在多尺度空间中基于边缘最优映射的自动配准算法. 在由粗至细的尺度空间中, 算法分别采用仿射模型和投影模型作为参考图像和待配准图像间的空间变换模型. 在每个尺度层上, 首先基于相位一致性方法提取两幅图像的边缘结构, 并在相应的空间变换模型下将在待配准图像中提取的二值边缘映射到参考图像的边缘强度图上; 接着采用并行遗传算法寻找一组全局最优的模型参数, 使两幅图像间的结构相似度最大. 在各层的寻优结束之后, 使用Powell算法对全局寻优后的模型参数进行局部精化. 实验结果表明, 该算法能够充分利用图像间的视觉相似结构, 有效地实现红外和可见光图像的自动配准.
2012, 38(4): 582-590.
doi: 10.3724/SP.J.1004.2012.00582
摘要:
利用活动轮廓线方法进行图像分割的一个重要缺陷是目标函数是非凸的, 这不仅使得分割结果容易陷于局部极小, 而且还使得一些快速算法无法开展.本文首先从贝叶斯风险估计的方法出发,针对B超幅度图像, 给出一种基于Rayleigh分布的活动轮廓线模型. 然后结合凸松弛的方法,得到一个新的放松的凸模型.原有模型和放松后模型的关系可由定理1给出. 最后结合分裂Bregman算法, 给出基于B超分割模型的快速算法.与传统梯度下降法相比较,本文提出的算法不仅能得到全局最优解,而且在算法收敛速度上也 大大优于梯度下降法.
利用活动轮廓线方法进行图像分割的一个重要缺陷是目标函数是非凸的, 这不仅使得分割结果容易陷于局部极小, 而且还使得一些快速算法无法开展.本文首先从贝叶斯风险估计的方法出发,针对B超幅度图像, 给出一种基于Rayleigh分布的活动轮廓线模型. 然后结合凸松弛的方法,得到一个新的放松的凸模型.原有模型和放松后模型的关系可由定理1给出. 最后结合分裂Bregman算法, 给出基于B超分割模型的快速算法.与传统梯度下降法相比较,本文提出的算法不仅能得到全局最优解,而且在算法收敛速度上也 大大优于梯度下降法.
2012, 38(4): 591-600.
doi: 10.3724/SP.J.1004.2012.00591
摘要:
混合高斯(Mixture of Gaussian, MOG)背景建模算法和Codebook背景建模算法被广泛应用于监控视频的运动目标检测问题,但 混合高斯的球体模型通常假设RGB三个分量是独立的, Codebook的圆柱体模型假设背景像素值在圆柱体内均匀分布且背景亮度值变化方向指向坐标原点,这 些假设使得模型对背景的描述能力下降. 本文提出了一种椭球体背景模型,该模型克服了混合高斯球体模型和Codebook圆柱体模型假设的局限 性,同时利用主成分分析(Principal components analysis, PCA)方法来刻画椭球体背景模型, 提出了一种基于主成分分析的Codebook背景建模算法.实验表明,本文算法不仅能够更准确地描述背 景像素值在RGB空间中的分布特征,而且具有良好的鲁棒性.
混合高斯(Mixture of Gaussian, MOG)背景建模算法和Codebook背景建模算法被广泛应用于监控视频的运动目标检测问题,但 混合高斯的球体模型通常假设RGB三个分量是独立的, Codebook的圆柱体模型假设背景像素值在圆柱体内均匀分布且背景亮度值变化方向指向坐标原点,这 些假设使得模型对背景的描述能力下降. 本文提出了一种椭球体背景模型,该模型克服了混合高斯球体模型和Codebook圆柱体模型假设的局限 性,同时利用主成分分析(Principal components analysis, PCA)方法来刻画椭球体背景模型, 提出了一种基于主成分分析的Codebook背景建模算法.实验表明,本文算法不仅能够更准确地描述背 景像素值在RGB空间中的分布特征,而且具有良好的鲁棒性.
2012, 38(4): 601-608.
doi: 10.3724/SP.J.1004.2012.00601
摘要:
提出一种自适应正则化的图像超分辨率重建算法. 首先, 利用局部残差均值自适应地计算各低分辨率图像通道的权值参数矩阵, 可有效地利用各通道对应区域间的交叉信息; 其次, 利用正则项局部误差均值自适应地计算平衡正则项和保真项的正则化参数矩阵, 能较好地保持图像边缘纹理等信息.实验结果表明本文算法不但具有较高峰值信噪比(Peak signal to noise ratio, PSNR) 和结构相似度(Structural similarity, SSIM), 而且在边缘、纹理等细节区域具有更好的重建效果.
提出一种自适应正则化的图像超分辨率重建算法. 首先, 利用局部残差均值自适应地计算各低分辨率图像通道的权值参数矩阵, 可有效地利用各通道对应区域间的交叉信息; 其次, 利用正则项局部误差均值自适应地计算平衡正则项和保真项的正则化参数矩阵, 能较好地保持图像边缘纹理等信息.实验结果表明本文算法不但具有较高峰值信噪比(Peak signal to noise ratio, PSNR) 和结构相似度(Structural similarity, SSIM), 而且在边缘、纹理等细节区域具有更好的重建效果.
2012, 38(4): 609-617.
doi: 10.3724/SP.J.1004.2012.00609
摘要:
针对数字图像的内容认证和完整性保护问题,提出了一种基于分块压缩感知(Compressive sensing, CS)的图像 半脆弱零水印算法(Block compressive sensing based image semi-fragile zero-watermarking, BCS-SFZ).首先将图像划分成若干分块,分块大小可以根据水 印数据量和篡改定位精度调整.再按照压缩感知理论对各个图像块进行观测, 并将观测值作为零水印信息注册保存.实验结果表明, BCS-SFZ算法可以准确定位非法篡改并借助水印信息恢复被篡改的区域. 压缩感知理论的引入为算法提供了保密性支持,并且有利于实现图像成像与水印生成的同步,同时该算法实现简单,计算复杂度低.
针对数字图像的内容认证和完整性保护问题,提出了一种基于分块压缩感知(Compressive sensing, CS)的图像 半脆弱零水印算法(Block compressive sensing based image semi-fragile zero-watermarking, BCS-SFZ).首先将图像划分成若干分块,分块大小可以根据水 印数据量和篡改定位精度调整.再按照压缩感知理论对各个图像块进行观测, 并将观测值作为零水印信息注册保存.实验结果表明, BCS-SFZ算法可以准确定位非法篡改并借助水印信息恢复被篡改的区域. 压缩感知理论的引入为算法提供了保密性支持,并且有利于实现图像成像与水印生成的同步,同时该算法实现简单,计算复杂度低.
2012, 38(4): 618-631.
doi: 10.3724/SP.J.1004.2012.00618
摘要:
机器人定位、传感器网络标定与环境建图是普适机器人系统中三个相互耦合的基本问题, 其有效解决是普适机器人系统提供高效智能服务的前提. 本文提出了普适机器人系统同时机器人定位、传感器网络标定与环境建图的概念, 通过分析三者之间的耦合关系, 给出同时定位、标定与建图问题的联合条件概率表示, 基于贝叶斯公式和马尔科夫特性将其分解为若干可解项, 并借鉴Rao-Blackwellized粒子滤波的思想分别求解. 首先, 联合传感器网络对机器人的观测、机器人对已定位环境特征的观测以及机器人自身控制量,设计了位姿粒子的采样提议分布和权值更新公式; 其次, 联合传感器网络对机器人运动轨迹及已定位环境特征的观测,设计了传感器网络标定的递推公式; 然后, 联合传感器网络和机器人对(已定位或新发现)环境特征的观测,设计了环境建图的递推公式. 给出了完整的同时定位、标定与建图算法, 并通过仿真实验验证了该算法的有效性.
机器人定位、传感器网络标定与环境建图是普适机器人系统中三个相互耦合的基本问题, 其有效解决是普适机器人系统提供高效智能服务的前提. 本文提出了普适机器人系统同时机器人定位、传感器网络标定与环境建图的概念, 通过分析三者之间的耦合关系, 给出同时定位、标定与建图问题的联合条件概率表示, 基于贝叶斯公式和马尔科夫特性将其分解为若干可解项, 并借鉴Rao-Blackwellized粒子滤波的思想分别求解. 首先, 联合传感器网络对机器人的观测、机器人对已定位环境特征的观测以及机器人自身控制量,设计了位姿粒子的采样提议分布和权值更新公式; 其次, 联合传感器网络对机器人运动轨迹及已定位环境特征的观测,设计了传感器网络标定的递推公式; 然后, 联合传感器网络和机器人对(已定位或新发现)环境特征的观测,设计了环境建图的递推公式. 给出了完整的同时定位、标定与建图算法, 并通过仿真实验验证了该算法的有效性.
2012, 38(4): 632-638.
doi: 10.3724/SP.J.1004.2012.00632
摘要:
研究了信息受限下一类线性不确定系统的跟踪调节问题. 假定由高阶微分方程产生的参考信号与受控系统(不确定线性系统)通过有限容量信道相连. 针对该信号设计了具体的编码方式, 并在受控系统端重构了该参考信号, 进而依据此重构信号设计了跟踪控制器, 最终到达了跟踪目标. 最后数值例子验证了本文结论的有效性.
研究了信息受限下一类线性不确定系统的跟踪调节问题. 假定由高阶微分方程产生的参考信号与受控系统(不确定线性系统)通过有限容量信道相连. 针对该信号设计了具体的编码方式, 并在受控系统端重构了该参考信号, 进而依据此重构信号设计了跟踪控制器, 最终到达了跟踪目标. 最后数值例子验证了本文结论的有效性.
2012, 38(4): 639-646.
doi: 10.3724/SP.J.1004.2012.00639
摘要:
研究了修理工单重休假且由两个不同型部件和一个修理工组成的可修型温贮备系统. 系统考虑了在工作故障和贮备 故障都不能 “修复如新”, 部件 1 是修复非新而部件 2 修复如新的条件下, 假设部件的工作寿命、贮备寿命、故障后的修理时间和贮备故障后的修理时间均服 从不同的指数分布, 修理工休假服从一般连续型分布. 运用几何过程理论、补充变量法、 拉普拉斯变换及拉普拉斯--司梯阶变换, 得到了系统的可用度、可靠度和系统首次故障前平均时间等可靠性指标. 最后, 通过数值模拟验证了结果的有效性.
研究了修理工单重休假且由两个不同型部件和一个修理工组成的可修型温贮备系统. 系统考虑了在工作故障和贮备 故障都不能 “修复如新”, 部件 1 是修复非新而部件 2 修复如新的条件下, 假设部件的工作寿命、贮备寿命、故障后的修理时间和贮备故障后的修理时间均服 从不同的指数分布, 修理工休假服从一般连续型分布. 运用几何过程理论、补充变量法、 拉普拉斯变换及拉普拉斯--司梯阶变换, 得到了系统的可用度、可靠度和系统首次故障前平均时间等可靠性指标. 最后, 通过数值模拟验证了结果的有效性.
2012, 38(4): 647-652.
doi: 10.3724/SP.J.1004.2012.00647
摘要:
针对传统重采样算法易引起粒子贫化的问题,提出了自适应不完全重采样粒子滤波 (A particle filter based on adaptive part resampling, APRPF)算法. APRPF以分步的方式仅对部分粒子进行重采样,以递推的方式计算表征 粒子退化程度的度量函数(Measurement of particle degeneracy, MPD),直到满足给定条件.重采样后的粒子由新生粒子 和未参与重采样的粒子组成,前者的存在有助于缓解退化问题,后者可使粒子集保 持一定多样性.实验结果表明,与标准粒子滤波(Sampling importance resampling, SIR)、辅助变量粒子滤波(Auxiliary particle filter, APF)、正则化粒子滤波(Regularized particle filter, RPF) 三种滤波器相比, APRPF的估计精度高;由于平均重采样次数少,计算量也小.
针对传统重采样算法易引起粒子贫化的问题,提出了自适应不完全重采样粒子滤波 (A particle filter based on adaptive part resampling, APRPF)算法. APRPF以分步的方式仅对部分粒子进行重采样,以递推的方式计算表征 粒子退化程度的度量函数(Measurement of particle degeneracy, MPD),直到满足给定条件.重采样后的粒子由新生粒子 和未参与重采样的粒子组成,前者的存在有助于缓解退化问题,后者可使粒子集保 持一定多样性.实验结果表明,与标准粒子滤波(Sampling importance resampling, SIR)、辅助变量粒子滤波(Auxiliary particle filter, APF)、正则化粒子滤波(Regularized particle filter, RPF) 三种滤波器相比, APRPF的估计精度高;由于平均重采样次数少,计算量也小.
2012, 38(4): 652-658.
doi: 10.3724/SP.J.1004.2012.00652
摘要:
针对真实环境下的语种识别,信道类型和通话内容等非语种方面因素的不同都会造成测试和训练条件的不匹配, 从而影响系统的识别性能.本文以音素识别器后接向量空间模型(Phone recognizer followed by vector space model, PRVSM)为语种识别系统,引入联合自适应算法来解决系统中测试和训练条件的失配问题.研究了三种自适应方法用于系统的不同阶段: 1)基于受约束的最大似然线性回归(Constrained maximum likelihood linear regression, CMLLR)的声学模型自适应; 2)基于全局N元文法的音位特征向量自适应; 3) VSM模型中的支持向量机(Support vector machines, SVM)自适应.在综合采用多种自适应技术后, PRVSM系统的性能有了较大的提高,在NIST LRE 2009测试库上对于30s、10s和3s的测试段, 基于不同音素识别器的PRVSM系统的等错误率(Equal error rate, EER)分别相对降低了18%~23%、12%~20%以及5%~9%.
针对真实环境下的语种识别,信道类型和通话内容等非语种方面因素的不同都会造成测试和训练条件的不匹配, 从而影响系统的识别性能.本文以音素识别器后接向量空间模型(Phone recognizer followed by vector space model, PRVSM)为语种识别系统,引入联合自适应算法来解决系统中测试和训练条件的失配问题.研究了三种自适应方法用于系统的不同阶段: 1)基于受约束的最大似然线性回归(Constrained maximum likelihood linear regression, CMLLR)的声学模型自适应; 2)基于全局N元文法的音位特征向量自适应; 3) VSM模型中的支持向量机(Support vector machines, SVM)自适应.在综合采用多种自适应技术后, PRVSM系统的性能有了较大的提高,在NIST LRE 2009测试库上对于30s、10s和3s的测试段, 基于不同音素识别器的PRVSM系统的等错误率(Equal error rate, EER)分别相对降低了18%~23%、12%~20%以及5%~9%.
2012, 38(4): 659-665.
doi: 10.3724/SP.J.1004.2012.00659
摘要:
稀疏保持投影(Sparsity preserving projections, SPP)由于保持了数据间的稀疏重构性, 因而获取的投影向量满足旋转、尺度和平移的不变性, 并能够在无标签的情况下提取样本的自然鉴别信息, 在人脸识别领域取得了较为成功的应用. 本文在典型相关分析(Canonical correlation analysis, CCA)的基础上引入稀疏保持项, 提出一种稀疏保持典型相关分析(Sparsity preserving canonical correlation analysis, SPCCA). 该方法不仅实现了两组特征集鉴别信息的有效融合, 同时对提取特征间的稀疏重构性加以约束, 增强了特征的表示和鉴别能力. 在多特征手写体字符集与人脸数据集上的实验结果表明, SPCCA比CCA具有更优的识别性能.
稀疏保持投影(Sparsity preserving projections, SPP)由于保持了数据间的稀疏重构性, 因而获取的投影向量满足旋转、尺度和平移的不变性, 并能够在无标签的情况下提取样本的自然鉴别信息, 在人脸识别领域取得了较为成功的应用. 本文在典型相关分析(Canonical correlation analysis, CCA)的基础上引入稀疏保持项, 提出一种稀疏保持典型相关分析(Sparsity preserving canonical correlation analysis, SPCCA). 该方法不仅实现了两组特征集鉴别信息的有效融合, 同时对提取特征间的稀疏重构性加以约束, 增强了特征的表示和鉴别能力. 在多特征手写体字符集与人脸数据集上的实验结果表明, SPCCA比CCA具有更优的识别性能.
2012, 38(4): 666-672.
doi: 10.3724/SP.J.1004.2012.00666
摘要:
马尔科夫链以其无后效性广泛应用于自然科学和工程技术领域. 经典的马尔科夫链并不能反映对象状态的不确定性, 并且当状态划分边界过于清晰时, 状态转移情况不稳定. 为了保持状态转移的稳定性以及能够有效地表示和处理对象状态的不确定性, 本文提出了一种信度马尔科夫模型. 新模型引入了Dempster-Shafer (DS) 证据理论来描述对象状态的不确定性, 将对象的所有状态归类为一个辨识框架, 建立基本概率指派函数, 然后生成一个命题转移概率矩阵, 最后根据对象当前的状态得到将来的状态. 本文提出的信度马尔科夫模型是对经典马尔科夫链的推广, 向下兼容了它的性质. 实例表明, 新模型克服了上述缺陷, 获得了较经典马尔科夫链更加合理、准确的结果, 具有更高的有效性和实用性.
马尔科夫链以其无后效性广泛应用于自然科学和工程技术领域. 经典的马尔科夫链并不能反映对象状态的不确定性, 并且当状态划分边界过于清晰时, 状态转移情况不稳定. 为了保持状态转移的稳定性以及能够有效地表示和处理对象状态的不确定性, 本文提出了一种信度马尔科夫模型. 新模型引入了Dempster-Shafer (DS) 证据理论来描述对象状态的不确定性, 将对象的所有状态归类为一个辨识框架, 建立基本概率指派函数, 然后生成一个命题转移概率矩阵, 最后根据对象当前的状态得到将来的状态. 本文提出的信度马尔科夫模型是对经典马尔科夫链的推广, 向下兼容了它的性质. 实例表明, 新模型克服了上述缺陷, 获得了较经典马尔科夫链更加合理、准确的结果, 具有更高的有效性和实用性.