自动化学报

姓名
邮箱
手机号码
标题
留言内容
验证码

2022, 48(2).

[封面浏览] [PDF 8074KB](92)

黄艳龙, 徐德, 谭民

2022, 48(2): 315-334. doi: 10.16383/j.aas.c210033

[摘要](6527) [HTML全文] (3884) [PDF 1270KB](1929)

摘要:
作为机器人技能学习中的一个重要分支, 模仿学习近年来在机器人系统中得到了广泛的应用. 模仿学习能够将人类的技能以一种相对直接的方式迁移到机器人系统中, 其思路是先从少量示教样本中提取相应的运动特征, 然后将该特征泛化到新的情形. 本文针对机器人运动轨迹的模仿学习进行综述. 首先详细解释模仿学习中的技能泛化、收敛性和外插等基本问题; 其次从原理上对动态运动基元、概率运动基元和核化运动基元等主要的模仿学习算法进行介绍; 然后深入地讨论模仿学习中姿态和刚度矩阵的学习问题、协同和不确定性预测的问题以及人机交互中的模仿学习等若干关键问题; 最后本文探讨了结合因果推理的模仿学习等几个未来的发展方向.

基于EEG的癫痫自动检测: 综述与展望

彭睿旻, 江军, 匡光涛, 杜浩, 伍冬睿, 邵剑波

2022, 48(2): 335-350. doi: 10.16383/j.aas.c200745

[摘要](3990) [HTML全文] (4067) [PDF 3489KB](1020)

摘要:
癫痫是一种由脑部神经元阵发性异常超同步电活动导致的慢性非传染性疾病, 也是全球最常见的神经系统疾病之一. 基于EEG的癫痫自动检测是指通过机器学习、分布检验、相关性分析和时频分析等数据分析方法, 对癫痫发作阶段的EEG信号进行自动识别的研究问题, 能够为癫痫诊疗与评估提供客观参考依据, 从而减轻医生工作负担并提高治疗效率, 因此具有十分重要的理论意义与实际应用价值. 本文详细介绍基于EEG的癫痫自动识别整体框架, 以及对应于各个步骤所涉及的典型方法. 针对核心模块, 即特征提取与分类器选择, 进行方法总结与理论解释. 最后, 对癫痫自动检测研究领域的未来研究方向进行展望.

解耦表征学习综述

文载道, 王佳蕊, 王小旭, 潘泉

2022, 48(2): 351-374. doi: 10.16383/j.aas.c210096

[摘要](10398) [HTML全文] (6678) [PDF 2293KB](3038)

摘要:
在大数据时代下, 以高效自主隐式特征提取能力闻名的深度学习引发了新一代人工智能的热潮, 然而其背后黑箱不可解释的“捷径学习”现象成为制约其进一步发展的关键性瓶颈问题. 解耦表征学习通过探索大数据内部蕴含的物理机制和逻辑关系复杂性, 从数据生成的角度解耦数据内部多层次、多尺度的潜在生成因子, 促使深度网络模型学会像人类一样对数据进行自主智能感知, 逐渐成为新一代基于复杂性的可解释深度学习领域内重要研究方向, 具有重大的理论意义和应用价值. 本文系统地综述了解耦表征学习的研究进展, 对当前解耦表征学习中的关键技术及典型方法进行了分类阐述, 分析并汇总了现有各类算法的适用场景并对此进行了可视化实验性能展示, 最后指明了解耦表征学习今后的发展趋势以及未来值得研究的方向.

从视频到语言: 视频标题生成与描述研究综述

汤鹏杰, 王瀚漓

2022, 48(2): 375-397. doi: 10.16383/j.aas.c200662

[摘要](3310) [HTML全文] (2455) [PDF 1308KB](624)

摘要:
视频标题生成与描述是使用自然语言对视频进行总结与重新表达. 由于视频与语言之间存在异构特性, 其数据处理过程较为复杂. 本文主要对基于“编码−解码” 架构的模型做了详细阐述, 以视频特征编码与使用方式为依据, 将其分为基于视觉特征均值/最大值的方法、基于视频序列记忆建模的方法、基于三维卷积特征的方法及混合方法, 并对各类模型进行了归纳与总结. 最后, 对当前存在的问题及可能趋势进行了总结与展望, 指出需要生成融合情感、逻辑等信息的结构化语段, 并在模型优化、数据集构建、评价指标等方面进行更为深入的研究.

基于混合变分自编码器回归模型的软测量建模方法

崔琳琳, 沈冰冰, 葛志强

2022, 48(2): 398-407. doi: 10.16383/j.aas.c210035

[摘要](2838) [HTML全文] (1027) [PDF 2150KB](525)

摘要:
近年来, 变分自编码器(Variational auto-encoder, VAE)模型由于在概率数据描述和特征提取能力等方面的优越性, 受到了学术界和工业界的广泛关注, 并被引入到工业过程监测、诊断和软测量建模等应用中. 然而, 传统基于VAE的软测量方法使用高斯分布作为潜在变量的分布, 限制了其对复杂工业过程数据, 尤其是多模态数据的建模能力. 为了解决这一问题, 本论文提出了一种混合变分自编码器回归模型(Mixture variational autoencoder regression, MVAER), 并将其应用于复杂多模态工业过程的软测量建模. 具体来说, 该方法采用高斯混合模型来描述VAE的潜在变量分布, 通过非线性映射将复杂多模态数据映射到潜在空间, 学习各模态下的潜在变量, 获取原始数据的有效特征表示. 同时, 建立潜在特征表示与关键质量变量之间的回归模型, 实现软测量应用. 通过一个数值例子和一个实际工业案例, 对所提模型的性能进行了评估, 验证了该模型的有效性和优越性.

基于时空共现模式的视觉行人再识别

钱锦浩, 宋展仁, 郭春超, 赖剑煌, 谢晓华

2022, 48(2): 408-417. doi: 10.16383/j.aas.c200897

[摘要](1777) [HTML全文] (724) [PDF 1166KB](354)

摘要:
基于视频图像的视觉行人再识别是指利用计算机视觉技术关联非重叠域摄像头网络下的相同行人, 在视频安防和商业客流分析中具有重要应用. 目前视觉行人再识别技术已经取得了相当不错的进展, 但依旧面临很多挑战, 比如摄像机的拍摄视角不同、遮挡现象和光照变化等所导致的行人表观变化和匹配不准确问题. 为了克服单纯视觉匹配困难问题, 本文提出一种结合行人表观特征跟行人时空共现模式的行人再识别方法. 所提方法利用目标行人的邻域行人分布信息来辅助行人相似度计算, 有效地利用时空上下文信息来加强视觉行人再识别. 在行人再识别两个权威公开数据集Market-1501和DukeMTMC-ReID上的实验验证了所提方法的有效性.

基于权重因子自校正的主蒸汽温度外挂广义预测串级控制

王懋譞, 王永富, 柴天佑, 张晓宇

2022, 48(2): 418-433. doi: 10.16383/j.aas.c200195

[摘要](1500) [HTML全文] (757) [PDF 4752KB](220)

摘要:
针对电厂目前普遍采用PI-PI串级控制器调节锅炉主蒸汽温度系统, 不能有效克服惯性、时滞和参数时变等问题的影响, 本文提出了一种理想GPC (Generalized predictive control)-PI串级控制器. 首先, 该理想串级控制器不仅能抑制一次和二次扰动, 而且外环GPC通过对主蒸汽温度的多步预测, 并结合滚动优化技术能有效克服主蒸汽温度系统的惯性和时滞问题. 另外, 针对主蒸汽温度系统参数时变的特性, 该理想控制器采用了T-S (Takagi-Sugeno)型模糊神经网络(Fuzzy neural network, FNN)作为主蒸汽温度模型, 该模型能够通过反馈校正技术实时更新模型参数. 同时, 为了改善主蒸汽温度系统动态响应品质和稳定性, 对外环GPC中的权重因子进行了模糊自校正设计, 通过理论分析和对比仿真验证了该理想GPC-PI串级控制器优于权重因子固定的GPC-PI和PI-PI串级控制器. 最后, 考虑到直接将电厂集散控制系统(Distributed control system, DCS)中的PI-PI串级控制器升级为理想GPC-PI串级控制器存在安全以及风险责任等问题, 故将电厂的传统PI-PI串级控制器升级成外挂的GPC-PI-PI串级控制器, 既改善了锅炉主蒸汽温度的控制效果又规避了风险责任, 实际应用验证了该方法的有效性.

面向扑翼飞行控制的建模与奇异摄动分析

钱辰, 方勇纯, 李友朋

2022, 48(2): 434-443. doi: 10.16383/j.aas.c190858

[摘要](1129) [HTML全文] (707) [PDF 1629KB](263)

摘要:
针对扑翼飞行中的周期性和时标不一现象, 以及扑翼飞行实际控制中的问题, 本文基于奇异摄动理论, 提出了一种针对扑翼周期系统的稳定性分析方法. 具体而言, 首先建立了扑翼飞行器的多刚体模型, 为后文对翅翼动力学的奇异摄动分析铺平道路; 其次, 对多刚体模型进行简化, 抽象出扑翼飞行动力学的核心问题, 并针对实际控制中的问题, 提出了利用奇异摄动理论分析扑翼飞行周期稳定性的方法, 指出了其相对于其他方法的优越性; 最后, 在自制的四自由度扑翼飞行器完成了真实的飞行实验, 验证了所提方法的有效性.

带有资源冲突的Seru在线并行调度算法

江煜舟, 李冬妮, 靳洪博, 殷勇

2022, 48(2): 444-459. doi: 10.16383/j.aas.c190698

[摘要](3021) [HTML全文] (2098) [PDF 2856KB](181)

摘要:
随着大规模定制的市场需求日趋显著, 赛如生产系统(Seru production system, SPS)应运而生, 逐渐成为研究和应用领域的热点. 本文针对带有资源冲突的Seru在线并行调度问题进行研究, 即需要在有限的空间位置上安排随动态需求而构建的若干Seru, 以总加权完工时间最小为目标, 决策Seru的构建顺序及时间. 先基于平均延迟最短加权处理时间(Average delayed shortest weighted processing time, AD-SWPT)算法, 针对其竞争比不为常数的局限性, 引入调节参数, 得到竞争比为常数的无资源冲突的Seru在线并行调度算法. 接下来, 引入冲突处理机制, 得到有资源冲突的Seru在线并行调度算法, αAD-I (α-average delayed shortest weighted processing time-improved)算法, 特殊实例下可通过实例归约的方法证明其竞争比与无资源冲突的情况相同. 最后, 通过实验, 验证了在波动的市场环境下算法对于特殊实例与一般实例的优越性.

基于可见光与红外热图像的行车环境复杂场景分割

陈武阳, 赵于前, 阳春华, 张帆, 余伶俐, 陈白帆

2022, 48(2): 460-469. doi: 10.16383/j.aas.c210029

[摘要](1842) [HTML全文] (970) [PDF 932KB](387)

摘要:
复杂场景分割是自动驾驶领域智能感知的重要任务, 对稳定性和高效性都有较高的要求. 由于一般的场景分割方法主要针对可见光图像, 分割效果非常依赖于图像获取时的光线与气候条件, 且大多数方法只关注分割性能, 忽略了计算资源. 本文提出一种基于可见光与红外热图像的轻量级双模分割网络(DMSNet), 通过提取并融合两种模态图像的特征得到最终分割结果. 考虑到不同模态特征空间存在较大差异, 直接融合将降低对特征的利用率, 本文提出了双路特征空间自适应(DPFSA)模块, 该模块能够自动学习特征间的差异从而转换特征至同一空间. 实验结果表明, 本文方法提高了对不同模态图像的利用率, 对光照变化有更强的鲁棒性, 且以少量参数取得了较好的分割性能.

基于 GBDT 的铁路事故类型预测及成因分析

钟敏慧, 张婉露, 李有儒, 朱振峰, 赵耀

2022, 48(2): 470-478. doi: 10.16383/j.aas.c190630

[摘要](2196) [HTML全文] (1029) [PDF 1407KB](263)

摘要:
运用数据挖掘技术进行铁路事故类型预测及成因分析, 对于建立铁路事故预警机制具有重要意义. 为此, 本文提出一种基于梯度提升决策树(Grandient boosting decision tree, GBDT)的铁路事故类型预测及成因分析算法. 针对铁路事故记录数据缺失的问题, 提出一种基于属性分布概率的补全算法, 最大程度保持原有数据分布, 从而降低数据缺失对事故类型预测造成的影响. 针对铁路事故记录数据类别失衡的问题, 提出一种集成的GBDT模型, 完成对事故类型的鲁棒性预测. 在此基础上, 根据GBDT预测模型中特征重要度排序, 实现事故成因分析. 通过在开放数据库上进行实验, 验证了本文模型的有效性.

微电网的电流均衡/电压恢复自适应动态规划策略研究

王睿, 孙秋野, 张化光

2022, 48(2): 479-491. doi: 10.16383/j.aas.c210015

[摘要](1884) [HTML全文] (618) [PDF 2841KB](264)

摘要:
含多类型分布式电源的微电网已经成为了未来电力系统的重要发展方向, 其中风能和光能在降低化石能源消耗和二氧化碳排放等方面有着极大优势, 考虑二者之间强互补性的协同调度已被广泛研究. 但风/光协同调度的微电网多关注分钟级的调度或优化问题而非风/光波动下秒级的实时电流按容量比例精准分担, 简称电流均衡, 而精准电流均衡有助于可再生能源的高比例消纳. 因此, 本文提出了基于自适应动态规划的微电网电流均衡和电压恢复控制策略. 首先, 构建包含风电整流型电能变换器和光电升压型电能变换器的广义风光拓扑同胚升压变换器模型, 其提供了后续控制器设计的模型基础. 其次, 本文将电流均衡和电压恢复问题转化为最优控制问题, 基于此, 每个能源主体的目标函数转化为获取最优控制变量和最小电压/电流控制偏差, 进而转化为求解哈密顿−雅克比−贝尔曼(Hamilton-Jacobi-Bellman, HJB)方程问题. 基于此, 提出了基于贝尔曼准则的分布式自适应动态规划控制策略以求取HJB方程的数值解, 最终实现电流均衡和电压恢复. 最后仿真结果验证了所提分布式自适应动态规划控制策略的有效性.

面向负载均衡的高铁路网列车开行方案优化方法

吴兴堂, 杨明坤, 王洪伟, 周敏, 吕金虎, 董海荣

2022, 48(2): 492-503. doi: 10.16383/j.aas.c210612

[摘要](1387) [HTML全文] (958) [PDF 1145KB](185)

摘要:
针对当前高速铁路运营过程中存在的运输需求与运力资源不匹配现象, 面向负载均衡原理研究了路网条件下运能可适配的高速铁路旅客列车开行方案优化与评估方法. 首先, 针对路网条件下列车开行方案优化, 构建以提升经济效益、社会效益和网络负载均衡为目标的非线性混合整数规划模型, 并设计基于遗传算法和粒子群算法的两阶段混合搜索求解算法. 在此基础上, 考虑开行列车在高速铁路网中的抗干扰能力, 建立了面向网络化运营场景的开行方案综合评估指标体系, 揭示了故障场景下高速铁路网络性能的演化规律. 最后, 以实际高速铁路线路数据和运营数据为场景进行仿真实验, 本文提出方法在保证运输需求和路局收益的同时能够有效地提升8.66%网络整体负载均衡性, 增强发生故障时网络的抗干扰能力.

基于原型学习与深度特征融合的脑功能连接分类方法研究

梁玉泽, 冀俊忠

2022, 48(2): 504-514. doi: 10.16383/j.aas.c190747

[摘要](1093) [HTML全文] (675) [PDF 992KB](252)

摘要:
近年来, 基于深度学习的脑功能连接分类方法已成为一个研究热点. 为了进一步提高脑功能连接的分类准确率, 获得与疾病相关的鉴别性特征, 本文提出了一种基于原型学习与深度特征融合的脑功能连接分类方法. 该方法首先使用栈式自编码器从脑功能连接中提取从低层次到高层次的深度特征; 然后利用原型学习在自编码器的各隐层中提取表示样本类别信息的距离特征; 最后采用深度特征融合策略将这些距离特征融合, 并将该融合特征用于脑功能连接的类别标签预测. 在ABIDE数据集上的实验结果表明, 与其他同类方法相比, 该方法不仅具有较高的分类准确率, 而且能够更加准确地定位与疾病相关的脑区.

非线性快速批次过程高效迭代学习预测函数控制

马乐乐, 刘向杰

2022, 48(2): 515-530. doi: 10.16383/j.aas.c190621

[摘要](1234) [HTML全文] (549) [PDF 1810KB](288)

摘要:
迭代学习模型预测控制(Iterative learning model predictive control, ILMPC)具备较强的批次学习能力及突出的时域跟踪性能, 在批次过程控制中发挥了重要作用. 然而对于具有强非线性的快动态批次过程, 传统的迭代学习模型预测控制很难实现计算效率与跟踪精度之间的平衡, 这给其应用带来了挑战. 对此本文提出一种高效迭代学习预测函数控制策略, 将原非线性系统沿参考轨迹线性化得到二维跟踪误差预测模型, 并在控制器设计中补偿所产生的线性化误差, 构造优化目标函数为真实跟踪误差的上界. 为加强优化计算效率, 在时域上结合预测函数控制以降低待优化变量维数, 从而有效降低计算负担. 结合终端约束集理论, 分析了迭代学习预测函数控制的时域稳定性及迭代收敛性. 通过对无人车和典型快速间歇反应器的仿真实验验证所提出算法的有效性.

基于文本与图像的肺疾病研究与预测

吕晴, 赵奎, 曹吉龙, 魏景峰

2022, 48(2): 531-538. doi: 10.16383/j.aas.c190645

[摘要](1194) [HTML全文] (515) [PDF 917KB](289)

摘要:
通过对目前现有的肺癌检测技术研究, 发现大部分研究人员主要针对肺癌(Computed tomography, CT)影像进行研究, 忽略了电子病历所隐藏的肺癌信息, 本文提出一种基于图像与文本相结合的肺癌分类方法, 从现有的基于深度学习的肺癌图像分类出发, 引入了电子病历信息, 使用Multi-head attention以及(Bi-directional long short-term memory, Bi-LSTM)对文本建模. 实验结果证明, 将电子病历信息引入到图像分类模型之后, 对模型的性能有进一步的提升. 相对仅使用电子病历进行预测, 准确率提升了大约14 %, 精确率大约提升了15 %, 召回率提升了14 %. 相对仅使用肺癌CT影像来进行预测, 准确率提升了3.2 %, 精确率提升了4 %, 召回率提升了4 %.

基于两阶段自适应Wiener过程的剩余寿命预测方法

董青, 郑建飞, 胡昌华, 李冰, 牟含笑

2022, 48(2): 539-553. doi: 10.16383/j.aas.c210057

[摘要](2712) [HTML全文] (913) [PDF 2857KB](301)

摘要:
针对退化过程呈现两阶段特征的一类随机退化设备, 现有剩余寿命预测方法不适用于测量间隔分布不均匀、监测数据的测量频率与历史数据频率不一致的情况, 并且忽略了自适应漂移的可变性. 鉴于此, 提出了一种新的考虑个体差异性的两阶段自适应Wiener过程剩余寿命预测模型与方法. 首先, 基于自适应Wiener过程分阶段构建随机退化模型, 在首达时间意义下推导出寿命和剩余寿命解析式. 然后, 结合Kalman滤波技术和期望最大化算法进行参数自适应更新, 同时利用赤池信息准则实现退化模型变点的辨识. 最后, 通过蒙特卡洛仿真和锂电池实例, 验证了本文所提方法的有效性和实用价值.

基于RefineNet的端到端语音增强方法

蓝天, 彭川, 李森, 钱宇欣, 陈聪, 刘峤

2022, 48(2): 554-563. doi: 10.16383/j.aas.c190433

[摘要](999) [HTML全文] (1031) [PDF 1682KB](232)

摘要:
为提高神经网络对语音信号时域波形的直接处理能力, 提出了一种基于RefineNet的端到端语音增强方法. 本文构建了一个时频分析神经网络, 模拟语音信号处理中的短时傅里叶变换, 利用RefineNet网络学习含噪语音到纯净语音的特征映射. 在模型训练阶段, 用多目标联合优化的训练策略将语音增强的评价指标短时客观可懂度(Short-time objective intelligibility, STOI)与信源失真比(Source to distortion ratio, SDR)融入到训练的损失函数. 在与具有代表性的传统方法和端到端的深度学习方法的对比实验中, 本文提出的算法在客观评价指标上均取得了最好的增强效果, 并且在未知噪声和低信噪比条件下表现出更好的抗噪性.

融合属性特征的行人重识别方法

邵晓雯, 帅惠, 刘青山

2022, 48(2): 564-571. doi: 10.16383/j.aas.c190763

[摘要](1191) [HTML全文] (869) [PDF 1087KB](309)

摘要:
行人重识别旨在跨监控设备下检索出特定的行人目标. 由于不同的行人可能具有相似的外观, 因此要求行人重识别模型能够捕捉到充足的细粒度特征. 本文提出一种融合属性特征的行人重识别的深度网络方法, 将行人重识别和属性识别集成在分类网络中, 进行端到端的多任务学习. 此外, 对于每张输入图片, 网络自适应地生成对应于每个属性的权重, 并将所有属性的特征以加权求和的方式结合起来, 与全局特征一起用于行人重识别任务. 全局特征关注行人的整体外观, 而属性特征关注细节区域, 两者相互补充可以对行人进行更全面的描述. 在行人重识别的主流数据集DukeMTMC-reID和Market-1501上的实验结果表明了本文方法的有效性, 平均精度均值(Mean average precision, mAP)分别达到了74.2%和83.5%, Rank-1值分别达到了87.1%和93.6%. 此外, 在这两个数据集上的属性识别也得到了比较好的结果.

有界扰动下约束非线性系统鲁棒经济模型预测控制

何德峰, 韩平, 王青松

2022, 48(2): 572-581. doi: 10.16383/j.aas.c190879

[摘要](1083) [HTML全文] (643) [PDF 1685KB](331)

摘要:
针对未知但有界扰动下约束非线性系统, 提出一种新的鲁棒经济模型预测控制(Economic model predictive control, EMPC)策略, 保证闭环系统对扰动输入具有输入到状态稳定性(Input-to-state stability, ISS). 基于微分对策原理, 分别优化经济目标函数和关于最优经济平衡点的鲁棒稳定性目标函数, 其中经济最优性与鲁棒稳定性是具有冲突的两个控制目标. 利用鲁棒稳定性目标最优值函数构造EMPC优化的隐式收缩约束, 建立鲁棒EMPC的递推可行性和闭环系统关于最优经济平衡点相对于有界扰动输入到状态稳定性结果. 最后以连续搅拌反应器为例, 对比仿真验证本文策略的有效性.

基于局部空间信息的可变类模糊阈值光学遥感图像分割

杨蕴, 李玉, 赵泉华

2022, 48(2): 582-593. doi: 10.16383/j.aas.c190412

[摘要](1405) [HTML全文] (389) [PDF 2312KB](234)

摘要:
阈值法分割在光学遥感图像分析中被得到广泛的应用, 然而传统阈值法也存在诸多局限性, 如对噪声敏感, 需人为设定类别数, 计算复杂度高等. 针对传统阈值法的局限性, 提出一种基于局部空间信息的可变类模糊阈值光学遥感图像分割方法. 首先, 以图像光谱的一阶矩为初始类中心, 利用二分法原理和区域间最大相似度准则来快速确定类别数及其中心. 然后, 通过岭形模糊隶属函数计算各像素点对不同类的隶属程度, 同时考虑到像素点的隶属度局部空间信息, 在隶属度域中定义一个模糊加权滤波器对各类的隶属度矩阵进行滤波, 以滤波后的隶属度集合为依据, 按照最大隶属原则确定图像的标号场. 最后, 对标号场中的局部异常标号进行替换, 将修正后的标号场由对应的类中心赋色得到分割图像. 视觉和统计分析评价结果表明, 与传统阈值法相比, 该方法能在减少计算时间的同时获得更好的分割结果, 可适用于光学遥感图像的多阈值分割.

基于多层BP神经网络的无参考视频质量客观评价

姚军财, 申静, 黄陈蓉

2022, 48(2): 594-607. doi: 10.16383/j.aas.c190539

[摘要](1644) [HTML全文] (745) [PDF 1518KB](227)

摘要:
机器学习在视频质量评价(Video quality assessment, VQA)模型回归方面具有较大的优势, 能够较大地提高构建模型的精度. 基于此, 设计了合理的多层BP神经网络, 并以提取的失真视频的内容特征、编解码失真特征、传输失真特征及其视觉感知效应特征参数为输入, 通过构建的数据库中的样本对其进行训练学习, 构建了一个无参考VQA模型. 在模型构建中, 首先采用图像的亮度和色度及其视觉感知、图像的灰度梯度期望值、图像的模糊程度、局部对比度、运动矢量及其视觉感知、场景切换特征、比特率、初始时延、单次中断时延、中断频率和中断平均时长共11个特征, 来描述影响视频质量的4个主要方面, 并对建立的两个视频数据库中的大量视频样本, 提取其特征参数; 再以该特征参数作为输入, 对设计的多层BP神经网络进行训练, 从而构建VQA模型; 最后, 对所提模型进行测试, 同时与14种现有的VQA模型进行对比分析, 研究其精度、复杂性和泛化性能. 实验结果表明: 所提模型的精度明显高于其14种现有模型的精度, 其最低高出幅度为4.34 %; 且优于该14种模型的泛化性能, 同时复杂性处于该15种模型中的中间水平. 综合分析所提模型的精度、泛化性能和复杂性表明, 所提模型是一种较好的基于机器学习的VQA模型.

面向精准价格牌识别的多任务循环神经网络

牟永强, 范宝杰, 孙超, 严蕤, 郭怡适

2022, 48(2): 608-614. doi: 10.16383/j.aas.c190633

[摘要](2313) [HTML全文] (655) [PDF 1158KB](222)

摘要:
为了促进智能新零售在线下业务场景的发展, 提高作为销售关键信息价格牌的识别精度. 本文对价格牌识别问题进行研究, 有效地提高了价格牌的识别精度, 并解决小数点定位不准确的难题. 通过深度卷积神经网络提取价格牌的深度语义表达特征, 将提取到的特征图送入多任务循环网络层进行编码, 然后根据解码网络设计的注意力机制解码出价格数字, 最后将多个分支的结果整合并输出完整价格. 本文所提出的方法能够非常有效地提高线下零售场景价格牌的识别精度, 并解决了一些领域难题如小数点的定位问题, 此外, 为了验证本文方法的普适性, 在其他场景数据集上进行了对比实验, 相关结果也验证了本文方法的有效性.

金字塔结构逻辑运用二值脉冲对简单图形处理

王上

2022, 48(2): 615-626. doi: 10.16383/j.aas.c190619

[摘要](2327) [HTML全文] (1916) [PDF 13250KB](257)

摘要:
本文根据元胞自动机模型划分方法, 将二维图像分解为2×2矩阵单元结构. 提出了几种逻辑运算式, 用以分类由黑白二值点构成的2×2矩阵图形. 通过CNN神经网络的多层结构形式, 分析了金字塔结构逻辑在相似的组合形式下, 对二值图形边缘检测和池化的功能. 通过同步脉冲形式能将灰度图像, 分解为多个时间维度的二值图形, 方便多层金字塔逻辑运算处理. 分析了如何采用延时继电器使金字塔结构逻辑具有记忆的特性. 讨论了3×3输入金字塔模型, 在不规律脉冲情况下, 通过逻辑运算对线性交点检测的可能.

留言板

2022年第48卷第2期

特别推荐

公告More

相关链接

访问统计

留言板

2022年 第48卷 第2期

特别推荐

公告More

相关链接

访问统计

2022年第48卷第2期