2020年 第46卷 第7期
强化学习作为一种用于解决无模型序列决策问题的方法已经有数十年的历史, 但强化学习方法在处理高维变量问题时常常会面临巨大挑战. 近年来, 深度学习迅猛发展, 使得强化学习方法为复杂高维的多智能体系统提供优化的决策策略、在充满挑战的环境中高效执行目标任务成为可能. 本文综述了强化学习和深度强化学习方法的原理, 提出学习系统的闭环控制框架, 分析了多智能体深度强化学习中存在的若干重要问题和解决方法, 包括多智能体强化学习的算法结构、环境非静态和部分可观性等问题, 对所调查方法的优缺点和相关应用进行分析和讨论. 最后提供多智能体深度强化学习未来的研究方向, 为开发更强大、更易应用的多智能体强化学习控制系统提供一些思路.
自动驾驶是汽车产业发展的重要里程碑. 汽车驾驶自动化一直都在进行, 其发展进程是对驾驶人认知感知、决策规划和执行控制等各个重要环节的逐步增强或最终替代. 智能时代下, 大数据分析、泛在计算、泛在传感和人工智能等颠覆性技术为汽车驾驶自动化向着高级别迈进提供了新的机遇. 控制技术是智能时代汽车自动化进程中的基石, 更多的信息在先进控制技术的赋能下将衍生出更多的新功能与新系统, 从而实现汽车安全性、经济性以及舒适性等各个方面的提升. 本文对智能时代的汽车控制进行综述, 首先回顾汽车自动化的发展进程, 然后探讨汽车自动化进程中面临的问题, 最后梳理出一些未来智能汽车控制发展趋势与关键技术.
本文首先指出了控制领域中普遍使用的增广一阶系统方法的弊端, 介绍了高阶全驱系统的概念及其在控制器设计方面的优势, 并通过一些基础物理定律、串联系统、严反馈系统和可反馈线性化系统等例子说明了高阶全驱系统的普遍性, 进而指出高阶全驱系统是动态系统的一种描述形式, 是面向控制的模型.然后介绍了一类高阶全驱系统的一种参数化设计方法.通过适当选取一类非线性状态反馈控制律, 可获得一个具有希望特征结构的线性定常闭环系统, 并给出了闭环系统特征向量和反馈控制律的完全参数化表示, 讨论了解的存在性条件以及设计参数集合的稠密性等相关问题.最后对高阶全驱系统方法的后续问题做了说明和展望.
旨在为平行系统及ACP方法建立一种数据驱动的数学形式和计算框架, 该形式与框架也适用于数字孪生系统.首先, 基于动态系统状态方程方法论, 给出了平行系统的虚实双系统表示方法, 基于此表示方法为平行系统问题提供了一种数学表示.围绕该表示, 讨论了虚实系统互动、平行系统与数字孪生系统异同等问题.然后, 为ACP方法提供了一种计算框架, 详细解释了人工系统(Artificial systems, A)、计算实验(Computational experiments, C)、平行执行(Parallel execution, P)的数学计算求解过程, 并讨论了“学习与训练”、“实验与评估”、“管理与控制”、灵捷–聚焦–收敛(AFC)、小数据-大数据-小智能等概念的相关数学表示, 并讨论了智能科学与平行系统数学架构的关系以及平行智能的内涵.最后, 以大学校园园区能源管理系统为案例, 为平行系统数学架构和方法提供一个直观的算例.
本文研究多个传感器测量非线性系统时的分布式无迹Kalman滤波器(Unscented Kalman filter, UKF)的设计问题.借助离散多智能体系统有限时间平均一致算法的思想, 针对无向通信和有向通信网络分别设计了两种不同的滤波算法.对于无向连通的通信拓扑, 利用节点存储的一致性算法的迭代值构造差向量, 由该差向量构成的Hankel矩阵的核来得到分布式无迹Kalman滤波器, 并通过利用误差协方差矩阵的逆来构造Lyapunov函数, 基于随机稳定性引理证明了该有限时间一致无迹Kalman滤波器的稳定性.对于有向强连通的通信拓扑, 结合比率一致和Hankal矩阵的核来设计分布式无迹Kalman滤波器, 该滤波器的稳定性与无向通信拓扑的滤波器相同.最后, 通过仿真例子来验证所提滤波器的跟踪效果.
偏标记数据消歧是利用偏标记数据进行机器学习的基础.针对偏标记数据中广泛存在的数据不平衡问题, 以及现有消歧算法对样本间约束信息利用不足的问题, 本文提出一种基于成对约束的偏标记数据消歧算法.首先, 基于低秩表示, 推导出数据不平衡条件下样本低秩表示系数和样本相似度之间的关系; 其次, 基于推导结果, 分别构建基于样本间正约束和负约束的图模型, 通过最小化图模型的能量函数求解偏标记数据的标签.在5个公开数据集上的实验结果表明本文方法相对基准算法在消歧准确率上平均提高了2.9 % ~ 14.9 %.
借助于互补色小波, 本文提出一种新的颜色恒常性统计方法.分析表明:标准光照图像的互补色小波子带关系, 可以利用联合拉普拉斯分布来进行描述.统计学习标准光照图像, 可获得拉普拉斯分布的参数, 为图像建立起标准光照的基准模型.该基准模型可为光照偏移(颜色恒常偏移)的图像提供光照补偿依据, 使偏光图像通过光照补偿恢复为标准光照图像, 从而得到光照参数.基于该基准模型对补偿光照参数进行最大似然估计的实验结果表明:本文所提方法的处理效果与列出的最好文献算法相当, 其在常用数据库上估计到的光照参数误差中值小0.1°, 而均值和最大值则小0.3°.
大多数句嵌模型仅利用文本字面信息来完成句子向量化表示, 导致这些模型对普遍存在的一词多义现象缺乏甄别能力.为了增强句子的语义表达能力, 本文使用短文本概念化算法为语料库中的每个句子赋予相关概念, 然后学习概念化句嵌入(Conceptual sentence embedding, CSE).因此, 由于引入了概念信息, 这种语义表示比目前广泛使用的句嵌入模型更具表达能力.此外, 我们通过引入注意力机制进一步扩展概念化句嵌入模型, 使模型能够有区别地选择上下文语境中的相关词语以实现更高效的预测.本文通过文本分类和信息检索等语言理解任务来验证所提出的概念化句嵌入模型的性能, 实验结果证明本文所提出的模型性能优于其他句嵌入模型.
针对TORA (Translational oscillator with rotating actuator)系统的镇定控制问题, 提出一种基于
本文提出了基于多源信息融合的电熔镁炉异常工况识别及自愈控制方法.通过分析与三种异常相关的专家知识及操作经验, 本文提取了与异常工况相关的多源信息.通过融合多源信息, 建立了用于异常工况识别的贝叶斯网络模型.根据异常工况的识别结果, 利用剩余生命时间与控制变量调整量间的关系获得自愈控制措施.仿真结果表明提出的方法能够实现异常工况识别, 并且能够区分严重程度, 制定相应的自愈控制方案, 获得比现有方法更好的性能.
针对混合属性数据聚类结果精度不高、聚类结果对参数敏感等问题, 提出了基于残差分析的混合属性数据聚类算法(Clustering algorithm for mixed data based on residual analysis) RA-Clust.算法以改进的熵权重混合属性相似性度量对象间的相似性, 以提出的基于KNN和Parzen窗的局部密度计算方法计算每个对象的密度, 通过线性回归和残差分析进行聚类中心预选取, 然后以提出的聚类中心目标优化模型确定真正的聚类中心, 最后将其他数据对象按照距离高密度对象的最小距离划分到相应的簇中, 形成最终聚类.在合成数据集和UCI数据集上的实验结果验证了算法的有效性.与同类算法相比, RA-Clust具有较高的聚类精度.
针对分布式传感网络系统中存在互协方差未知的情形, 融合系数的科学设计对于融合性能至关重要. 本文以各节点估计方差矩阵逆的迹的倒数作为计算融合系数的中间变量, 设计了一种序贯快速协方差交叉融合算法, 可以显著减少各个融合节点的计算量, 能够保证各融合节点融合结果相同. 在给定系统的误差方差上界约束与优化指标前提下, 该融合算法结合粒子群优化算法, 能够给出对分布式系统中各个节点的传感器精度要求. 工程实践中, 可为传感器的选型提供理论依据. 最后, 给出了一个分布式网络传感器精度选型的算例及快速协方差交叉融合算法在雷达网中的应用实例.
本文针对杂波条件下多扩展目标的状态估计, 目标个数估计, 扩展目标形状估计问题, 提出了一种基于标签随机有限集(Labelled random finite sets, L-RFS)框架下多扩展目标跟踪学习算法, 该学习算法主要包括两方面:多扩展目标动态建模和多扩展目标的跟踪估计.首先, 结合广义标签多伯努利滤波器(Generalized labelled multi-Bernoulli, GLMB)建立了扩展目标的量测有限混合模型(Finite mixture models, FMM), 利用Gibbs采样和贝叶斯信息准则(Bayesian information criterion, BIC)准则推导出有限混合模型的参数来对多扩展目标形状进行学习, 然后采用等效量测方法来替代扩展目标产生的量测, 对扩展目标形状采用椭圆逼近建模, 实现扩展目标形状与状态的估计.仿真实验表明本文所给的方法能够有效跟踪多扩展目标, 并且在目标个数估计方面优于CBMeMBer算法.此外, 与标签多伯努利滤波(LMB)计算比较表明: GLMB和LMB算法滤波估计精度接近, 二者精度高于CBMeMBer算法.
为解决基于随机森林的3D人体姿态估计算法容易出现的误分类问题, 提出一种基于自适应融合特征提取和误分类处理机制的改进算法.该算法利用自适应融合特征提取方法自适应提取深度融合特征, 此特征可表达图像距离信息和部位尺寸信息, 增强特征的表征能力; 针对识别部位误分类问题, 分别从识别部位误分点聚集情况和迭代整合思想出发, 提出误分类处理机制, 改善部位识别结果; 最后提出可进一步处理误分点的改进主方向分析(Principal direction analysis, PDA)算法, 自适应计算出部位主方向向量, 实现3D人体姿态估计.结果表明, 该算法能有效去除部位误分点, 并显著改善了3D人体姿态估计.
受损路网的修复是灾害应急响应中的一个重要环节, 主要研究如何规划道路抢修队的修复活动, 为灾后救援快速打通生命通道.本文首先构建了抢修队修复和路线规划的数学模型, 然后引入马尔科夫决策过程来模拟抢修队的修复活动, 并基于Q学习算法求解抢修队的最优调度策略.对比实验结果表明, 本文方法能够让抢修队从全局和长远角度实施受损路段的修复活动, 在一定程度上提高了运输效率和修复效率, 可以为政府实施应急救援和快速安全疏散灾民提供有益的参考.
本文提出一种基于低密度分割密度敏感距离的谱聚类算法, 该算法首先使用低密度分割密度敏感距离计算相似度矩阵, 该距离测度通过指数函数和伸缩因子实现放大不同流形体数据间的距离和缩短同一流形体数据间距离的目的, 从而有效反映数据分布的全局一致性和局部一致性特征.另外, 算法通过增加相对密度敏感项来考虑数据的局部分布特征, 从而有效避免孤立噪声和"桥"噪声的影响.文中最后给出了基于SC (Scattering criteria)指标的k近邻图k值选取办法和基于谱熵贡献率的特征向量选取方法.实验部分, 讨论了参数选择对算法性能的影响并给出取值建议, 通过与其他流行谱聚类算法聚类结果的对比分析, 表明本文提出的基于低密度分割密度敏感距离的谱聚类算法聚类性能明显优于其他算法.
高动态范围(High dynamic range, HDR)图像成像技术的出现, 为解决由于采集设备动态范围不足而导致现有数字图像动态范围有限的问题提供了一条切实可行的思路.合成高动态范围图像的过程中因相机抖动或运动物体所造成的模糊和伪影问题, 可通过块匹配对多曝光图像序列进行去伪影融合加以解决.但对于具有复杂运动变化的真实场景, 现有的去伪影融合方法准确度和效率仍存在不足.为此, 本文结合相机响应函数和一致性敏感哈希提出了一种高动态图像去伪影融合方法.仿真结果表明, 该方法有效降低了计算复杂度, 具有较好的鲁棒性, 在有效去除伪影的同时提升了高动态范围图像质量.
在真实的环境中实现复杂忆阻振荡系统的同步时, 因为信息干扰及通信问题, 驱动和响应系统之间总是存在信息传输时滞, 即时滞问题具有普遍性; 另外, 脉冲控制信号的输入总是存在输入误差, 并不能实现精确地输入.本文考虑到上述实际存在的信息传输时滞和脉冲输入误差, 设计了一种比较接近真实情况的、灵活的可以带有不同时间窗口和不同控制增益的双脉冲切换控制器, 并且利用该控制器实现了两个复杂忆阻振荡系统的滞同步.基于Lyapunov稳定性理论、矩阵不等式以及脉冲控制等相关理论, 本文找出了实现一类五阶复杂忆阻振荡系统同步的条件.最后的仿真实验进一步验证了本控制方法的可行性.
为了解决传统意图识别方法使用多模态传感器信号所带来的复杂性以及识别转换模式一般具有滞后性等问题, 本文提出了基于惯性传感器的智能下肢假肢的运动意图实时识别方法.从模式识别的角度看, 在对象空间到模式空间的转换中, 对运动模式尤其是运动转换模式进行了重定义; 在模式采集中, 采用在患侧的运动模式进行转换之前, 采集绑定在健侧的传感器于摆动相前期所产生的时序运动数据, 选择均值、方差等特征统计量和支持向量机分类器对其进行特征选择提取与特征分类的策略, 实现对残疾人运动意图准确、实时地识别.实验结果表明, 本文所提出的方法可以识别出单肢截肢患者在不同地形下的运动意图, 包括平地行走、上楼、下楼、上坡、下坡5种稳态模式, 识别率可达到97.52 %, 并且加入在5种模式之间相互转换的转换模式之后, 识别率可达到95.12 %.本文方法可以极大提高智能下肢假肢的控制性能, 实现智能假肢能根据人的运动意图在多种运动模式之间进行自然、无缝的状态切换.
本文针对线性离散系统, 提出了一种新的有限频域执行器故障检测方法.利用中心对称多胞体近似未知扰动边界, 本文提出的中心对称多胞体集员故障检测观测器可实时估计残差范围.通过观测零点是否脱离残差生成的中心对称多胞体的范围, 判断故障是否发生.为了提高对干扰的鲁棒性和对故障的敏感性, 基于P半径准则和广义Kalman-Yakubovich-Popov引理, 本文给出了故障检测观测器的设计条件, 并将其转化为便于求解的矩阵不等式形式.最后, 车辆横向动态系统的仿真结果验证了所提方法的有效性.