Piecewise Planar Urban Scene Reconstruction Using Structure Priors and Cooperative Optimization
-
摘要: 在基于图像的城市场景三维重建中,场景分段平面重建算法可以克服场景中的弱纹理、光照变化等因素的影响而快速恢复场景完整的近似结构.然而,在初始空间点较为稀疏、候选平面集不完备、图像过分割质量较低等问题存在时,可靠性往往较低.为了解决此问题,本文根据城市场景的结构特征构造了一种新颖的融合场景结构先验、空间点可见性与颜色相似性的平面可靠性度量,然后采用图像区域与相应平面协同优化的方式对场景结构进行了推断.实验结果表明,本文算法利用稀疏空间点即可有效重建出完整的场景结构,整体上具有较高的精度与效率.Abstract: In the image-based 3D scene reconstruction, piecewise planar stereo methods can effectively recover complete and approximate structures of a scene by overcoming some interference factors such as textureless regions and illumination variations. However, they could be unreliable when some problem (e.g., sparse initial 3D points, incomplete candidate planes and inaccurate image over-segmentation) is involved. In order to address these problems, according to the structure characteristics of urban scenes, a novel plane reliability measurement is presented by incorporating scene structure priors, 3D point visibility and color similarity. Then, the scene is reconstructed in a progressive refinement manner so as to jontly optimize image regions and their associated planes. Experimental results on a variety of urban scenes show that the proposed method can effectively reconstruct the complete structures of a scene with high efficiency and accuracy only using sparse 3D points.
-
Key words:
- Urban scene /
- piecewise planar reconstruction /
- image over-segmentation /
- prior knowledge
-
化学工业是世界经济的重要部分, 可将原材料转换成70000多种当今高质量生活不可缺少的产品[1].化学工业过程包括连续操作和非连续操作.间歇过程是非连续操作的主要方式, 适于小批量生产, 更具有灵活性, 成为精细化产品生产的理想方式[2], 已广泛用于城市污水处理[3]、纸浆造纸[4]、半导体工业[5]、医药生物发酵[6]、工业结晶过程[7]等.
间歇过程的控制与连续过程不同, 主要在于两方面: 1) 间歇过程没有稳态操作点, 设定点和控制信号是时变的; 2) 间歇过程是在有限时间上重复运行的, 具有两个相互独立的变量, 运行时间 $t$ 和运行次数 $k$ .独立变量 $k$ 提供了实现控制目标的额外自由度.因此, 间歇过程的控制策略可分为两大类:一类是在线控制策略, 例如基于PID或更复杂控制技术的反馈控制[8], 以及用于产品终端控制的模型预测控制(Model prediction control, MPC)方法[9].另外一类是基于重复学习的迭代学习控制[10-12]和用于产品终端输出控制Run-to-run控制[13-15].近年来, 也有文献[16-18]采用终端迭代学习控制策略处理间歇过程产品终端质量控制问题.
迭代学习控制(Iterative learning control, ILC)最早是由Arimoto等[19]提出的, 针对重复运行的被控系统, 不断重复一个相同轨迹的控制尝试, 利用前一次或前几次操作时测得的误差信息和控制输入信息修正当前操作的控制输入, 使该重复任务在该次操作中做得更好, 最终实现在整个时间区间上, 系统的输出完全跟踪上期望轨迹.近年来, 间歇过程的迭代学习控制逐渐成为研究热点. Lee等[20-21]提出了基于反馈的学习控制策略, 并考虑了滤波技术来增强对建模误差和随机扰动的鲁棒性. Liu等[22]基于间歇过程的2D模型提出了一种鲁棒闭环ILC方法, 在线性矩阵不等式约束下建立了保证闭环ILC系统鲁棒稳定性的充分条件.文献[23-25]提出了基于设定点迭代学习的PID控制策略, 得到了鲁棒渐近收敛的充分条件.文献[26]提出了一种PD-型迭代学习控制用于生物反应器, 并采用了模糊方法计算控制增益.文献[27-30]为间歇过程设计了多种鲁棒ILC控制策略.时滞问题广泛存在于工业间歇过程中, 对许多控制系统的稳定性和控制性能都造成了破坏.因此, 时滞系统的ILC设计问题引起了学者的关注[31-32], 如文献[31]提出了输入时滞的时变不确定间歇过程的鲁棒迭代学习控制方法, 给出了2D状态预测器对系统状态进行预测, 以此补偿输入延迟的影响.
需要说明的是, 传统的PID-型迭代学习控制方法的优点在于需要模型信息少, 结构简单, 易于实现.然而, 问题在于学习增益固定不变, 在适应被控系统变化和外界扰动等不确定性方面的能力相对较弱, 并且在实际应用中很难选取合适的学习增益.尽管[26]讨论了利用模糊规则计算学习增益的方法, 但模糊规则的选择本身就是非常困难的.
迭代学习控制很容易与其他控制方法相结合, 产生新的控制策略.例如, 文献[33]在迭代学习控制任务中引入了自适应机制, 提出了基于能量函数设计的连续时间系统的自适应迭代学习控制方法.进一步, 文献[34-35]将关键引理技术推广到迭代域中, 提出了离散时间系统的自适应迭代学习控制策略以及时变参数的迭代辨识方法.迄今, 自适应ILC及自适应迭代学习辨识方面的研究已获得很多成功的应用[36-40].限于篇幅, 关于这方面的内容和结果不再一一列举.
另一方面, 文献[41]基于Lifted技术将被控对象用超向量形式重新描述为关于迭代次数的演变形式, 从而可很容易地将最优技术引入到迭代学习控制任务, 提出了模最优的迭代学习控制方法.如文献[42]所指出的, 在基于二次性能指标的迭代学习控制的研究框架下, 各种实际问题, 例如受限约束、干扰、量测噪声及模型误差等, 都可很容易地作为最优问题的约束条件而被严谨地综合到最优ILC控制器的设计中.另外, 最优迭代学习控制具有沿迭代方向的严格单调收敛性, 是实际工程应用中最为期望的性质之一.
因此, 最优迭代学习控制方法在间歇过程为主的重复运行系统中得到了广泛应用, 其理论研究经历了从线性到非线性, 从基于模型到数据驱动的发展历程. Moore等[43]提出了一种 $L_1$ 最优鲁棒迭代学习控制方法, 处理系统的未知有界扰动问题. Xu等[44]以时间最优和鲁棒性为综合目标, 提出了一种新的鲁棒ILC最优设计和收敛性分析方法, 给出了收敛速度的理论分析和评估, 研究了系统动态如何影响学习性能的问题.文献[45]基于线性时变摄动模型, 提出了一种分层ILC方法, 用于晶体冷却过程.当控制变量不可测时, 文献[46]提出了一种基于递归贝叶斯估计的最优迭代学习控制方法, 并将其推广到基于线性化的非线性离散时间系统中.针对系统约束问题, 文献[47]提出了基于二次性能指标的鲁棒ILC的线性矩阵不等式方法.文献[48]提出了Pareto迭代学习控制方法, 讨论多性能目标的优化问题.文献[49]提出了加速预测最优ILC收敛的方法, 给出了两个加速算法和相应的收敛性分析.结果表明该方法可提高预测最优ILC的控制性能.文献[50]基于内模原理, 提出了最优ILC控制增益的多目标设计方法. Liu等[51]提出了一种改进的基于最优化指标的迭代学习算法, 保证控制信号收敛于系统的线性二次型最优控制解.
由于间歇过程的非线性和有限性特点, 很多学者尝试结合模型预测控制方法.文献[52-57]提出了一些基于模型预测控制的迭代学习控制方法.文献[58]结合二次型ILC和间歇模型预测控制技术, 提出了一种两阶段算法.
随着社会经济的不断发展, 现在工业过程变得越来越复杂, 规模越来越大, 一些所谓的``硬非线性特性"包括摩擦非线性、饱和非线性、死区非线性、间隙非线性、时滞非线性等, 大量存在于实际控制工程中, 经常会引起控制系统不期望的性态[59].因此, 非线性系统的最优迭代学习控制引起了人们的重视.
非线性系统的最优ILC的设计, 首先要对原非线性被控系统进行线性化, 得到线性估计模型, 在此基础上进行最优ILC的设计和分析.因此, 线性化方法是处理非线性控制系统的关键.
在常用的线性化方法中, 泰勒展开[60]和分段线性化[61]忽略了高阶项, 至多是对原非线性系统的近似; 反馈线性化[62]需要精确已知被控系统的非线性结构和参数; 正交函数线性化[63]依赖于正交基空间的选取, 所得到的线性化模型含有大量不确定参数.因此, 尽管文献[64-66]基于非线性系统的线性名义近似模型, 讨论了非线性系统的最优迭代学习控制, 但所设计的控制器在实际应用中会由于模型失配和系统复杂等问题而遇到困难.
神经网络和模糊规则在近年来的非线性控制系统的研究中非常流行.文献[67]提出了非线性系统的动态模糊推理边界线性化方法.文献[68]提出了基于递归神经网络模型的批ILC策略, 用神经网络模拟间歇过程.文献[69]研究了滚筒锅炉汽轮机的非线性模糊模型预测ILC.需要说明的是, 在被控系统未知的情况下, 如何选择合适的神经网络模型和模糊隶属度函数一直是实际工程应用中的难题.
本质上, 上述线性化方法是基于模型的[60-69], 显然对应的最优ILC控制器的设计和分析也是基于模型的.所依赖的模型越精确就使得模型本身越复杂, 依此所设计的控制器也会更加复杂, 从而会使闭环系统的鲁棒性和可靠性降低, 使控制系统的实现及应用变得更加困难.并且, 控制性能很大程度上依赖于被控系统线性模型的精确程度.如果存在较大模型失配和建模误差, 沿迭代轴的单调收敛性将不再保证.另外, 为了减小计算负担, 大多数最优ILC的学习增益是离线计算的, 一旦确定后在后续的迭代过程中将保持不变, 从而对被控系统的变化和外界扰动的鲁棒性相对较差.
另一方面, 工业过程中每时每刻都产生并储存了大量的数据, 蕴含了关于过程运行和设备状态的全部有用信息.因此, 在无法获得过程精确模型的情况下, 如何利用这些离线或在线的过程数据直接进行控制器设计, 提出基于数据驱动的控制方法, 具有重要的理论和实际意义[70-75].数据驱动控制[71]指的是控制器的设计和分析中并不显含或隐含地利用被控对象的任何模型信息, 如系统矩阵、结构、状态等, 而是仅利用系统过程产生的I/O数据.数据驱动控制的目标是在精确数学模型或系统不确定性描述不可获取情况下, 充分利用系统的运行数据进行基于数据的控制系统的设计.它与基于模型的控制理论一起成为完整的控制理论不可缺少的两个部分.关于数据驱动控制理论与基于模型的控制理论之间的辩证关系详见文献[70-73].
数据驱动的最优ILC方法的设计和分析的前提也是线性化.与传统的线性化方法[60-69]不同的是, 文献[76-78]针对重复运行的非线性生产过程, 提出了一种新的迭代动态线性化方法(Iterative dynamic linearization, IDL), 这是一种沿迭代批次在有限时间区间上逐点展开的批量线性化方法, 建立了原非线性系统完全等价的迭代线性化模型.其优点在于: 1) 该线性化方法是数据驱动的, 是针对未知的非线性系统提出的, 不需要原非线性系统的任何模型信息; 2) 所得到的线性化形式结构简单、参数少, 只有原非线性系统的复合函数关于控制输入信号的偏导数需要根据系统的I/O数据进行迭代估计.因此, 文献[76-78]所提出的迭代动态线性化方法是数据驱动的、面向控制器设计的, 可直接借鉴线性系统的工具和方法进行控制器的设计和分析.
随后, 文献[76-78]借鉴线性系统的最优迭代学习控制理论的已有成果, 基于上述迭代动态线性化模型, 分别提出了数据驱动的最优迭代学习控制(Data-driven optimal ILC, DDOILC)、数据驱动的最优点到点迭代学习控制(Data-driven optimal point-to-point ILC, DDOPTPILC)和数据驱动的最优终端迭代学习控制(Data-driven optimal terminal ILC, DDOTILC)方法.这些方法的设计和分析直接面向未知的非线性系统, 利用系统运行所得到的I/O数据, 而不需要被控系统的任何建模过程.
需要说明的是, 数据驱动的控制方法并不排斥基于模型的控制方法; 相反, 二者是相辅相成、优势互补的关系.如文献[70-73]所述, 现实世界中的实际系统按照对象模型的可获取性可分为: 1) 机理模型或辨识模型可精确获取; 2) 机理模型或辨识模型可获取但不精确, 含有有限程度的不确定性; 3) 机理模型或辨识模型可获取, 但非常复杂、阶数高、非线性强、时变性强; 4) 机理模型或辨识模型很难建立, 或不可获取.在上述四类被控对象中, 已有的基于模型的控制方法只能很好地处理1) 和部分2) 等的实际对象, 另一大半的被控对象则需要采用数据驱动的控制策略.换言之, 数据驱动的控制方法可以处理上述所有四类被控对象, 但是对于机理清楚的被控过程, 基于模型的控制方法会更加可靠并具有更好的控制性能; 对难以建立精确数学模型或模型较为复杂的被控过程, 数据驱动的控制方法则会更有优势.因此, 如何将基于模型的控制方法和数据驱动的控制方法进行有机融合和模块化设计是一个非常重要的研究课题.数据驱动控制方法与基于模型控制方法之间的互补型控制系统设计的部分研究成果可参见文献[79-82].
本文主要以间歇过程作为重复运行系统的控制背景, 引出迭代学习控制理论和方法, 对其最优迭代学习控制的研究分支的提出和发展历程进行较为详细的综述和分析.目的在于分析和借鉴基于模型的最优ILC方法的现有成果, 包括系统的设计和分析工具, 尝试在迭代动态线性化的前提下, 提出更多适合实际生产需求的数据驱动的最优ILC方法, 解决越来越复杂的间歇过程的控制中遇到的建模困难、鲁棒性差等根本难题.在数据驱动的广义最优ILC的综述中, 主要以迭代动态线性化为主线, 分别回顾和分析了完整轨迹跟踪的最优ILC方法、多中间点跟踪的最优点对点ILC方法以及单个终点跟踪的最优终端ILC方法.论文同时回顾了其他数据驱动的学习控制的最新进展, 提出了需要进一步研究的问题前景和方向.
本文结构安排如下:第1节是基于模型的最优ILC的回顾, 目的在于明确最优ILC的概念、定义和设计过程, 并分析和研究最优ILC的最新进展.第2节主要回顾了非线性重复运行系统的迭代动态线性化方法, 作为后面数据驱动最优ILC设计的依据和基础.详细说明和分析了迭代动态线性化方法的特点和用途.第3节是数据驱动广义最优ILC的设计和分析的回顾, 包括完整轨迹跟踪、多点跟踪和单个终点跟踪等三种不同的控制任务, 分析了数据驱动广义最优ILC的最新发展.第4节是结论和展望, 分析了数据驱动的最优ILC的发展方向, 提出了一些开放的具有挑战性的研究问题.
1. 基于模型的最优迭代学习控制
为了保证实际应用中的控制精度和可靠性, 最优迭代学习控制受到越来越多的关注.最早Togai等[83]、Tao等[84]、Gorinevsky等[85]分别提出了利用梯度法、牛顿拉尔逊法和高斯法等最优方法寻找最优学习控制律. Amann等[41]首先基于范数优化原理对迭代学习控制进行了研究.利用超向量技术, 对如下有限时间区间上重复运行的线性离散时间系统进行了重新描述.
$ \begin{equation} \left\{ {\begin{array}{l} { {\pmb x}}(t+1)={ A{\pmb x}}(t)+{ B{\pmb u}}(t), ~~\mbox{ }{ {\pmb x}}(0)={ {\pmb x}}_0, \\ \qquad \qquad \mbox{ 0}\le t\le N \\ { {\pmb y}}(t)={ C{\pmb x}}(t), ~~\mbox{ }{ {\pmb x}}\in {\bf R}^n , ~{{\pmb u}}\in {\bf R}^m, ~~\mbox{ }{ {\pmb y}}\in {\bf R}^p \\ \end{array}} \right. \end{equation} $
(1) 简单起见, 状态空间矩阵 $A, B, C$ 假设为时不变.通过定义如下两个超向量:
$ { {\pmb y}}=[{{\begin{array}{*{20}c} {{ {\pmb y}}^{\rm T} (1)} &{{ {\pmb y}}^{\rm T} (2)} &\cdots &{{ {\pmb y}}^{\rm T} (N)} \\ \end{array} }}]^{\rm T} $
$ { {\pmb u}}=[{{\begin{array}{*{20}c} {{ {\pmb u}}^{\rm T} (0)} &{{ {\pmb u}}^{\rm T} (1)} &\cdots &{{ {\pmb u}}^{\rm T} (N-1)} \\ \end{array} }}]^{\rm T} $
将空间方程写成如下形式:
$ \begin{equation} { {\pmb y}}={ {\pmb y}}_0 +{ G{\pmb u}} \end{equation} $
(2) 其中是个块下三角矩阵; 是初始条件响应向量.通常假设 ${{\pmb y}}_0 =0$ 或 ${ {\pmb x}}_0 =0$ .
Amann等[41]提出了如下目标函数:
$ \mathop {\min }\limits_{{\mathit{\boldsymbol{u}}_k}} \left[ {{J_k} = \left\{ {\left\| {{\mathit{\boldsymbol{e}}_k}} \right\|_Q^2 + \left\| {{\mathit{\boldsymbol{u}}_k} - {\mathit{\boldsymbol{u}}_{k - 1}}} \right\|_R^2} \right\}} \right] $
(3) 其中加入了输入变化的惩罚项, 使算法沿批次轴具有积分行为.在无其他约束和确定条件下, Amann等得出了非因果的输入更新律
$ \begin{equation} { {\pmb u}}_k ={ {\pmb u}}_{k-1} +{ {R}}^{-1}{ { G}}^{\rm T} { {Q{\pmb e}}}_k \end{equation} $
(4) 1996年, Lee等[86]根据有限时间上二次最优跟踪问题的求解思想, 将上述非因果控制律(4) 改写为如下因果形式:
$ \begin{equation} { {\pmb u}}_k ={ {\pmb u}}_{k-1} +\left( {{ { G}}^{\rm T} {{ QG}}+{ {R}}} \right)^{-1}{ { G}}^{\rm T} { {Q{\pmb e}}}_{k-1} \end{equation} $
(5) Barton等[87]将基于范数优化的迭代学习控制方法用于多轴机器人, 提高了运动轨迹的跟踪性能和鲁棒性. van de Wijdeven等[88]提出了基于线性二次型的最优迭代学习控制在有限时间内的鲁棒单调收敛分析方法. Chu等[49]利用逐次投影方法提高了非最小相位系统的范数优化迭代学习控制算法的跟踪性能和收敛速度.文献[89]证明了上述二次型迭代学习控制可作为输出反馈来实现, 以增强系统的鲁棒性.根据这一思想, 文献[89-90]提出了模型预测控制(MPC)与迭代学习控制的组合, 成为间歇过程研究中的主要方向之一, 吸引了很多学者的关注[52-58, 91].
当间歇过程的批次扰动和噪声较大时, 文献[42]提出了基于观测器的最优学习控制律
$ \begin{equation} { {\pmb u}}_{k+1} ={ {\pmb u}}_k +{ {H}}{ {Q}}{{ \hat {\pmb e}}}_{k\vert k} \end{equation} $
(6) 其中 ${ \hat {\pmb e}}_{k\vert k} $ 是基于测量误差中重复部分 ${ { \bar {\pmb e}}}_k $ 的估计, 由如下观测器求得
$ \begin{equation} \begin{array}{l} { \hat {\pmb e}}_{k\vert k-1} ={ { \hat {\pmb e}}}_{k-1\vert k-1} -{ { G}}\Delta { {\pmb u}}_k \\ { \hat {\pmb e}}_{k\vert k} ={ \hat {\pmb e}}_{k\vert k-1} +{{K}} \left( {{ {\pmb e}}_k -{ \hat {\pmb e}}}_{k\vert k-1} \right) \\ \end{array} \end{equation} $
(7) 其中, ${ {K}}$ 是个滤波增益矩阵.
最近, 文献[92]提出一种离散时间迭代学习Kalman滤波方法, 将Kalman滤波与迭代学习控制相结合, 对系统状态进行估计, 为基于观测器的最优迭代学习控制的设计提供了新的思路.
在很多工业过程控制应用中, 为了保证安全性, 平滑操作等, 总需要对过程变量施加以限制.通常, 对输入和输出的约束比较普遍, 有如下几种形式:
1) 对输入值的约束
$ { {\pmb u}}^{low}\le { {\pmb u}}_{k+1} \le { {\pmb u}}^{hi} $
2) 对输入关于时间变化率的限制
$ \delta { {\pmb u}}^{low}\le \delta { {\pmb u}}_{k+1} \le \delta { {\pmb u}}^{hi} $
3) 对输入关于批次变化率的限制
$ \Delta { {\pmb u}}^{low}\le \Delta { {\pmb u}}_{k+1} \le \Delta { {\pmb u}}^{hi} $
当用连续的线性近似来描述非线性间歇过程时, 上述约束条件能够有效地将输入信号限制在线性范围内.
4) 对于系统输出, 通常增加如下软约束:
$ { {\pmb y}}^{low}-\varepsilon _{k+1} \le { {\pmb y}}_{k+1} \le { {\pmb y}}^{hi}+\varepsilon _{k+1}, \quad \varepsilon _{k+1} >0 $
文献[42]将这些约束条件转化成如下线性矩阵不等式:
$ \begin{equation} { {\pmb \varsigma }}^{ {\pmb u}}\Delta { {\pmb u}}_{k+1} \ge { {\pmb \zeta }}_{k+1}, \quad \varepsilon _{k+1} >0 \end{equation} $
(8) 其中
$ { {\pmb \varsigma }}^{ {\pmb u}}=\left[{{\begin{array}{*{20}c} { { I}} \\ {-{ { I}}} \\ { {J}} \\ {-{ { J}}} \\ { { G}} \\ {-{ { G}}} \\ \end{array} }} \right], \quad { {\pmb \zeta }}_{k+1} =\left[{{\begin{array}{*{20}c} {\Delta { {\pmb u}}_k^{low\ast } } \\ {-\Delta { {\pmb u}}_k^{hi\ast } } \\ {\delta { {\pmb u}}^{low}-{ J{\pmb u}}_k } \\ {-\delta { {\pmb u}}^{hi}+{ J{\pmb u}}_k } \\ {{ {\pmb y}}^{low}-{ {\pmb y}}_k-\varepsilon _{k+1} } \\ {-{ {\pmb y}}^{hi}+{ {\pmb y}}_k-\varepsilon _{k+1} } \\ \end{array} }} \right] $
$ \Delta { {\pmb u}}_k^{low\ast } =\max \left( {{ {\pmb u}}^{low}-{ {\pmb u}}_k, \Delta { {\pmb u}}^{low}} \right) $
$ \Delta { {\pmb u}}_k^{hi\ast } =\min \left( {{ {\pmb u}}^{hi}-{ {\pmb u}}_k, \Delta { {\pmb u}}^{hi}} \right) $
从而, 输入输出受限的线性系统的最优迭代学习控制律即为如下性能指标函数在上述约束不等式条件下的可行解
$ \begin{array}{l} \mathop {\min }\limits_{\Delta { {\pmb u}}_{k+1}, \varepsilon _{k+1} } \dfrac{1}{2}\left\{ {\Delta { {\pmb u}}_{k+1}^{\rm T} } \right.\left( {{ { G}}^{\rm T} { {QG}}+\left. { {R}} \right)} \right.\Delta { {\pmb u}}_{k+1}- \\ {\begin{array}{*{20}c} & \\ \end{array} }2{ {\pmb e}}_k^{\rm T} { {QG}}\Delta { {\pmb u}}_{k+1} +\left. {{ {\pmb \varepsilon }}_{k+1}^{\rm T} S{ {\pmb \varepsilon }}_{k+1} } \right\} \\ \end{array} $
最近, 很多学者提出了基于模型预测控制的迭代学习控制[52-57], 在最优问题中充分考虑并结合了系统的输入输出约束.进一步, 文献[91]提出了多变量约束的间歇过程的迭代学习模型预测控制方法, 综合考虑了系统的约束问题、时变问题、外界扰动和随机特征等因素.文献[93]基于间歇过程的二维分段线性化描述, 通过线性矩阵不等式求解, 提出了一种受限迭代学习控制方法, 提高了控制性能.
近年来, 多中间关键点跟踪控制和以间歇过程产品质量控制为主的终端跟踪控制的研究成为迭代学习控制的另一个热点问题.文献[94]将基于范数优化的迭代学习控制策略引入到终端跟踪控制任务, 提出了最优终端迭代学习控制(Optimal terminal iterative learning control, OTILC)方法.文献[95-97]提出了基于优化的点到点迭代学习控制(Point-to-point iterative learning control, PTPILC)方法, 仅跟踪指定的参考点而不是参考轨迹上的所有点.另外, 文献[90]讨论了输入输出约束的问题.文献[98]针对线性连续时间系统的多中间关键点的跟踪问题, 提出了范数最优迭代学习方法.
最优迭代学习控制的研究中, 还有一类基于参数优化的迭代学习控制(Parameter optimal iterative learning control, POILC)方法, 由Owens等[99]首先提出, 主要目的是为了在保证算法具有单调收敛性的前提下, 减少每次迭代时的计算量.文献[100]研究了系统输入输出矩阵的正定性与跟踪误差单调收敛的关系.文献[101]提出了基于逆模型的鲁棒POILC算法.文献[102]研究了梯度下降的鲁棒POILC算法. Owens[103]以多输入多输出线性系统为研究对象, 将范数最优和参数最优迭代学习控制算法进行了统一描述, 提出了一种新的最优迭代学习控制方法.
近年来, 高阶迭代学习控制算法[104-106]也吸引了学者们的广泛关注, 可以利用更多以前操作的控制知识, 提高系统的控制性能.文献[106]是文献[99]参数优化迭代学习控制的扩展.如果系统是非正定的, 可通过在算法中增加合适的基函数, 保证跟踪误差单调收敛为零.
由式(5) 可以看出, 基于超向量技术的范数最优迭代学习控制的输入输出矩阵 ${G}$ 的维数不仅跟间歇过程的变量相关, 还会随着操作/批次长度而急剧增长, 因此控制算法(5) 在长时间区间内的执行和计算是非常耗时的, 并且需要更多的存储单元.因此, 近年来一些学者[107-111]开始研究基于Lifted描述的最优迭代学习控制的高效计算问题.文献[112]提出了一种基于非Lifted描述的最优迭代学习控制方法, 在系统输入输出描述中不再使用超向量技术, 很大程度上降低了算法的计算复杂度.
如前所述, 非线性系统的最优迭代学习控制本质上依赖于对非线性系统的线性化估计的显性表达.例如, 贾立等[113]}利用神经模糊模型提出了间歇过程无约束迭代学习控制方法.李恒杰等[114]提出基于克隆选择算法的非线性优化迭代学习控制.逄勃等[115]将拟Broyden法和参数优化迭代学习控制方法结合, 提出了单调收敛的迭代学习控制算法.
2. 数据驱动的迭代动态线性化方法
在实际控制应用中, 许多非线性系统模型, 例如Hammerstein模型、双线性模型等, 都可以表示为如下输入输出的一般非线性递归形式:
$ \begin{align} y_k (t+1)=\, &f(y_k (t), \cdots, y_k (t-n_y ), \nonumber\\ & u_k (t), \cdots, u_k (t-n_u ) ) \end{align} $
(9) 其中 $y_k (t)$ 和 $u_k (t)$ 是系统的输出和输入; 是未知的非线性函数且连续可微; $n_y$ 和 $n_u$ 是两个正整数, 分别表示系统输出和输入的阶数, 不失一般性, 假设 $n_u <n_y $ ; 表示离散时间, $N$ 是个正整数表示有限时间区间的终点; 表示迭代次数.
非线性系统的控制器设计和分析本质上都是显式或隐式地利用各种数学技巧, 将非线性问题转化为线性或类似线性的问题来处理, 数据驱动的最优ILC的研究也不例外.因此, 本节主要回顾非线性系统的数据驱动的迭代动态线性化方法, 以方便读者阅读, 并为后续的数据驱动的最优ILC的分析奠定基础.
在后面讨论中, 严格起见, 设对所有 $t<0$ , $u_k (t)=0$ 且 $y_k (t)=0$ .另外, 系统(1) 满足如下两个假设.
假设1. 系统的初始状态 $y_k(0)$ 在所有迭代中固定不变, 即 $y_k (0)=c$ , $\forall k\in {\bf Z}^+$ , 其中 $c$ 是个常数.
假设2. 非线性函数 $f(\cdot )$ 满足全局Lipschitz条件, 即,
$ \begin{align*} &\left| f\left( {{ {\pmb x}}_1, { {\pmb u}}_1 } \right)-{{\pmb g}}\left( {{ {\pmb x}}_2, { {\pmb u}}_2 } \right) \right|\le \bar {L}_x \left\| {{ {\pmb x}}_1 -{ {\pmb x}}_2 } \right\|+ \nonumber\\ &\qquad \qquad\bar {L}_u \left\| {{ {\pmb u}}_1 -{ {\pmb u}}_2 } \right\| \end{align*} $
其中 $\bar {L}_x <\infty $ 和分别是两个正的李普希兹常数.
注1. 假设1是迭代学习控制分析中常用的条件, 意味着被控系统在每次运行时都必须从相同位置开始.
因为 $t\in \left\{ {0, \cdots, N} \right\}$ 是有限的离散时间区间, 根据式(9), 可以将非线性系统的输出序列重新用初始状态和系统输入逐点描述如下[70-72]:
$ \begin{equation} y_k (i+1)=g^i\left( {y_k (0), u_k (0), \cdots, u_k (i)} \right) \end{equation} $
(10) 其中 $g^i(\cdot )$ , $i=0, \cdots, N-1$ 是 $f(\cdot )$ 的复合函数.
注2. 这里仅需要已知 $g^i(\cdot )$ , 的存在性而不需要知道其精确表达.只要 $f(\cdot )$ 存在, 作为其对应的复合函数, $g^i(\cdot )$ 也一定存在.根据高等数学基础知识, 可以知道 $g^i(\cdot)$ 具有和非线性函数 $f(\cdot )$ 相同的性质, 例如连续性、可微性、有界性等.
为描述简单, 定义三个向量如下:
$ { {\pmb U}}_k =\left[{u_k (0), u_k (1), \cdots, u_k (N-1)} \right]^{\rm T} $
$ { {\pmb Y}}_k =\left[{y_k (1), y_k (2), \cdots, y_k (N)} \right]^{\rm T} $
$ { {\pmb g}}(\cdot )=[{{\begin{array}{*{20}c} {g^0(\cdot )} &{g^1(\cdot )} &\cdots & {g^{N-1}(\cdot )} \\ \end{array} }}]^{\rm T} $
那么, 考虑所有 $i=0, \cdots, N-1$ 的情况, 由方程(10) 可得如下输入输出的向量表达形式
$ \begin{equation} { {\pmb Y}}_k ={ {\pmb g}}\left( {y_k (0), { {\pmb U}}_k^{\rm T} } \right) \end{equation} $
(11) 根据注2, 可将假设2稍微修改如下.
假设2'. 非线性向量值函数满足全局Lipschitz, 即,
$ \begin{align*} &\left\| {{ {\pmb g}}\left( {x_1, { {\pmb u}}_1 } \right)-{{\pmb g}}\left( {x_2, { {\pmb u}}_2 } \right)} \right\|\le L_x \left| {x_1 -x_2 } \right|+\nonumber\\ &\qquad \qquad L_u \left\| {{ {\pmb u}}_1 -{ {\pmb u}}_2 } \right\| \end{align*} $
其中 $L_x <\infty $ 和是两个正李普希兹常数.
定理1. 对一般非线性离散时间系统(1), 在满足假设1和2的条件下, 一定存在一个系统非线性关于控制输入的偏导数矩阵 ${ { \Phi }}_k $ , 使得非线性系统(1) 可转化为如下迭代动态线性形式,
$ \begin{equation} \Delta { {\pmb Y}}_k =\dfrac{\partial { {\pmb g}}^\ast }{\partial {{\pmb U}}_k^{\rm T} }\left[{{ {\pmb U}}_k-{ {\pmb U}}_{k-1} } \right]= { { \Phi }}_k \Delta { {\pmb U}}_k \end{equation} $
(12) 且 ${ {\Phi }}_k $ 对任意迭代次数都有界.其中, $\Delta { {\pmb U}}_k ={ {\pmb U}}_k -{ {\pmb U}}_{k-1} $ , , .
注3. 迭代动态线性化数据模型(12) 与原未知非线性系统(9) 在输入输出数据行为上是等价的、精确的, 没有省略任何高阶项.该迭代动态线性化数据模型是随工作点批次变化而变化的动态模型而非静态近似模型.该数据模型中不包含受控系统的数学模型、阶数、时滞等先验知识.由于系统的所有动力学行为信息都隐含在系统的输入输出数据中, 因此该数据模型中没有传统意义下的未建模动态.
注4. 迭代动态线性化模型(12) 建立了重复动态系统沿迭代轴方向的系统输出变化和输入变化之间的关系, 而不是沿时间轴方向的变化关系.形式上, 被控系统的时间动态特性似乎是被忽略了, 但其实质上是包含在未知梯度信息 ${ { \Phi }}_k $ 中.系统本身仍旧是沿时间轴运行, 时间动态特性可很容易地由系统的实时状态而反应.未知梯度参数具有迭代-时间二维动态特性, 可利用测量的I/O数据进行估计.
注5. 迭代动态线性化方法是数据驱动的, 不需要任何关于系统的模型信息, 是直接面向控制系统设计的线性化方法.该动态线性化方法获得的数据模型具有模型简单、不丢失任何信息、包含参数少、具有增量形式等特点, 是目的于控制系统设计的数据模型, 或称为控制器设计模型, 而非机理模型.
注6. 迭代动态线性化数据模型形式简单, 是一种梯度参数线性结构, 因此很多基于模型的迭代学习控制的设计技术和分析工具都可以借鉴而提出各种新的数据驱动迭代学习控制方法, 例如可以采用自适应技术或最优技术.
注7. 迭代动态线性化是研究数据驱动迭代学习控制理论的最重要工具之一.它提供了基于控制目的而研究系统闭环和开环数据的一种新方法, 可认为是系统开环和闭环中数据关系的一种建模, 这对未来信息丰富的复杂系统的控制理论是至关重要的.
3. 数据驱动的最优迭代学习控制
在工业实际应用中, 通常有三类不同的控制任务.第一类控制任务是最普遍的跟踪完整的参考轨迹的任务, 要求系统输出必须跟踪整个轨迹上的所有点.第二类任务是跟踪多个中间参考点, 仅对指定时刻参考点处的跟踪误差有精度要求, 而不是构成完整参考轨迹的所有点.第三类任务的控制目标仅仅是系统运行终端的状态或输出, 使其调节以达到期望值.在第二类和第三类控制任务中, 有些控制背景中, 非指定点处的系统状态和输出可能是不可测的.
对于第二类控制任务, 有些学者专门提出了点到点迭代学习控制(PTPILC)方法[94-98], 仅利用指定点处的输出误差信息对控制行为进行迭代修正.文献[16-18, 94]则针对第三类控制任务提出了终端迭代学习控制(TILC)策略, 仅利用了系统运行终点的终端输出误差.
需要注意的是, 如果系统状态和输出在所有时刻点均可测, 则可以通过设计一条通过指定期望参考点的最优轨迹, 以此可将标准的迭代学习控制用于第二和第三类控制任务中, 使系统输出跟踪所设计的最优参考轨迹.然而, 问题在于通过指定参考点的参考轨迹的设计非常困难, 并且当被控系统本身有所变化时, 很难保障所设计的参考轨迹仍旧是最优的.
另外, PTPILC和TILC去除了不必要的参考点上的跟踪性能约束限制, 可获得额外自由度提高控制性能, 例如降低控制能量、加快收敛速度和减少存储单元等.因此, PTPILC和TILC方法是面向实际应用问题提出的, 具有重要的意义而不是传统ILC方法的简单推广.
文献[77]针对一类未知的非线性离散时间系统, 提出了数据驱动的最优迭代学习控制(DDOILC)以及相应的数据驱动最优点对点迭代学习控制(DDOPTPILC)和数据驱动的最优终端迭代学习控制(DDOTILC)方法, 具有完整的设计框架和分析方法, 包括迭代动态线性化、压缩映射分析方法、梯度参数估计方法等.
本节主要以数据驱动的迭代动态线性化方法为基础, 回顾了数据驱动的广义最优迭代学习控制方法, 包括轨迹跟踪任务、多中间点跟踪任务、单终端点跟踪任务, 以方便读者较为全面地理解这类具有较完整理论基础的学习控制系统的设计和分析过程.
3.1 完整轨迹跟踪的DDOILC
给定参考轨迹在有限时间区间上的所有期望点为.控制目标是寻找合适的控制输入信号使得当迭代次数 $k$ 趋于无穷时, 跟踪误差 ${ {\pmb E}}_k ={ {\pmb Y}}_d -{ {\pmb Y}}_k $ 收敛于0, 即, $\mathop {\lim }_{k\to \infty } { {\pmb E}}_k ={{\pmb 0}}$ .
定义是个维数随时间 $t$ 变化的控制输入列向量.定义是个维数随时间 $t$ 变化的梯度参数行向量, 表示梯度矩阵的第 $t+1$ 行, $t=\left\{ {0, 1, \cdots, N-1} \right\}$ .
针对完整轨迹跟踪的控制任务, 文献[77]利用最优控制原理提出了一种数据驱动的最优迭代学习控制(DDOILC)方法, 由式(13) $\sim$ (15) 构成,
$ \begin{equation} \begin{array}{l} { { \hat {\pmb\varphi }}}_k (t)={ { \hat {\pmb\varphi }}}_{k-1} (t) +\\ \dfrac{\eta \left( {\Delta y_{k-1} (t+1)-{ { \hat {\pmb\varphi }}}_{k-1} (t)\Delta { {\pmb u}}_{k-1} (t)} \right)\Delta { {\pmb u}}_{k-1}^{\rm T} (t)}{\mu +\left\| {\Delta { {\pmb u}}_{k-1} (t)} \right\|^2} \\ \end{array} \end{equation} $
(13) $ \begin{equation} \begin{array}{r} { { \hat {\pmb\varphi }}}_k (t)={ { \hat {\pmb\varphi }}}_0 (t) \mbox{, 若~ }{\rm sgn}\left( {\hat {\phi }_k (i)} \right)\ne {\rm sgn}\left( {\hat {\phi }_0 (i)} \right)\mbox{ } \\ \mbox{ 或}\left\| {{ { \hat {\pmb\varphi }}}_k (t)} \right\|\le \varepsilon , \mbox{ }i=0, 1, \cdots, t \\ \end{array} \end{equation} $
(14) $ \begin{equation} { {\pmb U}}_k ={ {\pmb U}}_{k-1} +\frac{\rho { { \hat {\Phi }}}_k^{\rm T} { {\pmb E}}_{k-1} }{\lambda +\left\| {{ { \hat {\Phi }}}_k } \right\|^2} \end{equation} $
(15) 其中 $\lambda >0$ , $\mu >0$ 表示权重因子; $\rho >0$ , 表示步长因子, 其加入是为了使算法(13) 和(15) 更具有一般性且方便收敛性分析; 表示 ${ { \hat {\pmb\phi }}}_k (t)$ 的初值; $\hat {\phi }_k (i)$ 表示向量 ${ { \hat {\pmb\phi }}}_k (t)$ 的第 $i$ 个元素, $i=0, 1, \cdots, t$ ; 是个非常小的正数.
DDOILC方法的收敛性和稳定性定理及证明参见文献[77], 并且该方法可很容易地推广到多输入多输出系统.
注8. 重置算法(14) 是用来增强参数估计算法(16) 跟踪迭代变化参数的能力.在选择初值时, 要使 ${ { \hat {\pmb\phi }}}_0 (t)$ 与 ${ {\pmb \phi }}_k (t)$ 所有元素的符号保持相同.
注9. 学习控制律(15) 的学习增益是迭代-时间变化的, 只需要量测的I/O数据利用估计算法(13) 和重置算法(14) 获得.
注10. 与传统的最优ILC方法相比, DDOILC (13) $\sim$ (15) 称作是数据驱动或基于数据的控制策略.控制器的设计和分析仅依赖于系统的I/O数据, 不需要已知任何被控对象的模型信息.但是, 数据驱动控制并不意味着要排斥基于模型的控制方法, 二者应该是相互补充和辅助的关系.如果已知被控系统的精确线性模型, 基于模型的控制方法应该是首选, 可充分利用已知的模型信息而实现更好的控制效果.相反, 数据驱动的方法则不能利用已知的系统模型信息.文献[77]用精确已知的线性模型作为仿真实例, 证明了基于模型的NOILC控制性能要优于DDOILC.
注11. 尽管DDOILC方法不论是在学习控制器的形式上还是在基于压缩映射方法的收敛性分析上, 都与传统的PID-型迭代学习控制极为相似, 但是DDOILC的学习增益是迭代变化的且能利用所测量的实时I/O数据进行迭代整定.因此, DDOILC在处理不确定性方面要优于传统的PID型ILC.
注12. DDOILC与传统的最优ILC也非常相似.二者都是基于最优二次性能指标而设计的, 都可实现沿迭代方向的单调收敛性.然而, DDOILC是针对未知非线性系统提出的, 而不是精确已知的线性系统.因此, DDOILC是数据驱动的方法, 传统的最优ILC是基于模型的方法.
注13. 由注11和注12中的分析可知, 基于压缩映射的PID型ILC和基于目标函数的最优ILC都可以被看作是DDOILC的特例, 并且DDOILC在处理强非线性、高不确定性、迭代变化扰动等问题时, 可实现更好的控制性能.文献[116]已通过仿真结果证实, 当系统的模型扰动较大时, 应用基于模型的OILC方法, 跟踪误差的收敛性将不再保证, 甚至发散.而DDOILC方法在系统模型出现大的变化时, 仍能保障跟踪误差的收敛性.
3.2 多中间点跟踪的DDOPTPILC
对点到点跟踪任务, 假设在系统运行的有限时间区间上, 仅在指定点处, 要求系统输出跟踪期望值.
在指定点 $\left\{ {t_1, t_2, \cdots, t_M } \right\}$ 处, 系统的输出可重新表述为[77]:
$ \begin{equation} y_k (t_m )=g_{t_m -1} \left( {y_k (0), u_k (0), \cdots u_k (t_m -1)} \right) \end{equation} $
(16) 其中 $m=1, \cdots, {M}$ .
定义, 可得如下点到点迭代动态线性化形式[77]:
$ \begin{align} \Delta { {\bar {\pmb Y}}}_k =\, &\left[{{\begin{array}{*{20}c} {\dfrac{\partial g_{t_1-1}^\ast }{\partial u_k (0)}} & {\dfrac{\partial g_{t_1-1}^\ast }{\partial u_k (1)}} &\cdots & {\dfrac{\partial g_{t_1-1}^\ast }{\partial u_k (t_1 -1)}} &0 &0 &\cdots &0&0 &\cdots &0 \\ {\dfrac{\partial g_{t_2 -1}^\ast }{\partial u_k (0)}} & {\dfrac{\partial g_{t_2 -1}^\ast }{\partial u_k (1)}} &\cdots & {\dfrac{\partial g_{t_2 -1}^\ast }{\partial u_k (t_1 -1)}} & \cdots &{\dfrac{\partial g_{t_2 -1}^\ast }{\partial u_k (t_2 -1)}} & \cdots &0 &0 &\cdots &0 \\ \vdots &\vdots &\ddots &\vdots &\ddots & \vdots &\ddots &\vdots &\vdots &\ddots &\vdots \\ {\dfrac{\partial g_{t_M -1}^\ast }{\partial u_k (0)}} & {\dfrac{\partial g_{t_M -1}^\ast }{\partial u_k (1)}} &\cdots & {\dfrac{\partial g_{t_M -1}^\ast }{\partial u_k (t_1 -1)}} & \cdots &{\dfrac{\partial g_{t_M -1}^\ast }{\partial u_k (t_2 -1)}} &\cdots &{\dfrac{\partial g_{t_M -1}^\ast }{\partial u_k (t_M -1)}} &0 &\cdots &0 \\ \end{array} }} \right]\times\nonumber\\&\Delta { {\pmb U}}_k ={ {\bar { \Phi }}}_k \Delta { {\pmb U}}_k~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~ \end{align} $
(17) $ \begin{equation} \begin{array}{l} { { \hat {\bar {\pmb\varphi }}}}_k (t_m -1)={ { \hat {\bar {\pmb\varphi }}}}_{k-1} (t_m -1)\, + \dfrac{\eta \left( {\Delta y_{k-1}(t_m )-{ { \hat {\bar {\pmb\varphi }}}}_{k-1}(t_m -1)\Delta { {\bar {\pmb u}}}_{k-1} (t_m -1)} \right)\Delta { { \bar {\pmb u}}}_{k-1}^{\rm T} (t_m -1)}{\mu +\left\| {\Delta { { \bar {\pmb u}}}_{k-1} (t_m -1)} \right\|^2} \\ \end{array} \end{equation} $
(18) 令 ${ \bar {\pmb Y}}_d =\left[{y_d (t_1 ), y_d (t_2 ), \cdots, y_d (t_M )} \right]^{\rm T} \in {\bf R}^M$ 并定义指定时刻点上的输出跟踪误差为, 文献[77]针对多个稀疏点的跟踪任务, 提出了一种数据驱动的最优点到点迭代学习控制(DDOPTPILC)方法((18) $\sim$ (20)):
$ \begin{equation} \begin{array}{l} { { \hat {\bar {\pmb\varphi }}}}_k (t_m -1)={ { \hat {\bar {\pmb\varphi }}}}_0 (t_m -1), \mbox{ 若}\\ \qquad{\rm sgn}\left( {\hat {\bar {\phi }}_k (i)} \right)\ne {\rm sgn}\left( {\hat {\bar {\phi }}_0 (i)} \right)\mbox{ } \\ \qquad \mbox{或}\left\| {{ {\hat {\bar{\pmb \varphi }}}}_k (t_m -1)} \right\|\le \varepsilon, \mbox{ }i=0, 1, \cdots, t_m \\ \end{array} \end{equation} $
(19) $ \begin{equation} { {\pmb U}}_k ={ {\pmb U}}_{k-1} +\frac{\rho { { \hat {\bar { \Phi }}}}_k^{\rm T} { { \bar {\pmb E}}}_{k-1} }{\lambda +\left\| {{ {\hat {\bar { \Phi }}}}_k } \right\|^2} \end{equation} $
(20) 其中 $\lambda >0$ , $\mu >0$ 表示权重因子; $\rho >0$ , 表示步长因子; $m=1, \cdots, M$ ; 是个很小的正数; ${ { \hat {\bar {\Phi }}}}_k $ 是的估计; ${ { \hat {\bar {\pmb\varphi }}}}_0 (t_m -1)$ 表示的初值; 表示的第 $i$ 个元素.
注14. 与DDOILC (13) $\sim$ (15) 相比, DDOPTPILC (18) $\sim$ (20) 仅利用在指定时刻点的误差信息, 从而可用于系统输出仅在指定时刻点可测的控制背景, 并且由于去除了不必要点上的跟踪性能约束, 可一定程度上加快收敛速度、降低控制能量、减少存储单元.这在文献[77]仿真中已经得到验证.
3.3 终端点跟踪的DDOTILC
终端迭代学习控制的目标是系统运行终端的状态或终端输出, 而不是跟踪整个轨迹.换句话说, 寻找合适的控制输入序列使得系统的终端输出 $y_k (N)$ 在系统运行终点跟踪期望值 $y_d $ , 当迭代次数 $k$ 趋于无穷时, 终端跟踪误差 $e_k (N)=y_d -y_k (N)$ 收敛于0.
$ \begin{equation} y_k (N)=g_{N-1} \left( {y_k (0), u_k (0), u_k (1), \cdots, u_k (N-1)} \right) \end{equation} $
(21) 其中 $y_k (N)$ 表示系统在迭代运行终点的输出.
$ \begin{equation} \begin{array}{l} \Delta y_k (N)=y_k (N)-y_{k-1} (N) =\\ \left[{\dfrac{\partial g_{N-1}^\ast }{\partial u_k (0)}, \dfrac{\partial g_{N-1}^\ast }{\partial u_k (1)}, \cdots, \dfrac{\partial g_{N-1}^\ast }{\partial u_k (N)}} \right]\left( {{ {\pmb U}}_k -{ {\pmb U}}_{k-1} } \right) =\\ { {\pmb \varphi }}_k (N-1)\Delta { {\pmb U}}_k \\ \end{array} \end{equation} $
(22) 对于单个点的终端跟踪任务, 文献[77]给出了一种数据驱动的最优终端迭代学习控制(DDOTILC)方法:
$ \begin{equation} \begin{array}{l} { { \hat {\pmb\varphi }}}_k (N-1)={ { \hat {\pmb\varphi }}}_{k-1} (N-1)+ \\ \qquad \dfrac{\eta \left( {\Delta y_{k-1} (N)-{ {\hat {\pmb \varphi }}}_{k-1} (N-1)\Delta { {\pmb U}}_{k-1} } \right)\Delta { {\pmb U}}_{k-1}^{\rm T} }{\mu +\left\| {\Delta { {\pmb U}}_{k-1} } \right\|^2} \\ \end{array} \end{equation} $
(23) $ \begin{equation} \begin{array}{l} { {\hat {\pmb \varphi }}}_k (N-1)={ { \hat {\pmb\varphi }}}_0 (N-1), \mbox{若 }\\ \qquad {\rm sgn}\left( {\hat {\phi }_k (i)} \right)\ne {\rm sgn}\left( {\hat {\phi }_0 (i)} \right)\mbox{} \\ \qquad \mbox{或}\left\| {{ { \hat {\pmb\varphi}}}_k (N-1)} \right\|\le \varepsilon, \mbox{ }i=0, 1, \cdots, N-1 \\ \end{array} \end{equation} $
(24) $ \begin{equation} { {\pmb U}}_k ={ {\pmb U}}_{k-1} +\frac{\rho { { \hat {\pmb\varphi }}}_k^{\rm T} (N-1)}{\lambda +\left\| {{ {\hat {\pmb \varphi}}}_k (N-1)} \right\|^2}e_{k-1} (N) \end{equation} $
(25) 其中 $\lambda >0$ , $\mu >0$ 表示权重因子; $\rho >0$ , 表示步长因子; 是个很小的正常数; ${{ \hat {\pmb\varphi }}}_0 (N-1)$ 表示的初始估计值.
注15. DDOTILC (23) $\sim$ (25) 算法中仅利用了系统运行终点的终端输出跟踪误差, 去掉了在其他点上不必要的限制, 从而可提高控制性能.如文献[77]所示, 不论在收敛速度、控制能量和收敛精度上都优于DDOILC方法.
3.4 DDOILC的关键问题和应用研究
DDOILC方法应用中遇到的一些重要问题, 如随机初始条件、高阶控制律、控制性能的增强、迭代变化参考轨迹等, 也在最近的一些文献中进行了充分研究.
在实际间歇过程的应用中, 产品的质量要求会根据市场、用户等需求而作调整, 因此期望轨迹并不是在所有操作中都保持相同.文献[117]首先考虑了随迭代变化的期望参考点, 提出了数据驱动的自适应最优终端ILC方法, 但跟踪误差的收敛性分析仍旧依赖于相同初始条件的假设.由于定位精度、量测精度以及状态扰动等原因, 相同初始条件在实际中很难满足, 很大程度上阻碍了DDOILC的应用.因此, 文献[118-119]和文献[120]分别用神经网络和高阶内模来近似逼近随机迭代变化的初始条件对系统运行终端输出的影响, 并用于控制器设计作为补偿, 其中期望轨迹和初始状态都是随迭代次数变化的.文献[121]则直接将随机初始状态作为未知参数进行迭代估计, 得到了跟踪误差的有界收敛性.
文献[78]针对终端迭代学习控制任务, 研究了当系统状态额输出在终端点以外的时刻点均不可测时, 如何利用更多的控制信息来提高控制性能, 提出了增强的数据驱动终端迭代学习控制方法.高阶迭代学习控制律因为能够利用更多以前操作中获得的控制信息实现更好的控制性能也受到了重视.文献[122-123]通过改进控制性能指标函数, 提出了高阶的数据驱动最优迭代学习控制方法.
关于实际工程应用中经常遇到的输入输出受限问题以及计算复杂度问题, 也已在最近的工作中进行了研究, 提出了相应的解决方案[116].
DDOILC方法已进行了广泛的实验验证和仿真分析, 说明了这些方法的有效性, 例如化学间歇过程[76-78, 121-123]、快速路交通系统[124-126]、自动列车停车控制[127]等.数据驱动的迭代学习控制将成为以间歇过程为主的、越来越复杂、规模越来越大的执行重复生产的工业控制的主要方法, 有着广泛的理论研究前景和潜在的应用价值.
3.5 其他数据驱动的学习控制方法
目前, 数据驱动的学习控制策略的设计和分析引起了国内外学者的关注.文献[128-129]针对线性时不变系统, 借助于有限脉冲响应滤波技术, 提出了一种数据驱动的迭代学习控制方法, 系统的脉冲响应模型可由以前迭代运行获得的输入输出数据进行估计.系统的控制性能主要依赖于脉冲响应模型的估计精度.如果要严格地保证脉冲响应模型的估计值等于系统输出的真实值, 要求被控系统是线性时不变的, 且没有量测噪声和其他干扰存在.
文献[130-131]利用迭代学习控制的优点, 提出了基于实验随机搜索算法的无模型数据驱动迭代参考输入整定方法, 并且考虑了系统的输入输出受限情况, 但是控制器的设计和分析也是基于线性时不变系统而提出的, 所采用的也是迭代反馈整定的策略.
文献[64]提出了受限非线性系统的模最优ILC的一般形式, 模型校正可显性地估计, 性能指标函数采用直接最优控制方法进行最小化, 由此得到非线性规划问题并给出了该问题的有效求解策略.需要说明的是, 控制器的设计和分析是基于非线性系统的线性估计模型进行的.
文献[132]研究了重复脉冲噪声的主动控制方法, 基于快速傅里叶变换, 提出了未知或时变次级路径信号噪声主动抑制系统的无模型迭代学习控制算法.与基于模型的方法不同, 控制器的设计仅依赖于输入输出数据而不需要系统模型的知识.
文献[133]提出了双迭代Q-学习算法, 其中内部迭代可以最小化每个周期的总的功率负载指标; 外部迭代可以使Q函数迭代地收敛到最优值.
文献[134]在研究混杂控制系统结构时, 提出了多输入多输出系统的最优行为预测机制, 给出了一种数据驱动无模型迭代学习控制方法, 其中闭环反馈控制器采用虚拟参考整定(Virtual reference feedback tuning, VRFT)方法设计, 期望的新轨迹可被逼近且最优参考输入可被重置.
4. 结论与展望
本文简要回顾了间歇过程的最优迭代学习控制方法, 包括基于模型的最优迭代学习控制和数据驱动的最优迭代学习控制, 目的在于借鉴前者研究和分析中常用的方法, 找到后者研究中可突破的途径.数据驱动的最优迭代学习控制的关键是迭代动态线性化, 因此详细讨论了迭代动态线性化的特征和对应控制器的设计.
迭代动态线性化方法仅依赖于被控系统的I/O数据, 因此, 在迭代动态线性化过程中, 没有建模误差, 也没有未建模动态, 所产生的迭代动态线性化数据模型是完全等价于原非线性系统的, 使得在基于模型的控制方法中广泛存在的未建模动态和系统鲁棒性这一矛盾体不再存在.
传统的近似线性化方法或精确线性化在实际中很难实现.相反, 迭代动态线性化仅依赖系统的I/O数据即可得到, 且数据模型本身是可根据实时I/O数据进行估计和更新的.因此, 等价的迭代动态线性化是DDOILC方法的基础, 将成为新的分析非线性重复系统的重要工具.
数据驱动最优迭代学习控制或者数据驱动控制[135]方法的目标是直接利用过程数据或由数据中获取的知识来设计控制器, 去除基于模型的最优迭代学习控制或基于模型的控制方法中极具挑战性的问题, 例如, 建模困难性、未建模动态和鲁棒性, 最终减小或消除基于模型的控制方法与实际应用之间存在的鸿沟.需要强调的是, 数据驱动控制方法并不意味着要排除基于模型的控制方法.相反, 如果存在被控对象的可靠的精确线性模型, 基于模型的方法则是首选.
基于模型的最优迭代学习控制的研究已经非常成熟, 具有系统的理论分析方法.相反, 数据驱动的最优迭代学习控制主要是针对不能或难以获得被控系统模型的控制系统的设计方法, 其研究还处于起始阶段.为了数据驱动最优迭代学习控制的健康发展, 还需要大量的研究工作和努力, 并且这些工作也将是极具挑战性的.
4.1 线性系统设计方法和分析工具的引入
从典型控制系统设计方法的本质上讲, 非线性系统的最优迭代学习控制设计也是利用某些数学分析的技巧千方百计地利用系统数学模型结构和形式将其受控系统的控制输入变量显式地表述出来, 这个过程本质上就是对控制输入的线性化, 即, 基于模型的最优迭代学习控制方法本质上也是某种线性化的方法.从这个观点上看, 数据驱动的与基于模型的最优迭代学习控制的研究和设计思路在本质上是一样的, 只是数据驱动的最优迭代学习控制的研究起始于未知非线性重复系统的迭代动态线性化方法.因此, 在今后工作中可借鉴更多基于模型的最优迭代学习控制的设计方法和分析工具, 以处理工业应用中遇到的更多实际问题, 如随机不确定性、分布式系统、协同问题等.
4.2 系统稳定性、收敛性、鲁棒性的分析
因为数据驱动的最优迭代学习控制理论是直接从I/O数据到控制器的, 没有基于机理或系统辨识的建模过程, 因此, 与基于模型的方法不同, 其稳定性、收敛性和鲁棒性分析应该也是直接基于I/O数据的.实质上, 数据驱动框架下的鲁棒性就是研究系统采样、系统数据测量噪声、数据处理以及数据在传输过程中的丢包、乱码、延时等对已设计的数据驱动控制系统所具有性质的保持程度和影响.大数据环境下, 比较有前景的系统稳定性、收敛性、鲁棒性的分析方法可能是基于数据能量有界及压缩映射的方法.
4.3 面向控制的数据处理技术
在线和离线数据都包含了大量有价值的系统动力学知识以及系统运行规律和模式.因此, 探讨如何利用系统的I/O数据和系统规律进行数据驱动最优迭代学习控制的设计具有重要意义.所以, 面向控制的有效数据处理方法将是非常有前景和重要的研究方向之一.
4.4 基于模型的与数据驱动的最优ILC的综合设计
每个控制方法, 不管是基于模型的还是数据驱动的, 都具有他们各自的优势和劣势, 不能被其他方法完全取代.最直接有效的方法就是让不同的控制方法按照互补的方式一起工作, 取长补短.当被控对象机理模型模型较为清楚, 且适合于设计控制器时, 显然基于模型的最优ILC方法的控制性能、可靠性等性质都是占优的.相反, 如果被控对象的机理模型存在很大不确定性, 且对外界的扰动等因素变化较为敏感, 那么基于数据驱动的最优ILC方法则更为适合.因此, 如何定量地描述基于模型的控制策略对系统外界不确定性的抑制程度, 如何确定基于模型的控制策略和数据驱动的控制策略之间相互切换的有效机制, 实现控制系统的可靠性和控制精度等全方面的改进, 也将是今后研究的热点方向和挑战性问题.
-
图 11 图 10 (b)~10 (d)中矩形区域内平面结构的放大显示
Fig. 11 Close-ups of the plane structures in the rectangles in Fig. 10 (b)~10 (d)
表 1 参数设置
Table 1 Parameters setting
参数 默认值 功能描述 $\gamma$ 0.6 相关性度量 ${\lambda_{\rm occ}}$ 2 遮挡惩罚量 ${\lambda_{\rm err}}$ 4 空间可见性冲突惩罚量 ${\lambda_{\rm dis}}$ 4 空间平面间断惩罚量 $\mu$ 0.6 场景结构先验松驰量 $\delta$ 0.5 颜色特征差异截断阈值 $\vartheta$ 0.9 天空区域语义阈值 表 2 初始化
Table 2 Initialization
数据集 空间点 超像素 线段 平面 Valbonne 561 360 362 17 Wadham 2 120 1 243 838 38 City#1 2 234 2 793 1 588 11 City#2 1 503 2 643 1 297 7 表 3 不同算法获取的结果
Table 3 Results produced by different methods
数据集 PSP SP CP 本文算法 文献[8]算法 文献[9]算法 $M_{\rm 1(Fir)}$ $M_{\rm 1(Fin)}$ $M_2$ $M_1$ $M_2$ $M_1$ $M_2$ Valbonne 21 1 478 147 0.5259 0.7748 9 0.5145 7 0.6631 7 Wadham 53 5 889 421 0.6643 0.8046 11 0.3879 7 0.6492 11 City#1 23 7 110 3 109 0.4608 0.6927 7 0.3390 7 0.4465 6 City#2 28 6 831 2 612 0.5355 0.7081 6 0.3217 5 0.5977 6 注: PSP表示已分配初始可靠平面超像素数量, SP与CP分别表示协同优化后超像素与相应平面数量 -
[1] Çiğla C, Alatan A A. Region-based dense depth extraction from multi-view video. In: Proceedings of IEEE 15th Signal Processing and Communications Applications. Eskisehir, Turkey: IEEE, 2007. 213-216 http://www.researchgate.net/publication/4289275_Region-Based_Dense_Depth_Extraction_from_Multi-View_Video [2] Furukawa Y, Curless B, Seitz S M, Szeliski R. Manhattan-world stereo. In: Proceedings of the 2009 IEEE Conference on Computer Vision and Pattern Recognition. Miami, USA: IEEE, 2009. 1422-1429 [3] Furukawa Y, Ponce J. Accurate, dense, and robust multiview stereopsis. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2010, 32(8):1362-1376 doi: 10.1109/TPAMI.2009.161 [4] Gallup D, Frahm J M, Mordohai P, Yang Q X, Pollefeys M. Real-time plane-sweeping stereo with multiple sweeping directions. In: Proceedings of the 2007 IEEE Conference on Computer Vision and Pattern Recognition. Minneapolis, USA: IEEE, 2007. 1-8 [5] Mičučík B, Košecká J. Multi-view superpixel stereo in urban environments. International Journal of Computer Vision, 2010, 89(1):106-119 http://www.wanfangdata.com.cn/details/detail.do?_type=perio&id=fe96239fdb830da6de10f12dc00568f9 [6] Sinha S N, Steedly D, Szeliski R. Piecewise planar stereo for image-based rendering. In: Proceedings of 2009 IEEE 12th International Conference on Computer Vision. Kyoto, Japan: IEEE, 2009. 1881-1888 [7] Chauve A L, Labatut P, Pons J P. Robust piecewise-planar 3D reconstruction and completion from large-scale unstructured point data. In: Proceedings of 2010 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). San Francisco, CA, USA: IEEE, 2010. 1261-1268 http://www.researchgate.net/publication/221364112_Robust_piecewise-planar_3D_reconstruction_and_completion_from_large-scale_unstructured_point_data [8] Bódis-Szomorú A, Riemenschneider H, Van Gool L. Fast, approximate piecewise-planar modeling based on sparse structure-from-motion and superpixels. In: Proceedings of 2014 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Columbus, OH, USA: IEEE, 2014. http://www.researchgate.net/publication/286683959_Fast_Approximate_Piecewise-Planar_Modeling_Based_on_Sparse_Structure-from-Motion_and_Superpixels [9] Verleysen C, De Vleeschouwer C. Piecewise-planar 3D approximation from wide-baseline stereo. In: Proceedings of 2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Las Vegas, NV, USA: IEEE, 2016. 3327-3336 http://www.researchgate.net/publication/311610322_Piecewise-Planar_3D_Approximation_from_Wide-Baseline_Stereo [10] Tola E, Strecha C, Fua P. Efficient large-scale multi-view stereo for ultra high-resolution image sets. Machine Vision and Applications, 2012, 23(5):903-920 doi: 10.1007/s00138-011-0346-8 [11] Antunes M, Barreto J P, Nunes U. Piecewise-planar reconstruction using two views. Image and Vision Computing, 2016, 46:47-63 doi: 10.1016/j.imavis.2015.11.008 [12] Raposo C, Antunes M, Barreto J P. Piecewise-planar StereoScan:sequential structure and motion using plane primitives. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2018, 40(8):1918-1931 doi: 10.1109/TPAMI.2017.2737425 [13] Comaniciu D, Meer P. Mean shift:a robust approach toward feature space analysis. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2002, 24(5):603-619 doi: 10.1109/34.1000236 [14] Pham T T, Chin T J, Yu J, Suter D. The random cluster model for robust geometric fitting. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2014, 36(8):1658-1671 doi: 10.1109/TPAMI.2013.2296310 [15] Hartley R, Zisserman A. Multiple View Geometry in Computer Vision (Second Edition). Cambridge:Cambridge University Press, 2004. 1-672 [16] Wang Z F, Zheng Z G. A region based stereo matching algorithm using cooperative optimization. In: Proceedings of the 2008 IEEE Conference on Computer Vision and Pattern Recognition. Anchorage, USA: IEEE, 2008. 1-8 http://en.cnki.com.cn/Article_en/CJFDTotal-MOTO200905003.htm [17] Huang X F. Cooperative optimization for energy minimization: a case study of stereo matching[Online], available: http://arxiv.org/pdf/cs.CV/0701057, January 9, 2007. [18] Zhao H S, Shi J P, Qi X J, Wang X G, Jia J Y. Pyramid scene parsing network. In: Proceedings of 2017 IEEE Conference on Computer Vision and Pattern Recognition. Honolulu, Hawaii, USA: IEEE, 2017. 6230-6239 [19] Zisserman A, Vedaldi A. VGG Multi-view Data[Online], available: http://www.robots.ox.ac.uk/~vgg/data/mview/, November 7, 2019 [20] Lowe D G. Distinctive image features from scale-invariant keypoints. International Journal of Computer Vision, 2004, 60(2):91-110 http://d.old.wanfangdata.com.cn/NSTLQK/NSTL_QKJJ025429678/ 期刊类型引用(1)
1. 袁红,李瑾,黄婧. 基于双目图像的复杂视频场景虚拟重建仿真. 计算机仿真. 2022(06): 459-463 . 百度学术
其他类型引用(0)
-