Event-triggered Control Design for Optimal Tracking of Unknown Nonlinear Zero-sum Games
-
摘要: 设计了一种基于事件的迭代自适应评判算法, 用于解决一类非仿射系统的零和博弈最优跟踪控制问题. 通过数值求解方法得到参考轨迹的稳定控制, 进而将未知非线性系统的零和博弈最优跟踪控制问题转化为误差系统的最优调节问题. 为了保证闭环系统在具有良好控制性能的基础上有效地提高资源利用率, 引入一个合适的事件触发条件来获得阶段性更新的跟踪策略对. 然后, 根据设计的触发条件, 采用Lyapunov方法证明误差系统的渐近稳定性. 接着, 通过构建四个神经网络, 来促进所提算法的实现. 为了提高目标轨迹对应稳定控制的精度, 采用模型网络直接逼近未知系统函数而不是误差动态系统. 构建评判网络、执行网络和扰动网络用于近似迭代代价函数和迭代跟踪策略对. 最后, 通过两个仿真实例, 验证该控制方法的可行性和有效性.Abstract: In this paper, an event-based iterative adaptive critic algorithm is designed to address optimal tracking control for a class of nonaffine zero-sum games. The steady control of the reference trajectory is obtained by numerical calculation. Then, the optimal tracking control problem of unknown nonlinear zero-sum games is transformed into the optimal regulation problem of corresponding error dynamics. In order to ensure that the closed-loop system possesses favourable control performance while can effectively improve the resource utilization, an appropriate event-triggering condition is introduced to obtain the tracking policy pair aperiodically. According to the designed triggering condition and the Lyapunov stability theory, the error system is proved to be asymptotically stable. In addition, four neural networks are constructed to promote the implementation of the proposed algorithm. In order to improve the accuracy of the steady control in target trajectory, the model network is used to approach the unknown system function directly instead of the error dynamic system. The critic network, the action network, and the disturbance network are constructed to obtain the approximate iterative cost function and the approximate iterative tracking policy pair. Finally, two examples are presented to demonstrate the feasibility and effectiveness of the proposed algorithm.
-
在量子力学中, 量子状态密度矩阵包含了量子系统的全部信息, 是量子信息处理和量子控制研究的基础. 根据海森堡不确定性原理[1], 对量子系统的每一次测量都会破坏其原有的状态, 这使得人们无法通过直接对一个量子系统进行测量来获得量子系统的状态, 只能测量到量子系统的状态在某个投影方向上的投影(坍缩)结果, 再通过多次测量的统计结果, 计算出各投影分量的概率对真实量子状态进行估计[2]. 为了解决量子态的估计问题, 1957年Fano[3]提出了量子层析的方法, 它是通过对一个量子状态进行多次投影测量, 根据测量值与量子态直接的关系式, 联立方程求解出量子状态. 该方法需要制备量子状态的大量全同副本, 并进行重复地测量来进行量子态估计. 随着量子理论的逐步完善, 1969年Cahill和Glauber[2]提出利用重复测量获取的量子概率统计数据重构出量子态的密度矩阵来恢复量子状态信息, 奠定了量子态层析的基础. 一个
$n$ 比特量子系统状态的密度矩阵${\boldsymbol{\rho}} \in {{\bf{C}}^{d \times d}}$ 的维数为$d \times d$ , 并同时具有半正定, 单位迹和共轭对称的性质, 其中$d = {2^n}$ . 由于待估计的${\boldsymbol{\rho}} $ 的未知元素数目为$d \times d = {4^n}$ 个, 所以该系统的完备测量次数为${4^n}$ , 是随着量子维数呈指数增加[4]. 为了解决测量次数随量子位指数增长的问题, 人们根据压缩感知(Compressive sensing, CS)理论[5]将量子态密度矩阵通过高维测量矩阵投影到维数很低的压缩矩阵上, 只要测量矩阵满足限制等距特性(Restricted isometry property, RIP)[6], 就可以利用压缩后的低维压缩矩阵通过求解一个优化问题精确重构出待估计的密度矩阵[7-9].在实际量子测量过程中, 测量噪声的存在是不可避免的, 并且可以被假定为高斯噪声. 在量子状态估计算法研究中, Smith等[10]基于最小二乘法从含有噪声的数据中实现了4比特量子状态估计. Li等[11]基于压缩感知将交替方向乘子法(Alternating direction multiplier method, ADMM)运用到量子态估计中[12], 给出了算法迭代优化形式, 并在5比特的量子状态密度矩阵估计中获得了较高的估计精度. ADMM算法是一种求解分布式凸优化问题的计算框架, 在图像处理及恢复、统计学习和量子态估计等领域有着广泛应用. Smolin等[13]提出了一种从加性高斯噪声测量中计算最大似然量子态的有效方法, 其最坏时间复杂度为
$O({d^4})$ . 但是这些优化算法在量子态重建过程中都会需要较多的计算内存和计算时间. 对于高维量子系统, 重建过程中需要测量和处理的数据会很多, 这样会导致所需的计算资源和计算时间增长很快. Metzler等[14]提出DA-MP算法, 它是一种基于压缩感知的迭代稀疏信号恢复算法, 通过在算法中添加Onsager校正项[14-15], 修正每次迭代时有效噪声的偏差, 改进了基于去噪的迭代阈值(Denoising-based iterative threshold, DIT)算法收敛速度慢的问题. Liu等[16]采用卷积神经网络的降噪自动编码器, 从带有噪声的密度矩阵中重建出高精度的密度矩阵.本文基于压缩感知理论, 结合深度学习网络, 提出一种采用深度学习网络来估计量子状态密度矩阵的方法. 将密度矩阵视为二维自然图像信号, 采用基于学习降噪的近似消息传递(Learned denoising-based approximate message passing, LDA-MP)神经网络[17], 将去噪卷积神经网络(Denoising convolutional neural network, DnCNN)的图像降噪器[18]融合到基于去噪的近似消息传递(Denoising-based approximate message passing, DAMP)算法[19]中. 此外, 还提供一个关于LDAMP在量子状态估计中的渐近收敛性能的分析框架—状态演化(State evolution, SE)方程[17]来预测LDAMP网络每一层的均方误差(Mean square error, MSE)性能[20]. 在数值仿真实验中, 在固定DnCNN神经网络和LD-AMP网络的层数, 选择高斯测量矩阵, 在无和有外部测量噪声两种情况下, 分别对4个量子位的量子本征态、叠加态、对角混合态和一般混合态的密度矩阵参数估计进行结果和性能分析, 并与其他典型的重建算法对密度矩阵参数估计的性能进行了对比研究.
本文结构安排如下: 第1节概述了基于压缩感知的量子状态估计作为一个信号恢复问题, 第2节介绍了应用于量子状态估计的DAMP信号恢复算法, 第3节具体描述了LDAMP网络的实现和DnCNN神经网络的结构及其训练过程, 第4节给出了对DnCNN训练后模型的测试结果和量子态估计数值模拟实验结果及分析, 第5节是结论.
1. 基于压缩感知的量子态密度矩阵估计
压缩感知是近10多年来在信号处理领域诞生的一种新的信号恢复理论. 它主要是利用信号
${\boldsymbol{s}} \in {{\bf C}^N}$ 的$M$ (远远小于完备测量需要的$N$ )个随机线性测量值y, 建立欠定线性方程组${\boldsymbol{y}} = {\boldsymbol{A}}{\boldsymbol{s}}\;{\rm{ (}}{\boldsymbol{y}} \in {{\bf C}^M})$ , 并通过优化算法来高精度重构求解出原始信号s, 其中${\boldsymbol{A}} \in {{\bf{C}}^{M \times N}}, M < N$ 为测量矩阵. 在量子态估计中, 原始信号为密度矩阵${\boldsymbol{\rho}} \in {{\bf C}^{d \times d}}$ , 它与量子系统波函数之间的关系为:$${\boldsymbol{\rho}} {\rm{ = }}\sum\limits_{i = 1}^d {\left| {{\psi _i}} \right\rangle } {p_i}\left\langle {{\psi _i}} \right|$$ (1) 式中,
$\left| {{\psi _i}} \right\rangle $ 为系统的波函数,${p_i}$ 表示波函数的概率,$d$ 为密度矩阵的维数. 将密度矩阵写成向量表达的形式是${\boldsymbol{\rho}} ={\boldsymbol{\psi}}\cdot{{\boldsymbol{\psi}} }^{\ast }$ , 其中${\boldsymbol{\psi}} = [ \sqrt {{p_1}} \left| {{\psi _1}} \right\rangle , \sqrt {{p_2}} \left| {{\psi _2}} \right\rangle , \cdots , \sqrt {{p_d}} \left| {{\psi _d}} \right\rangle ]$ . 当量子系统的量子位数为$n$ 时, 密度矩阵的维数$d = {2^n}$ . 由于神经网络无法直接处理复数信号的去噪, 在本文中仅对实数密度矩阵进行估计. 在基于压缩感知的量子态估计中, 测量矩阵A需要满足限制等距特性才可以唯一确定${d^2}$ 个待估计的密度矩阵元素, 人们通常采用的是泡利测量矩阵[21]. 由于随机高斯矩阵参数均为实数并且具有较好的重构效果[22], 本文中在RIP条件下采用随机高斯矩阵来构造测量矩阵, 其设计方法为: 构造一个$M \times N$ 大小的矩阵A, 使A中的每一个元素独立的服从均值为0, 方差为${1 / M}$ 的高斯分布, 即:$${\boldsymbol{A}}(i,j) \sim {\rm{N}}(0,{1 / M})$$ (2) 式中, A的行数与列数的比值定义为采样率
$\eta = {M / N}$ , 并且有$N = {d^2}$ .考虑从有外部测量干扰的线性度量中恢复密度矩阵
${\boldsymbol{\rho}} \in {\bf R}^{d \times d}$ 的问题:$${\boldsymbol{y}} = {\boldsymbol{A}} \cdot vec({\boldsymbol{\rho}} ) + {{w}}$$ (3) 式中,
$vec( \cdot )$ 表示将一个矩阵按列的方向组合成一个列向量,${{w}} \in {\bf R}^m$ 为测量噪声并且通常被假设为独立且同分布的高斯噪声. 定义测量噪声${{w}} \sim {\rm{N}}({\bf{0}}, \gamma _{{w}}^2{\boldsymbol{I}})$ 为加性高斯白噪声(Additive white Gaussian noise, AWGN), 其中${\gamma _{{w}}}$ 为噪声标准差. 在本文的模拟实验中, 采用含测量噪声信号y和理想测量信号${{\boldsymbol{y}}_0} = {\boldsymbol{A}} \cdot vec({\boldsymbol{\rho}} )$ 之间的信噪比(Signal noise ratio, SNR)作为噪声强度, 计算公式为:$$ SNR = 10{\lg }\left\{ {\frac{\sum\limits_{i=1}^M {\sum\limits_{j=1}^N {{{\boldsymbol{y}}^{\rm{2}}}(i,j)} } } {\sum\limits_{i=1}^M {{{\sum\limits_{j=1}^N {\left[ {{\boldsymbol{y}}(i,j) - {{\boldsymbol{y}}_0}(i,j)} \right]} }^2}} }} \right\} $$ (4) 式中,
${\boldsymbol{y}}(i,j)$ 和${{\boldsymbol{y}}_0}(i,j)$ 分别为含测量噪声信号和理想测量信号在向量中$(i,j)$ 点处的值.利用正则化二次损失最小化方法解决该线性逆问题, 可以通过求解一个凸优化问题计算得到
$vec({\boldsymbol{\rho}} )$ 的估计值[23-24]:$$\begin{split} vec\left( {\hat {\boldsymbol{\rho}} } \right) =\;& \mathop {\arg \min }\limits_{vec\left( {\boldsymbol{\rho}} \right) \in {\bf R}^{{d^2}}} \bigg \{ {\frac{1}{2}\left\| {{\boldsymbol{y}} - {\boldsymbol{A}} \cdot vec({\boldsymbol{\rho}} )} \right\|_2^2 + } \\ & {\lambda {{\left\| {vec({\boldsymbol{\rho}} )} \right\|}_1}} \bigg\} \end{split} $$ (5) 式中,
$\lambda > 0$ 为正则化参数. 然而这个极小化问题是一个凸优化问题, 在大规模问题中, 由于数据维度较大, 常规求解算法中, 如内点法等的算法复杂度较大, 求解起来非常耗时. 这使得众多研究人员通过简单的基于梯度的方法来求解式(5).2. DIT和DAMP算法
在众多基于梯度的算法中, 最受关注的一类方法是迭代阈值(Iterative threshold, IT)算法. 为了方便表示, 定义
${\boldsymbol{s}} = vec({\boldsymbol{\rho}} )$ . 当待估计的密度矩阵为${{\boldsymbol{\rho}} _0}$ 时, 称${{\boldsymbol{s}}_0} = vec({{\boldsymbol{\rho}} _0})$ 为待估计的信号. 从${{\boldsymbol{s}}^0} = {\bf{0}}$ 和${{\boldsymbol{z}}^0} = {\bf{0}}$ 开始, 迭代公式为:$${{\boldsymbol{s}}^{l + 1}}{\rm{ }} = {\rm{ }}\eta ({{\boldsymbol{s}}^l} + {{\boldsymbol{A}}^{\rm{H}}}{{\boldsymbol{z}}^l};{\lambda ^l})\tag{6a}$$ $${{\boldsymbol{z}}^l}{\rm{ }} = {\rm{ }}{\boldsymbol{y}} - {\boldsymbol{A}}{{\boldsymbol{s}}^l}\tag{6b}$$ 式中,
${{\boldsymbol{s}}^l}$ 是l次迭代密度矩阵的估计值.${{\boldsymbol{z}}^l}$ 是l次迭代的残差, 如果密度矩阵恢复过程是无噪声的, 并且算法性能执行得很好, 它将收敛于0.$\eta ( \cdot )$ 称为阈值函数, 它是一个被应用到矢量的分量元素上的标量非线性函数.${\lambda ^l}$ 是l次迭代阈值函数使用的参数.$${\eta _{soft}}({\boldsymbol{x}} ;\lambda ) = {\rm{sign}}({x_i}){(\left| {{x_i}} \right| - \lambda )_ + }$$ (7) 在信号恢复中, 阈值函数的选择非常重要, 常见的有软阈值函数(7)等. 其中符号
${(w)_ + }$ 表示$w \ge 0$ 时结果为$w$ , 否则结果为0. 另外一种实现阈值函数的方法是使用降噪器${D_{{{\hat \sigma }^l}}}$ , 此时阈值参数${\lambda ^l}$ 的含义为输入降噪器的信号的所含高斯噪声的标准差估计${\hat \sigma ^l}$ , 并且计算公式为${\hat \sigma ^l} = {{{{\left\| {{{\boldsymbol{z}}^l}} \right\|}_2}} / {\sqrt M }}$ , 它随着迭代次数的变化而变化. 利用降噪器实现阈值函数的迭代阈值算法称为基于去噪的迭代阈值(Denoising-based iterative threshold, DIT)算法[17], 迭代公式为:$${{\boldsymbol{s}}^{l + 1}} = {D_{{{\hat \sigma }^l}}}({{\boldsymbol{s}}^l} + {{\boldsymbol{A}}^{\rm{H}}}{{\boldsymbol{z}}^l})\tag{8a}$$ $${{\boldsymbol{z}}^l} = {\boldsymbol{y}} - {\boldsymbol{A}}{{\boldsymbol{s}}^l}\tag{8b}$$ 为了解释降噪器在DIT算法中所发挥的作用, 定义
${{\boldsymbol{v}}^l}$ 为有效噪声, 它表示降噪器的输入信号$({{\boldsymbol{s}}^l} + {{\boldsymbol{A}}^{\rm{H}}}{{\boldsymbol{z}}^l})$ 和待估计信号${{\boldsymbol{s}}_0}$ 之间的差:${{\boldsymbol{v}}^l} = {{\boldsymbol{s}}^l} + {{\boldsymbol{A}}^{\rm{H}}}{{\boldsymbol{z}}^l} - {{\boldsymbol{s}}_{\rm{0}}}$ . 通过迭代式(8a)和${{\boldsymbol{s}}^l} + {{\boldsymbol{A}}^{\rm{H}}}{{\boldsymbol{z}}^l} = {{\boldsymbol{s}}_0} + {{\boldsymbol{v}}^l}$ 可得${{\boldsymbol{s}}^{l + 1}} = {D_{{{\hat \sigma }^l}}}({{\boldsymbol{s}}^l} + {{\boldsymbol{A}}^{\rm{H}}}{{\boldsymbol{z}}^l}) = {D_{{{\hat \sigma }^l}}}({{\boldsymbol{s}}_0} + {{\boldsymbol{v}}^l})$ , 相当于对在含有效噪声${{\boldsymbol{v}}^l}$ 的$({{\boldsymbol{s}}_0} + {{\boldsymbol{v}}^l})$ 的信号中, 求得真实信号${{\boldsymbol{s}}_0}$ 的估计信号${{\boldsymbol{s}}^{l + 1}}$ . 在DIT算法中, 大多数降噪器都默认${{\boldsymbol{v}}^l}$ 作为加性高斯白噪声. 不过, 随着迭代次数的增加, 输入降噪器的信号会产生偏差, 会导致${{\boldsymbol{v}}^l}$ 不再满足AWGN, 使得迭代算法性能降低并且估计值收敛到真实值的速度变的很慢[15, 19, 25]. 为了解决这个问题, 在信号恢复中, 采用基于去噪的近似消息传递DAMP算法对DIT算法进行改进. DAMP算法通过增加一个Onsager校正项${{\boldsymbol{b}}^l}\;{\rm{ }}(l = 0, 1, 2, \cdots )$ , 来修正DIT算法l次迭代中有效噪声${{\boldsymbol{v}}^l}$ 与AWGN的偏差, 从而提高算法恢复性能和解决算法收敛慢的问题. DAMP算法如下所示.算法1. DAMP算法
要求. 高斯测量矩阵
${\boldsymbol{A}} \in {\bf R}^{M \times N}$ , 测量值向量${\boldsymbol{y}} \in {\bf R}^M$ , 待估计信号${{\boldsymbol{s}}_0} = vec({{\boldsymbol{\rho}} _0})$ .1. 初始化变量
${{\boldsymbol{s}}^0} = {\bf{0}}$ , 残差${{\boldsymbol{z}}^0} = {\boldsymbol{y}}$ ,${\hat \sigma ^0} = {{{{\left\| {{{\boldsymbol{z}}^0}} \right\|}_2}} / {\sqrt M }}$ , 迭代次数为L;2.
${\rm{for}}\;l = 0, 1, 2, \cdots ,(L - 1) \;{\rm{do}};$ 3.
${{\boldsymbol{s}}^{l + 1}}{\rm{ = }}{D_{{{\hat \sigma }^l}}}\left( {{{\boldsymbol{s}}^l} + {{\boldsymbol{A}}^{\rm{H}}}{{\boldsymbol{z}}^l}} \right)$ ;4.
${{\boldsymbol{b}}^{l + 1}} = {{{{\boldsymbol{z}}^l}{\rm{div}}{D_{{{\hat \sigma }^l}}}({{\boldsymbol{s}}^l} + {{\boldsymbol{A}}^{\rm{H}}}{{\boldsymbol{z}}^l})} / M}$ ;5.
${{\boldsymbol{z}}^{l + 1}}{\rm{ }} = {\boldsymbol{y}} - {\boldsymbol{A}}{{\boldsymbol{s}}^{l + 1}} + {{\boldsymbol{b}}^{l + 1}}$ ;6.
${\hat \sigma ^{l + 1}}{\rm{ = }}{{{{\left\| {{{\boldsymbol{z}}^{l + 1}}} \right\|}_2}} / {\sqrt M }}$ ;7. end for;
8. 返回L次迭代后的估计信号
${{\boldsymbol{s}}^L}$ , 从而得到${{\boldsymbol{\rho}} _0}$ 的估计值.其中,
${\rm{div}}{D_{{{\hat \sigma }^l}}}( \cdot )$ 是散度运算,${{\boldsymbol{b}}^l}$ 为Onsager修正项, 用来修正中间解${{\boldsymbol{z}}^l}$ 的偏差, 使得有效噪声${{\boldsymbol{v}}^l}$ 符合去噪所期望的AWGN模型.散度
${\rm{div}}{D_{{{\hat \sigma }^l}}}( \cdot )$ 是一个不易计算的项, 人们一般采用蒙特卡洛近似来计算散度[19, 26]. 对于一个训练好的降噪器${D_{{{\hat \sigma }^l}}}( \cdot )$ , 利用一个独立的同分布随机向量${\boldsymbol{d}}\sim {\rm N}({\bf{0}},\; {\boldsymbol{I}})$ , 来近似计算散度:$$ \begin{split} &{\rm{div}}{D}_{{\widehat{\sigma }}^{l}}({{\boldsymbol{s}}}^{l}+{{\boldsymbol{A}}}^{{\rm{H}}}{{\boldsymbol{z}}}^{l})=\\ &\qquad\underset{\epsilon \to 0}{\mathrm{lim}}{\rm E}_{{\boldsymbol{d}}}\left\{{{\boldsymbol{d}}}^{\rm T}\left(\frac{{D}_{{\widehat{\sigma }}^{l}}({{\boldsymbol{s}}}^{l}+\epsilon {\boldsymbol{d}})-{D}_{{\widehat{\sigma }}^{l}}({{\boldsymbol{s}}}^{l})}{\epsilon }\right)\right\} \approx\\ &\qquad\frac{1}{\epsilon }{{\boldsymbol{d}}}^{\rm{T}}\left({D}_{{\widehat{\sigma }}^{l}}\left({{\boldsymbol{s}}}^{l}+\epsilon {\boldsymbol{d}}\right)-{D}_{{\widehat{\sigma }}^{l}}\left({{\boldsymbol{s}}}^{l}\right)\right)\\[-15pt]\end{split}$$ (9) 式中,
$ \epsilon $ 是一个很小的数, 设置$ \epsilon ={\Vert {{\boldsymbol{s}}}^{l}\Vert }_{\infty }/1000$ .基于不同的降噪器, DAMP包含许多算法[27], 包括高斯-AMP (Gauss-AMP)、双边-AMP (Bilateral-AMP)、非局部平均-AMP (Non-local means AMP, NLM-AMP)和三维块匹配-AMP (Block matching 3D AMP, BM3D-AMP)[28]等. 本文采用的降噪器
${D_{{{\hat \sigma }^l}}}$ 和散度${\rm{div}}{D_{{{\hat \sigma }^l}}}( \cdot )$ 计算都是通过设计并训练一个深度卷积神经网络DnCNN来实现. 同时通过设计一个学习的基于去噪的近似消息传递LDAMP网络, 来实现算法1的DAMP算法, 并通过多个相同结构的的级联, 来获得高精度的信号${{\boldsymbol{s}}_0}$ 即$vec({{\boldsymbol{\rho}} _0})$ 的估计, 得到密度矩阵${{\boldsymbol{\rho}} _0}$ 的估计.本文通过LDAMP网络, 使用量子系统输出的测量值, 来实现对量子态密度矩阵估计, 具体流程如下:
步骤1. 根据
${\boldsymbol{\rho}} = {{\boldsymbol{\varphi}} _r}{{{\boldsymbol{\varphi}} _r^{\rm{H}}} / {{\rm{tr}}({{\boldsymbol{\varphi}} _r}{\boldsymbol{\varphi}} _r^{\rm{H}})}}$ 生成DnC-NN神经网络的训练集, 验证集和测试集, 具体过程在第3.3节;步骤2. 在9个不同噪声标准差范围下, 训练出相应的DnCNN神经网络, 训练完成后利用测试集对网络进行测试;
步骤3. 对于待估计的密度矩阵
${{\boldsymbol{\rho}} _0}$ , 在不同采样率下利用高斯测量算符获取的输出测量值${{\boldsymbol{y}}_0}$ . 对于含噪声情况下测量值, 通过${\boldsymbol{y}} = awgn({{\boldsymbol{y}}_0}, SNR)$ 添加固定SNR数值的高斯噪声获得好噪声测量值${\boldsymbol{y}}$ ;步骤4. 设计一个包含训练好的DnCNN网络和实现DAMP算法的10层LDAMP网络, 网络各层中的DnCNN是根据当前层的噪声标准差估计
$\hat \sigma $ 落入的9个范围来选定. LDAMP网络的输入为测量值${{\boldsymbol{y}}_0}$ 或${\boldsymbol{y}}$ ;步骤5. LDAMP网络最后的输出为根据输入测量值
${{\boldsymbol{y}}_0}$ 或${\boldsymbol{y}}$ 得到的估计的密度矩阵${\hat {\boldsymbol{\rho}} _0}$ .3. LDAMP和DnCNN网络的结构设计及其训练
第3.1节对LDAMP网络的结构进行设计; 第3.2节进行DnCNN降噪器及其中的卷积神经网络的结构设计; 第3.3节进行DnCNN降噪器中神经网络的训练过程.
3.1 LDAMP网络的结构设计
LDAMP网络由L层相同的AMP网络结构级联而成, 其中, LDAMP网络单层的结构图如图1所示. 每层网络包含两个在固定噪声标准差区间下训练好的DnCNN降噪器, 一个用于计算每层AMP网络的输出
${{\boldsymbol{s}}^{l + 1}}$ , 另一个用于实现散度${\rm{div}}{D_{{{\hat \sigma }^l}}}( \cdot )$ . 图1中的${{\boldsymbol{x}}^l} = {{\boldsymbol{s}}^l} + {{\boldsymbol{A}}^{\rm{H}}}{{\boldsymbol{z}}^l}$ 为LDAMP网络的第$(l + 1)$ 层中DnCNN降噪器的输入信号,${\hat {\boldsymbol{v}}^l}$ 为降噪器中DnCNN卷积神经网络的输出, 它表示对有效噪声${{\boldsymbol{v}}^l}$ 的估计.需要指出的是, LDAMP网络中只有DnCNN降噪器是由神经网络设计而成, 而网络的其他部分只是对DAMP算法的实现.
对于L层的LDAMP网络, 可以使用不同的方法来训练, 包括端到端训练, 逐层训练和逐降噪器训练, 其中, 端到端训练是指将L层的LDAMP网络视作一个整体, 同时训练网络的所有权值. 这是训练神经网络的标准方法. 逐层训练是指每次训练LDAMP网络中的一层AMP网络来恢复信号, 固定这些权值, 然后添加一层AMP网络, 训练产生的2层网络的第2层来恢复信号, 再固定这些权值, 重复操作直到已经训练一个L层LDAMP网络. 逐降噪器训练是指将DnCNN降噪器从网络中单独出来, 并在不同噪声标准差范围区间下训练每个降噪器的AWGN去噪问题, 从而得到多个不同去噪水平的降噪器, 以供LDAMP网络中的各层选择, 即每层AMP网络, 根据当前层的噪声标准差的估计, 来选择使用哪一个降噪器.
本文采用的逐降噪器训练方法是最小均方误差(Minimum mean squared error, MMSE)[17] 最优的. 具体训练过程为: 首先, 对噪声水平的预期范围进行离散化, 将噪声标准差[0, 2]范围内的噪声分成多个小范围; 然后, 在这些小范围噪声水平下训练DnCNN降噪器, 得到多个训练好的降噪器模型; 最后, LDAMP网络实现时, 每层网络根据本层的噪声标准差估计
$\hat \sigma $ 落在某个区间内, 来选择在该噪声标准差区间下训练好的降噪器模型. LDAMP网络易于训练, 可以应用于各种不同的测量矩阵, 并带有一个可以准确预测其性能的状态演化框架.状态演化(State evolution, SE)是一个可以预测LDAMP网络各级的输出与真实信号之间MSE性能的分析框架. 它由一系列SE方程组成:
$${\theta ^{l + 1}}\left( {{{\boldsymbol{s}}_0},\eta ,\gamma _w^2} \right) = \frac{1}{N}{{\rm{E}}_{{w}}}\left\| {{D_{{\sigma ^l}}}\left( {{{\boldsymbol{s}}_0} + {\sigma ^l}{{w}}} \right) - {{\boldsymbol{s}}_0}} \right\|_2^2$$ (10) $$ {\left( {{\sigma ^l}} \right)^2} = \frac{1}{\eta }{\theta ^l}\left( {{{\boldsymbol{s}}_0},\eta ,\gamma _{{w}}^2} \right) + \gamma _{{w}}^2 $$ (11) 式中,
${{\boldsymbol{s}}_0}$ 是信号${\boldsymbol{s}}$ 的确定性实现,$\eta = {M / N}$ 表示采样比率, 标量$\gamma _{m{w}}^{\rm{2}}$ 是测量噪声${{w}}$ 的方差, 符号${\theta ^l}({{\boldsymbol{s}}_0}, \eta ,\gamma _{{w}}^2)$ 为LDAMP网络的第l层去噪输出的平均MSE, 且${\theta ^{\rm{0}}} = {{\left\| {{{\boldsymbol{s}}_{\rm{0}}}} \right\|_{\rm{2}}^{\rm{2}}} / N}$ . 在一个大系统$({{N}} \to \infty )$ 中, SE方程可以从LDAMP网络本身来解释. 这种解释主要依赖于降噪器输入${{\boldsymbol{x}}^l} = {{\boldsymbol{s}}^l} + {{\boldsymbol{A}}^{\rm{H}}}{{\boldsymbol{z}}^l} = {{\boldsymbol{s}}_0} + {{\boldsymbol{v}}^l}$ 中等效的AWGN模型, 其中降噪器输出的平均MSE是通过式(9)中的蒙特卡罗方法计算的. 式(10)中的期望只涉及到分布${{w}}\;{\rm{\sim }}\;{\rm N}\left( {{\bf{0}},\gamma _{{w}}^2{\boldsymbol{I}}} \right)$ , 有效噪声${{\boldsymbol{v}}^l}$ 的方差${\left( {{\sigma ^l}} \right)^2}$ 由式(11)计算得到. 通过递推更新式(10)和式(11), 将根据SE方程所得到的理论性能, 与本文提出的LDAMP网络的平均MSE性能进行对比.3.2 DnCNN降噪器的结构设计
在DnCNN神经网络结构设计上, DnCNN网络源于对VGG网络的改进, 去除了池化层和全连接层, 在卷积层(Convolution, Conv)和修正线性单元(Rectified linear unit, ReLU)[29]之间加入了批归一化(Batch normalization, BN)[30]. 这种改变可以减轻内部协变量移位[18]带来的影响, 从而提高网络的学习收敛速度. 在模型学习中, DnCNN借鉴了ResNet的残差学习方法[31-33], 来提高训练速度和去噪性能.
图2为DnCNN降噪器的网络结构图,图3是DnCNN降噪器输入变量的尺寸变换过程图. 输入矢量的维数为
$d \times d$ , 其中$d = {2^n}$ ,$n$ 为量子态的位数. 深度为D的DnCNN神经网络, 在本文应用中, D取值为20. 本文设计的DnCNN有三种不同的网络层, 具体排列顺序为: 第1层为卷积层$+ $ 修正线性单元(Conv$+ $ ReLU): 使用64个大小为$3 \times 3 \times 1$ 的卷积核(或称为滤波器), 生成64个特征图. 然后, 使用修正线性单元进行非线性处理. 第2 ~$(D-1)$ 层为卷积层 + 批归一化 + 修正线性单元(Conv$+ $ BN$+ $ ReLU), 使用64个大小为$3 \times 3 \times 64$ 的卷积核, 在卷积层和ReLU层之间加入BN层. 最后一层为卷积层(Conv), 使用1个大小为$3 \times 3 \times 64$ 的卷积核重构输出.DnCNN神经网络的输入是有噪声的信号矩阵
${\boldsymbol{x}} \in {\bf R}^{d \times d}$ , 所以LDAMP网络各层把数据输入到DnCNN神经网络之前, 需要将列向量变成原始信号大小的矩阵形式, 变换过程如图3所示. 含噪声输入的矩阵${\boldsymbol{x}}$ 和向量${{\boldsymbol{x}}^l}$ 分别为:$${\boldsymbol{x}}{\rm{ }} = {{\boldsymbol{\rho}} _0} + {\boldsymbol{v}}$$ (12) $${{\boldsymbol{x}}^l} = {{\boldsymbol{s}}_0} + {{\boldsymbol{v}}^l}$$ (13) 式中,
${\boldsymbol{x}} \in {\bf R}^{d \times d}$ 是输入向量${{\boldsymbol{x}}^l} \in {\bf R}^{{d^2}}$ 转化成的矩阵形式,${{\boldsymbol{\rho}} _0} \in {\bf R}^{d \times d}$ 是真实信号${{\boldsymbol{s}}_0} \in {\bf R}^{{d^2}}$ 的矩阵形式,${\boldsymbol{v}} \in {\bf R}^{d \times d}$ 是有效噪声${{\boldsymbol{v}}^l} \in {\bf R}^{{d^2}}$ 转化成的矩阵形式. 不同于其他去噪方法, 如多层感知器(Multi-layer perceptron, MLP)和收缩域级联(Cascade of sh-rinkage fields, CSF)算法[34]是学习一个映射函数${\cal{F}}({\boldsymbol{x}}) = {\boldsymbol{s}}$ 来估计真实的信号${{\boldsymbol{s}}_0}$ , DnCNN神经网络采用残差学习规则训练映射${\cal{R}}({\boldsymbol{x}}) = \hat {\boldsymbol{v}}$ 来估计真实噪声信号${\boldsymbol{v}}$ , 然后得到的信号估计为${\boldsymbol{s}} = {\boldsymbol{x}} - {\cal{R}}({\boldsymbol{x}})$ . DnCNN神经网络的损失函数表示为:$$l(\Theta ) = \frac{1}{{2Q}}\sum\limits_{i = 1}^N {||{\cal{R}}(} {x_i};\Theta ) - ({x_i} - {s_i})||_{\rm{F}}^2$$ (14) 它是估计噪声信号
${\cal{R}}({\boldsymbol{x}};\Theta )$ 与真实噪声信号${\boldsymbol{v}} = {\boldsymbol{x}} - {{\boldsymbol{s}}_0}$ 之间的均方误差. 其中,$Q$ 是批大小(Batch Size),$\Theta $ 是DnCNN神经网络中可以调整的参数, 包括网络的权值和偏置, 训练次数和目标误差等.在许多信号恢复算法中, 通常要求输出信号的尺寸与输入信号的尺寸一致, 这可能会导致恢复的矩阵信号中边界元素值受到较大影响, 也就是产生边界伪影. 为了保证隐含层的每个特征信号与输入信号的尺寸大小相同, 在DnCNN神经网络的每个卷积层中进行卷积运算之前, 对输入卷积层的信号采用简单的零填充策略, 不过这种零填充策略不会产生任何边界伪影[18].
3.3 DnCNN神经网络训练过程
在对DnCNN神经网络进行训练时, 采用的样本数据的尺寸大小为
${2^4} \times {2^4} = 16 \times 16$ , 也就是4个量子位的密度矩阵. 对样本数据加入不同标准差范围下的高斯噪声作为训练输入, 原始样本数据作为训练输出目标, 在未知高斯噪声水平下训练DnCNN神经网络. 为了训练更小噪声范围下的DnCNN网络, 将噪声标准差范围[0, 2]划分成9个小范围, 具体分段结点为0、0.005、0.01、0.03、0.05、0.1、0.3、0.5、1和2, 并在这9个小范围噪声水平下分别训练了DnCNN网络. 然后LDAMP网络根据各级的噪声标准差估计$\hat \sigma $ 的大小选择对应的DnCNN模型. 训练和测试过程中, 样本数据包含满足和近似满足量子态密度矩阵性质的矩阵, 其中满足性质的两种量子态的密度矩阵生成公式为:$${\boldsymbol{\rho}} = \frac{{{{\boldsymbol{\varphi}} _r}{\boldsymbol{\varphi}} _r^{\rm{H}}}}{{{\rm{tr}}({{\boldsymbol{\varphi}} _r}{\boldsymbol{\varphi}} _r^{\rm{H}})}}$$ (15) 式中,
${{\boldsymbol{\varphi}} _r}$ 为$d \times r$ 的Wishart矩阵, 并且矩阵内各元素满足高斯分布[35].$r = 1$ 时, 为叠加态密度矩阵,$r > 1$ 时为一般混合态密度矩阵.本文研究的另外两种量子态还包括本征态和对角混合态, 其中本征态密度矩阵为仅有对角线某一位置有元素为1, 其他位置元素均为0的矩阵, 对角混合态密度矩阵为仅在对角线上所有位置有非0元素, 且对角线所有元素之和为1, 其他位置元素均为0的矩阵. 样本数据中近似满足性质的矩阵是指在构造样本数据时, 改变部分满足性质的密度矩阵中的元素, 加入一些噪声干扰, 使矩阵的迹在[0, 1]之间且近似共轭对称的半正定矩阵. 在构造过程中, 采用[0, 1]之间的随机数乘以原始密度矩阵或在原始矩阵生成过程中给矩阵
${{\boldsymbol{\varphi}} _r}$ 的共轭转置矩阵${\boldsymbol{\varphi}} _r^{\rm{H}}$ 添加噪声干扰. 值得注意的是, 训练集和测试集中近似满足性质的密度矩阵所占的比例在30% ~ 50%可以取得较好的估计效果, 另外[0, 0.5]之间的随机数应多于(0.5, 1]之间的随机数. 这种构造方法的原因是因为LDAMP网络具有数层相同的结构, 网络的初始输入${{\boldsymbol{s}}^0} = vec({{\boldsymbol{\rho}} ^0})$ 为零向量, 网络的最终输出${\hat {\boldsymbol{\rho}} ^L}$ 为估计的密度矩阵, 所以网络进行密度矩阵估计是各层网络渐近逼近真实密度矩阵的过程, 因此需要大量的中间估计结果和少量的零矩阵包含在训练样本集中.在训练DnCNN时, 本文使用了9900
$ \times 128=$ 1267200个样本用于训练, 1100$\times 128= $ 140800个样本用于验证和11 × 128 = 1408个样本矩阵用于测试. 训练集、验证集及测试集中4种量子态密度矩阵的比例为本征态:对角混合态:叠加态:一般混合态 = 1:2:4:4. 所有的样本矩阵在生成时都是无噪声样本, 而在训练、验证和测试时, 会在对应的噪声水平范围内加入噪声. 为了获取足够的空间信息进行去噪, 将DnCNN神经网络的深度设置为20层. 采用了一种鲁棒的初始化方法MSRA[36]来初始化DnCNN神经网络权值, 并采用权值衰减为0.0001、动量为0.9、小批量尺寸为128的带动量的随机梯度下降法(Stochastic gradient descent with momentum, SGDM)训练网络. 为每个小范围噪声水平下的神经网络设置的最大训练次数为50, 最大允许无用训练次数(Max bad epochs, MBE)为2, 初始无用训练次数(Bad epochs, BE)为0. 在训练过程中, 初始最小验证误差采用验证集验证未训练的网络得到, 后续过程中, 网络训练一次就验证一次得到新的验证误差, 并将新的验证误差与上一次的验证误差相比, 如果小于上一次的验证误差就将此次验证误差设置为最小验证误差并将BE清零, 否则最小验证误差不变并将BE加1. 当BE大于等于MBE时, 网络就减小学习速率, 并将BE清零. 学习速率变化过程为初始值0.001衰减为0.0001, 最后衰减至0.00001. 当学习速率衰减为0.00001且BE大于等于MBE时, DnCNN神经网络的训练结束. 在实验中, 使用Matlab中的MatCovNet工具箱[37]来实现DnCNN神经网络. 所有实验均在Intel(R) Core(TM) i7-8700K CPU 3.70 GHz、NVIDIA GeForce GTX 1080 GPU的PC上运行的Matlab (R2018b)环境下进行. 所有9个小范围噪声水平下的20层DnCNN网络的GPU训练时间需要59小时左右.4. 量子态估计仿真实验及其结果分析
本节对本文提出的LDAMP网络的量子态估计性能, 在不同参数下, 进行了数值性能对比实验, 进行3个实验:
1)不同噪声标准差区间下, 对所设计训练出的20层DnCNN神经网络降噪器去噪性能的测试实验;
2)本文的LDAMP网络与其他5种不同方法对量子态密度矩阵估计的性能对比实验;
3)不同测量噪声以及不同采样率分别对LDAMP网络估计量子态密度矩阵性能的影响实验.
实验中, 量子状态测量值
${\boldsymbol{y}}$ 是根据式(3)计算:${\boldsymbol{y}} = {\boldsymbol{A}} \cdot vec\left( {{{\boldsymbol{\rho}} _0}} \right) + {{w}}$ , 其中A为随机高斯测量矩阵,${{w}}\;{\rm{\sim }}\;{\rm{N}}\;{\rm{(}}{\bf{0}}{\rm{,}\;}\gamma _{{w}}^2{\boldsymbol{I}})$ 表示测量过程中产生的高斯噪声,${{\boldsymbol{\rho}} _0}$ 为真实密度矩阵, 可以从本征态、叠加态、对角混合态和一般混合态密度矩阵中选取. 定义了三个性能指标来衡量实验结果:1)估计出来的密度矩阵
$\hat {\boldsymbol{\rho}} $ 与真实密度矩阵${{\boldsymbol{\rho}} _{\rm{0}}}$ 之间的归一化距离$D(\hat {\boldsymbol{\rho}} ,{{\boldsymbol{\rho}} _0})$ , 定义为:$$D(\hat {\boldsymbol{\rho}} ,{{\boldsymbol{\rho}} _0}) = {{\left\| {\hat {\boldsymbol{\rho}} - {{\boldsymbol{\rho}} _0}} \right\|_{\rm{F}}^2} / {\left\| {{{\boldsymbol{\rho}} _0}} \right\|}}_{\rm{F}}^2$$ (16) 当
$D(\hat {\boldsymbol{\rho}} ,{{\boldsymbol{\rho}} _0})$ 大于1时, 取1, 范围是[0, 1]; 并且当2个矩阵完全相同时,$D(\hat {\boldsymbol{\rho}} ,{{\boldsymbol{\rho}} _0})$ 为0.2)估计的密度矩阵与真实密度矩阵之间的均方误差MSE, 定义为:
$${{MSE}} = {\rm E}_{{w}}\left\{ {{{\left\| {\hat {\boldsymbol{\rho}} - {{\boldsymbol{\rho}} _0}} \right\|_2^2} / {{d^2}}}} \right\}$$ (17) 当MSE以dB作为单位时, 定义为:
$${{MSE}}{\rm{(dB) = 10l}}{{\rm{g}}}({{MSE}})$$ (18) 3)估计的密度矩阵与真实密度矩阵之间的保真度(Fidelity)[38]:
$${{Fidelity}} = {\rm{tr}}\left( {\sqrt {\sqrt {{{\boldsymbol{\rho}} _{\rm{0}}}} \hat {\boldsymbol{\rho}} \sqrt {{{\boldsymbol{\rho}} _{\rm{0}}}} } } \right)$$ (19) 式中, 保真度的范围是[0, 1], 并且当2个矩阵完全相同时, 保真度为1[39].
4.1 DnCNN去噪性能的测试实验
图4为使用11 × 128 = 1408个随机样本矩阵, 分别测试噪声水平分别从[0, 0.005], (0.005, 0.03], ···, (1, 2]共9个范围情况下, 对训练后得到的20层DnCNN进行去噪性能的测试实验的误差曲线图, 其中方形实线表示网络输入样本与对应的无噪声样本之间的平均均方误差MSE (dB); 圆圈虚线为网络输出样本与对应的无噪声样本之间的平均均方误差MSE (dB); 三角形实线是输出误差与输入误差之间的MSE比值变化曲线. 由图4可以看出, 网络输出误差始终小于输入误差, 并且随着噪声标准差的增加, 输出误差与输入误差之间的比值逐渐减小: 从[0, 0.005]区间的0.5956减小至(1, 2]区间的0.0311. 这说明, 当输入噪声很小时, 输出误差仍然能够滤掉接近一半噪声, 随着噪声的增加, 去噪效果越明显. 表明经过训练后的DnCNN降噪器拥有良好的去噪效果.
4.2 LDAMP网络与其他方法的对比实验
本节中将本文的LDAMP网络与ADMM算法, 以及其他4种DAMP算法(BM3D-AMP、NLM-AMP、Gauss-AMP和Bilateral-AMP)对量子态估计的性能, 进行对比实验. 实验中采用的样本为对角混合态密度矩阵. 分别在采样率从0.05每隔0.05增加到0.5, 测量噪声强度固定为SNR = 40 dB情况下, 不同量子态估计方法的归一化距离随采样率变化情况, 实验结果如图5所示. 固定采样率
$\eta = 0.1$ , 不同量子态估计方法的MSE (dB)性能随SNR变化情况如表1所示. 由图5可以看出, 在每一个采样率下, LDAMP网络的性能是所有算法中最好的, 并且在采样率为0.15时, 就能够达到${10^{ - 3}}$ 的性能. 由表1可以看出, 在所有不同噪声等级干扰和无噪声情况下, LDAMP网络的估计性能均优于其他方法, 并且在无噪声干扰下的MSE (dB)为 −41.0905 dB, 估计误差达到${10^{ - 4}}$ 量级.表 1 当$\eta = 0.1$ 时, LDAMP网络和其他方法的MSE (dB)性能比较Table 1 Comparison of MSE (dB) performance between LDAMP network and other methods with$\eta = 0.1$ SNR 0 10 20 30 40 50 60 70 80 无干扰 LDAMP −25.7984 −29.0129 −32.8600 −33.6109 −36.0653 −36.5386 −38.0527 −38.9837 −40.0702 −41.0905 ADMM −14.6620 −23.0837 −30.2725 −33.0952 −34.5782 −35.3161 −35.4256 −35.5693 −35.9288 −36.1332 BM3D-AMP −24.8475 −25.1181 −25.3271 −25.7576 −26.2451 −26.4625 −26.7987 −26.7337 −26.9364 −27.3626 NLM-AMP −25.6457 −25.2723 −25.1595 −25.3828 −25.4296 −25.5618 −25.7596 −25.9587 −26.0826 −26.2108 Gauss-AMP −25.6424 −25.6433 −25.6620 −25.6991 −25.6728 −25.6729 −25.6786 −25.6985 −25.6940 −25.7053 Bilateral-AMP −25.1949 −25.1813 −25.1152 −25.1163 −25.1209 −25.1663 −25.2087 −25.2193 −25.2296 −25.2332 4.3 LDAMP网络的量子态估计实验
本节采用本文设计出的具有20层DnCNN以及10层算法迭代的LDAMP网络, 在无和有噪声的2种情况下, 分别对本征态、叠加态、对角混合态和一般混合态的估计进行了性能对比实验. 影响状态估计性能的因素有采样率的多少和噪声的大小, 共进行了4个实验.
1)不同采样率下无和含固定测量噪声的量子状态估计实验
在采样率从0.05每隔0.05增加到0.5, 分别在无和含固定测量噪声SNR
$= 40$ dB两种情况下, 对4种不同算法的量子状态进行了网络训练设计, 网络的估计结果与真实状态之间的归一化距离变化过程如图6所示. 从图6可以看出, 随着采样率的增加, 所有状态估计的归一化距离呈下降趋势, 估计效果逐渐变好. 由于测量噪声的存在, 所有状态的估计结果均略差于无噪声情况下的状态估计. 其中, 本征态的估计最为准确, 归一化距离均可以在最低采样率0.05时达到${10^{ - 4}}$ 量级, 其在无噪声情况下的保真度为0.999993, 有噪声情况下的保真度为0.989028. 对角混合态的估计次之, 其在0.15采样率时无噪声情况下的归一化距离(保真度)才达到0.0017 (0.999898). 这2种量子状态具有较为简单的密度矩阵结构, 因此在估计时也达到了较好的估计效果. 在无噪声情况下, 叠加态在采样率0.3时的归一化距离(保真度)达到0.0037 (0.980570); 一般混合态在采样率0.5时的归一化距离(保真度), 达到0.0198 (0.992958). 在采样率小于0.3时, 对角混合态的估计效果不如一般混合态; 当采样率大于0.3时, 对角混合态效果优于一般混合态. 对于这种现象, 经过采用多个不同密度矩阵的验证, 可以得出以下原因: 在采样率较小时, 两种状态的估计效果均不理想, 但是由于叠加态密度矩阵中元素数值相对一般混合态中的元素数值较大一些, 所以计算出的归一化距离的值会更大, 而采样率变大后, 两种状态的估计效果均逐渐变好, 由于叠加态相对于一般混合态的密度矩阵结构更为简单, 此时叠加态的估计效果明显优于一般混合态, 其归一化距离更低.2)三种采样率及噪声固定下不同层数的LDAMP网络的性能实验
图7为固定噪声SNR = 40 dB, 采样率分别取0.05、0.1 和0.2三种情况下, 不同层数的LDA-MP网络估计效果与式(10)和式(11)所示的SE方程的MSE (dB)性能对比的实验结果, 其中虚线为SE方程在三个不同采样率下的性能, 实线为本文设计的LDAMP网络所对应的性能Sim. 由图7可以看出, 在采样率低于0.2时, LDAMP网络在10层内收敛; 而采样率大于0.2 时, 对于混合态和叠加态, LDAMP网络则需要更多的层数达到收敛, 这也与密度矩阵的复杂度相关, 同时表明本文设计的LDAMP网络的高效性.
3)固定采样率在无和有噪声下对角混合态的估计性能对比实验
图8为固定采样率0.1, 在无和分别含SNR = 30 dB和SNR = 40 dB测量噪声的情况下, 对角混合态真实密度矩阵
${{\boldsymbol{\rho}} _3}$ 测量值的柱状图. 图8中3个测量值之间的对比表现出不同大小测量噪声对真实测量值的影响效果. 由图8可以看出, 30 dB明显比40 dB等级的噪声影响更大, 这种影响持续体现在对真实量子态的估计上.图9为相同情况下, 对角混合态真实密度矩阵
${{\boldsymbol{\rho}} _3}$ 与密度矩阵估计${\hat {\boldsymbol{\rho}} _3}$ 、${\hat {\boldsymbol{\rho}} _3}\;({{w}} = 30\;{\rm{dB}})$ 和${\hat {\boldsymbol{\rho}} _3}\;({{w}} = 40\;{\rm{dB}})$ 的模值元素分布图. 估计出来的3个密度矩阵与${{\boldsymbol{\rho}} _3}$ 之间的归一化距离分别为0.1492、0.3197和0.1614.4) 3种采样率下4种不同量子态在不同噪声的估计性能实验
为了研究测量噪声和采样率对量子态估计的具体影响, 还进行了采样率分别为0.05、0.1和0.2时, 4种不同量子态估计后的MSE (dB)随测量噪声大小的变化的实验, 实验结果如图10所示. 由图10可以看出, 在采样率和噪声水平分别固定时, 所有量子态估计的MSE均随另一个未固定量的增加而减小, 其中SNR增加时表示噪声水平降低. LDAMP网络的性能可以随着采样率的增加而提高. 不同量子态的表现也有差异, 对于本征态, LDAMP网络在采样率
$\eta = 0.1$ 的情况下, 就能够获得优良的性能. 而对于其他3种量子态, 则需要增加采样率来达到期望的估计效果.5. 结束语
本文训练出一个具有20层的降噪卷积神经网络(DnCNN), 与基于去噪的近似消息传递(DA-MP)算法相结合, 设计出一个10层的基于学习去噪的近似消息传递(LDAMP)网络, 并将其应用于量子状态估计中. 本文提出的LDAMP网络在量子态估计中的性能, 优于基于压缩感知理论最先进的三维块匹配近似消息传递BM3D-AMP信号恢复算法和ADMM算法, 为采用深度学习网络进行量子态估计开辟了一条新的路径. 更加深入的研究是带有虚部的深度学习网络的量子态估计, 以及实现在线量子态估计[40]的深度学习网络的实现.
-
表 1 两个仿真实验的主要参数
Table 1 Main parameters of two experimental examples
符号 例 1 例 2 $ {\cal{Q}} $ $ 0.01I_2 $ $ 0.1I_2 $ $ {\cal{R}} $ $ I $ $ I $ $ \gamma $ $ 0.01 $ $ 0.1 $ $ \Gamma $ $ 0.2 $ $ 0.35 $ $ \beta $ $ 1/6 $ $ 7/27 $ $ \epsilon $ $ 10^{-5} $ $ 10^{-5} $ -
[1] Li C D, Yi J Q, Lv Y S, Duan P Y. A hybrid learning method for the data-driven design of linguistic dynamic systems. IEEE/CAA Journal of Automatica Sinica, 2019, 6(6): 1487-1498 [2] Basar T, Bernhard P. $H_{\infty}$ optimal control and related minimax design problems: A dynamic game approach. IEEE Transactions on Automatic Control, 1996, 41(9): 1397-1399 doi: 10.1109/TAC.1996.536519[3] Dong J X, Hou Q H, Ren M M. Control synthesis for discrete-time T-S fuzzy systems based on membership function-dependent $H_{\infty}$ performance. IEEE Transactions on Fuzzy Systems, 2020, 28(12): 3360-3366 doi: 10.1109/TFUZZ.2019.2950879[4] Qian D W, Li C D, Lee S G, Ma C. Robust formation maneuvers through sliding mode for multi-agent systems with uncertainties. IEEE/CAA Journal of Automatica Sinica, 2018, 5(1): 342-351 [5] Mathiyalagan K, Su H Y, Shi P, Sakthivel R. Exponential $H_{\infty}$ filtering for discrete-time switched neural networks with random delays. IEEE Transactions on Cybernetics, 2015, 45(4): 676-687 doi: 10.1109/TCYB.2014.2332356[6] Werbos P J. Approximate dynamic programming for real-time control and neural modeling. In: Proceedings of the Handbook of Intelligent Control: Neural, Fuzzy, and Adaptive Approaches. New York, USA: 1992. [7] Heydari A. Stability analysis of optimal adaptive control under value iteration using a stabilizing initial policy. IEEE Transactions on Neural Networks and Learning Systems, 2018, 29(9): 4522-4527 doi: 10.1109/TNNLS.2017.2755501 [8] Al-Tamimi A, Lewis F L, Abu-Khalaf M. Discrete-time nonlinear HJB solution using approximate dynamic programming: Convergence proof. IEEE Transactions on Systems, Man, and Cybernetics, Part B (Cybernetics), 2008, 38(4): 943-949 doi: 10.1109/TSMCB.2008.926614 [9] Liu D R, Wei Q L. Generalized policy iteration adaptive dynamic programming for discrete-time nonlinear systems. IEEE Transactions on Systems, Man, and Cybernetics: Systems, 2015, 45(12): 1577-1591 doi: 10.1109/TSMC.2015.2417510 [10] Guo W T, Si J N, Liu F, Mei S W. Policy approximation in policy iteration approximate dynamic programming for discrete-time nonlinear systems. IEEE Transactions on Neural Networks and Learning Systems, 2018, 29(7): 2794-2807 [11] Modares H, Lewis F L, Naghibi-Sistani M-B. Adaptive optimal control of unknown constrained-input systems using policy iteration and neural networks. IEEE Transactions on Neural Networks and Learning Systems, 2013, 24(10): 1513-1525 doi: 10.1109/TNNLS.2013.2276571 [12] Kiumarsi B, Lewis F L. Actor-critic-based optimal tracking for partially unknown nonlinear discrete-time systems. IEEE Transactions on Neural Networks and Learning Systems, 2015, 26(1): 140-151 doi: 10.1109/TNNLS.2014.2358227 [13] 王鼎. 基于学习的鲁棒自适应评判控制研究进展. 自动化学报, 2019, 45(6): 1031-1043 doi: 10.16383/j.aas.c170701Wang Ding. Research progress on learning-based robust adaptive critic control. Acta Automatica Sinica, 2019, 45(6): 1031-1043 doi: 10.16383/j.aas.c170701 [14] Zhao F Y, Gao W N, Liu T F, Jiang Z P. Adaptive optimal output regulation of linear discrete-time systems based on event-triggered output-feedback. Automatica, 2022, 137: 10103 [15] Wang D, Qiao J F, Cheng L. An approximate neuro-optimal solution of discounted guaranteed cost control design. IEEE Transactions on Cybernetics, 2022, 52(1): 77-86 doi: 10.1109/TCYB.2020.2977318 [16] Niu B, Liu J D, Wang D, Zhao X D, Wang H Q. Adaptive decentralized asymptotic tracking control for large-scale nonlinear systems with unknown strong interconnections. IEEE/CAA Journal of Automatica Sinica, 2022, 9(1): 173-186 doi: 10.1109/JAS.2021.1004246 [17] Wang D, Ha M M, Zhao M M. The intelligent critic framework for advanced optimal control. Artificial Intelligence Review, 2022, 55(1): 1-22 [18] Zhang H G, Wei Q L, Luo Y H. A novel infinite-time optimal tracking control scheme for a class of discrete-time nonlinear systems via the greedy HDP iteration algorithm. IEEE Transactions on Systems, Man, and Cybernetics–Part B: Cybernetics, 2008, 38(4): 937-942 [19] Li C, Ding J L, Lewis F L, Chai T Y. A novel adaptive dynamic programming based on tracking error for nonlinear discrete-time systems. Automatica, 2021, 129: 109687 doi: 10.1016/j.automatica.2021.109687 [20] Wang D, Hu L Z, Zhao M M, Qiao J F. Adaptive critic for event-triggered unknown nonlinear optimal tracking design with wastewater treatment applications. IEEE Transactions on Neural Networks and Learning Systems, 2021. DOI: 10.1109/TNNLS.2021.3135405 [21] 王鼎, 赵明明, 哈明鸣, 乔俊飞. 基于折扣广义值迭代的智能最优跟踪及应用验证. 自动化学报, 2022, 48(1): 182-193 doi: 10.16383/j.aas.c210658Wang Ding, Zhao Ming-Ming, Ha Ming-Ming, Qiao Jun-Fei. Intelligent optimal tracking with application verifications via discounted generalized value iteration. Acta Automatica Sinica, 2022, 48(1): 182-193 doi: 10.16383/j.aas.c210658 [22] Postoyan R, Tabuada P, Nesic D, Anta A. A framework for the event-triggered stabilization of nonlinear systems. IEEE Transactions on Automatic Control, 2015, 60(4): 982-996 doi: 10.1109/TAC.2014.2363603 [23] Ha M M, Wang D, Liu D R. Event-triggered constrained control with DHP implementation for nonaffine discrete-time systems. Information Sciences, 2020, 519: 110–123 doi: 10.1016/j.ins.2020.01.020 [24] Sahoo A, Xu H, Jagannathan S. Near optimal event-triggered control of nonlinear discrete-time systems using neurodynamic programming. IEEE Transactions on Neural Networks and Learning Systems, 2016, 27(9): 1801-1815 doi: 10.1109/TNNLS.2015.2453320 [25] Wang D, Ha M M, Qiao J F. Self-learning optimal regulation for discrete-time nonlinear systems under event-driven formulation. IEEE Transactions on Automatic Control, 2020, 65(3): 1272-1279 doi: 10.1109/TAC.2019.2926167 [26] Dong L, Zhong X N, Sun C Y, He H B. Adaptive event-triggered control based on heuristic dynamic programming for nonlinear discrete-time systems. IEEE Transactions on Neural Networks and Learning Systems, 2017, 28(7): 1594-1605 doi: 10.1109/TNNLS.2016.2541020 [27] Dong L, Zhong X N, Sun C Y, He H B. Event-triggered adaptive dynamic programming for continuous-time systems with control constraints. IEEE Transactions on Neural Networks and Learning Systems, 2017, 28(8): 1941-1952 doi: 10.1109/TNNLS.2016.2586303 [28] Zhang H G, Luo Y H, Liu D R. Neural-network-based near-optimal control for a class of discrete-time affine nonlinear systems with control constraints. IEEE Transactions on Neural Networks, 2009, 20(9): 1490-1503 doi: 10.1109/TNN.2009.2027233 [29] Jiang Z P, Wang Y. Input-to-state stability for discrete-time nonlinear systems. Automatica, 2001, 37(6): 857-869 [30] Zhang Y W, Zhao B, Liu D R. Deterministic policy gradient adaptive dynamic programming for model-free optimal control. Neurocomputing, 2020, 387: 40–50 doi: 10.1016/j.neucom.2019.11.032 期刊类型引用(3)
1. 王鼎,李鑫. 迁移增量启发式动态规划及污水处理应用. 北京工业大学学报. 2025(03): 277-283 . 百度学术
2. 王鼎,王将宇,乔俊飞. 融合自适应评判的随机系统数据驱动策略优化. 自动化学报. 2024(05): 980-990 . 本站查看
3. 王鼎,范文倩,刘奥. 未知不匹配互联系统的非对称输入约束分散控制器设计. 工程科学学报. 2024(12): 2269-2278 . 百度学术
其他类型引用(9)
-