-
摘要: 由于容易实施, 基于投影梯度的分布式在线优化模型逐渐成为一种主流的在线学习方法. 然而, 在处理大数据应用时, 投影步骤成为该方法的计算瓶颈. 近年来, 研究者提出了面向凸代价函数的分布式在线条件梯度算法, 其悔界为${\rm O}(T^{3/4})$, 其中$T$是一个时间范围. 该算法存在两方面的问题, 一是其悔界劣于公认的悔界${\rm O}(\sqrt{T})$; 二是没有分析非凸代价函数的收敛性能, 而实际应用中代价函数大部分是非凸函数. 因此, 提出一种基于条件梯度的加速分布式在线学习算法, 使用Frank-Wolfe 步骤替代投影步骤, 避免昂贵的投影计算. 文中证明当局部代价函数为凸函数时, 所提算法达到公认的悔界${\rm O}(\sqrt{T})$; 当局部代价函数为潜在非凸函数时, 所提算法以速率${\rm O}(\sqrt{T})$收敛到平稳点. 最后, 仿真实验验证了所提算法的性能与理论证明的结论.Abstract: The distributed online optimization model based on projected gradient has become a prominent paradigm for online learning due to its simplicity. However, this paradigm is incapable of handling massive data applications because the projection step becomes the computational bottleneck. Recent studies have presented the distributed online conditional gradient algorithms for convex cost functions, which achieved an O(T 3/4) regret bound, where T is a time horizon. There are two negative problems for those algorithms. The first one is that the regret bound of those algorithms is worse than the well known regret bound ${\rm O}(\sqrt{T})$. The second one is that the convergence performance of the presented algorithms has not been analyzed for non-convex cost functions, which are common in practice. In this paper, we propose an accelerated distributed online learning algorithm based on the conditional gradient method over networks, which avoids the prohibitively expensive projection steps by using Frank-Wolfe step. Moreover, when the local cost functions are convex, we show that the regret bound of ${\rm O}(\sqrt{T})$ is achieved. When the local cost functions are potentially non-convex, we also show that the algorithm converges to some stationary points at rate of ${\rm O}(\sqrt{T})$. Finally, the performance of the proposed algorithm and the theoretical results are verified by simulation experiments.
-
Key words:
- Conditional gradient /
- distributed online learning /
- regret bound /
- convergence rate
-
近年来, 学术界和工业界对分布式优化产生了浓厚的兴趣[1-3]. 实际应用中的许多经典问题本质上都是分布式优化问题. 例如数据管理问题[4-5]、资源分配问题[6-7]、目标检测与跟踪问题[8-9]、智能电网[10]等. 在这些应用中, 数据总量规模庞大, 分散在不同的数据中心; 节点计算能力有限, 分散在不同的物理位置. 为了提高这些系统的工作效率, 均离不开分布式优化算法[11-13].
当前, 多数分布式优化算法的局部代价函数是非时变的. 然而, 在许多动态变化环境中, 局部代价函数可能是时变的. 例如, 传感器网络中的估计问题, 由于受干扰和噪声影响, 每个传感器的观察结果随时间变化. 因此, 动态变化环境的分布式优化须考虑局部代价函数的时变性, 即为分布式在线优化. 在分布式在线优化中, 智能体仅在每一轮动作结束之后才能获得其局部代价函数值, 即智能体无法获取其未来代价函数. 从这个意义上说, 分布式在线优化本质上不同于分布式优化.
近十年来, 机器学习领域主要关注集中式在线优化问题[14], 定义了一个衡量在线优化算法性能的“悔函数”, 即算法代价与事后最佳行为代价之差[15]. 受分布式优化的启发, 一些学者开始研究分布式在线优化算法[16-21]. 具体而言, 针对无约束优化问题, 当代价函数是凸函数时, 可达到悔界$ {\rm O}(\sqrt{T}) $[16-17]; 当代价函数是强凸函数时, 可达到悔界$ {\rm O}((\log T)^2) $[18]或悔界$ {\rm O}(\log T) $[16-17]. 但在实际应用中, 大部分优化问题是受约束的[22]. 因此针对约束优化问题, 当代价函数是凸函数时, 可达到悔界$ {\rm O}(\sqrt{T}) $[19-21]; 当代价函数是强凸函数时, 可达到悔界$ {\rm O}(\log T) $[21].
随着各类智能设备的广泛使用, 许多应用中出现了大数据集, 为了避免在线优化算法投影算子造成的大数据计算瓶颈, 就需要考虑高维约束优化问题[23]. 为此, 针对高维约束优化的无投影算法应运而生, 即Frank-Wolfe 算法[24]. 在Frank-Wolfe 算法中, 使用了一个线性优化步骤替代投影算子. 近年来, Frank-Wolfe算法[25-26]在许多领域广受关注. 此外, 多种Frank-Wolfe算法的变体[27-31]也相继提出以解决各种类似问题. 但是这些算法都是针对集中式场景, 难以适应分布式应用. 为此, 针对非时变的代价函数提出一种分布式Frank-Wolfe算法[32]. 但在实际中, 代价函数通常是随时间变化的. 针对此问题提出了无投影分布式在线算法[33-34], 可以达到凸局部代价函数的悔界$ {\rm O}(T^{3/4}) $. 但这个悔界劣于分布式在线优化算法领域公认的悔界$ {\rm O}(\sqrt{T}) $.
因此, 进一步优化分布式在线学习算法的悔界仍然是一个亟待解决的问题. 本文针对多智能体网络中的高维约束优化问题, 使用Frank-Wolfe步骤替代投影算子, 提出了一种分布式条件梯度在线学习算法, 主要贡献如下:
1) 提出了Frank-Wolfe在线学习算法, 每个智能体仅利用自己及从邻居接收的信息进行分布式在线学习, 解决了某些场景无法使用集中式学习的应用需求.
2) 分析了所提算法的性能. 当局部代价函数为凸时, 算法的悔界为$ {\rm O}(\sqrt{T}) $; 当局部代价函数为非凸时, 算法以速率$ {\rm O}(\sqrt{T}) $收敛于平稳点. $ {\rm O}(\sqrt{T}) $是当前同类算法能够达到的最好性能.
3) 通过仿真实验验证了所提出算法的性能和理论分析的结论.
本文其余部分安排如下: 第1节给出一些预备知识; 第2节对所研究问题进行形式化描述, 并提出了一种分布式条件梯度在线学习算法; 第3节给出了一些假设和主要结果; 第4节对主要结果进行详细证明; 第5节描述了仿真实验与仿真结果; 最后, 对本文进行了总结.
1. 符号及定义
为了方便描述, 本节介绍一些符号约定和数学基础. 在本文中, 所有向量都是列向量, 符号$ {\bf{ R}} $和$ {\bf{ R}}^d $分别表示实数集和$ d $维实欧几里得空间; 符号$ {\bf{ R}}^+ $和$ {\bf{ Z}}^+ $分别表示正实数集和正整数集; 符号$ \langle \cdot, \cdot \rangle $表示实欧几里得空间的内积; 符号$ \left\|\cdot\right\|_2 $表示标准欧几里得范数. 设$\boldsymbol{1}$表示向量中所有元素为1的列向量; $ D $表示约束集$ X $相对于标准欧几里得范数$ \left\|\cdot\right\|_2 $的直径, 例如 $ D = \sup_{\boldsymbol{x},\boldsymbol{x}^{\prime}\in X}\left\|\boldsymbol{x}-\boldsymbol{x}^{\prime}\right\|_2 $. $ {\rm{E}}\left[X\right] $表示随机变量$ X $的期望值. 设凸紧集$ X $是$ {\bf{R}}^d $的一个子集. 此外, 与函数$ f $相关的一些定义表述如下.
定义 1[35]. 对于任意的$ \boldsymbol{x}, \boldsymbol{y}\in X $, $ \alpha\in\left[0,1\right] $, 若有$ f\left(\alpha \boldsymbol{x}+\left(1-\alpha\right)\boldsymbol{y}\right)\leq \alpha f\left(\boldsymbol{x}\right)+\left(1-\alpha\right)f\left(\boldsymbol{y}\right) $, 则称函数$ f: X \mapsto \bf{R} $为凸的.
定义 2[32]. 对于任意的$ \boldsymbol{x}, \boldsymbol{y}\in X $, 若有
$$ \begin{equation} f\left(\boldsymbol{y}\right)\geq f\left(\boldsymbol{x}\right)+\langle\nabla f\left(\boldsymbol{x}\right),\boldsymbol{y} - \boldsymbol{x}\rangle+\frac{\mu}{2}\left\|\boldsymbol{y} - \boldsymbol{x}\right\|_2^2 \end{equation} $$ (1) 则称函数$ f: X \mapsto \bf{R} $为$ \mu $-强凸的, 其中$ \mu $是一个非负常数.
定义 3[32]. 对于任意的$ \boldsymbol{x}, \boldsymbol{y}\in X $, 若有
$$ \begin{equation} f\left(\boldsymbol{y}\right)\leq f\left(\boldsymbol{x}\right)+\langle\nabla f\left(\boldsymbol{x}\right),\boldsymbol{y} - \boldsymbol{x}\rangle+\frac{\beta}{2}\left\|\boldsymbol{y} - \boldsymbol{x}\right\|_2^2 \end{equation} $$ (2) 则称函数$ f: X \mapsto \bf{R} $为$ \beta $-光滑, 其中$ \beta $是一个正常数. 另外, 式(2)等价于以下关系式
$$ \begin{equation} \left\|\nabla f\left(\boldsymbol{x}\right)-\nabla f\left(\boldsymbol{y}\right)\right\|_2\leq \beta\left\|\boldsymbol{x} - \boldsymbol{y}\right\|_2 ,\; \; \forall\; \boldsymbol{x}, \boldsymbol{y}\in X \end{equation} $$ (3) 定义 4[32]. 对于任意的$ \boldsymbol{x}, \boldsymbol{y}\in X $, 若有
$$ \begin{equation} \left|f\left(\boldsymbol{x}\right)-f\left(\boldsymbol{y}\right)\right|\leq L\left\|\boldsymbol{x} - \boldsymbol{y}\right\|_2 \end{equation} $$ (4) 则称函数$ f:X \mapsto \bf{R} $为$ L $-Lipchitz, 其中$ L $是一个正常数.
如果函数$ f $是强凸的并且$\boldsymbol{x}^{\ast} = \arg\min_{\boldsymbol{x} \in X} f\left(\boldsymbol{x}\right)$, 则有
$$ \begin{equation} f\left(\boldsymbol{x}\right)-f\left(\boldsymbol{x}^{\ast}\right)\geq \mu\left\|\boldsymbol{x} - \boldsymbol{x}^{\ast}\right\|_2^2 \end{equation} $$ (5) 此时, 若式(1)中的$ \mu = 0 $, 则称函数$ f $为凸函数.
2. 问题形式化和算法
本文考虑一个由$ N $个智能体组成的网络, 表示为图$ G\left(V,E\right) $, 其中, $ V = \left\{1,\cdots,N\right\} $表示智能体的集合, $ E\subseteq V\times V $表示边的集合. 假设图是固定无向图, 符号$ \left(i,j\right)\in E $表示对于所有的$ i,j\in V $, 智能体$ j $可以直接向智能体$ i $发送信息. 若两个智能体可以直接交换信息, 则它们是邻居. $ { N}_j $表示包括智能体$ j $本身的$ j $的邻居集合. 此外, 使用一个$ N $-by-$ N $邻接矩阵$ \boldsymbol A $表示通信模式, 并假设$ \boldsymbol A $为双随机的, 定义为$ \boldsymbol A = \left[a_{ij}\right] $, $ i,j = 1,\cdots,N $.
本文主要研究分布式在线优化问题, 即每个智能体的局部代价函数随时间变化. 在每轮时隙$ t = 1,\cdots,T $中, 智能体$ i\in\left\{1,\cdots,N\right\} $必须从凸紧集$ X\subset{\bf{R}}^d $中选择一个点$ {\boldsymbol x}_i\left(t\right) $. 此时环境生成一个代价函数$ f_t^i: X\mapsto\bf{R} $作为回报, 并且智能体$ i $产生了代价$ f_t^i\left(\boldsymbol x_i\left(t\right)\right) $. 这样, 就转化为在一个时间范围$ T $内协作优化全局代价函数
$$ \begin{equation} \min\limits_{\boldsymbol{x} \in X}f\left(\boldsymbol{x} \right) = \frac{1}{N}\sum\limits_{t = 1}^T\sum\limits_{i = 1}^Nf_t^i\left(\boldsymbol{x} \right) \end{equation} $$ (6) 其中, 代价函数$ f_t^i: X \mapsto\bf{R} $是凸的或是潜在非凸的, 并对于智能体$ i\in V $在$ t\in\left\{1,\cdots,N\right\} $轮选择动作$ \boldsymbol{x}_i\left(t\right) $后依然是有效的. 由于每个智能体只能利用其本地信息及其与邻居交换的信息, 因此需要设计分布式在线学习算法解决在线优化问题(6).
悔函数是衡量在线算法性能的重要指标, 定义为[21]
$$ \begin{equation} R\left(T\right) = \frac{1}{N}\sum\limits_{t = 1}^T\sum\limits_{i = 1}^Nf_t^i\left(\overline{\boldsymbol{x}}\left(t\right)\right)-\min\limits_{\boldsymbol{x}\in X}f\left(\boldsymbol{x}\right) \end{equation} $$ (7) 这样, 研究目标转化为设计一个能够解决问题(6)的分布式在线算法, 可以在$ T $时间达到次线性悔界, 即 $ \lim\sup_{T\to\infty}R\left(T\right)/T = 0 $.
本文借鉴集中式Frank-Wolfe在线学习算法[28], 提出了分布式无投影在线学习算法. 在该算法中, 每一个智能体$ i\in\left\{1,\cdots,N\right\} $线性地组合它自己的估计值和它从邻居接收的估计值, 然后计算一个能够替代局部梯度的聚合梯度. 最后, 每个智能体$ i $执行一个Frank-Wolfe步骤更新它的估计值. 在该算法中, 每个智能体只知道自己的局部信息, 并只采取局部计算和局部通信. 具体算法描述如算法1所示. 相关的更新过程见式(8) ~ (12).
算法1. 基于条件梯度的加速分布式在线学习算法
1) 输入. 起始点$ \boldsymbol{x}_i\left(1\right) $, $ i = 1,\cdots,N $; 最大时间范围$ T $; 双随机矩阵$ \boldsymbol A = \left[a_{ij}\right]\in{\bf{R}}^{N\times N} $; 智能体个数$ N $.
2) for $ t = 1,\cdots,T $ do
3) for 每个智能体$ i = 1,\cdots,N $ do
4) 一致性步骤: 与邻居节点$ \boldsymbol{x}_i\left(t\right) $交互, 即执行式(8).
5) 聚合步骤: 计算聚合梯度代替平均梯度, 即执行式(9)和式(10).
6) Frank-Wolfe步骤: 计算式(11), 并根据式(12)更新估计值$ \boldsymbol{x}_i\left(t\right) $.
7) end for
8) end for
9) 输出. 对于所有$ i\in V $, $ \{\boldsymbol{x}_i\left(t\right): 1\leq t\leq T\} .$
算法$1 $中, 一致性步骤为
$$ \begin{equation} \boldsymbol{z}_i\left(t\right) = \sum\limits_{j\in{{N}}_i}a_{ij}\boldsymbol{x}_j\left(t\right) \end{equation} $$ (8) 聚合步骤为
$$ \begin{split} \boldsymbol{s}_t^i\left(t\right)& = \sum\limits_{j\in{N}_i}a_{ij}\boldsymbol{s}_{t}^j\left(t-1\right)+ \\ &\;\quad\nabla f_t^i\left(\boldsymbol{z}_i\left(t\right)\right)-\nabla f_t^i\left(\boldsymbol{z}_i\left(t-1\right)\right) \end{split} $$ (9) $$ \begin{equation} \boldsymbol{S}_t^i\left(t\right) = \frac{1}{t}\sum\limits_{\tau = 1}^t\sum\limits_{j = 1}^Na_{ij}\boldsymbol{s}_{\tau}^j\left(t\right)\qquad\qquad\;\; \end{equation} $$ (10) Frank-Wolfe步骤为
$$ \begin{equation} \boldsymbol{v}_i\left(t\right) = \arg\min\limits_{\boldsymbol{v}\in X}\langle \boldsymbol{v},\boldsymbol{S}_t^i\left(t\right)\rangle \qquad\;\;\;\;\;\;\;\;\;\;\end{equation} $$ (11) $$ \begin{equation} \boldsymbol{x}_i\left(t+1\right) = \left(1-\gamma\left(t\right)\right)\boldsymbol{z}_i\left(t\right)+\gamma\left(t\right)\boldsymbol{v}_i\left(t\right) \end{equation} $$ (12) 其中, $ \gamma\left(t\right)\in\left(0,1\right) $是学习速率.
3. 假设和主要结果
本节首先给出一些算法的假设, 然后描述本文的主要结果. 假设邻接矩阵$ \boldsymbol A = \left[a_{ij}\right]\in{\bf{R}}^{N\times N} $满足以下假设.
假设1. 图$ G $是强连通图, 对于任意的$i,j\in\{1, \cdots, N\}$, 有$ a_{ii}>0 $; 如果$ \left(i,j\right)\in E $, 则$ a_{ij}>0 $, 否则$ a_{ij} = 0 $. 并假设矩阵$ \boldsymbol A $是双随机矩阵, 即对于所有的$ i,j\in V $, 有$ \sum\nolimits_{j = 1}^Na_{ij} = 1 $和$ \sum\nolimits_{i = 1}^Na_{ij} = 1 $.
假设1是为了保证智能体$ i $的信息能直接或间接传输至其他智能体. 该假设在分布式优化领域中是一个标准假设[21, 32, 36]. 需要注意$ \rho\left(\boldsymbol A-\left({1}/{N}\right)\boldsymbol{1}\boldsymbol{1}^{\rm T}\right)<1 $, 其中$ \rho\left(\cdot\right) $是矩阵的谱半径. 因此, $ \exists \lambda\in\left(0,1\right) $, 对于任意$ \boldsymbol{x}\in{\bf{R}}^{N} $, 有
$$ \begin{split} \left\|\boldsymbol {A}\boldsymbol{x}-\boldsymbol{1}\bar{\boldsymbol{x}}\right\|_2& = \left\|\left(\boldsymbol{A}-\frac{1}{N}\boldsymbol{1}\boldsymbol{1}^{\rm T}\right)\left(\boldsymbol{x}-\boldsymbol{1}\bar{\boldsymbol{x}}\right)\right\|_2 \leq \\ &\quad \lambda\left\|\boldsymbol{x}-\mathbf{1}\bar{\boldsymbol{x}}\right\|_2 \end{split} $$ (13) 其中, $ \bar{\boldsymbol{x}} = \left(1/N\right)\boldsymbol{1}^{\rm T}\boldsymbol{x} $. 当$ \exists \ t_0\in\bf{Z}^+ $且$ \kappa\in\left(0,1\right] $时, $ \lambda $的上界满足
$$ \begin{equation} \lambda\leq\frac{t_0^\kappa}{1+t_0^\kappa}\times\left(\frac{t_0}{1+t_0}\right)^\kappa \end{equation} $$ (14) 同时, 从式(14)可以得出
$$ \begin{equation} t_0\geq\left\lceil\frac{1}{\lambda^{-\frac{1}{{1}+{\kappa}}}-1}\right\rceil \end{equation} $$ (15) 为了分析算法1的收敛性能, 本文分别给出假设2和假设3[28, 32].
假设 2. 约束集$ X $是凸紧集, 最优集$ X^{\ast} $是非空集. $ \boldsymbol{x}^{\ast}\in X^{\ast} $是函数$ f $的最小值, 其中$ \boldsymbol{x}^{\ast} $是$ X $的内部点, 即$\eta = \inf_{\boldsymbol{x}\in\partial X}\left\|\boldsymbol{x} - \boldsymbol{x}^{\ast}\right\|_2 > 0$, 其中$ \partial X $表示约束集$ X $的边界集.
假设2确保可以有效地求解一个线性函数的最小值.
假设 3. 对于所有的$ i\in\left\{1,\cdots,N\right\} $和$t\in\{1,\cdots, T\}$, 局部代价函数$ f_t^i $是$ \beta $-光滑和$ L $-Lipschitz的.
在Frank-Wolfe算法中, 假设3是一个标准假设[28, 30, 32-34], 便于理论分析算法的性能. 因此, 本文也采用该假设.
定义$\Delta\left(t\right) = F_t\left(\overline{\boldsymbol{x}}\left(t\right)\right)-F_t\left(\boldsymbol{x}^{\ast}\left(t\right)\right)$, $F_t = \left(1/t\right)\times \sum\nolimits_{\tau = 1}^t f_{\tau},$ $f_t = \left(1/N\right) \sum\nolimits_{i = 1}^N f_t^i ,$ $\boldsymbol{x} ^{\ast} \left(t\right) \in \arg\min_{\boldsymbol{x}\in X} F_t \left(\boldsymbol{x} \right) .$ 这样, 可以通过获取$ \Delta\left(t\right) $的上界得到悔界.
定理 1. 基于假设1 ~ 3, 令步长$\gamma\left(t\right) = 2/ \left(t+2\right)$, 对于任意的智能体$ i\in\left\{1,\cdots,N\right\} $和 $t\in \left\{1,\cdots,T\right\}$, 假设每个代价函数$ f_t^i $都是一个带正常数$ \mu $的$ \mu $-强凸函数. 则$ \exists \ t_0\in\bf{Z}^+ $, 对于所有的$ t\geq t^{\ast} $, 其中$ t^{\ast} $定义为
$$ \begin{split} t^{\ast}& = \inf \Bigg\{t \geq 1:\frac{2C}{\sqrt{t+1}} + \frac{2C}{9}(1-\theta)\;+ \\ &\;\;\quad(4DC_2+2\beta D^2+4D\bar{\beta}C_1)(1-\theta)\leq 0\Bigg\} \end{split} $$ (16) 则有
$$ \begin{split} \Delta\left(t\right)&\leq \max\left\{\frac{9}{2}\left(\beta D^2+2 DC_2+2 D\beta C_1\right),\vphantom{\frac{\frac{2\eta^2\mu}{\theta^2}-\frac{4C'}{9}+\sqrt{\left(\frac{2\eta^2\mu}{\theta^2}\right)^2-}}{8/81}} \right. \\ &\left. \vphantom{\frac{\frac{2\eta^2\mu}{\theta^2}-\frac{4C'}{9}+\sqrt{\left(\frac{2\eta^2\mu}{\theta^2}\right)^2-}}{8/81}} \frac{\frac{2\eta^2\mu}{\theta^2}-\frac{4C'}{9}+\sqrt{\left(\frac{2\eta^2\mu}{\theta^2}\right)^2-\frac{16}{9}\times\frac{\eta^2\mu}{\theta^2}C'}}{8/81}\right\}\frac{1}{t+1} \end{split} $$ (17) 其中, $C_2 = \sqrt{N}\{[\delta + \dfrac{\beta\left(D+2C_1\right)}{1-\kappa}]+ 2\beta\left(D + 2C_1\right)\}t_0^\kappa\,,$ 且$ \kappa\in\left(0,1\right) $ 和$\delta \in \bf{R}^+\,;$$C_1 = \sqrt{N Dt_0^\kappa } \,,$ $C' = 2\beta D^2\,+$$4 D\beta C_1+4 DC_2 \,,$ $ \theta>1 $.
定理1的证明详见第4节. 由定理1可知, $ F_t(\overline{\boldsymbol{x}}(t)) $以速度$ {\rm O}(1/(t+1)) $收敛到$ F_t(\boldsymbol{x}^{\ast}(t)) $, 而且收敛速度受网络智能体个数以及网络拓扑结构的影响. 由定理1可以得到算法1任意时刻的界, 同时得到算法1的悔界如下.
定理 2. 基于假设1和假设2, 假设对于所有的$ i\in \left\{1,\cdots,N\right\} $和$ t\in\left\{1,\cdots,T\right\} $, 每个代价函数$ f_t^i $是$ L $-Lipchitz和凸的, 并且$ f_t^i $可能是非光滑的. 则对于任意$ \boldsymbol{x}^{\ast}\in X $, 可以得到
$$ \begin{equation} R\left(T\right)\leq 6\sqrt{\rho LD} \sqrt{T+1} \end{equation} $$ (18) 其中,
$$ \rho = \max\{B_1,B_2\} \qquad\qquad\qquad\qquad\qquad $$ $$B_1 = \frac{9}{2}(LD+2DC_2'+2LC_1) \qquad\qquad\quad$$ $$\begin{split} B_2 = &\;\frac{81}{8}\times \Bigg(\frac{2\eta^2L}{D\theta^2}-\frac{4C''}{9}\;+\\& \;\sqrt{\left(\frac{2\eta^2L}{D\theta^2}\right)^2 -\frac{16}{9}\times\frac{\eta^2L}{D\theta^2}C''}\Bigg)\qquad\end{split} $$ $$ C_2' = \sqrt{N}\left\{\left[\delta+\frac{L\left(D+2C_1\right)}{D\left(1-\kappa\right)}\right] + 2\frac{L\left(D+2C_1\right)}{D}\right\}\times t_0^\kappa $$ $$ C'' = 2LD+4LC_1+4DC_2 \qquad\qquad $$ 定理2的证明详见第4节. 根据定理2, 可以得到强凸条件下的平方根悔界, 即算法1可实现悔界$ {\rm O}(\sqrt{T}) $, 其中$ T $是一个时间范围. 同时, 可以看到悔界由约束集$ X $的直径$ D $和局部代价函数梯度的上界$ L $决定. 此外, 悔界也受通信网络连通性的影响. 与文献[33]和文献[34]相比, 本文使用了梯度追踪技术[13]以提高算法的收敛速度. 在文献[33] 和文献[34]中, 它们的悔界都为$ {\rm O}(T^{3/4}) $, 而本文所提算法的悔界为$ {\rm O}(\sqrt{T}) $, 明显优于以上两个工作. 具体比较见表1.
当代价函数可能是非凸时, 为了分析算法1的收敛性, 引入对偶间隙的定义为
$$ \begin{split} \psi\left(t\right) =\;& \max_{\boldsymbol{v}\in X}\left\langle\nabla F_t\left(\overline{\boldsymbol{x}}\left(t\right)\right),\overline{\boldsymbol{x}}\left(t\right)-\boldsymbol{v}\right\rangle = \\ &\phantom{\;}\left\langle\nabla F_t\left(\overline{\boldsymbol{x}}\left(t\right)\right),\overline{\boldsymbol{x}}\left(t\right)-\hat{\boldsymbol{v}}\left(t\right)\right\rangle \end{split} $$ (19) 其中, $\hat{\boldsymbol{v}}(t) \in \arg\min_{\boldsymbol{v}\in X}\langle\nabla F_t(\overline{\boldsymbol{x}}(t)),\boldsymbol{v}\rangle\,.$ 如果$\psi\left(t\right) =$ $0\,, $ 则估计值$ \overline{\boldsymbol{x}}\left(t\right) $是$ \min_{\boldsymbol{x}\in X}F_t\left(\boldsymbol{x}\right) $的固定点. 因此, 本文使用类似文献[25]和文献[30] 的方法分析对偶间隙, 非凸代价函数的收敛结果如下.
定理 3. 基于假设1 ~ 3, 令步长$ \gamma\left(t\right) = 1/t^\kappa $, 其中$ \kappa\in\left(0,1\right) $. 假设每个代价函数$ f_t^i $是非凸的, 并且时间范围$ T $是均等的. 则$ \exists \ t_0\in\bf{Z}^+ $, 对于所有的$ t\geq t_0 $和$ T\geq 13 $, 当$ \kappa\in\left[1/2,1\right) $时, 可以得到
$$ \begin{split} &\min_{t\in\left[\frac {T}{2}+1,T\right]}\psi\left(t\right)\leq \frac{1-\kappa}{T^{1-\kappa}} \times \left(1-\left(\frac{2}{3}\right)^{1-\kappa}\right)^{-1}\times \alpha_{\kappa} \end{split} $$ (20) 其中,
$$ \begin{split} \alpha_{\kappa}=\;& 4LD\,+\left( \frac{\beta D^2}{2}+2 DC_2\right)\log 2\;+\\&2\beta DC_1 \left(\frac{{2^{\kappa}-1}}{\kappa}\right)\end{split} $$ 当$ T\geq 6 $且$ \kappa\in\left(0,1/2\right) $时, 可以得到
$$ \begin{split} &\min_{t\in\left[\frac {T}{2}+1,T\right]}\psi\left(t\right)\leq \frac{1-\kappa}{T^\kappa}\times\left(1-\left(\frac {2}{3}\right)^{1-\kappa}\right)^{-1}\times \hat{\alpha}_{\kappa} \end{split} $$ (21) 其中,
$$ \begin{split} \hat{\alpha}_{\kappa} =\;& 4LD+\dfrac{2^{\kappa}-1}{\kappa}\left(2 DC_2+2\beta DC_1\right)+\\&\dfrac{\beta D^2}{2}\times \dfrac{1-\left(\frac{1}{2}\right)^{1-2\kappa}}{1-2\kappa} \end{split} $$ $$ C_1 = \sqrt{N} Dt_0^\kappa\qquad \qquad \qquad \qquad \qquad \quad\;\; $$ $$ \begin{split}C_2 =\;& \sqrt{N} \left\{\left[\delta+\dfrac{\beta\left(D+2C_1\right)}{1-\kappa}\right]+\right.\\& 2\beta\left(D+2C_1\right)\bigg\}\times t_0^\kappa ,\; \delta \in \bf{R}^+ \end{split}\qquad\;\;$$ 定理3的证明详见第4节. 根据定理3可以得出, 如果$ \kappa\in\left[1/2,1\right) $, 算法1可以在每轮$t\in[T/2\;+ 1,T]$得到收敛速率$ {\rm O}(1/T^ {1-\kappa}) $; 如果当$ \kappa\in\left(0,1/2\right) $, 算法1可以得到收敛速率$ {\rm O}(1/T^\kappa) $. 此外, 当设置$ \kappa = 1/2 $时, 算法可以得到最快的收敛速率$ {\rm O}(1/\sqrt{T}) $. 可以看出, 收敛速率受梯度上界$ L $和约束集直径$ D $的影响.
4. 性能分析
本节分析当代价函数为凸函数或潜在非凸函数时算法1的性能, 并给出主要结果的详细证明. 为了分析算法1的性能, 引入下面3个辅助向量, 并给出几个引理.
$$ \begin{equation} \overline{\boldsymbol{x}}\left(t\right)= \frac{1}{N}\sum\limits_{i = 1}^N\boldsymbol{x}_i\left(t\right)\qquad\qquad \quad\;\;\;\;\end{equation} $$ (22) $$ \begin{equation} \bar{\boldsymbol{s}}_t\left(t\right) = \frac{1}{t}\times\frac{1}{N}\sum\limits_{\tau = 1}^t\sum\limits_{i = 1}^N\boldsymbol{s}_{\tau}^i\left(t\right)\qquad \; \end{equation} $$ (23) $$ \begin{equation} \boldsymbol{g}_t\left(t\right) = \frac{1}{t}\times\frac{1}{N}\sum\limits_{\tau = 1}^t\sum\limits_{i = 1}^N\nabla f_{\tau}^i\left(\boldsymbol{z}_i\left(t\right)\right) \end{equation} $$ (24) 引理 1. 对于所有的$ t = 1,\cdots,T $, 有以下关系:
a) $ \bar{\boldsymbol{s}}_{t+1}\left(t+1\right) = \boldsymbol{g}_{t+1}\left(t+1\right) $;
b) $ \overline{\boldsymbol{x}}\left(t+1\right) = \left(1-\gamma\left(t\right)\right)\overline{\boldsymbol{x}}\left(t\right)+\gamma\left(t\right)\overline{\boldsymbol{v}}\left(t\right) $, 其中$\overline{\boldsymbol{v}}\left(t\right) = \left(1/N\right)\sum\nolimits_{i = 1}^N\boldsymbol{v}_i\left(t\right)$.
引理1的证明见附录A. 从引理1可以看出, 更新关系由平均序列$ \bar{\boldsymbol{s}}_t\left(t\right) $和$ \overline{\boldsymbol{x}}\left(t\right) $决定. 下面给出$ \left\|\boldsymbol{z}_i\left(t\right)-\overline{\boldsymbol{x}}\left(t\right)\right\|_2 $的有界性.
引理 2. 基于假设1, 对于某些$ \kappa\in\left(0,1\right] $使$ \gamma\left(t\right) = 1/t^\kappa $, 则对于所有的$ i = 1,\cdots,N $和$ t\geq t_0 $, 有
$$ \begin{equation} \max\limits_{i\in\left\{1,\cdots,N\right\}}\left\|\boldsymbol{z}_i\left(t\right)-\overline{\boldsymbol{x}}\left(t\right)\right\|_2\leq C_1t^{-\kappa} \end{equation} $$ (25) 其中, $ C_1 = \sqrt{N} Dt_0^\kappa $.
引理2的证明见附录B. 从引理2可以看出, 当$ t $趋于无穷大, $ \boldsymbol{z}_i\left(t\right) $和$ \overline{\boldsymbol{x}}\left(t\right) $的均方差趋近于零. 对于所有的$ i\in\left\{1,\cdots,N\right\} $, 下面给出$ \left\|\boldsymbol{S}_t^i\left(t\right)-\boldsymbol{g}_t\left(t\right)\right\|_2 $的有界性.
引理 3. 基于假设1, 存在$ \kappa\in\left(0,1\right) $使得$\gamma\left(t\right) = 1/t^\kappa$, 则对于所有的$ i = 1,\cdots,N $和$ t\geq t_0 $, 有
$$ \begin{equation} \max\limits_{i\in\left\{1,\cdots,N\right\}}\left\|\boldsymbol{S}_t^i\left(t\right)-\boldsymbol{g}_t\left(t\right)\right\|_2\leq C_2t^{-\kappa} \end{equation} $$ (26) 其中, $C_2 = \sqrt{N} \left\{\left[\delta + \dfrac{\beta\left(D + 2C_1\right)}{1-\kappa}\right]+2\beta(D + 2C_1) \right\} t_0^{\kappa}$, 且对于所有的$ i = 1,\cdots,N $ 和 $ t\geq 1 $, $ \delta $ 满足 $\delta\geq \left\|\boldsymbol{s}_{t+1}^i\left(1\right)-\boldsymbol{\phi}_{t+1}\left(1\right)\right\|_2$.
引理3的证明见附录C. 从引理3可以得出, 当$ t $趋于无穷大时, $ \boldsymbol{S}_t^i\left(t\right) $和$ \boldsymbol{g}_t\left(t\right) $的均方误差趋近于零. 下面利用引理1 ~ 3证明定理 1.
定理 1 证明. 为了描述方便, 首先定义辅助变量$ f_t = \left(1/N\right)\sum\nolimits_{i = 1}^Nf_t^i $和$ F_t = \left(1/t\right)\sum\nolimits_{\tau = 1}^tf_\tau $, 并将常数$ C $定义为
$$ \begin{equation} \begin{split} C =\;& \max\Biggr\{\frac{9}{2}\left(\beta D^2+2 DC_2+2 D\beta C_1\right),\vphantom{\frac{2\eta^2\mu}{\theta^2}-\frac{4C'}{9}+\sqrt{\left(\frac{2\eta^2\mu}{\theta^2}\right)^2-}} \\ & \vphantom{\frac{2\eta^2\mu}{\theta^2}-\frac{4C'}{9}+\sqrt{\left(\frac{2\eta^2\mu}{\theta^2}\right)^2-}} \frac{\frac{2\eta^2\mu}{\theta^2}-\frac{4C'}{9}+\sqrt{\left(\frac{2\eta^2\mu}{\theta^2}\right)^2-\frac{16}{9}\times\frac{\eta^2\mu}{\theta^2}C'}}{\frac{8}{81}}\Biggr\} \end{split} \end{equation} $$ (27) 其中, $ \theta>1 $, $ C' = 2\beta D^2+4 D\beta C_1+4 DC_2. $ 显然, 当$ t = t^{\ast} $时, 定理1成立. 然后, 假设对于某些$ t\geq t^{\ast} $, $\Delta\left(t\right)\leq C/({t+1})$成立, 其中$ t^{\ast} $的定义见式(16). 从假设2可知函数$ F_t $是$ \beta $-光滑的, 因此根据引理1中的b), 可以得出
$$ \begin{equation} \begin{split} &F_t\left(\overline{\boldsymbol{x}}\left(t+1\right)\right) \leq\\ &\qquad F_t\left(\overline{\boldsymbol{x}}\left(t\right)\right)+\frac{\beta}{2}\left\|\overline{\boldsymbol{x}}\left(t+1\right)-\overline{\boldsymbol{x}}\left(t\right)\right\|_2^2 \;+ \\ \end{split} \end{equation} $$ $$ \begin{equation} \begin{split} &\qquad\left\langle\nabla F_t\left(\overline{\boldsymbol{x}}\left(t\right)\right),\overline{\boldsymbol{x}}\left(t+1\right)-\overline{\boldsymbol{x}}\left(t\right)\right\rangle \leq \\ &\qquad F_t\left(\overline{\boldsymbol{x}}\left(t\right)\right)+\frac{\beta}{2}\gamma^2\left(t\right)\left\|\overline{\boldsymbol{v}}\left(t\right)-\overline{\boldsymbol{x}}\left(t\right)\right\|_2^2\; + \\ &\qquad\frac{\gamma\left(t\right)}{N}\sum\limits_{i = 1}^N\left\langle\nabla F_t\left(\overline{\boldsymbol{x}}\left(t\right)\right),\boldsymbol{v}_i\left(t\right)-\overline{\boldsymbol{x}}\left(t\right)\right\rangle \leq\\ &\qquad F_t\left(\overline{\boldsymbol{x}}\left(t\right)\right)+\frac{\beta}{2}\gamma^2\left(t\right) D^2 \;+ \\ &\qquad\frac{\gamma\left(t\right)}{N}\sum\limits_{i = 1}^N\left\langle\nabla F_t\left(\overline{\boldsymbol{x}}\left(t\right)\right),\boldsymbol{v}_i\left(t\right)-\overline{\boldsymbol{x}}\left(t\right)\right\rangle\\[-10pt] \end{split} \end{equation} $$ (28) 其中, 第1个不等式可由$ F_t $是$ \beta $-光滑函数得出, 第2个不等式依据引理1的b)得出, 第3个不等式根据$ X $的有界性得到. 此外, 对于所有$ i = 1,\cdots,N $和$ \boldsymbol{v}\in X $, 可以得出
$$ \begin{equation} \begin{split} &\left\langle\nabla F_t\left(\overline{\boldsymbol{x}}\left(t\right)\right),\boldsymbol{v}_i\left(t\right)-\overline{\boldsymbol{x}}\left(t\right)\right\rangle = \\ &\qquad\left\langle\boldsymbol{S}_t^i\left(t\right),\boldsymbol{v}_i\left(t\right)-\overline{\boldsymbol{x}}\left(t\right)\right\rangle +\\ &\qquad\left\langle\nabla F_t\left(\overline{\boldsymbol{x}}\left(t\right)\right)-\boldsymbol{S}_t^i\left(t\right),\boldsymbol{v}_i\left(t\right)-\overline{\boldsymbol{x}}\left(t\right)\right\rangle \leq\\ &\qquad \left\langle\boldsymbol{S}_t^i\left(t\right),{\boldsymbol{v}}-\overline{\boldsymbol{x}}\left(t\right)\right\rangle +\\ &\qquad D\times\left\|\boldsymbol{S}_t^i\left(t\right)-\nabla F_t\left(\overline{\boldsymbol{x}}\left(t\right)\right)\right\|_2 \leq\\ &\qquad \left\langle\nabla F_t\left(\overline{\boldsymbol{x}}\left(t\right)\right),{\boldsymbol{v}}-\overline{\boldsymbol{x}}\left(t\right)\right\rangle +\\ &\qquad2 D\times\left\|\boldsymbol{S}_t^i\left(t\right)-\nabla F_t\left(\overline{\boldsymbol{x}}\left(t\right)\right)\right\|_2 \\[-4pt] \end{split} \end{equation} $$ (29) 其中, 第1个不等式通过在等式加上$ S^i_t (t)$再减去$ \boldsymbol{S}_t^i\left(t\right) $, 由$ \boldsymbol{v}_i\left(t\right)\in\arg\min_{\boldsymbol{v}\in X}\left\langle \boldsymbol{v},\boldsymbol{S}_t^i\left(t\right)\right\rangle $确定; 最后一个不等式通过加上再减去$ \nabla F_t\left(\overline{\boldsymbol{x}}\left(t\right)\right) $得到. 为了得到式(29)的有界性, 需要得到$\left\|\boldsymbol{S}_t^i\left(t\right)- \nabla F_t\left(\overline{\boldsymbol{x}}\left(t\right)\right)\right\|_2$的上界. 根据$ \boldsymbol{g}_t\left(t\right) $的定义, 可以得出
$$ \begin{split} &\left\|\boldsymbol{S}_t^i\left(t\right)-\nabla F_t\left(\overline{\boldsymbol{x}}\left(t\right)\right)\right\|_2 \leq \\ &\qquad\left\|\boldsymbol{S}_t^i\left(t\right)-\boldsymbol{g}_t\left(t\right)\right\|_2 +\left\|\boldsymbol{g}_t\left(t\right)-\nabla F_t\left(\overline{\boldsymbol{x}}\left(t\right)\right)\right\|_2 \leq\\ &\qquad \frac{C_2}{t} + \frac{1}{Nt}\sum\limits_{\tau = 1}^t\sum\limits_{i = 1}^N\left\|\nabla f_{\tau}^i \left(\boldsymbol{z}_i\left(t\right)\right)- \nabla f_{\tau}^i\left(\overline{\boldsymbol{x}}\left(t\right)\right)\right\|_2 \leq \\ &\qquad \frac{C_2}{t}+\beta\times\frac{1}{Nt}\sum\limits_{\tau = 1}^t\sum\limits_{i = 1}^N\left\|\boldsymbol{z}_i\left(t\right)-\overline{\boldsymbol{x}}\left(t\right)\right\|_2 \leq \\ &\qquad \frac{C_2}{t}+\frac{\beta}{t}\sum\limits_{\tau = 1}^t \frac{C_1}{t} \leq \\ &\qquad \frac{C_2}{t}+\frac{\beta C_1}{t} \\[-15pt]\end{split} $$ (30) 其中, 第1个不等式可依据三角形不等式获得, 第2个不等式由范数的凸性和引理3得出, 第3个不等式利用函数$\left\{f_{\tau}^1,\cdots,f_{\tau}^N\right\}_{\tau = 1}^T$的$ \beta $-光滑性得到, 第4个不等式根据引理2得出. 将式(29)和式(30)代入式(28), 则对任意$ \boldsymbol{v}\in X $, 有
$$ \begin{equation} \begin{split} F_t\left(\overline{\boldsymbol{x}}\left(t+1\right)\right)\leq\;& F_t\left(\overline{\boldsymbol{x}}\left(t\right)\right)+\frac{\gamma\left(t\right)}{2}\beta D^2\; +\\ &\gamma\left(t\right)\left\langle\nabla F_t\left(\overline{\boldsymbol{x}}\left(t\right),\boldsymbol{v}-\overline{\boldsymbol{x}}\left(t\right)\right)\right\rangle +\\ &2 D\gamma\left(t\right)\frac{C_2+\beta C_1}{t} \end{split} \end{equation} $$ (31) 同时, 还可以得到
$$ \begin{split} &F_t\left(\overline{\boldsymbol{x}}\left(t+1\right)\right)-F_t\left(\boldsymbol{x}^{\ast}\left(t+1\right)\right) \leq\\ &\qquad F_t\left(\overline{\boldsymbol{x}}\left(t+1\right)\right)-F_t\left(\boldsymbol{x}^{\ast}\left(t\right)\right) \leq\\ &\qquad F_t\left(\overline{\boldsymbol{x}}\left(t\right)\right)-F_t\left(\boldsymbol{x}^{\ast}\left(t\right)\right) +\frac{\gamma^2\left(t\right)}{2}\beta D^2\;-\end{split} $$ $$ \begin{equation} \begin{split} &\qquad\gamma\left(t\right)\left\langle\nabla F_t\left(\overline{\boldsymbol{x}}\left(t\right)\right),\overline{\boldsymbol{x}}\left(t\right)-\hat{\boldsymbol{v}}\left(t\right)\right\rangle +\\&\qquad2 D\gamma\left(t\right)\frac{C_2+\beta C_1}{t} \end{split} \end{equation} $$ (32) 其中, 第1个不等式依据$ \boldsymbol{x}^\ast\left(t\right) = \arg\min_{\boldsymbol{x}\in X}F_t\left(\boldsymbol{x}\right) $获得, 最后一个不等式依据式(31)和$\hat{\boldsymbol{v}}\left(t\right)\in \arg\min_{\boldsymbol{v}\in X}\left\langle \boldsymbol{v},\nabla F_t\left(\overline{\boldsymbol{x}}\left(t\right)\right)\right\rangle$得到. 此外, 根据$\Delta\left(t\right) = F_t\left(\overline{\boldsymbol{x}}\left(t\right)\right)-F_t\left(\boldsymbol{x}^\ast\left(t\right)\right)$, 可以得出
$$ \begin{split} &\Delta\left(t+1\right) = \\ &\quad\quad\frac{t}{1+t}\left(F_t\left(\overline{\boldsymbol{x}}\left(t+1\right)\right)-F_t\left(\boldsymbol{x}^{\ast}\left(t+1\right)\right)\right) +\\ &\quad\quad\frac{1}{1+t}\left(f_{t+1}\left(\overline{\boldsymbol{x}}\left(t+1\right)\right)-f_{t+1}\left(\boldsymbol{x}^{\ast}\left(t+1\right)\right)\right) \leq\\ &\quad\quad\frac{t}{1+t}\left(\Delta\left(t\right)-\gamma\left(t\right)\left\langle\nabla F_t\left(\overline{\boldsymbol{x}}\left(t\right)\right),\overline{\boldsymbol{x}}\left(t\right)-\hat{{\boldsymbol{v}}}\left(t\right)\right\rangle \right) +\\ &\quad\quad\frac{t}{1+t}\left(\frac{\gamma^2\left(t\right)}{2}\beta D^2+2 D\gamma\left(t\right)\times\frac{C_2+\beta C_1}{t}\right) +\\ &\quad\quad\frac{1}{1+t}\left(f_{t+1}\left(\overline{\boldsymbol{x}}\left(t+1\right)\right)-f_{t+1}\left(\boldsymbol{x}^{\ast}\left(t+1\right)\right)\right) \\[-15pt] \end{split} $$ (33) 其中, 最后一个不等式根据式(32)得出.
另外, 假设$ F_t $是$ \mu $-强凸的且$ \boldsymbol{x}^{\ast}\left(t\right) \in \text{int}\left(X\right) $, 其中, $ \text{int}\left(X\right) $表示$ X $的内点集. 则对于某些 $\xi\in \left[0,1\right)$, $ \boldsymbol{x}^{\ast}\left(t\right) $为
$$ \begin{equation} \boldsymbol{x}^{\ast}\left(t\right) = \overline{\boldsymbol{x}}\left(t\right)+\xi\left(\boldsymbol{w}\left(t\right)-\overline{\boldsymbol{x}}\left(t\right)\right) \end{equation} $$ (34) 其中, $ \boldsymbol{w}\left(t\right)\in\partial X $. 由于$ F_t $是$ \mu $-强凸的, 可以得出
$$ \begin{equation} \begin{split} \frac{\mu}{2} &\left\|\boldsymbol{x}^{\ast}\left(t\right)-\overline{\boldsymbol{x}}\left(t\right)\right\|_2^2\leq\\ &\qquad F_t\left(\boldsymbol{x}^{\ast}\left(t\right)\right)-F_t\left(\overline{\boldsymbol{x}}\left(t\right)\right) -\\ &\qquad\left\langle\nabla F_t\left(\overline{\boldsymbol{x}}\left(t\right)\right),\boldsymbol{x}^{\ast}\left(t\right)-\overline{\boldsymbol{x}}\left(t\right)\right\rangle = \\ &\qquad-\Delta\left(t\right)+\xi\left\langle\nabla F_t\left(\overline{\boldsymbol{x}}\left(t\right)\right),\overline{\boldsymbol{x}}\left(t\right)-\boldsymbol{w}\left(t\right)\right\rangle \leq\\ &\qquad-\Delta\left(t\right)+\xi\left\langle\nabla F_t\left(\overline{\boldsymbol{x}}\left(t\right)\right),\overline{\boldsymbol{x}}\left(t\right)-\hat{\boldsymbol{v}}\left(t\right)\right\rangle\\[-10pt] \end{split} \end{equation} $$ (35) 其中, 最后1个不等式根据$\hat{\boldsymbol{v}}\left(t\right)\in\arg\min_{\boldsymbol{v}\in X}\langle\nabla F_t\times \left(\overline{\boldsymbol{x}}\left(t\right)\right),\boldsymbol{v}\rangle$得出. 此外, 还可以得出
$$ \begin{equation} \begin{split} &\frac{\mu}{2}\left\|\boldsymbol{x}^{\ast}\left(t\right)-\overline{\boldsymbol{x}}\left(t\right)\right\|_2^2 = \\ &\qquad\qquad\frac{\mu}{2}\xi^2\left\|\boldsymbol{w}\left(t\right)-\overline{\boldsymbol{x}}\left(t\right)\right\|_2^2 \geq\\ &\qquad\qquad \frac{\mu}{2}\xi^2\left\|\boldsymbol{w}\left(t\right)-\overline{\boldsymbol{x}}\left(t\right)\right\|_2^2 \geq \frac{\mu}{2}\eta^2\xi^2 \end{split} \end{equation} $$ (36) 其中, 第1个不等式依据下式得出
$$ \begin{equation*} \begin{split} \left\|\boldsymbol{w}\left(t\right)-\overline{\boldsymbol{x}}\left(t\right)\right\|_2^2\geq&\left(1-\xi\right)^2\left\|\boldsymbol{w}\left(t\right)-\overline{\boldsymbol{x}}\left(t\right)\right\|_2^2 = \\ &\left\|\boldsymbol{w}\left(t\right)-\boldsymbol{x}^{\ast}\left(t\right)\right\|_2^2 \\ \end{split} \end{equation*} $$ 最后一个不等式根据$ \eta $的定义得出. 根据式(35)和式(36), 可以得到
$$ \begin{equation} \begin{split} \Delta\left(t\right)\leq\;&\xi\left\langle\nabla F_t\left(\overline{\boldsymbol{x}}\left(t\right)\right),\overline{\boldsymbol{x}}\left(t\right)-\overline{\boldsymbol{v}}\left(t\right)\right\rangle-\frac{\mu}{2}\eta^2\xi^2 \leq\\ & \frac{1}{2\mu\eta^2}\left(\left\langle\nabla F_t\left(\overline{\boldsymbol{x}}\left(t\right)\right),\overline{\boldsymbol{x}}\left(t\right)-\hat{\boldsymbol{v}}\left(t\right)\right\rangle\right)^2 \\[-16pt] \end{split} \end{equation} $$ (37) 其中, 最后一个不等式通过设$\xi = \left\langle\nabla F_t\left(\overline{\boldsymbol{x}}\left(t\right)\right), \overline{\boldsymbol{x}}\left(t\right)-\hat{\boldsymbol{v}}\left(t\right)\right\rangle/\left(\mu\eta^2\right)$获得. 因此, 根据式(37), 可以有
$$ \begin{equation} \left\langle\nabla F_t\left(\overline{\boldsymbol{x}}\left(t\right)\right),\overline{\boldsymbol{x}}\left(t\right)-\hat{\boldsymbol{v}}\left(t\right)\right\rangle\geq\sqrt{2\mu\eta^2\Delta\left(t\right)} \end{equation} $$ (38) 为了获得$ \Delta\left(t+1\right) $的上界, 需要得出$f_{t+1}(\overline{\boldsymbol x}(t\;+ 1))-f_{t+1}\left(\boldsymbol{x}^{\ast}\left(t+1\right)\right)$的上界. 由于对于所有的$ i\in \left\{1,\cdots,N\right\} $和$ t\in\left\{1,\cdots,T\right\} $, 每个代价函数$ f_t^i $都是$ \mu $-强凸的, 那么根据$ F_t $的定义, 函数$ F_t $也是$ \mu $-强凸的. 类似地, 假设3表明$ F_t $是$ \beta $-光滑和$ L $-Lipschitz的. 由于$ \boldsymbol{x}^{\ast}\left(t\right)\in\arg\min_{\boldsymbol{x}\in {X}}F_t\left(\boldsymbol{x}\right) $, 则根据$ F_t $的强凸性, 可以得出
$$ \mu\left\|\overline{\boldsymbol{x}}\left(t\right)-\boldsymbol{x}^{\ast}\left(t\right)\right\|_2^2 \leq F_t\left(\overline{\boldsymbol{x}}\left(t\right)\right)-F_t\left(\boldsymbol{x}^{\ast}\left(t\right)\right) \leq \frac{C}{t+1} $$ (39) 其中, 最后一个不等式根据归纳假设得出. 这样, 依据式(39), 还可得出
$$ \begin{equation} \left\|\overline{\boldsymbol{x}}\left(t\right)-\boldsymbol{x}^{\ast}\left(t\right)\right\|_2\leq \sqrt{\frac{\frac {C}{\mu}}{t+1}} \end{equation} $$ (40) 根据$ F_t $的定义, 有
$$ \begin{equation} \begin{split} &F_{t+1}\left(\boldsymbol{x}^{\ast}\left(t\right)\right)-F_{t+1}\left(\boldsymbol{x}^{\ast}\left(t+1\right)\right) = \\ &\qquad\qquad\frac{t}{t+1}\left(F_t\left(\boldsymbol{x}^{\ast}\left(t\right)\right)-F_t\left(\boldsymbol{x}^{\ast}\left(t+1\right)\right)\right) +\\ &\qquad\qquad\frac{1}{t+1}\left(f_{t+1}\left(\boldsymbol{x}^{\ast}\left(t\right)\right)-f_{t+1}\left(\boldsymbol{x}^{\ast}\left(t+1\right)\right)\right) \leq\\ &\qquad\qquad \frac{1}{t+1}\left(f_{t+1}\left(\boldsymbol{x}^{\ast}\left(t\right)\right)-f_{t+1}\left(\boldsymbol{x}^{\ast}\left(t+1\right)\right)\right) \leq\\ &\qquad\qquad \frac{L}{t+1}\left\|\boldsymbol{x}^{\ast}\left(t\right)-\boldsymbol{x}^{\ast}\left(t+1\right)\right\|_2 \leq \frac{LD}{t+1}\\[-15pt] \end{split} \end{equation} $$ (41) 其中, 第1个不等式由$ F_t\left(\boldsymbol{x}^{\ast}\left(t\right)\right)\leq F_t\left(\boldsymbol{x}^{\ast}\left(t+1\right)\right) $得出, 第2个不等式依据$ F_t $是$ L $-Lipschitz的获得, 最后一个不等式根据$ X $的有界性得到. 依据式(41), 得出
$$ \left\|\boldsymbol{x}^{\ast}\left(t\right)-\boldsymbol{x}^{\ast}\left(t+1\right)\right\|_2 \leq \sqrt{\frac{LD}{\mu\left(t+1\right)}} \leq \sqrt{\frac{C}{\mu\left(t+1\right)}} $$ (42) 其中, 最后一个不等式根据$ C\geq LD $得到. 由于$ \left\|\overline{\boldsymbol{x}}\left(t\right)-\boldsymbol{x}^{\ast}\left(t+1\right)\right\|_2\leq D $, 可以得出
$$ \begin{equation} \begin{split} \left\|\overline{\boldsymbol{x}}\left(t\right)-\boldsymbol{x}^{\ast}\left(t+1\right)\right\|_2 \leq&\min\left\{\sqrt{\frac{4C}{\mu\left(t+1\right)}}, D\right\} \leq\\ &\frac{C}{9L}\times\sqrt{\frac{1}{t+1}} \\[-15pt]\end{split} \end{equation} $$ (43) 其中, $ C\geq \max\left\{324L^2/\mu, 9LD\right\} $. 此外, 还可以得到
$$ \begin{equation} \begin{split} &\left\|\overline{\boldsymbol{x}}\left(t+1\right)-\overline{\boldsymbol{x}}\left(t\right)\right\|_2 = \gamma\left(t\right)\left\|\overline{\boldsymbol{v}}\left(t\right)-\overline{\boldsymbol{x}}\left(t\right)\right\|_2 \leq\\ & \qquad D\times\gamma\left(t\right) \leq \frac{C}{9L}\times\sqrt{\frac{1}{t+1}} \end{split} \end{equation} $$ (44) 其中, 最后一个不等式根据不等式$2/(t+2)\leq \sqrt{1/(t+1)}$对所有的$ t\geq 2 $都成立得出. 因此, 根据式(43)和式(44), 得出
$$ \begin{equation} \left\|\overline{\boldsymbol{x}}\left(t+1\right)-\boldsymbol{x}^{\ast}\left(t+1\right)\right\|_2\leq \frac{2C}{9L}\times\sqrt{\frac{1}{t+1}} \end{equation} $$ (45) 其中, 最后一个不等式根据三角不等式得到. 此外, 由于$ f_{t+1} $是$ L $-Lipschitz的, 可以得出
$$ \begin{equation} f_{t+1}\left(\overline{\boldsymbol{x}}\left(t+1\right)\right)-f_{t+1}\left(\boldsymbol{x}^{\ast}\left(t+1\right)\right)\leq \frac{2C}{9}\times\sqrt{\frac{1}{t+1}} \end{equation} $$ (46) 将式(38)和式(46)代入式(33), 可以得到
$$ \begin{equation} \begin{split} \Delta\left(t+1\right)\leq\;&\sqrt{\Delta\left(t\right)}\left(\sqrt{\Delta\left(t\right)}-\gamma\left(t\right)\sqrt{2\mu\eta^2}\right)+\\ &\frac{2C}{9\left(t+1\right)^{3/2}}+\frac{\gamma^2\left(t\right)}{2}\beta D^2\; +\\ &2 D\gamma\left(t\right)\times\frac{\beta C_1+C_2}{t+1} \end{split} \end{equation} $$ (47) 当$ \Delta\left(t\right)-\gamma\left(t\right)\sqrt{2\mu\eta^2\Delta\left(t\right)}\leq 0 $, 由式(47)得
$$ \begin{equation} \begin{split} &\Delta\left(t+1\right)\leq\\ &\qquad \frac{2C}{9\left(t+1\right)^{3/2}}+\frac{2\beta D^2}{\left(t+1\right)^2}+4 D\frac{\beta C_1+C_2}{\left(t+1\right)^2}\leq\\ &\qquad\left(2\beta D^2+4 DC_2+\frac{2}{9}C+4 D\beta C_1\right)\times\frac{1}{t+1} \leq\\ &\qquad \left(\frac{1}{3}C+3\beta D^2+6DC_2+6D\beta C_1\right)\times \frac{1}{t+2} \end{split} \end{equation} $$ (48) 其中, 最后一个不等式依据$ n\geq 1 $时成立的不等式$\dfrac{1}{n+t-1}\leq\dfrac{n+1}{n}\times\dfrac{1}{n+t}$得出. 根据$ C $的定义, 可得
$$ \begin{equation} C\geq \frac{9}{2}\left(\beta D^2+2 DC_2+2 D\beta C_1\right) \end{equation} $$ (49) 因此, 得出
$$ \begin{equation*} \Delta\left(t+1\right)\leq C\times\frac{1}{t+2} \end{equation*} $$ 当$ \Delta\left(t\right)-\gamma\left(t\right)\sqrt{2\mu\eta^2\Delta\left(t\right)}> 0 $, 根据式(47), 有
$$ \begin{split} &\Delta\left(t+1\right)-\frac{C}{t+2} \leq \\ &\qquad C\left(\frac{1}{t+1}-\frac{1}{t+2}\right)-\frac{\eta\sqrt{2\mu C}}{\left(t+1\right)^{\frac{3}{2}}} \;+\\&\qquad\frac{2C}{9}\frac{1}{\left(t+1\right)^{\frac{3}{2}}}+\frac{4 DC_2+2\beta D^2+4 D\beta C_1}{\left(t+1\right)^2}\\ &\qquad\frac{C}{\left(t+1\right)^2}-\frac{\eta\sqrt{2\mu C}}{\left(t+1\right)^{\frac{3}{2}}}+\frac{2C}{9}\frac{1}{\left(t+1\right)^{\frac{3}{2}}} \;+\\ &\qquad\frac{4 DC_2+2\beta D^2+4 D\beta C_1}{\left(t+1\right)^2} \leq\\ &\qquad\frac{1}{\left(t+1\right)^\frac{3}{2}}\left(\frac{C}{\sqrt{t+1}} -\eta\sqrt{2\mu C}+\frac{2C}{9}+ \vphantom{\frac{\sqrt{\log t}}{\left(t+1\right)^2}} \right. \\ &\quad\;\;\left. \vphantom{\frac{\sqrt{\log t}}{\left(t+1\right)^2}}\left(4 DC_2+2\beta D^2+4 D\beta C_1\right)\times\frac{1}{\sqrt{t+1}}\right) \leq \\ &\qquad \frac{1}{(t+1)^{\frac{3}{2}}}\left(\frac{C}{\sqrt{t+1}} +\frac{2C}{9}\left(1-\theta\right)+ \vphantom{\frac{\sqrt{\log t}}{(t+1)^2}} \right. \\ &\qquad\left. \vphantom{\frac{\sqrt{\log t}}{(t+1)^2}}(4 DC_2+2\beta D^2+4{D\beta C_1})(1-\theta)\right) \\[-8pt] \end{split} $$ (50) 其中, 第2个不等式依据不等式$1/\left(t+1\right)- 1/(t\;+ 2)\leq 1/\left(t+1\right)^2$得出, 最后一个不等式根据$ C $的定义得到. 由于函数$ 1/\sqrt{t+1} $是一个单调递减函数, 因此$ t^{\ast} $定义可由式(16)给出.
由于若$ \theta>1 $, 则$ t^{\ast} $值存在. 因此, 如果$ t>t^{\ast} $, 则式(50)的右侧是非正的, 即
$$ \begin{equation*} \Delta\left(t+1\right)\leq C\times \frac{1}{t+2} \end{equation*} $$ 则得到算法1任意时刻的界.
□ 定理1给出了算法1任意时刻的界. 利用定理1, 下面给出定理2的证明.
定理2证明. 引入一个辅助函数:
$$ \begin{equation} \tilde{f}_t^i\left(\boldsymbol{x}\right) = \left\langle\nabla f_t^i\left(\overline{\boldsymbol{x}}\left(t\right)\right),\boldsymbol{x}\right\rangle+\frac{L}{D}\left\|\boldsymbol{x}-\boldsymbol{x}^{\ast}\right\|_2^2 \end{equation} $$ (51) 其中, $ \nabla f_t^i\left(\overline{\boldsymbol{x}}\left(t\right)\right) $表示$ f_t^i $在$ \overline{\boldsymbol{x}}\left(t\right) $处的梯度或次梯度满足$ \left\|\nabla f_t^i\left(\overline{\boldsymbol{x}}\left(t\right)\right)\right\|_2\leq L $. 因此, 可得
$$ \begin{equation} \nabla \tilde{f}_t^i\left(\boldsymbol{x}\right) = \nabla f_t^i\left(\overline{\boldsymbol{x}}\left(t\right)\right)+\frac{2L}{D}\left(\boldsymbol{x}-\boldsymbol{x}^{\ast}\right) \end{equation} $$ (52) 由于$ \left\|\nabla f_t^i\left(\overline{\boldsymbol{x}}\left(t\right)\right)\right\|_2\leq L $ 和 $ \left\|\boldsymbol{x}-\boldsymbol{x}^{\ast}\right\|_2\leq D $, 则$ \left\|\nabla \tilde{f}_t^i\left(\boldsymbol{x}\right)\right\|_2\leq 3L $. 因此, 对于所有的$ i\in\left\{1,\cdots,N\right\} $和$ t\in\left\{1,\cdots,T\right\} $, 函数$ \tilde{f}_t^i $是$ 3L $-Lipschitz. 根据$ \tilde{f}_t^i $的定义, 可得
$$ \begin{equation} \begin{split} &\tilde{f}_t^i\left(\boldsymbol{x}+\boldsymbol{y}\right)-\tilde{f}_t^i\left(\boldsymbol{x}\right) = \left\langle\nabla f_t^i\left(\overline{\boldsymbol{x}}\left(t\right)\right),\boldsymbol{y}\right\rangle+ \\ &\qquad\frac{L}{D}\left\|\boldsymbol{y}\right\|_2^2 +\frac{2L}{D}\left\langle\boldsymbol{x}-\boldsymbol{x}^{\ast},\boldsymbol{y}\right\rangle = \\ &\qquad\left\langle\nabla \tilde{f}_t^i\left(\overline{\boldsymbol{x}}\left(t\right)\right),\boldsymbol{y}\right\rangle+\frac{L}{D}\left\|\boldsymbol{y}\right\|_2^2 \end{split} \end{equation} $$ (53) 因此, $ \tilde{f}_t^i $是$ \left(L/D\right) $-强凸和$ \left(L/D\right) $-光滑的. 根据定理1, 可得
$$ \begin{equation} \tilde{\Delta}\left(t\right) = \tilde{F}_t\left(\overline{\boldsymbol{x}}\left(t\right)\right)-\tilde{F}_t\left(\boldsymbol{x}^{\ast}\left(t\right)\right)\leq \rho\times \frac{1}{t+1} \end{equation} $$ (54) 其中,
$$ \begin{equation*} \rho = \max\{B_1,B_2\} \qquad\qquad\qquad\qquad\qquad\quad\end{equation*} $$ $$ \begin{equation*} B_1= \dfrac{9}{2}(LD+ 2DC_2'+2LC_1) \qquad\qquad\qquad\end{equation*} $$ $$ \begin{split} B_2 = &\Bigg(\frac{2\eta^2L}{D\theta^2}-\frac{4C''}{9}\;+\\& \sqrt{\left(\frac{2\eta^2L}{D\theta^2}\right)^2-\frac{16}{9}\times\frac{\eta^2L}{D\theta^2}C''}\Bigg)\Bigg/\left(\frac{8}{81}\right) \end{split} $$ 且
$$ \begin{equation*} C_2' = \sqrt{N}\left\{\left[\delta + \frac{L\left(D+2C_1\right)}{D\left(1-\kappa\right)}\right]+2\frac{L\left(D+2C_1\right)}{D}\right\}\times t_0^\kappa \end{equation*} $$ $$ \begin{equation*} C'' = 2LD+4LC_1+4DC_2 \qquad\;\end{equation*} $$ $$ \begin{equation*} \tilde{F}_t\left(\boldsymbol{x}\right) = \frac{1}{Nt}\sum\limits_{\tau = 1}^t\sum\limits_{i = 1}^N\tilde{f}_{\tau}^i\left(\boldsymbol{x}\right) \end{equation*} $$ 和
$$ \begin{equation*} \boldsymbol{x}^{\ast}\left(t\right) = \arg\min_{\boldsymbol{x}\in{X}}\tilde{F}_t\left(\boldsymbol{x}\right) \qquad\qquad\end{equation*} $$ 因此, 对任何$ \boldsymbol{x}^{\ast}\in{X} $, 可得
$$ \begin{equation} \sum\limits_{t = 1}^T\tilde{f}_t\left(\boldsymbol{x}^{\ast}\left(t\right)\right)\leq \sum\limits_{t = 1}^T\tilde{f}_t\left(\boldsymbol{x}^{\ast}\right) \end{equation} $$ (55) 其中, $\tilde{f}_t = \left(1/N\right)\sum\nolimits_{i = 1}^N\tilde{f}_t^i$. 由于$ \tilde{F}_t $是$ \left(L/D\right) $-强凸且$ \boldsymbol{x}^{\ast}\left(t\right) = \arg\min_{\boldsymbol{x}\in{X}}\tilde{F}_t\left(\boldsymbol{x}\right) $, 可得
$$ \begin{equation} \tilde{F}_t\left(\overline{\boldsymbol{x}}\left(t\right)\right)-\tilde{F}_t\left(\boldsymbol{x}^{\ast}\left(t\right)\right)\geq \frac{L}{D}\left\|\overline{\boldsymbol{x}}\left(t\right)-\boldsymbol{x}^{\ast}\left(t\right)\right\|_2^2 \end{equation} $$ (56) 根据式(54)和式(56), 可得
$$ \begin{equation} \left\|\overline{\boldsymbol{x}}\left(t\right)-\boldsymbol{x}^{\ast}\left(t\right)\right\|_2\leq \sqrt\frac{D\tilde{\Delta}\left(t\right)}{L}\leq \sqrt{\frac{\rho D}{L}}\times\sqrt{\frac{1}{t+1}} \end{equation} $$ (57) 因此, 对于所有的$ t\geq t^{\ast} $, 可以得出
$$ \begin{equation} \tilde{f}_t\left(\overline{\boldsymbol{x}}\left(t\right)\right) \leq \tilde{f}_t\left(\boldsymbol{x}^{\ast}\left(t\right)\right)+3\sqrt{\rho LD}\times\sqrt{\frac{1}{t+1}} \end{equation} $$ (58) 其中, 利用了$ \tilde{f}_t^i $是$ 3L $-Lipschitze的特性. 从$ t = 1 $到$ t = T $对式(58)求和, 可得
$$ \begin{equation} \sum\limits_{t = 1}^T \left(\tilde{f}_t\left(\overline{\boldsymbol{x}}\left(t\right)\right)-\tilde{f}_t\left(\boldsymbol{x}^{\ast}\right)\right)\leq 6\sqrt{\rho LD}\times \sqrt{T+1} \end{equation} $$ (59) 其中, 不等式根据式(55)和以下不等式得出
$$ \sum\limits_{t = 1}^T\frac{1}{\sqrt{t+1}}\leq \int_{0}^{T+1}\frac{1}{\sqrt{\tau}}{\rm{d}} \tau = 2\sqrt{T+1} $$ 因此, 根据式(59), 可以得到
$$ \begin{equation} \sum\limits_{t = 1}^T \left\langle\nabla f_t\left(\overline{\boldsymbol{x}}\left(t\right)\right),\overline{\boldsymbol{x}}\left(t\right)- \boldsymbol{x}^{\ast}\right\rangle\leq 6\sqrt{\rho LD}\times \sqrt{T+1} \end{equation} $$ (60) 其中, 使用了不等式
$$ -\sum\limits_{t = 1}^T\left(\frac{L}{D}\right)\left\|\overline{\boldsymbol{x}}\left(t\right)-\boldsymbol{x}^{\ast}\right\|_2\leq 0 $$ 依据$ f_t $是凸函数, 可以得出
$$ \begin{equation} f_t\left(\overline{\boldsymbol{x}}\left(t\right)\right)-f_t\left(\boldsymbol{x}^{\ast}\right)\leq \left\langle\nabla f_t\left(\overline{\boldsymbol{x}}\left(t\right)\right),\overline{\boldsymbol{x}}\left(t\right)-\boldsymbol{x}^{\ast}\right\rangle \end{equation} $$ (61) 根据式(60)和式(61), 可以得到
$$ \begin{equation} \sum\limits_{t = 1}^Tf_t\left(\overline{\boldsymbol{x}}\left(t\right)\right)-f_t\left(\boldsymbol{x}^{\ast}\right)\leq 6\sqrt{\rho LD}\times \sqrt{T+1} \end{equation} $$ (62) □ 最后, 本文分析非凸函数时算法1的收敛性能, 即分析对偶间隙的上界, 具体结果如定理3所述. 下面给出定理3的证明.
定理3证明. 根据$ \psi\left(t\right) $的定义, 即式(19), 利用式(33)和$ \gamma\left(t\right) = 1/t^{\kappa} $, 可以得到
$$ \begin{equation} \begin{split} &\Delta\left(t+1\right)\leq \frac{t}{t+1}\left(\Delta\left(t\right)-\gamma\left(t\right)\psi\left(t\right)\right) +\\ &\qquad\frac{t}{1+t}\left(\frac{\gamma^2\left(t\right)}{2}\beta D^2+2D\gamma\left(t\right)\times\frac{C_2+\beta C_1}{t^{\kappa}}\right) +\\ &\qquad\frac{1}{1+t}\left(f_{t+1}\left(\overline{\boldsymbol{x}}\left(t+1\right)\right)-f_{t+1}\left(\boldsymbol{x}^{\ast}\left(t+1\right)\right)\right) \\[-15pt] \end{split} \end{equation} $$ (63) 其中, 不等式根据引理2和引理3得出. 因此, 根据式(63), 可得
$$ \begin{equation} \begin{split} &\frac{t}{t+1}\gamma\left(t\right)\psi\left(t\right)\leq\frac{t}{t+1}\left(\Delta\left(t\right)+\frac{\gamma^2\left(t\right)}{2}\beta D^2\right)- \\ &\qquad\qquad\Delta\left(t+1\right)+\frac{t}{t+1}\;\times \\ &\qquad\qquad2 D\gamma\left(t\right)\times\frac{C_2+\beta C_1}{t^{\kappa}}\;+ \\ &\qquad\qquad\frac{f_{t+1}\left(\overline{\boldsymbol{x}}\left(t+1\right)\right)-f_{t+1}\left(\boldsymbol{x}^{\ast}\left(t+1\right)\right)}{1+t} \\[-15pt] \end{split} \end{equation} $$ (64) 另外, 根据$ \Delta\left(t\right) $的定义, 可得
$$ \begin{equation} \begin{split} &\frac{\left(f_{t+1}\left(\overline{\boldsymbol{x}}\left(t+1\right)\right)-f_{t+1}\left(\boldsymbol{x}^{\ast}\left(t+1\right)\right)\right)}{1+t} -\Delta\left(t+1\right) = \\ &\qquad-\frac{t}{t+1}\left(F_t\left(\overline{\boldsymbol{x}}\left(t\right)\right)-F_t\left(\boldsymbol{x}^{\ast}\left(t+1\right)\right)\right) \\[-15pt]\end{split} \end{equation} $$ (65) 结合式(64)和式(65), 可以得出
$$ \begin{equation} \begin{split} \gamma\left(t\right)\psi\left(t\right)\leq\;&\Delta\left(t\right)+\frac{\gamma^2\left(t\right)}{2}\beta D^2 \;-\\ &\left(F_t\left(\overline{\boldsymbol{x}}\left(t+1\right)\right)-F_t\left(\boldsymbol{x}^{\ast}\left(t+1\right)\right)\right) \;+\\ &2 D\gamma\left(t\right)\times\frac{C_2+\beta C_1}{t^{\kappa}}\\[-15pt] \end{split} \end{equation} $$ (66) 根据$ F_t $的定义, 还可以得到
$$ \begin{split} &F_t\left(\overline{\boldsymbol{x}}\left(t\right)\right)-F_{t-1}\left(\overline{\boldsymbol{x}}\left(t\right)\right) = \\ &\quad\frac{1}{t}\sum\limits_{s = 1}^{t-1}f_s\left(\overline{\boldsymbol{x}}\left(t\right)\right)+\frac{1}{t}f_t\left(\overline{\boldsymbol{x}}\left(t\right)\right) -F_{t-1}\left(\overline{\boldsymbol{x}}\left(t\right)\right) = \\ &\quad\frac{t-1}{t}F_{t-1}\left(\overline{\boldsymbol{x}}\left(t\right)\right) +\frac{1}{t}f_t\left(\overline{\boldsymbol{x}}\left(t\right)\right)-F_{t-1}\left(\overline{\boldsymbol{x}}\left(t\right)\right) = \\ &\quad\frac{1}{t}\left(f_t\left(\overline{\boldsymbol{x}}\left(t\right)\right)-F_{t-1}\left(\overline{\boldsymbol{x}}\left(t\right)\right)\right) \\[-15pt]\end{split} $$ (67) 这样, 根据式(67), 可以得出
$$ \begin{split} &\sum\limits_{t = T/2+1}^T\left(\Delta\left(t\right)-\left(F_t\left(\overline{\boldsymbol{x}}\left(t+1\right)\right)-F_t\left(\boldsymbol{x}^{\ast}\left(t+1\right)\right)\right)\right) = \\ &\qquad\sum\limits_{t = T/2+1}^T\left(F_t\left(\overline{\boldsymbol{x}}\left(t\right)\right)-F_t\left(\overline{\boldsymbol{x}}\left(t+1\right)\right)\right) \;- \\ &\qquad\sum\limits_{t = T/2+1}^T\left(F_t\left(\boldsymbol{x}^{\ast}\left(t\right)\right)-F_t\left(\boldsymbol{x}^{\ast}\left(t+1\right)\right)\right) = \\&\qquad F_{T/2+1}\left(\overline{\boldsymbol{x}}\left(T/2+1\right)\right)-F_T\left(\overline{\boldsymbol{x}}\left(T+1\right)\right) + \\ &\qquad F_T\left(\boldsymbol{x}^{\ast}\left(T+1\right)\right)-F_{T/2+1}\left(\boldsymbol{x}^{\ast}\left(T/2+1\right)\right) + \\ &\qquad\sum\limits_{t = T/2+2}^T\frac{1}{t}\times\left(f_t\left(\overline{\boldsymbol{x}}\left(t\right)\right)-F_{t-1}\left(\overline{\boldsymbol{x}}\left(t\right)\right)\right) -\\ &\qquad\sum\limits_{t = T/2+2}^T\frac{1}{t}\times\left(f_t\left(\boldsymbol{x}^{\ast}\left(t\right)\right)-F_{t-1}\left(\boldsymbol{x}^{\ast}\left(t\right)\right)\right)+\\ &\qquad L\times \left\|\overline{\boldsymbol{x}}\left(T/2+1\right)-\boldsymbol{x}^{\ast}\left(T/2+1\right)\right\|_2 + \\ &\qquad L\times\sum\limits_{t = T/2+2}^T\frac{2}{t}\left\|\overline{\boldsymbol{x}}\left(t\right)-\boldsymbol{x}^{\ast}\left(t\right)\right\|_2 \leq \\&\qquad 2LD\times\left(1+\sum\limits_{t = T/2+2}^T\frac{1}{t}\right) \leq \\ &\qquad 2LD\times\left(1+\log 2\right)\leq 4LD \\[-10pt]\end{split} $$ (68) 其中, 第1个不等式根据$ F_t $和$ f_t $是$ L $-Lipschitz得出, 第2个不等式由$ D $的定义得到, 第3个和第4个不等式依据$\sum\nolimits_{t = T/2+1}^Tt^{-1}\leq \log 2T/\left(T+4\right)\leq \log 2 \leq 1$获得.
从$ t = T/2+1 $到$ t = T $对式(66)求和, 可得
$$ \begin{equation} \begin{split} &\sum\limits_{t = T/2+1}^T \gamma\left(t\right)\psi\left(t\right) \leq 4LD \;+\\ &\qquad\quad\sum\limits_{t = T/2+1}^T\left(\frac{\gamma^2\left(t\right)}{2}\beta D^2+2 D\gamma\left(t\right)\times\frac{C_2+\beta C_1}{t^{\kappa}}\right) \end{split} \end{equation} $$ (69) 由于$ \gamma\left(t\right) = t^{-\kappa} $, 则当$ \kappa\in\left[1/2,1\right) $, 可以得到
$$ \begin{equation} \sum\limits_{t = T/2+1}^T\gamma^2\left(t\right) = \sum\limits_{t = T/2+1}^Tt^{-2\kappa}\leq\sum\limits_{t = T/2+1}^Tt^{-1}\leq\log 2 \end{equation} $$ (70) 由$ \psi\left(t\right)\geq 0 $和$ \gamma\left(t\right)\geq 0 $, 还可以得到
$$ \begin{split} &\left[\min_{t\in\left[T/2+1,T\right]}\psi\left(t\right)\right]\times\left[\sum\limits_{t = T/2}^T\gamma\left(t\right)\right] \leq\\ &\qquad\sum\limits_{t = T/2}^T\gamma\left(t\right)\psi\left(t\right) \leq\\ &\qquad 4LD+\left(\beta \frac {D^2}{2}+2\beta DC_1+2 DC_2\right)\log 2 \end{split} $$ (71) 因此, 对于所有的$ T\geq 6 $, 可得
$$ \begin{equation} \begin{split} \sum\limits_{t = T/2+1}^T\gamma\left(t\right) =& \sum\limits_{t = T/2+1}^T\frac{1}{t^{\kappa}}\geq\int_{T/2+1}^Tt^{-\kappa}{\rm{d}}t = \\ &\frac{T^{1-\kappa}}{1-\kappa}\left(1-\left(\frac{1}{2}+\frac{1}{T}\right)^{1-\kappa}\right) \geq\\ & \frac{T^{1-\kappa}}{1-\kappa}\left(1-\left(\frac{2}{3}\right)^{1-\kappa}\right) \end{split} \end{equation} $$ (72) 将式(72)代入式(71), 则对所有的$ T\geq 6 $, 有
$$ \begin{equation} \min\limits_{t\in\left[T/2+1,T\right]}\psi\left(t\right)\leq C_4\left(1-\left(\frac{2}{3}\right)^{1-\kappa}\right)^{-1}\times\frac{1-\kappa}{T^{1-\kappa}} \end{equation} $$ (73) 其中,
$$ C_4 = 4LD+\left(\frac{\beta D^2}{2}+2\beta DC_1+2 DC_2\right)\times\log 2 $$ 当$ \kappa\in\left(0,1/2\right) $时, 有$ t^{-2\kappa}>t^{-1} $. 因此, 可以得出
$$ \begin{equation} \sum\limits_{t = T/2+1}^T\frac{1}{t^{2\kappa}}\leq \int_{t = T/2}^T\frac{1}{t^{2\kappa}}{\rm{d}}t = \frac{1-\left(\frac{1}{2}\right)^{1-2\kappa}}{1-2\kappa}\times T^{1-2\kappa} \end{equation} $$ (74) 利用式(74), 可得
$$ \begin{equation} \begin{split} &4LD +\sum\limits_{t = T/2+1}^T\left(\frac{\gamma^2\left(t\right)}{2}\beta D^2+2 D\gamma\left(t\right)\times \vphantom{\sum\limits_{t = T/2+1}^T} \right. \notag\\ &\quad\left. \vphantom{\sum\limits_{t = T/2+1}^T}\frac{C_2+\beta C_1}{t^{\kappa}}\right) \leq \left(\frac{\beta D^2}{2}+2 DC_2+2\beta DC_1\right)\times \notag\\ &\quad\frac{1-\left(\frac{1}{2}\right)^{1-2\kappa}}{1-2\kappa}\times T^{1-2\kappa}+4LD\times T^{1-2\kappa} \end{split} \end{equation} $$ 将式(75)代入式(69), 并除以$(1-\kappa)^{-1}(1- (2/3)^{1-\kappa})T^{1-\kappa}$, 可得
$$ \begin{equation} \begin{split} \min_{t\in\left[T/2+1,T\right]}\psi\left(t\right)\leq \frac{1-\kappa}{1-\left(\frac{2}{3}\right)^{1-\kappa}}\times\frac{C_5}{T^{\kappa}} \end{split} \end{equation} $$ (75) 其中,
$$ \begin{split}C_5 =\; &4LD\;+\;\left(\dfrac{\beta D^2}{2}\;+\;2 DC_2\;+\;2\beta DC_1\right)\times \\& \dfrac{1-\left(\frac{1}{2}\right)^{1-2\kappa}}{1-2\kappa} \end{split}$$ □ 5. 仿真实验
仿真实验考虑一个数据平均分布的多智能体网络, 每个节点通过局部通信和局部计算, 与邻居节点协作完成网络中的全局任务, 使用算法1解决网络系统的多分类问题.
在多分类问题中, 每个局部代价函数为
$$ \begin{equation*} \begin{split} &f_t^i\left({X}_i\left(t\right)\right) = \\ &\qquad\quad\log\left(1+\sum\limits_{\ell\not = \boldsymbol{y}_i\left(t\right)}\exp\left(\boldsymbol{x}_{\ell}^{\rm T}\boldsymbol{e}_i\left(t\right)-\boldsymbol{x}_{y_i\left(t\right)}^{\rm T}{\boldsymbol{e}}_i\left(t\right)\right)\right) \end{split} \end{equation*} $$ 其中, $ \boldsymbol{e}_i\left(t\right)\in{\bf{R}}^d $是类型$ {C} = \left\{1,\cdots,c\right\} $的一个元素, 表示节点$ i $的一个数据实例; $\boldsymbol {X}_i\left(t\right) = [\boldsymbol{x}_1^{\rm T},\cdots, \boldsymbol{x}_c^{\rm T}]\in{\bf{R}}^{c\times d}$表示节点$ i $的一个决策矩阵; 定义${X} = \left\{{X}\in{\bf{R}}^{c\times d}|\left\|{X}\right\|_*\leq \zeta\right\}$, 其中$ \left\|{X}\right\|_* $是$ {X} $的核范数; 学习率设为$ 2/(t+2) $.
本实验在aloi和news20数据集上验证了算法1的性能. 实验1考察节点数对算法1的影响, 当节点分别为4、64、128 和256时算法1的性能如图1所示. 从图1可以看出, 悔界随着节点数量的增加而增加, 且在不同节点数时算法1都是收敛的. 实验2采用64个节点比较算法1与D-OCG[33]算法的性能, 结果如图2所示. 从图2可以看出, 算法1均比D-OCG算法具有更快的收敛速率. 实验3考察不同网络拓扑对算法1性能的影响, 采用64个节点组成完全图、随机图和循环图三种网络拓扑, 算法1性能如图3所示. 从图3可以看出, 采用完全图拓扑时算法的收敛速率略快于采用随机图[37]和循环图拓扑时算法的收敛速率.
6. 结束语
本文研究了多智能体网络系统中的分布式在线约束优化问题, 其中全局代价函数是局部代价函数之和, 且局部代价函数是时变的. 为了解决这个问题, 本文提出了一种分布式条件梯度在线学习算法, 以避免代价高昂的投影算子. 理论分析表明, 对于凸代价函数, 所提算法可以达到悔界$ {\rm{O}}(\sqrt{T}) $, 其中$ T $表示时间范围; 对于非凸代价函数, 所提算法以 $ {\rm{O}}(\sqrt{T}) $的速率收敛到平稳点. 仿真实验验证了所提算法的性能和理论分析的结果. 该算法可为多智能体网络系统的资源分配、数据管理、调度控制等问题提供参考.
附录 A. 引理1的证明
证明. 1) 关系 a) 的证明. 对式(9)从$i = 1,\cdots, N$求和, 其中$ t\geq 1 $, 除以$ N\left(t+1\right) $得到
$$ \begin{split} \bar{\boldsymbol{s}}_{t+1}\left(t+1\right)-\;& \frac{1}{t+1}\times\frac{1}{N}\sum\limits_{\tau = 1}^{t+1}\sum\limits_{i = 1}^N\boldsymbol{s}_{\tau}^i\left(t+1\right) = \\ &\frac{1}{1+t}\times\frac{1}{N}\sum_{\tau = 1}^{t+1}\sum\limits_{i = 1}^N\sum\limits_{j\in{N}_i}{a}_{ij}\boldsymbol{s}_{\tau}^j\left(t\right) +\\ &\frac{1}{t+1}\times\frac{1}{N}\sum\limits_{\tau = 1}^{t+1}\sum\limits_{i = 1}^N\nabla f_{\tau}^i\left(\boldsymbol{z}_i\left(t+1\right)\right) -\\ &\frac{1}{t+1}\times\frac{1}{N}\sum\limits_{\tau = 1}^{t+1}\sum\limits_{i = 1}^N\nabla f_{\tau}^i\left(\boldsymbol{z}_i\left(t\right)\right) = \\ &\bar{\boldsymbol{s}}_{t+1}\left(t\right)+\boldsymbol{g}_{t+1}\left(t+1\right)-\boldsymbol{g}_{t+1}\left(t\right) \end{split} \tag{A1}$$ 由于邻接矩阵$ \boldsymbol A $是一个双随机矩阵, 即$\boldsymbol{1}^{\rm T}\boldsymbol A = \boldsymbol{1}^{\rm T}$. 由式(A1)可得
$$ \begin{equation*} \bar{\boldsymbol{s}}_{t+1}\left(t+1\right) = \bar{\boldsymbol{s}}_{t+1}\left(0\right)+\boldsymbol{g}_{t+1}\left(t+1\right)-\boldsymbol{g}_{t+1}\left(0\right) \end{equation*} $$ 其中, $\boldsymbol{g}_{t+1}\left(0\right) = \frac{1}{N\left(t+1\right)}\sum\nolimits_{\tau = 1}^{t+1}\sum\nolimits_{i = 1}^N\nabla f_{\tau}^i\left(\boldsymbol{z}_i\left(0\right)\right)$. 由于对所有的$i = 1,\cdots,N$和$\tau \geq 1$, 有$\boldsymbol{s}_{\tau}^i\left(0\right) = \nabla f_{\tau}^i \left(\boldsymbol{z}_i\left(0\right)\right)$, 则$ \bar{\boldsymbol{s}}_{t+1}\left(0\right) = \boldsymbol{g}_{t+1}\left(0\right) $.
2)关系 b) 的证明. 根据$ \overline{\boldsymbol{x}}\left(t\right) $的定义以及式(8)和式(12), 可以得出
$$ \begin{split}&\overline{\boldsymbol{x}}\left(t+1\right) = \frac{1}{N}\sum\limits_{i = 1}^N\boldsymbol{x}_i\left(t+1\right) = \\ &\qquad\frac{1}{N}\sum\limits_{i = 1}^N\left[\left(1-\gamma\left(t\right)\right)\boldsymbol{z}_i\left(t\right)+\gamma\left(t\right)\boldsymbol{v}_i\left(t\right)\right] = \\ &\qquad\frac{\left(1-\gamma\left(t\right)\right)}{N}\sum\limits_{i = 1}^N\sum\limits_{j = 1}^N{a}_{ij}\boldsymbol{x}_i\left(t\right)+\frac{\gamma\left(t\right)}{N}\sum\limits_{i = 1}^N\boldsymbol{v}_i\left(t\right) = \end{split}$$ $$ \begin{split} &\qquad\left(1-\gamma\left(t\right)\right)\overline{\boldsymbol{x}}\left(t\right)+\gamma\left(t\right)\overline{\boldsymbol{v}}\left(t\right) \end{split} \tag{A2}$$ 其中, 最后一个等式根据矩阵$ \boldsymbol A $由双随机矩阵得出, 即$ \boldsymbol{1}^{\rm T}{\boldsymbol A} = \boldsymbol{1}^{\rm T} $, 且$ \overline{\boldsymbol{v}}\left(t\right) = \left(1/N\right)\sum\nolimits_{i = 1}^N\boldsymbol{v}_i\left(t\right) $.
□ 附录 B. 引理2的证明
证明. 根据范数的性质, 有
$$ \begin{equation} \max\limits_{i\in\left\{1,\cdots,N\right\}}\left\|\boldsymbol{z}_i\left(t\right)-\overline{\boldsymbol{x}}\left(t\right)\right\|_2\leq\sqrt{\sum\limits_{i = 1}^N\left\|\boldsymbol{z}_i\left(t\right)-\overline{\boldsymbol{x}}\left(t\right)\right\|_2^2} \end{equation} \tag{B1}$$ 为了证明引理2, 只需要证明不等式
$$ \begin{equation} \sqrt{\sum\limits_{i = 1}^N\left\|\boldsymbol{z}_i\left(t\right)-\overline{\boldsymbol{x}}\left(t\right)\right\|_2^2}\leq\frac{C_1}{t^\kappa} \end{equation} \tag{B2}$$ 下面对$ t $使用归纳法证明式(B2). 可以看出, 从$ t = 1 $到$ t = t_0 $, 式(B2)成立. 假设对于某些$t\geq t_0$, 式(B2)也成立. 由于当$\kappa\in\left(0,1\right],$ 有$ \gamma\left(t\right) = t^{-\kappa} $, 则有$\boldsymbol{x}_i(t+1) = (1-t^{-\kappa})\boldsymbol{z}_i(t) + t^{-\kappa}\boldsymbol{v}_i\left(t\right)$. 因此, 根据引理1 的b), 可以得到
$$ \begin{split}&\sum\limits_{i = 1}^N\left\|\boldsymbol{z}_i\left(t+1\right)-\overline{\boldsymbol{x}}\left(t+1\right)\right\|_2^2 = \\ &\qquad\sum\limits_{i = 1}^N\left\|\sum\limits_{j = 1}^N{a}_{ij}\left(1-t^{-\kappa}\right)\boldsymbol{z}_j\left(t\right)\vphantom{\sum\limits_{j = 1}^N}\right. + \\ &\qquad\left.\vphantom{\sum\limits_{j = 1}^N}\sum\limits_{j = 1}^N{ a}_{ij}t^{-\kappa}\boldsymbol{v}_j\left(t\right)-\left(1-t^{-\kappa}\right)\overline{\boldsymbol{x}}\left(t\right)-t^{-\kappa}\overline{\boldsymbol{v}}\left(t\right)\right\|_2^2 \leq \end{split}$$ $$ \begin{split} &\qquad\lambda^2\sum\limits_{j = 1}^N\left\|\left(1-t^{-\kappa}\right)\left(\boldsymbol{z}_j\left(t\right)-\overline{\boldsymbol{x}}\left(t\right)\right) \vphantom{\sum\limits_{j = 1}^N}\right. +\\&\qquad \left.\vphantom{\sum\limits_{j = 1}^N}t^{-\kappa}\left(\boldsymbol{v}_j\left(t\right)-\overline{\boldsymbol{v}}\left(t\right)\right)\right\|_2^2 \qquad\qquad\quad\quad\qquad\end{split} \tag{B3}$$ 其中, 最后一个不等式依据式(13)得到. 为了获得$ \sum\nolimits_{i = 1}^N\left\|\boldsymbol{z}_i\left(t+1\right)-\overline{\boldsymbol{x}}\left(t+1\right)\right\|_2^2 $的上界, 需要得到
$$ \sum\limits_{j = 1}^N\left\|\left(1-t^{-\kappa}\right)\left(\boldsymbol{z}_j\left(t\right)-\overline{\boldsymbol{x}}\left(t\right)\right)+t^{-\kappa}\left(\boldsymbol{v}_j\left(t\right)-\overline{\boldsymbol{v}}\left(t\right)\right)\right\|_2^2 $$ 的上界. 为此, 首先有
$$ \begin{split} &\sum\limits_{j = 1}^N\left\|\left(1-t^{-\kappa}\right)\left(\boldsymbol{z}_j\left(t\right)-\overline{\boldsymbol{x}}\left(t\right)\right) +t^{-\kappa}\left(\boldsymbol{v}_j\left(t\right) -\overline{\boldsymbol{v}}\left(t\right)\right)\right\|_2^2 \leq\\ &\qquad\sum\limits_{j = 1}^N\left\|\boldsymbol{z}_j\left(t\right)-\overline{\boldsymbol{x}}\left(t\right)\right\|_2^2+Nt^{-2\kappa} D^2 \;+\\ &\qquad2 Dt^{-\kappa}\sqrt{N}\sqrt{\sum\limits_{j = 1}^N\left\|\boldsymbol{z}_j\left(t\right)-\overline{\boldsymbol{x}}\left(t\right)\right\|_2^2} \;\leq\\ &\qquad t^{-2\kappa}\left(C_1^2+N D^2\right)+2 Dt^{-2\kappa}C_1\sqrt{N}\leq\\ &\qquad\left(\frac{t_0^\kappa+1}{t_0^\kappa}\times \frac{C_1}{ t^\kappa}\right)^2 \end{split} \tag{B4}$$ 其中, 第1个不等式依据柯西−施瓦兹不等式、约束集$ X $的有界性和不等式$ \sum\nolimits_{i = 1}^N\left|w_i\right|\leq\sqrt{N}\sqrt{\sum\nolimits_{i = 1}^Nw_i^2} $得到. 第2个和第3个不等式由归纳假设得到. 因此, 根据式(14), 对于所有的$ t\geq t_0 $, 有
$$ \begin{split} \lambda\times\frac{1+t_0^\kappa}{t_0^\kappa\times t^\kappa}&\leq \frac{t_0^\kappa}{1+t_0^\kappa}\times\left(\frac{t_0}{1+t_0}\right)^\kappa\times \\ &\frac{1+t_0^\kappa}{t_0^\kappa\times t^\kappa} = \left(\frac{t_0}{1+t_0}\right)^\kappa\times \frac{1}{t^\kappa} \leq\\ & \left(\frac{t}{1+t}\right)^\kappa\times \frac{1}{t^\kappa} = \frac{1}{\left(1+t\right)^\kappa} \end{split}\tag{B5} $$ 其中, 第2个不等式根据函数$ \varphi\left(\nu\right) = \left(\nu/\left(1+\nu\right)\right)^\kappa $是关于$ \nu $的单调递增函数得到. 结合式(14)和式(B5), 可以得到
$$ \sqrt{\sum\limits_{i = 1}^N\left\|\boldsymbol{z}_i\left(t+1\right)-\overline{\boldsymbol{x}}\left(t+1\right)\right\|_2^2}\leq \frac{C_1}{\left(1+t\right)^\kappa} $$ 因此, 式(B2)成立.
□ 附录 C. 引理3的证明
证明. 首先, 利用范数的性质, 有
$$ \begin{equation} \max\limits_{i\in\left\{1,\cdots,N\right\}}\left\|\boldsymbol{S}_t^i\left(t\right)-\boldsymbol{g}_t\left(t\right)\right\|_2\leq\sqrt{\sum\limits_{i = 1}^N\left\|\boldsymbol{S}_t^i\left(t\right)-\boldsymbol{g}_t\left(t\right)\right\|_2^2} \end{equation} \tag{C1}$$ 为了证明式(25), 只需证明式(C2)
$$ \begin{equation} \sqrt{\sum\limits_{i = 1}^N\left\|\boldsymbol{S}_t^i\left(t\right)-\boldsymbol{g}_t\left(t\right)\right\|_2^2}\leq \frac{C_2}{t^{\kappa}} \end{equation}\tag{C2} $$ 其中, $C_2 = \sqrt{N}[[\delta+\frac{\beta\left(D+2C_1\right)}{1-\kappa}]+2\beta\left(D+2C_1\right)]\times t_0^{\kappa}$, 且对于所有的$ i = 1,\cdots,N $和$ t\geq 1 $, $ \delta $是一个满足$\delta\geq\left\|\boldsymbol{s}_{t+1}^i\left(1\right)- \boldsymbol{\phi}_{t+1}\left(1\right)\right\|_2$的正常数.
下面采用归纳法证明式(C2). 可以看出, 从$ t = 1 $到$ t = t_0 $, 式(C2)成立. 假设对于某个$ t $, 式(C2)成立. 引入一个辅助变量$\sigma f_{\tau}^i\left(t+1\right) = \nabla f_{\tau}^i\left(\boldsymbol{z}_i\left(t+1\right)\right)- \nabla f_{\tau}^i\left(\boldsymbol{z}_i\left(t\right)\right)$, 将其代入式(9), 可以得到
$$ \begin{equation} \boldsymbol{s}_{\tau}^i\left(t+1\right) = \sum\limits_{j\in{{N}}_i}{a}_{ij}\boldsymbol{s}_{\tau}^j\left(t\right)+\sigma f_{\tau}^i\left(t+1\right) \end{equation}\tag{C3} $$ 根据$ \boldsymbol{S}_t^i\left(t\right) $的定义, 有
$$ \begin{split} &\sum\limits_{i = 1}^N\left\|\boldsymbol{S}_{t+1}^i\left(t+1\right)-\boldsymbol{g}_{t+1}\left(t+1\right)\right\|_2^2 \leq\\ &\qquad\lambda^2\sum\limits_{i = 1}^N\left\|\frac{1}{t+1}\sum\limits_{\tau = 1}^{t+1}\sum\limits_{j = 1}^N{a}_{ij}\boldsymbol{s}_{\tau}^j\left(t\right)+ \vphantom{\lambda^2\sum\limits_{i = 1}^N} \right.\\ &\qquad\left. \vphantom{\lambda^2\sum\limits_{i = 1}^N}\frac{1}{t+1}\sum\limits_{\tau = 1}^{t+1}\sigma f_{\tau}^i\left(t+1\right)-\boldsymbol{g}_{t+1}\left(t+1\right)\right\|_2^2 = \\ &\qquad\lambda^2\sum\limits_{i = 1}^N\left\|\frac{t}{t+1}\left(\boldsymbol{S}_t^i\left(t\right)-\boldsymbol{g}_t\left(t\right)\right)+ \vphantom{\lambda^2\sum\limits_{i = 1}^N} \right.\\ &\qquad\left. \vphantom{\lambda^2\sum\limits_{i = 1}^N}\frac{1}{t+1}\boldsymbol{s}_{t+1}^i\left(t+1\right)+\frac{1}{t+1}\sum\limits_{\tau = 1}^{t}\sigma f_{\tau}^i\left(t+1\right)+ \vphantom{\lambda^2\sum\limits_{i = 1}^N} \right.\\ &\qquad\left. \vphantom{\lambda^2\sum\limits_{i = 1}^N}\frac{t}{t+1}\boldsymbol{g}_t\left(t\right)-\boldsymbol{g}_{t+1}\left(t+1\right)\right\|_2^2 \end{split} \tag{C4}$$ 其中, 不等式依据式(9)和式(13)得出. 根据$ \boldsymbol{g}_t\left(t\right) $的定义, 可以得到
$$ \begin{split} &\boldsymbol{g}_{t+1}\left(t+1\right)-\frac{t}{t+1}\boldsymbol{g}_t\left(t\right) = \\ &\quad\frac{1}{t+1}\frac{1}{N}\sum\limits_{\tau = 1}^{t+1}\sum\limits_{i = 1}^N\nabla f_{\tau}^t\left(\boldsymbol{z}_i\left(t+1\right)\right)-\\ &\quad\frac{1}{t+1}\frac{1}{N}\sum\limits_{\tau = 1}^t\sum\limits_{i = 1}^N\nabla f_{\tau}^t\left(\boldsymbol{z}_i\left(t\right)\right) = \end{split} $$ $$ \begin{split} &\;\;\frac{1}{N\left(t+1\right)}\sum\limits_{\tau = 1}^t\sum\limits_{i = 1}^N\left(\nabla f_{\tau}^i\left(\boldsymbol{z}_i\left(t+1\right)\right)-\nabla f_{\tau}^i\left(\boldsymbol{z}_i\left(t\right)\right)\right)+\\&\;\;\frac{1}{t+1}\frac{1}{N}\sum\limits_{i = 1}^N\nabla f_{t+1}^i\left(\boldsymbol{z}_i\left(t+1\right)\right) = \\&\;\;\frac{1}{t+1}\sum\limits_{\tau = 1}^t\left(\frac{1}{N}\sum\limits_{i = 1}^N\sigma f_{\tau}^i\left(t+1\right)\right)+ \\ &\;\;\frac{1}{t+1}{\boldsymbol\phi}_{t+1}\left(t+1\right) \end{split}\tag{C5} $$ 其中, ${\boldsymbol \phi}_{t+1}\left(t+1\right) = \left(1/N\right)\sum\nolimits_{i = 1}^N\nabla f_{t+1}^i\left(\boldsymbol{z}_i\left(t+1\right)\right)$. 并且可以进一步得到
$$ \begin{split} &\left\|\boldsymbol{s}_{t+1}^i\left(t+1\right)-{\boldsymbol \phi}_{t+1}\left(t+1\right)\right\|_2 = \\ &\qquad\left\|\sum\limits_{j = 1}^N{a}_{ij}\boldsymbol{s}_{t+1}^j\left(t\right)-\boldsymbol\phi_{t+1}\left(t\right) +\vphantom{\sum\limits_{j = 1}^N} \right. \\ &\qquad\left. \vphantom{\sum\limits_{j = 1}^N} \sigma f_{t+1}^i\left(t+1\right) -\left[\boldsymbol\phi_{t+1}\left(t+1\right)-\boldsymbol\phi_{t+1}\left(t\right)\right] \right\|_2 \leq\\ &\qquad \left\|\sum\limits_{j = 1}^N{a}_{ij}\boldsymbol{s}_{t+1}^j\left(t\right)-\boldsymbol\phi_{t+1}\left(t\right)\right\|_2 +\\ &\qquad\left\|\sigma f_{t+1}^i\left(t+1\right)-\left[\boldsymbol\phi_{t+1}\left(t+1\right)-\boldsymbol\phi_{t+1}\left(t\right)\right]\right\|_2 \leq\\ &\qquad\lambda\left\|\boldsymbol{s}_{t+1}^i\left(t\right)-\boldsymbol\phi_{t+1}\left(t\right)\right\|_2 +\\ &\qquad\left\|\sigma f_{t+1}^i\left(t+1\right) -\left[\boldsymbol\phi_{t+1}\left(t+1\right)-\right.\right.\\ &\qquad \left.\left.\boldsymbol\phi_{t+1}\left(t\right)\right]\right\|_2 \end{split} \tag{C6}$$ 其中, 第1个不等式依据三角不等式得出, 最后一个不等式根据式(13)获得. 另外, $\|\sigma f_{t+1}^i(t+1)\,- [\boldsymbol\phi_{t+1}(t+1)- \boldsymbol\phi_{t+1}\left(t\right)]\|_2$由式(C7)进行计算
$$ \begin{split} &\left\|\sigma f_{t+1}^i\left(t+1\right)-\left[\boldsymbol\phi_{t+1}\left(t+1\right)-\boldsymbol\phi_{t+1}\left(t\right)\right]\right\|_2^2 = \\ &\qquad\left\|\sigma f_{t+1}^i\left(t+1\right)\right\|_2^2+\left\|\boldsymbol\phi_{t+1}\left(t+1\right)-\boldsymbol\phi_{t+1}\left(t\right)\right\|_2^2\;-\\ &\qquad2\left\langle\sigma f_{t+1}^i\left(t+1\right),\boldsymbol\phi_{t+1}\left(t+1\right)-\boldsymbol\phi_{t+1}\left(t\right)\right\rangle \leq\\ &\qquad\left\|\sigma f_{t+1}^i\left(t+1\right)\right\|_2^2 \end{split}\tag{C7} $$ 其中, 最后一个不等式依据$ \boldsymbol\phi_{t+1}\left(t+1\right) $的定义得出. 将式(C7)代入式(C6), 得到
$$ \begin{split} &\left\|\boldsymbol{s}_{t+1}^i\left(t+1\right)-\boldsymbol\phi_{t+1}\left(t+1\right)\right\|_2 \leq\\ &\qquad \lambda\left\|\boldsymbol{s}_{t+1}^i\left(t\right)-\boldsymbol\phi_{t+1}\left(t\right)\right\|_2+ \\ & \qquad\left\|\sigma f_{t+1}^i\left(t+1\right)\right\|_2 \end{split} \tag{C8}$$ 根据$ \sigma f_{t+1}^i\left(t+1\right) $的定义, 可以得到
$$ \begin{split} &\|\sigma f_{t+1}^i\left(t+1\right)\|_2 = \\ &\quad\left\|\nabla f_{t+1}^i\left(\boldsymbol{z}_i\left(t+1\right)\right)-\nabla f_{t+1}^i\left(\boldsymbol{z}_i\left(t\right)\right)\right\|_2 \leq\\ &\quad\beta\left\|\boldsymbol{z}_i\left(t+1\right)-\boldsymbol{z}_i\left(t\right)\right\|_2 = \\ &\quad \beta\Bigg\|\sum\limits_{j = 1}^N{a}_{ij}\left(\boldsymbol{x}_j\left(t+1\right)-\boldsymbol{z}_j\left(t\right)+\right.\quad\quad\quad\quad\end{split} $$ $$ \begin{split}\quad & \qquad\left. \left(\boldsymbol{z}_j\left(t\right)-\boldsymbol{z}_i\left(t\right)\right)\right)\Bigg\|_2 \leq\\ &\qquad\beta\sum\limits_{j = 1}^N{a}_{ij}\left(\left\|\boldsymbol{x}_j\left(t+1\right)-\boldsymbol{z}_j\left(t\right)\right\|_2+\right.\\&\qquad \left.\left\|\boldsymbol{z}_j\left(t\right)-\boldsymbol{z}_i\left(t\right)\right\|_2\right) \leq\\ &\qquad\beta\sum\limits_{j = 1}^N{a}_{ij}\left\|t^{-\kappa}\left(\boldsymbol{v}_j\left(t\right)-\boldsymbol{z}_j\left(t\right)\right)\right\|_2 + \\ &\qquad\beta\sum\limits_{j = 1}^N{a}_{ij}\left(\left\|\boldsymbol{z}_j\left(t\right)-\overline{\boldsymbol{x}}\left(t\right)\right\|_2 + \left\|\boldsymbol{z}_i\left(t\right) - \overline{\boldsymbol{x}}\left(t\right)\right\|_2\right) \leq\\ &\qquad\beta\sum\limits_{j = 1}^N{a}_{ij}\left( Dt^{-\kappa}+2C_1t^{-\kappa}\right) =\\ &\qquad \left( D+2C_1\right)\beta t^{-\kappa} \end{split} \tag{C9}$$ 其中, 第1个不等式根据式(4)得到, 第2个不等式可由欧几里得范数的凸性和三角不等式推出, 第3个不等式依据式(12)和三角不等式获得, 第4个不等式从引理1推出. 将式(C9)与(C8)合并, 可以得到
$$ \begin{split} &\left\|\boldsymbol{s}_{t+1}^i\left(t+1\right)-\boldsymbol\phi_{t+1}\left(t+1\right)\right\|_2 \leq\\ &\qquad\quad\lambda^{t+1}\left\|\boldsymbol{s}_{t+1}^i\left(1\right)-\boldsymbol\phi_{t+1}\left(1\right)\right\|_2 +\\ &\quad\qquad\beta\left( D+2C_1\right)\sum\limits_{\tau = 0}^{t-1}\lambda^{\tau}\left(t-\tau\right)^{-\kappa} \leq\\ &\qquad\quad\left\|\boldsymbol{s}_{t+1}^i\left(1\right)-\boldsymbol\phi_{t+1}\left(1\right)\right\|_2+\\ &\qquad\quad\frac{\beta\left( D+2C_1\right)}{1-\kappa}t^{1-\kappa} \end{split}\tag{C10} $$ 其中, 最后一个不等式根据下面不等式得出
$$ \begin{equation*} \begin{split} &\sum\limits_{\tau = 1}^{t-1}\lambda^{\tau}\left(t-\tau\right)^{-\kappa}\leq\sum\limits_{\theta = 1}^t\theta^{-\kappa} \leq\\ &\qquad\quad\int_{0}^t\theta^{-\kappa} {\rm{d}}\theta = \frac{1}{1-\kappa}t^{1-\kappa} \end{split} \end{equation*} $$ 其中, $\lambda\in\left(0,1\right) .$ 此外, 还可以得到
$$ \begin{equation*} \begin{split} &\left\|\frac{1}{t+1}\sum\limits_{\tau = 1}^t\sigma f_{\tau}^i\left(t+1\right) \vphantom{\sum\limits_{\tau = 1}^t}\right. -\\ &\qquad\left.\vphantom{\sum\limits_{\tau = 1}^t} \frac{1}{t+1}\sum\limits_{\tau = 1}^t\left(\frac{1}{N}\sum\limits_{i = 1}^N\sigma f_{\tau}^i\left(t+1\right)\right)\right\|_2 \leq\\ &\qquad\frac{1}{t+1}\sum\limits_{\tau = 1}^t\left\|\sigma f_{\tau}^i\left(t+1\right)-\frac{1}{N}\sum\limits_{i = 1}^N\sigma f_{\tau}^i\left(t+1\right)\right\|_2 = \\ &\qquad\frac{1}{t+1}\sum\limits_{\tau = 1}^t\left\|\left(1-\frac{1}{N}\right)\sigma f_{\tau}^i\left(t+1\right) \vphantom{\sum\limits_{\tau = 1}^t}\right. -\end{split} \end{equation*} $$ $$ \begin{split} &\qquad\left.\vphantom{\sum\limits_{\tau = 1}^t} \frac{1}{N}\sum\limits_{j\not = i}\sigma f_{\tau}^j\left(t+1\right)\right\|_2 \leq\\ &\qquad\frac{1}{t+1}\sum\limits_{\tau = 1}^t\Bigg(\left(1-\frac{1}{N}\right)\left\|\sigma f_{\tau}^i\left(t+1\right)\right\|_2 \vphantom{} +\\ &\qquad\vphantom{} \frac{1}{N}\sum\limits_{j\not = i}\left\|\sigma f_{\tau}^j\right\|_2\Bigg) \leq\\ &\qquad2\frac{1}{t+1}\sum\limits_{\tau = 1}^t\left(1-\frac{1}{N}\right)\left( D+2C_1\right)\beta t^{-\kappa} \leq\\ &\qquad2\left( D+2C_1\right)\beta t^{-\kappa}\times\frac{t}{t+1} \qquad\qquad \qquad \qquad \quad \end{split} \tag{C11}$$ 其中, 第1个不等式根据欧几里得范数的凸性推出, 第2个不等式依据三角不等式获得, 第3个不等式从式(C9)推出, 第4个不等式依据$ N $是一个正整数得到. 将式(C10)和式(C11)代入式(C4), 并使$ \left\|\boldsymbol{s}_{t+1}^i\left(1\right)-\boldsymbol\phi_{t+1}\left(1\right)\right\|_2\leq \delta $, $ \delta $是一个正常数. 则对于所有的$ i\in\left\{1,\cdots,N\right\} $, 可以得到
$$ \begin{equation*} \begin{split}& \sum\limits_{i = 1}^N\Bigg\|\frac{t}{t+1}\left(\boldsymbol{S}_t^i\left(t\right)-\boldsymbol{g}_t\left(t\right)\right)+\frac{1}{t+1}\boldsymbol{s}_{t+1}^i\left(t+1\right)+\vphantom{\sum\limits_{\tau = 1}^{t+1}} \\ &\quad\left. \vphantom{\sum\limits_{\tau = 1}^{t+1}}\frac{1}{t+1}\sum\limits_{\tau = 1}^{t}\sigma f_{\tau}^i\left(t+1\right)+\frac{t}{t+1}\boldsymbol{g}_t\left(t\right)-\right. \\ &\quad\boldsymbol{g}_{t+1}\left(t+1\right)\Bigg\|_2^2 \leq\\ &\quad\sum\limits_{i = 1}^N\left\|\boldsymbol{S}_{t}^i\left(t\right)-\boldsymbol{g}_{t}\left(t\right)\right\|_2^2+4N\left( D+2C_1\right)^2\beta^2t^{-2\kappa} \;+ \\ &\quad 4\left[\delta+\frac{\beta\left( D+2C_1\right)}{1-\kappa}\right]\left( D+2C_1\right)\beta t^{-2\kappa} \;+\\&\quad\frac{N}{t^{2\kappa}}\left[\delta+\frac{\beta\left( D+2C_1\right)}{1-\kappa}\right]^2 + \end{split} \end{equation*} $$ $$ \begin{split} &\quad2\sqrt{N}\sqrt{\sum\limits_{i = 1}^N\left\|\boldsymbol{S}_{t}^i\left(t\right)-\boldsymbol{g}_{t}\left(t\right)\right\|_2^2} \;\times\\ &\quad\Bigg[\delta+\frac{\beta( D+2C_1)}{1-\kappa}+2( D+2C_1)\beta\Bigg]\leq\\ &\quad C_2^2t^{-2\kappa}+N\Bigg(\delta+\frac{\beta( D+2C_1)}{1-\kappa}\Bigg)^2t^{-2\kappa} \;+\\ &\quad4N( D+2C_1)^2\beta^2t^{-2\kappa}+4\sqrt{N}( D +2C_1)C_2\beta t^{-2\kappa}\; +\\ &\quad 2\sqrt{N}\Bigg[\delta + \frac{\beta( D+2C_1)}{1-\kappa}\Bigg][2( D +2C_1)\beta+C_2]t^{-2\kappa}\leq \\&\quad t^{-2\kappa}\Bigg[C_2+\sqrt{N}\Bigg[\Bigg[\delta+\frac{\beta( D+2C_1)}{1-\kappa}\Bigg]+ \vphantom{\delta+\frac{\beta( D+2C_1)}{1-\kappa}} \\ &\quad\vphantom{\delta+\frac{\beta( D+2C_1)}{1-\kappa}} 2\beta( D+2C_1)\Bigg]\Bigg]^2 \leq \left(\frac{t_0^{\kappa}+1}{t_0^{\kappa}}\times \frac{C_2}{t^{\kappa}}\right)^2 \end{split} \tag{C12}$$ 其中, 第1个不等式依据三角不等式、柯西−施瓦兹不等式和不等式$ \sum\nolimits_{i = 1}^N\left|w_i\right|\leq\sqrt{N}\sqrt{\sum\nolimits_{i = 1}^Nw_i^2} $推出, 第2个不等式根据归纳假设获得, 最后一个不等式从$ C_2 $的定义得到. 依据式(14), 对于所有的$ t\geq t_0 ,$ 可以得出
$$ \begin{equation} \lambda\times\frac{t_0^{\kappa}+1}{t_0^{\kappa}}\leq\left(\frac{t}{t+1}\right)^\kappa \end{equation}\tag{C13} $$ 由此, 对式(C12)两边取平方根完成归纳. 然后, 将式(C1)和式(C2)结合, 即完成引理3的证明.
□ -
-
[1] Zhu J L, Xu C Q, Guan J F, Wu D P. Differentially private distributed online algorithms over time-varying directed networks. IEEE Transactions on Signal and Information Processing over Networks, 2018, 4(1): 4−17 [2] Rabbat M, Nowak R. Distributed optimization in sensor networks. In: Proceedings of the 3rd International Symposium on Information Processing in Sensor NetworksProc. Berkeley, USA: IEEE, 2004. 20−27 [3] Zhang M C, Hao B W, Ge Q B, Zhu J L, Zheng R J, Wu Q T. Distributed adaptive subgradient algorithms for online learning over time-varying networks. IEEE Transactions on Systems, Man, and Cybernetics: Systems, 2022, 52(7): 4518−4529 [4] Abu-Elkheir M, Hayajneh M, Abu A N. Data management for the internet of things: design primitives and solution. Sensors, 2013, 13(11): 15582-15612 doi: 10.3390/s131115582 [5] 孙路明, 张少敏, 姬涛, 李翠平, 陈红. 人工智能赋能的数据管理技术研究. 软件学报, 2020, 31(3): 600-619SUN Lu-Ming, ZHANG Shao-Min, JI Tao, LI Cui-Ping, CHEN Hong. Survey of data management techniques powered by artificial intelligence. Journal of Software, 2020, 31(3): 600-619 [6] 黄刚, 李军华. 基于 AC-DSDE 进化算法多 UAVs协同目标分配. 自动化学报, 2021, 47(1): 173-184Huang Gang, Li Jun-Hua. Multi-UAV cooperative target allocation based on AC-DSDE evolutionary algorithm. Acta Automatica Sinica, 2021, 47(1): 173-184 [7] Beck A, Nedić A, Ozdaglar A, Teboulle M. An ${\rm{ O}}(1/k)$ gradient method for network resource allocation problems. IEEE Transactions on Control of Network Systems, 2014, 1(1): 64-73 doi: 10.1109/TCNS.2014.2309751 [8] 刘妹琴, 韩学艳, 张森林, 郑荣濠, 兰剑. 基于水下传感器网络的目标跟踪技术研究现状与展望. 自动化学报, 2021, 47(2): 235-251Liu Mei-Qin, Han Xue-Yan, Zhang Sen-Lin, Zheng Rong-Hao, Lan Jian. Research status and prospect of target tracking technologies via underwater sensor networks. Acta Automatica Sinica, 2021, 47(2): 235-251 [9] 蒋弘毅, 王永娟, 康锦煜. 目标检测模型及其优化方法综述. 自动化学报, 2021, 47(6): 1232-1255Jiang Hong-Yi, Wang Yong-Juan, Kang Jin-Yu. A survey of object detection models and its optimization methods. Acta Automatica Sinica, 2021, 47(6): 1232-1255 [10] Wen G H, Yu X H, Liu Z W, Yu W W. Adaptive consensus-based robust strategy for economic dispatch of smart grids subject to communication uncertainties. IEEE Transactions on Industrial Informatics, 2018, 14(6): 2484-2496 doi: 10.1109/TII.2017.2772088 [11] 李小玲, 王怀民, 郭长国, 丁博, 李小勇. 分布式约束优化问题研究及其进展. 计算机学报, 2015, 38(8): 1656-1671 doi: 10.11897/SP.J.1016.2015.01656LI Xiao-Ling, WANG Huai-Min, GUO Chang-Guo, DING Bo, LI Xiao-Yong. Research and development of distributed constraint optimization problems. Chinese Journal of Computers, 2015, 38(8): 1656-1671 doi: 10.11897/SP.J.1016.2015.01656 [12] Nedić A, Olshevsky A. Distributed optimization over time-varying directed graphs. IEEE Transactions on Automatic Control, 2015, 60(3): 601-615 doi: 10.1109/TAC.2014.2364096 [13] Qu G N, Li N. Harnessing smoothness to accelerate distributed optimization. IEEE Transactions on Control of Network Systems, 2018, 5(3): 1245-1260 doi: 10.1109/TCNS.2017.2698261 [14] Shalev-Shwartz S. Online learning and online convex optimization. Foundations and Trends R in Machine Learning, 2011, 4(2): 107-194 doi: 10.1561/2200000018 [15] Hazan E, Kalai A, Kale S, Agarwal A. Logarithmic regret algorithms for online convex optimization. In: Proceedings of the International Conference on Computational Learning Theory. Berlin, Germany: Springer, 2006. 499−513 [16] Mateos-Núñez D, Cortés J. Distributed online convex optimization over jointly connected digraphs. IEEE Transactions on Network Science and Engineering, 2014, 1(1): 23-37 doi: 10.1109/TNSE.2014.2363554 [17] Xu C Q, Zhu J L, Wu D O. Decentralized online learning methods based on weight-balancing over time-varying digraphs. IEEE Transactions on Emerging Topics in Computational Intelligence, 2021, 5(3): 394-406 doi: 10.1109/TETCI.2018.2880771 [18] Akbari M, Gharesifard B, Linder T. Distributed online convex optimization on time-varying directed graphs. IEEE Transactions on Control of Network Systems, 2017, 4(3): 417-428 doi: 10.1109/TCNS.2015.2505149 [19] Raginsky M, Kiarashi N, Willett R. Decentralized online convex programming with local information. In: Proceedings of the American Control Conference. San Francisco, USA: IEEE, 2011. 5363−5369 [20] Hosseini S, Chapman A, Mesbahi M. Online distributed convex optimization on dynamic networks. IEEE Transactions on Automatic Control, 2016, 61(11): 3545-3550 doi: 10.1109/TAC.2016.2525928 [21] Yan F, Sundaram S, Vishwanathan S V N, Qi Y. Distributed autonomous online learning: regrets and intrinsic privacy-preserving properties. IEEE Transactions on Knowledge and Data Engineering, 2013, 25(11): 2483-2493 doi: 10.1109/TKDE.2012.191 [22] Liu S, Xie L H, Quevedo D E. Event-Triggered quantized communication-based distributed convex optimization. IEEE Transactions on Control of Network Systems, 2018, 5(1): 167-178 doi: 10.1109/TCNS.2016.2585305 [23] Liang Q K, Modiano E. Network utility maximization in adversarial environments. In: Proceedings of the IEEE Conference on Computer Communications. Honolulu, USA: IEEE, 2018. 594−602 [24] Frank M, Wolfe P. An algorithm for quadratic programming. Naval Research Logistics Quarterly, 1956, 3(1-2): 95-110 doi: 10.1002/nav.3800030109 [25] Jaggi M. Revisiting Frank-Wolfe: Projection-free sparse convex optimization. In: Proceedings of the 30th International Conference Machine Learning. Atlanta, USA: JMLR, 2013. 427−435 [26] Clarkson K L. Coresets, sparse greedy approximation, and the Frank-Wolfe algorithm. ACM Transactions on Algorithms, 2010, 6(4): 1-34 [27] Zhu J L, Wu Q T, Zhang M C, Zheng R J, Li K Q. Projection-free decentalized online learning for submodular maximization over time-varying networks. Journal of Machine Learning Research, 2021, 22: 1-42 [28] Hazan E, Kale S. Projection-free online learning. In: Proceedings of the 29th International Conference Machine Learning. Edinburgh, UK: JMLR, 2012. 521−528 [29] Garber D, Hazan E. A linearly convergent variant of the conditional gradient algorithm under strong convexity, with applications to online and stochastic optimization. SIAM Journal on Optimization, 2016, 26(3): 1493-1528 doi: 10.1137/140985366 [30] Lafond J, Wai H T, Moulines E. On the online Frank-Wolfe algorithms for convex and non-convex optimizations. arXiv preprint arXiv: 1510.01171, 2016. [31] Hazan E, Luo H P. Variance-reduced and projection-free stochastic optimization. In: Proceedings of the 33rd International Conference on International Conference on Machine Learning. New York, USA: JMLR, 2016. 1263−1271 [32] Wai H T, Lafond J, Scaglione A, Moulines E. Decentralized Frank-Wolfe algorithm for convex and non-convex problems. IEEE Transactions on Automatic Control, 2017, 62(11): 5522-5537 doi: 10.1109/TAC.2017.2685559 [33] Zhang W P, Zhao P L, Zhu W W, Hoi S, Zhang T. Projection-free distributed online learning in networks. In: Proceedings of the 34th Intentional Conference of Machine Learning. Sydney, Australia: PMLR, 2017. 4054−4062 [34] Wan Y Y, Tu W W, Zhang L J. Projection-free distributed online convex optimization with ${{\rm{ O}}(\sqrt{T})}$ communication complexity. In: Proceedings of the 37th International Conference on Machine Learning. Virtual Event: PMLR, 2020. 9818−9828 [35] Boyd S, Vandenberghe L. Convex Optimization. Cambridge: Cambridge University, 2004. [36] Liu S, Qiu Z R, Xie L H. Convergence rate analysis of distributed optimization with projected subgradient algorithm. Automatica, 2017, 83: 162-169 doi: 10.1016/j.automatica.2017.06.011 [37] Watts D J, Strogatz S H. Collective dynamics of 'small-world' networks. Nature, 1998, 393: 440-442 doi: 10.1038/30918 -