张文韬 张保勇 袁德明 徐胜元

张文韬, 张保勇, 袁德明, 徐胜元. 分布式在线鞍点问题的Bandit反馈优化算法. 自动化学报, xxxx, xx(x): x−xx doi: 10.16383/j.aas.c240289
doi: 10.16383/j.aas.c240289 cstr: 32138.14.j.aas.c240289
基金项目: 国家自然科学基金(62273181, 62373190, 62221004)资助

    张文韬:南京理工大学自动化学院博士研究生.主要研究方向为多智能体分布式优化, 鞍点问题. E-mail: iswt.zhang@gmail.com

    张保勇:南京理工大学自动化学院教授.主要研究方向为多智能体分布式优化与控制, 时滞系统和非线性系统的分析与控制. 本文通信作者. E-mail: baoyongzhang@njust.edu.cn

    袁德明:南京理工大学自动化学院教授.主要研究方向为多智能体分布式优化与控制, 分布式机器学习. E-mail: dmyuan1012@gmail.com

    徐胜元:南京理工大学自动化学院教授.主要研究方向为广义系统, 时滞系统和非线性系统的分析与控制. E-mail: syxu@njust.edu.cn

Bandit Feedback Optimization Algorithm for Distributed Online Saddle Point Problem

Funds: Supported by National Natural Science Foundation of China (62273181, 62373190, 62221004)
    ZHANG Wen-Tao Ph.D. candidate at the School of Automation, Nanjing University of Science and Technology. His research interest is multi-agent distributed optimization and saddle point problem

    ZHANG Bao-Yong   Professor at the School of Automation, Nanjing University of Science and Technology. His research interest covers multi-agent distributed optimization and control, and the analysis and control of time-delay systems and nonlinear systems. Corresponding author of this paper

    YUAN De-Ming Professor at the School of Automation, Nanjing University of Science and Technology. His research interest covers multi-agent distributed optimization and control, and distributed machine learning

    XU Sheng-Yuan Professor at the School of Automation, Nanjing University of Science and Technology. His research interest covers the analysis and control of singular systems, time-delay systems, and nonlinear systems

  • 摘要: 本文研究了多智能体时变网络上基于bandit反馈的分布式在线鞍点问题, 其中每个智能体通过本地计算和局部信息交流去协作最小化全局损失函数. 在bandit反馈下, 包括梯度在内的损失函数信息是不可用的, 每个智能体仅能获得和使用在某决策或其附近产生的函数值. 为此, 结合单点梯度估计方法和预测映射技术, 提出了一种非欧几里得意义上的分布式在线bandit鞍点优化算法. 以动态鞍点遗憾作为性能指标, 对于一般的凸-凹损失函数, 建立了遗憾上界并在某些预设条件下确保了所提算法的次线性收敛. 此外, 考虑到计算优化子程序的精确解在迭代优化中通常较为困难, 本文进一步设计了一种基于近似计算方法的算法变种, 并严格分析了精确度设置对算法遗憾上界的影响. 最后, 通过一个目标跟踪案例对算法的有效性和先进性进行了仿真验证.
  • 图  1  算法1的收敛性

    Fig.  1  The convergence results of Algorithm 1

    图  2  不同$ B_t $和$ C_t $下算法1的对比结果

    Fig.  2  The comparison of Algorithm 1 under different $ B_t $ and $ C_t $

    图  3  不同$ d $选择下带有欧式范数与$ p $范数的算法1对比

    Fig.  3  The comparison of Algorithm 1 using Euclidean and $ p $-norm under the different choices of $ d $

    图  4  不同$ \rho_t^x $和$ \rho_t^y $选择下算法1的近似计算变种性能对比

    Fig.  4  The comparison of the low-computation variant of Algorithm 1 with different choices of $ \rho_t^x $ and $ \rho_t^y $

    图  5  算法1和其集中式算法的对比

    Fig.  5  The comparison between Algorithm 1 and its centralized algorithm

    表  1  不同步长和精确度下的遗憾界

    Table  1  The regret bounds under different step sizes and precisions

    $ \alpha_t $ $ \eta_t $ $ \rho_t^x $ $ \rho_t^y $ $ {ESP-Regret}_d^j(T) $
    $ \dfrac{1}{\epsilon_1k} t^{-\frac{3}{4}} $ $ \dfrac{1}{\epsilon_2 k} t^{-\frac{3}{4}} $ $ t^{-1} $ $ t^{-1} $ $ {\cal{O}}(\max \{kT^{\frac{7}{8}}, \; kT^{\frac{3}{4}} V_T \}) $
    $ t^{-\frac{5}{4}} $ $ t^{-\frac{5}{4}} $ $ {\cal{O}}(kT^{\frac{3}{4}} (1+V_T)) $
    $ t^{-2} $ $ t^{-2} $ $ {\cal{O}}(kT^{\frac{3}{4}} (1+V_T)) $
    $ \dagger $ $ \dfrac{1}{\epsilon_1k} t^{-\varpi_1} $ $ \dfrac{1}{\epsilon_2 k} t^{-\varpi_1} $ $ t^{-1} $ $ t^{-1} $ ${\cal{O}}(\max \{kT^{\frac{3}{4}}\sqrt{1+V_T}, \; kT^{\frac{7}{8}} (1+V_T)^{-\frac{1}{4}} \})$
    $ t^{-\frac{5}{4}} $ $ t^{-\frac{5}{4}} $ $ {\cal{O}}(kT^{\frac{3}{4}} \sqrt{1+V_T}) $
    $ t^{-2} $ $ t^{-2} $ $ {\cal{O}}(kT^{\frac{3}{4}} \sqrt{1+V_T}) $
    $ \dagger $ 注: $ \varpi_1=3/4-\log_T {\sqrt{1+V_T}} $.
