Review on the Applications and Grants of National Natural Science Foundation on Artificial Intelligence and Its Prospects
-
摘要: 针对信息学部人工智能学科(F06) 2018至2020年度基金项目的申请和资助情况, 截取面上、青年、地区和重点项目, 点−线−面相结合, 从多种客观指标角度系统分析了三年来人工智能学科的申请和资助情况. 2020年度国家自然科学基金委学科代码进行了大幅度的调整和改革, 特别是在取消三级代码、增加二级代码数目的背景下, 本文的分析可以为新版代码的科学性和未来基金项目的申请、评审和资助导向提供统计支撑. 同时, 结合最近三年人工智能学科基金项目的申请资助情况, 以及科学处对人工智能领域的若干推动和工作安排, 对未来国家自然科学基金资助架构下的人工智能学科发展进行了展望.Abstract: In this paper, the funding situations of the Artificial Intelligence of the Department of Information Science have been analyzed based on the statistical data of the 2018−2020 NSFC (National Natural Science Foundation of China) funded projects, including the general projects, the youth science foundation projects, projects for developing region and the key projects. Under the background of significant reorganization of the code-base in 2020, the analysis in this study can validate the scientific rationality of new code, and can be regarded as a support of future applications and grants. Meanwhile, according to the application and grant situations in recent three years, the future development trends and prospects in the field of artificial intelligence under the support of NSFC are further analyzed.
-
近些年, 以深度学习算法为代表的人工智能技术在故障诊断、智能控制、情感识别以及生物信息等领域得到了广泛应用[1-4], 而决定深度学习模型性能的关键之一是高质量的训练数据. 目前构建深度学习模型通常采用的是传统集中式学习方法(Centralized learning, CL). 在该方法中, 训练者提前收集各方的数据集, 然后进行数据聚合、预处理等操作, 最后使用处理后的数据进行深度学习模型的训练. 然而, 在某些行业(例如医疗行业), 由于数据隐私等相关的法律规定, 数据拥有者通常不愿意分享数据[5-8].
为打破数据壁垒, 联邦学习(Federated learning, FL)于2015年由Google公司提出[9]. 该方法能够组织不同参与者通过分享其本地模型参数, 协作训练一个全局深度学习模型[10]. 由于联邦学习系统中的参与者不需要分享本地数据, 因此该技术十分适用于某些对数据敏感的工业场景. Zhang等[11]针对真实场景中存在的设备故障数据难收集的问题, 提出了一种基于联邦学习的轴承故障诊断方法. 该方法通过多个参与者对故障诊断模型进行本地训练, 从而构建一个高性能的全局故障诊断模型. Sheller等[12]指出联邦学习在医疗场景的巨大潜力, 并针对病人健康数据的隐私保护需求, 提出了一种基于联邦学习的医学诊断模型. 该模型能够跨多个研究机构进行医学诊断模型的训练, 从而提高诊断模型的性能. Kwon等[13]针对海洋场景中无线传感器通信困难等问题, 首次将联邦学习算法应用到智能海洋网络的构建. 通过以上应用研究可以看出, 联邦学习算法在工程领域应用有着广阔前景.
为了进一步提高联邦学习的性能, Rothchild 等[14]提出使用梯度选择和自适应调整学习速率方法来提升联邦学习训练效率, 降低通信代价. Duan等[15]利用数据增强技术减轻由于数据分布不均造成的联邦学习模型性能的衰减, 从而提高联邦学习模型的性能. Liu等[16]将动量项引入到联邦学习中, 提出一种动量联邦学习算法. 在该算法中, 参与者的本地训练中使用动量梯度下降算法来加速模型收敛. Wang等[17]提出了一种自适应联邦学习算法, 能够在固定的资源预算下自适应调整模型聚合频率. 该算法是以算法经验损失函数为凸模型为前提设计的, 对于传统机器学习算法(例如支持向量机、线性回归和K-Means算法)在联邦学习框架下的应用, 能够比较好地实时估算全局模型聚合频率. 然而, 对于经验损失函数为非凸模型, 例如深度神经网络、卷积神经网络和递归神经网络等, 该算法难以计算出最佳模型聚合频率.
以上研究都未对参与者的数据隐私安全方面进行考虑. 近期的研究[18−19]指出, 参与者上传的模型参数有可能泄露本地的数据隐私信息. 为保护参与者的隐私信息, 多种面向机器学习的数据隐私保护方法相继提出, 主要可以分为两类: 基于差分隐私的方法和基于同态加密的方法.
1) 基于差分隐私的方法: 差分隐私(Differential privacy, DP)是一种常见的数据隐私保护技术[20]. 它采用某种随机机制(例如随机采样或添加噪声)来对用户处理的输入或输出数据进行扰动, 从而使用户处理的结果在一定程度上可以对抗隐私分析. Gong等[7]提出了一种基于相关性的自适应差分隐私算法, 该算法根据不同层神经元之间的相关性对模型的梯度参数施加扰动, 从而保护用户数据的隐私信息. Wang等[21]提出通过对模型的输入特征数据注入噪声, 从而为众包数据提供差分隐私保护, 并估计与目标类别相关的特征重要性, 遵循较少的噪声注入原则以确保模型的有效性. 基于差分隐私的隐私保护算法具有计算复杂度低和易于实现使用等优点, 但是会导致模型的性能下降.
2) 基于同态加密的方法: 同态加密支持对密文进行数学运算, 密文计算的结果经解密后与明文计算结果相同[6, 22], 该特性十分适用于构建支持隐私保护的机器学习算法. 宋蕾等[23]提出通过对训练数据集同态加密, 进而构建支持隐私保护的联合逻辑回归学习算法. Phong等[24]提出对参与者上传的梯度参数进行同态加密, 从而保护联邦学习中参与者的隐私信息. 张泽辉等[19]提出对参与者上传模型权重参数进行同态加密, 从而保护各参与者的隐私信息. 同态加密算法有着很好的安全性, 并且支持构建高精度的深度学习模型, 但在训练过程中增加的额外加密/解密运算会消耗大量的计算资源和训练时间. 因此, 某些研究[19]采用较低的全局模型更新频率, 即较大的模型聚合间隔$\tau $, 以减少加密/解密次数和通信成本, 从而提高联邦学习训练效率. 然而, 在非独立同分布数据场景下, 较低的更新频率会导致联邦学习模型的性能大幅降低, 甚至直接导致模型不收敛. 反之, 采用较高全局模型更新频率[24], 又会极大地增加联邦学习训练的通信成本和计算代价.
在工业场景中, 模型的精度对生产效益等方面有着巨大影响. 因此, 本文选用同态加密方案构建支持隐私保护的联邦学习算法. 针对联邦学习系统中存在的性能优化与隐私保护问题, 本文提出了一种面向非独立同分布数据的自适应联邦深度学习算法. 本文研究工作主要如下:
1)针对联邦学习算法在工业场景中的应用, 通过数学推导分析总结了联邦学习模型出现精度损失的主要原因. 基于此, 本文首次提出面向联邦深度学习的自适应全局模型聚合方案, 该方案能够设定各参与者的Mini-batch值, 并根据参与者训练过程中的信息, 自适应调整全局模型聚合频率, 在保证模型性能的前提下, 提高联邦学习训练效率.
2)借鉴经典图像加密方法, 本文首次将混沌系统引入联邦学习领域中, 并采用CKKS (Cheon-Kim-Kim-Song)同态加密方案构建出一种基于混沌系统和同态加密的混合隐私保护方案. 与基于Paillier同态加密的联邦学习算法相比, 本文所提出的联邦学习算法大大提高了模型的训练速度.
3)理论分析和实验结果表明, 本文提出的方法能够保证参与者的数据隐私安全. 并且, 在非独立同分布数据的场景下, 该方法能够在保证模型精度的前提下提高训练效率, 降低系统通信成本, 具备实际工业场景应用的可行性.
1. 预备知识
1.1 同态加密
同态加密算法具有的同态特性是指, 在密文上执行某种基础数学运算, 将得到的密文结果解密后与原明文进行相同的数学操作, 结果相同. 本文选用的是CKKS同态加密算法, 该算法相比于传统的Paillier加密算法有着更快的加密/解密速度[25]. 该方案简述如下(详细方案可见文献[26−27]).
1)密钥生成$keygen(1^\lambda) $: 输入安全参数$\lambda $, 选择整数$p $, $L $, 设定${q_{{\ell}} } = {p^{{\ell}} },\;{{\ell}} = 1,\;2, \cdots ,L$. 算法的最终输出为(sk, pk, evk).
2)编码算法Encode($ {\boldsymbol{z}} $; $ \Delta$): 对于一个($N/2 $)维的高斯整数向量${\boldsymbol{ z}}$=${\left({{z}}_{j}\right)}_{j\in T}\in \mathbb{{\bf{Z}}}{\left[i\right]}^{N/2}$, 计算$\lfloor \Delta {\pi }^{-1} \left({\boldsymbol{z}}\right) \rfloor _{{\sigma }\left(\cal{{{\bf{R}}}}\right)}$. 输出其在标准嵌入图中的逆.
3)解码算法Decode($m $; $\Delta $): 对于输入多项式$m(X)\in{{\bf{R}}}$, 计算出对应的向量$\pi \,\circ$$\delta(m) $最终输出:
$$ {\boldsymbol{z}} = {\left({{z}}_{j}\right)}_{j\in T}\in \mathbb{{\bf{Z}}}{\left[i\right]}^\frac{N}{2} $$ (1) 4)加密Encrypt (m$\in \cal{\bf{R}}$): 取v ←$ \cal{\boldsymbol{ZO}} $(0.5)和$e_1 $, $e_2 $←$ \cal{\boldsymbol{DG}} $($\sigma^2 $), 对明文m加密运算为
$$ [v \cdot {{{{pk}}}} + ({{m}} + {e_1},{e_2})]{q_{\cal{L}}} \in {\cal {\bf{R}}}_{{q_{\cal L}}}^2 $$ (2) 5)解密Decrypt ($ct $$\in{\cal{{\bf{R}}}}_{{q}_{\ell}}^{2}$;$sk $): 对于密文$ct $, 解密运算为
$$ m = \left[ { \langle {{{{ct}}}},{{sk}} \rangle } \right]{q_\ell } $$ (3) 6)密文加法Add ($ct_1 $$\in {\cal{{\bf{R}}}}_{{q}_{\ell }}^{2}$, $ct_2 $$\in {\cal{{\bf{R}}}}_{{q}_{\ell }}^{2}$): 对于两个密文$ct_1 $和$ct_2 $输出为
$$ {{{{{ct}}}}}_{{\rm{add}}} = {\rm{ }}[ \langle {{c}}{{{t}}_{\rm{1}}},{{c}}{{{t}}_{\rm{2}}} \rangle ]{q_\ell } $$ (4) 式(1) ~ (4)中, $\cal{\boldsymbol{DG}} $($\sigma^2 $)代表从${{{\bf{Z}}}^{{N}}}$中生成一个N维多项式向量, 该向量中每个系数服从方差为$\sigma^2 $的离散高斯分布, ${\cal{\boldsymbol{ZO}} ( \rho)}$代表从$ \{-1,0,1\}^N$中生成一个$N $维向量, 其中生成0的概率为$(1-{ \rho})$, 而生成 −1和1的概率为${ \rho}/2$.
1.2 混沌系统
混沌系统具有敏感性、非周期性和不可预测性等特点, 常用于生成伪随机序列[28]. Robert Matthews提出的Logistic映射, 已经广泛用于文本加密、图像加密以及视频加密等领域[29−30]. 因此, 本文将使用混沌Logistic映射系统生成伪随机数列, 其数学表达式为
$$ x(i{\rm{ + }}1)=\lambda \cdot x(i) \cdot (1 - x(i)) $$ (5) 式中, $x(i)\in(0,1) $, 并且$0<\lambda\le4$. 当$3.56994 < \lambda\le 4$时, Logistic映射进入混沌状态.
文献[31]提出参与者采用相同的置乱方式对模型参数进行加密, 从而起到保护参与者数据隐私的作用. 因此, 本文采用该图像置乱加密方法[28]对参与者模型参数进行加密, 当采用推理的方法(具体见第2.1节)对置乱的模型参数进行分析时, 所获得的数据是经过置乱加密的数据, 从而能够一定程度地保护好参与者的数据隐私. 置乱加密过程为: 参与者使用混沌系统生成与局部模型权重参数数量相同的随机数列Rchaos, 然后对Rchaos进行升序排列, 得到其索引序列Index, 再按照索引序列Index的值, 对参与者的模型权重参数wpar,i进行置乱. 特别地, 各参与者使用混沌系统的初始状态参数相同, 从而保证参数服务器的模型聚合正确性.
2. 联邦学习信息泄露与性能损失
2.1 隐私泄露
联邦学习在训练过程中, 参与者分享的本地模型参数可能会泄露其本地的数据隐私信息. 图1为一个典型的3层神经网络(隐含层使用Dropout技术). ${\boldsymbol{x}}^{(0)} $为神经网络的输入数据, $y $为神经网络的目标输出数据.
1) 情况1 (不考虑Dropout)
首先求出模型输出值与目标值的loss值, 计算式为
$$ L=\frac{1}{2}{\left(x_1^{(2)} - y\right)^2} $$ (6) 然后使用链式求导法则, 可以求得
$$ \frac{{\partial L}}{{\partial w_1^{(1)}}} = \frac{{\partial L}}{{\partial x_1^{(1)}}}\frac{{\partial x_1^{(1)}}}{{\partial o_1^{(1)}}}\frac{{\partial o_1^{(1)}}}{{\partial w_1^{(1)}}} = \frac{{\partial L}}{{\partial x_1^{(1)}}}x_1^{(1)} \left(1 - x_1^{(1)} \right)x_1^{(0)} $$ (7) $$ \frac{{\partial L}}{{\partial b_1^{(1)}}}=\frac{{\partial L}}{{\partial x_1^{(1)}}}\frac{{\partial x_1^{(1)}}}{{\partial o_1^{(1)}}}\frac{{\partial o_1^{(1)}}}{{\partial b_1^{(1)}}} = \frac{{\partial L}}{{\partial x_1^{(1)}}}x_1^{(1)}\left(1 - x_1^{(1)}\right) $$ (8) $$ \dfrac{\frac{{\partial L}}{{\partial w_1^{(1)}}}}{\frac{{\partial L}}{{\partial b_1^{(1)}}} }=x_1^{(0)} $$ (9) 从以上各式可以看出, $w_1^{(1)}$的梯度与$b_1^{(1)}$的梯度相除便可以推导出输入数据$x_1^{(0)}$. 采用相同的方法, 便能够逐步推导出全部输入数据. 因此, 在联邦学习过程中, 参与者上传的梯度参数有可能导致其本地隐私数据的泄露. 图2为泄露不同比例数据的图片. 从图2中可以看出, 攻击者推理出图像中部分信息, 便有可能导致图像中的核心信息泄露.
并且, 参数服务器(云服务器)拥有全局模型的权重参数wglobal, 即本次参与者使用的模型参数. 可以使用所推理出的数据, 按照模型前向传播计算得出$x_1^{(1)}$和$x_1^{(2)}$, 然后根据式(12), 便可以求出$y $值, 此时输入数据与其相应的目标输出都泄露给参数服务器.
$$x_1^{(1)}=sigmoid\left(\sum\limits_{i = 1}^N {\left(x_i^{(0)} \cdot w_i^{(0)}\right)} +b_1^{(1)}\right) $$ (10) $$ x_1^{(2)}=f\left({{\boldsymbol{x}}^{(0)}},{w_{{\rm{global}}}}\right)\qquad\qquad\qquad\;\;\;\quad $$ (11) $$ \begin{split} \frac{{\partial L}}{{\partial w_1^{(1)}}} =\;& \frac{{\partial L}}{{\partial x_1^{(2)}}}\frac{{\partial x_1^{(2)}}}{{\partial o_1^{(2)}}}\frac{{\partial o_1^{(2)}}}{{\partial w_1^{(1)}}} =\\ & \left(x_1^{(2)} - y\right)x_1^{(2)}\left(1 - x_1^{(2)}\right)x_1^{(1)} \end{split} $$ (12) 2)情况2 (考虑Dropout)
在深度神经网络中的某一层使用Dropout, 则该层的神经元会被随机“冻结”, 从而在训练过程中网络模型结构会随机发生变化[32]. 该方法已经广泛用于提高深度学习模型的泛化能力, 防止模型过拟合.
$$ x_i^{(l)} = f({\boldsymbol{w}}_i^{(l)} \times {{\boldsymbol{y}}^{(l - 1)}} + b_i^{(l)})\qquad\qquad\quad $$ (13) $$ {{\tilde{\boldsymbol x}}^{(l)}} = {{\boldsymbol{r}}^{(l)}} \times {{\boldsymbol{y}}^{(l)}},\;\;\;\;r_j^{(l)}\sim {\rm{Bernoulli}} (p) $$ (14) 当参与者使用Dropout时, 被“冻结”的神经元的输出值为零, 因此不参与神经网络的反向传播计算, 即与这些神经元相连权重的梯度参数为零, 一定程度上能够起到保护参与者本地数据隐私的作用[33]. 然而, 深度学习模型有着较多的神经网络节点, 服务器可以通过有数值的梯度参数进行暴力破解, 从而推理出参与者的隐私信息. 例如, 可以通过任意一个未冻结的节点j, 根据式(15) ~ (17)计算, 获得输入数据$x_i $信息.
$$ \frac{{\partial L}}{{\partial w_{i,j}^{(1)}}}=\frac{{\partial L}}{{\partial x_j^{(1)}}}\frac{{\partial x_j^{(1)}}}{{\partial o_j^{(1)}}}\frac{{\partial o_j^{(1)}}}{{\partial w_{i,j}^{(1)}}} = \frac{{\partial L}}{{\partial x_j^{(1)}}}x_j^{(1)} \left(1 - x_j^{(1)} \right)x_i^{(0)} $$ (15) $$ \frac{{\partial L}}{{\partial b_{1,j}^{(1)}}}=\frac{{\partial L}}{{\partial x_j^{(1)}}}\frac{{\partial x_j^{(1)}}}{{\partial o_j^{(1)}}}\frac{{\partial o_j^{(1)}}}{{\partial b_{1,j}^{(1)}}} = \frac{{\partial L}}{{\partial x_j^{(1)}}}x_j^{(1)}\left(1 - x_j^{(1)}\right) $$ (16) $$ \dfrac{\frac{{\partial L}}{{\partial w_{i,j}^{(1)}}}}{\frac{{\partial L}}{{\partial b_{1,j}^{(1)}}}}=x_i^{(0)} $$ (17) 2.2 性能损失
联邦学习技术在工程应用时, 相比于传统集中式学习会出现一定的精度损失[15, 34]. 本节以采用随机梯度下降方法更新的深度学习模型为例, 对联邦学习中的模型精度损失进行数学化描述. 在机器学习领域中, 通常假设训练样本与测试样本具有相同的数据分布[15], 即${\hat p_{{\rm{train}}}} = {\hat p_{{\rm{test}}}}$. 本文假设集中式学习模型和联邦学习模型使用相同测试集、模型初始参数和学习率, 即${\eta _{\rm{CL}}} = {\eta _{{\rm{FL}}(k)}}$, $w_0^{\rm{CL}} = w_0^{{\rm{FL}}({\rm{global}})} = w_0^{{\rm{FL}}(k)}$.
采用随机梯度下降法的集中式学习的优化目标为
$$ \mathop {{\rm{min}}}\limits_{\;\;\;{w^{{\rm{CL}}}}} \;{{\rm{E}}_{(x,y) \sim \hat p{\rm{train}}}}L\left[ {f(x;{w^{{\rm{CL}}}}),y} \right] $$ (18) 式中, $L $为损失函数, ${\hat p_{{\rm{train}}}}$为训练数据的分布, $ (x,\,y)$为集中式学习方法用的训练数据样本及其相应的标签, $w^{\rm{CL}}$为集中式学习方法的模型参数.
集中式学习模型的参数更新式为
$$ w_{e + 1}^{\rm{CL}} = w_e^{\rm{CL}}-\frac{\eta }{n}\left(\sum\limits_{i = 1}^n {\nabla _{w_e^{\rm{CL}}}}L\left(f\left({x^{(i)}};w_e^{\rm{CL}}\right),y_{}^{(i)}\right) \right) $$ (19) 式中, $w_e^{{\rm{CL}}}$为第$e $次迭代的模型参数, $x^{(i)} $为训练集中的样本, $y^{(i)} $为其相应的目标输出.
采用随机梯度下降法的联邦学习优化目标为
$$ \mathop {{\rm{min}}}\limits_{\;\;\;{w^{^{{\rm{FL}}(k)}}}} {{\rm{E}}_{(x,y) \sim \hat p_{{\rm{train}}}^{(k)}}}L\left[ {f(x;{w^{{\rm{FL}}(k)}}),y} \right] $$ (20) 式中, $\hat p{_{{\rm{train}}}^{(k)}}$为参与者$k $的训练数据的分布, $w^{{\rm{FL}}(k)} $为参与者$k $的模型参数.
联邦学习中参与者的本地模型权重参数更新式为
$$\begin{split} &w_{e(r,t + 1)}^{{\rm{FL}}(k)}=\;w_{e(r,t)}^{{\rm{FL}}(k)}-\frac{\eta }{{{n_k}}}\;\times \\ &\quad\left(\sum\limits_{i = 1}^{{n_k}} {{\nabla _{w_{e(r,t)}^{{\rm{FL}}(k)}}}L\left(f\left({x^{(i)}};w_{e(r,t)}^{{\rm{FL}}(k)}\right),{y^{(i)}}\right)} \right) \end{split}$$ (21) 式中, $w_{e(r,t + 1)}^{{\rm{FL}}(k)}$为参与者$k $在$e $次迭代中的第$t+1$次本地训练的模型权重, $n_k $为参与者$k $的样本个数.
当本地训练次数达到第$\tau $次, 即满足全局模型更新条件时, 参与者上传更新后的本地模型参数用于参数服务器更新全局模型参数. 在工程应用中, 参与者通常拥有不同数量的样本, 因此联邦学习的全局模型参数采用加权更新, 即
$$ \begin{split} &w_{e(r + 1)}^{{\rm{FL}}({\rm{global}})}=w_{e(r)}^{{\rm{FL}}({\rm{global}})}\,-\\ &\qquad\frac{\eta }{n}\sum\limits_{k = 1}^N \left(\sum\limits_{i = 1}^{{n_k}} {\nabla _{w_{e(r,\tau )}^{{\rm{FL}}(k)}}} L \left( f \left({x^{(i)}};w_{e(r,\tau )}^{{\rm{FL}}(k)} \right),{y^{(i)}}\right) \right) = \\ &\qquad\sum\limits_{k = 1}^N {\frac{{n_k}}{n}w_{e(r,\tau )}^{{\rm{FL}}(k)}} \\[-18pt] \end{split} $$ (22) 分析以上公式, 引起联邦学习模型性能损失的主要原因总结如下:
1) 参与者的数据分布不一致: 根据研究[15], 并结合式(17)和式(18)可以得出, 当联邦学习所有参与者的训练集分布与集中式学习的训练集分布相同时, 即$\hat p_{{\rm{train}}}^{(k)} = {\hat p_{{\rm{train}}}} = {\hat p_{{\rm{test}}}}$, 理论上联邦学习模型与集中式学习模型可以获得相同的性能, 然而, 实际上参与者的训练集分布往往是不相同的, 即$\hat p_{{\rm{train}}}^{(k)} \ne {\hat p_{{\rm{train}}}} \ne {\hat p_{{\rm{test}}}}$, 因此联邦学习相比于集中式学习模型会出现性能损失.
2) 参与者拥有的数据量不同: 在式(20)中, 参与者使用所拥有的全部样本进行训练. 在深度学习模型训练时, 为加快模型收敛速度, 降低内存占用, 通常采用Mini-batch的方法训练模型. 例如, 在文献[24, 33, 35]提出的联邦学习算法中, 参与者使用Mini-batch的方式进行本地模型训练. 然而, 当参与者采用相同的Mini-batch设定值进行训练时, 由于参与者拥有的数据量不同, 则不同参与者的样本用于模型训练的概率也不相同. 此时, 数据量分布不均可能会对全局模型的性能造成影响, 并随着迭代次数增加而逐步累积.
3) 全局模型更新间隔不同: 在式(21)和式(22)中, 当参与者本地训练次数达到第$\tau $次时, 参数服务器再进行全局模型参数的更新. 文献[16]指出, 当$\tau $=1时, 联邦学习理论上能够与集中式学习有相同的性能. 在本地模型属于凸模型的假设前提下, 文献[17]指出, 全局模型更新间隔会影响到联邦学习模型的性能, 如式(23)所示:
$$ \begin{split} L({w^{\rm{FL}}})\,-\,&L({w^*}) \leq \frac{1}{{2\eta \varphi T}}\,+\\ & \sqrt {\frac{1}{{4{\eta ^2}{\varphi ^2}{T^2}}}+\frac{{\rho h(\tau )}}{{\eta \varphi \tau }}} + \rho h(\tau ) \end{split} $$ (23) 式中, $w^* $为最优模型参数值, $T $为参与者本地模型训练总次数, $ \rho $为Lipschitz参数.
然而, 为降低计算和通信成本, 很多研究[16, 18, 33]设定的模型聚合间隔$\tau $大于1. 在数据非独立同分布的场景下, 过大的全局模型更新间隔, 会造成联邦学习模型性能严重下降, 甚至导致模型不收敛.
3. 支持隐私保护的自适应联邦学习算法
3.1 安全模型与目标
本研究假设各参与者和参数服务器为“诚实且好奇”的半可信实体. 在联邦学习研究领域中, 半诚实模型是一种常见的假设模型[24−25, 27]. 根据该假设模型, 本文中参与者和参数服务器都会遵守所设定的协议, 但是在训练期间都想通过中间数据推理获得其他参与者的数据隐私信息. 本文的研究目标是, 在联邦学习训练过程中, 参数服务器不能获得参与者的敏感信息(如训练样本及模型参数), 同时参与者也不能获得其他参与者的敏感信息.
3.2 联邦学习过程
如图3所示, 本文提出的联邦学习系统包含N个参与者和1个参数服务器, 并且每个参与者都拥有本地数据库. 参与者上传本地模型的权重参数, 由第三方参数服务器实现全局模型参数更新等功能. 所提出的联邦学习系统, 主要包含3个阶段: 系统初始化、系统训练和模型部署.
3.2.1 系统初始化
采用文献[18]提出的联邦学习信息交互方案, 各参与者与参数服务器建立不同的TLS (Transport layer security)/SSL (Secure sockets layer)通道, 以保证通信安全. 参与者们采用AES (Advanced encryption standard)加密的方式, 互相沟通确定同态加密算法的公钥PK和私钥SK、混沌系统的初始状态参数、深度学习模型的超参数. 特别地, 各参与者对同态加密算法的公钥、私钥和混沌系统的初始状态参数保密, 不会泄露给任何非参与的实体, 例如参数服务器和系统外用户. 首先, 各参与者生成本地的深度学习模型, 并将初始的模型参数进行加密上传至参数服务器. 然后, 参数服务器聚合所有参与者上传的模型参数密文, 生成全局模型初始参数密文并广播至各个参与者. 最后, 参与者对全局模型参数密文进行解密并加载至本地模型中.
3.2.2 系统训练
1) 参与者
如图4所示, 参与者首先从参数服务器下载全局模型参数密文和全局模型更新间隔设定值. 各参与者根据CKKS加密方案, 使用私钥SK对全局模型权重参数密文进行解密, 完成第1阶段解密. 然后使用混沌系统生成的随机数, 对上述数据进行第2阶段的混沌解密, 从而获得全局模型的权重参数wglobal, 并将wglobal载入本地模型中. 接下来, 使用本地测试集对载入wglobal的本地模型进行准确率测试, 得到本地测试准确率accpar, i. 根据本文所提出的自适应模型聚合方案(具体见第3.3节)设置Mini-batch值, 并使用本地数据集对模型进行训练. 当训练Mini-batch的次数达到聚合方案设定的全局模型更新频率, 即满足全局模型更新间隔$ \tau$时, 参与者使用混沌系统对本地模型的权重参数进行置乱加密, 从而完成第1阶段的混沌加密. 特别地, 各参与者使用相同的初始状态参数, 以保证参数服务器运算的同态性. 然后, 使用CKKS加密方案对模型参数进行第2阶段的同态加密. 最后, 将加密的本地模型参数和本地测试准确率accpar,i上传至参数服务器, 进行下一次迭代学习或结束.
2) 参数服务器
参数服务器根据自适应模型聚合方法确定全局模型更新间隔$\tau $. 参数服务器将收到参与者密文Enc(wpar,i), 使用式(24)对全局模型参数加权更新
$$ {{Enc}}({w_{{\rm{global}}}})\; = \sum\limits_{i = 1}^N {\frac{{n_k}}{n}{{Enc}} (w_{{\rm{par}} ,i}^{})} $$ (24) 接下来, 服务器根据本文所提出的自适应模型聚合方案(具体见第3.3节)对联邦学习系统中的全局模型聚合间隔$\tau $进行调整. 最后, 参数服务器将更新后的模型参数密文和全局模型聚合间隔$\tau $广播至各参与者.
3.2.3 模型部署
当联邦学习过程完成后, 所有参与者断开与参数服务器的通信连接, 不再与参数服务器进行数据交互, 同时停止本地模型训练. 将训练好的全局模型参数加载至本地模型, 用于本地任务的使用.
3.3 自适应模型聚合方案
本文提出的联邦学习模型自适应模型聚合方案包括两个部分: 参与者Mini-batch值设定和自适应调整全局模型更新间隔算法.
1) 参与者Mini-batch值设定
假设联邦学习使用的数据分布为非独立同分布, 即各参与者拥有不同类别的数据, 并且各参与者聚合数据分布与集中式学习采用的训练集和测试集的数据分布相同
$$ aggregate\left(\hat p_{{\rm{train}}}^{(1)},\cdots,\hat p_{{\rm{train}}}^{(N)}\right) = {\hat p_{{\rm{train}}}} = {\hat p_{{\rm{test}}}} $$ (25) 假设参与者采用Mini-batch方法从其本地数据库随机抽取数据时, 每个Mini-batch的数据分布都与参与者的训练数据分布相同, 即$\hat p_{{\rm{minibatch}}}^{(k)} = \hat p_{{\rm{train}}}^{(k)}$. 各参与者抽取Mini-batch值的确定采用以下计算:
$$ {n}_{{\rm{minibatch}}}^{(k)}={n}_{{\rm{minibatch}}}^{{\rm{CL}}} \cdot \left(\dfrac{{n}_{k}}{{\sum\limits_{k=1}^{N}{n}_{k}}}\right) $$ (26) 式中, $n_{{\rm{minibatch}}}^{(k)}$为参与者k设定的Mini-batch值, $n_{{\rm{minibatch}}}^{{\rm{CL}}}$为集中式学习设定的Mini-batch值, $n_k $为参与者$k $的样本数量. 结合式(25)和式(26), 可以得到
$$ aggregate \left({\hat{p}}_{{\rm{minibatch}}}^{(1)},{\cdots},{\hat{p}}_{{\rm{minibatch}}}^{(N)}\right)={\hat{p}}_{{\rm{train}}}={\hat{p}}_{{\rm{test}}} $$ (27) $$ n_{{\rm{minibatch}}}^{{\rm{CL}}} = \sum\limits_{k = 1}^N {n_{{\rm{minibatch}}}^{(k)}}\qquad\qquad\qquad$$ (28) 结合式(21), 可以得到
$$ \begin{split} &w_{e(r + 1)}^{{\rm{FL}}({\rm{global}})}=\sum\limits_{k = 1}^K {\frac{{n_{{\rm{minibatch}}}^{(k)}}}{n}w_{e(r,0)}^{{\rm{FL}}(k)}} \,-\\ &\quad\frac{\eta }{n}\sum\limits_{k = 1}^N {\sum\limits_{i = 1}^{n_{{\rm{minibatch}}}^{(k)}} {{\nabla _{w_{e(r,\tau )}^{{\rm{FL}}(k)}}}L\left(f\left({x^{(i)}};w_{e(r,\tau )}^{{\rm{FL}}(k)}\right),{y^{(i)}}\right)} }= \\ &\quad\;w_{e(r)}^{{\rm{FL}}({\rm{global}})}\,-\\ &\quad\frac{\eta }{n}\sum\limits_{k = 1}^N {\sum\limits_{i = 1}^{n_{{\rm{minibatch}}}^{(k)}} {{\nabla _{w_{e(r,\tau )}^{{\rm{FL}}(k)}}}L\left(f\left({x^{(i)}};w_{e(r,\tau )}^{{\rm{FL}}(k)}\right),{y^{(i)}}\right)} } =\\ &\quad w_{e(r + 1)}^{{\rm{CL}}},\;\;\;\tau = 1\\[-15pt] \end{split} $$ (29) 式中, $w_{e(r + 1)}^{{\rm{FL}}({\rm{global}})}$为联邦学习在第 $e$次迭代的第$r+1$轮Mini-batch的模型权重参数. 通过以上数学公式推导可以看出, 在$\tau=1$时采用本文提出的Mini-batch自适应方法, 理论上能够获得与集中式学习模型相同的性能.
2) 自适应调整全局模型更新间隔算法
在非独立同分布数据的情况下, 采用较大的全局模型更新间隔$\tau $[33]会导致全局模型的精度降低, 而采用较小的更新间隔$\tau $则可能导致通信成本大大提高, 降低全局模型训练效率.
因此, 本文参考深度学习中的自适应调整学习率的方法, 提出一种自适应调整全局模型更新间隔方法. 在模型训练过程中, 参数服务器首先聚合参与者们上传的本地数据测试准确率, 其计算式为
$$ acc = \sum\limits_{i = 1}^N {\frac{{n_k}}{n}ac{c_{{\rm{par}},i}}} $$ (30) 在训练过程中, 若连续$\Phi$次没达到历史训练过程的最高精度, 则按照式 (31) 调整全局模型更新间隔$\tau $:
$$ \tau = \max ((\tau - 1),1) $$ (31) 本文所提出的自适应调整全局模型更新间隔算法, 能够根据参与者训练的反馈结果, 实时调整全局模型更新间隔, 从而提高联邦学习训练效率, 同时保证模型精度.
4. 自适应联邦学习算法分析
4.1 安全性分析
定义 1 (CPA安全). 如果对于所有概率多项式时间(Probabilistic polynomial-time, PPT) 敌手$ \cal{\boldsymbol{A}} $, 存在一个可以忽略的函数negl, 使得
$$ {\rm{Pr}} \left[ Priv\Big(K_{\cal{\boldsymbol{A}},\varPi}^{\rm{cpa}}{ (n) \Big)= 1} \right] \leq \frac{1}{2} + {{negl}} {\rm{(}}n{\rm{)}} $$ (32) 则称密钥加密方案$\varPi =(Gen,\;Enc,\;Dec)$是符合CPA安全的加密方案. 其中, 概率的来源是敌手$ \cal{\boldsymbol{A}} $的随机性和实验的随机性(生成密钥PK、随机比特以及在加密过程中出现的各种随机性).
通过以上定义可以得出:
1)所有满足CPA安全的加密方案同样也是满足窃听者存在情况下的安全加密方案;
2)任何确定性的加密方案都不满足CPA安全, 满足CPA安全的加密方案一定是概率加密.
定理 1. 在本文提出的联邦学习方案中, 如果同态加密CKKS方案是CPA安全的, 同时所有参与者和参数服务器/外部攻击者之间没有串谋, 则该方案能够保护参与者的数据隐私信息.
证明. 假设存在一个敌手$ \cal{\boldsymbol{A}} $, 窃取了所有加密的模型权重参数. 由于敌手$ \cal{\boldsymbol{A}} $不知道CKKS方案的设定值$ \lambda$, 从而$ \cal{\boldsymbol{A}} $不能生成密钥SK. 根据本文的安全假设, 参与者不会与服务器和系统外部成员串谋, 从而密钥SK不会泄露给参与者外的其他实体, 所以敌手$ \cal{\boldsymbol{A}} $不会获得密钥SK. 因此, 敌手$ \cal{\boldsymbol{A}} $无法对模型参数的权重密文进行解密, 从而获取模型权重参数的真实值. 同时, 模型的权重参数以密文的形式存储在服务器上, 只要参数服务器不与其他参与者串谋, 则参与者获取不到其他参与者上传的模型权重参数. 同时, 参与者通过不同的安全通信通道与参数服务器进行信息传输, 从而防止传输的信息被窃取. 因此, 该联邦学习方案能够保护参与者的隐私信息不被泄露.
□ 为进一步提升联邦学习隐私保护水平, 本文参考文献[31]中使用模型参数置乱的方式保护参与者的数据隐私信息. 基于此, 将文献[28]中提出的基于混沌系统的置乱加密算法, 引入到本文提出的联邦学习系统中. 如图5所示, 通过加密的共享模型参数(不使用同态加密算法)推断出的信息等同于该算法对输入图像进行加密. 因此, 我们可以利用图像加密领域常用的信息熵(Information entropy, IE)来对推断的数据进行分析. 从实验图中可以看出, 从混沌加密的模型参数中推理得到的图片信息熵接近于理想值8. 因此, 采用混沌加密技术能够进一步提升联邦学习的信息安全水平.
4.2 算法性能分析
相比于传统集中式训练方法, 本文提出的联邦学习算法包含的额外时间开销主要为模型的权重参数加密/解密、参与者上传/下载模型参数和参数服务器更新全局模型参数. 本文采用混沌系统生成伪随机数对模型参数进行第1阶段的加密, 其时间消耗的主要部分为伪随机数的生成. 使用CKKS的操作主要为加密、解密以及密文操作. 如表1所示, 在时间开销上采用CKKS加密的联邦学习算法明显优于基于Paillier加密的机器学习算法[18−19, 23], 并且混沌系统生成伪随机数消耗的时间也在接受范围内.
表 1 加密/解密算法的执行时间Table 1 Execution time of the encryption/ decryption operations操作类型 500个参数 2000个参数 54000个参数 随机数生成 12.05 ms 25.50 ms 0.40 s CKKS 加密 9.37 ms 9.68 ms 0.54 s CKKS 解密 1.56 ms 17.18 ms 0.03 s CKKS 密文加法 0.15 ms 0.15 ms 0.02 s Paillier 加密 3.82 s 14.61 s 410.32 s Paillier 解密 1.06 s 4.22 s 115.92 s Paillier 密文加法 7.87 ms 30.03 ms 0.87 s 假设每个参与者都有20000个样本, Mini-batch为128, 则联邦学习系统采用不同数值的全局模型更新间隔[16, 18, 33]的模型参数加密/解密的次数如表2所示. 从表2中可以看出, 减小全局模型更新间隔$ \tau$, 即提高全局模型更新频率, 会导致联邦学习加密解密运算次数大幅增加. 因此, 本文采用动态全局模型更新间隔方法, 在保证模型精度的前提下, 提高系统训练效率.
4.3 功能对比分析
表3将本文提出的联邦学习算法APFL (Adaptive privacy-preserving federated learning)与近期研究提出的联邦学习算法进行功能性的对比, 其中包括PFL (Privacy-preserving federated learning)[18]、AFL (Adaptive federated learning)[17]和MFL (Momentum federated learning)[16]. PFL算法虽然能够对联邦学习系统中的参与者进行数据隐私保护, 但是没有对联邦学习训练过程进行优化或提高. AFL和MFL分别使用自适应聚合频率算法和动量梯度下降算法以提高联邦学习的训练效率. 然而, 这两种方法都没有考虑对参与者的数据隐私进行保护. 此外, 以上三种联邦学习算法都不涉及对参与者的Mini-batch值进行设定. 本文提出的APFL算法利用同态加密技术和混沌加密技术对参与者的数据隐私进行保护, 同时提出自适应模型聚合方案和采用动量梯度下降法提高联邦学习训练效率, 降低计算资源和通信资源的消耗.
表 3 不同联邦学习方案的功能分析Table 3 The functionality analysis of the different FLs功能 PFL AFL MFL APFL 隐私保护 √ × × √ 自适应调整$\tau $ × √ × √ Mini-batch 设定 × × × √ 动量项加速 × × √ √ 5. 实验与分析
5.1 实验环境及实现
实验环境为Windows10, MATLAB2018b, Python 3.6, Pytorch1.5和CUDA10.1用于搭建深度神经网络模型, Python通过Matlab-Python接口调用MATLAB中的混沌系统程序生成伪随机数, 使用开源的CKKS库对模型的权重参数进行加密与解密操作. Fashion-MNIST (F-MNIST)和CIFAR10数据集用于验证本文所提出的联邦学习系统的有效性.
上述两个数据集各包含有10个不同类别的图片, 训练集和测试集分别有60000张图片和10000张图片. 在实际场景中, 各参与者的数据库拥有的数据类别往往是不相同的. 因此, 本文将数据集切分为非独立同分布数据集, 用于对所提出的联邦学习算法进行评估. 具体方式为: 训练集中类别编号为0 ~ 3的图像划分为数据集N-train1, 编号为4 ~ 6的图像划分为数据集N-train2, 编号为7 ~ 9的图像划分为数据集N-train3. 将分割好的数据集N-train1, N-train2和N-train3分别用于参与者1, 2和3的本地模型训练. 设置训练迭代次数Epoch为50, 优化算法为小批量梯度下降(Mini-batch gradient descent, MGD)算法 (学习率$\eta $= 0.1, 动量$ \gamma=$0.5), 对应集中式学习CL的Mini-batch值为512. 自适应全局模型聚合间隔算法的初始全局模型聚合间隔$\tau $设为15, 连续未达到精度要求$ \Phi$值设为5.
采用准确率(Precision)、查全率(Recall)和综合评价指标(F1-score)进行算法评估[36]. 采用文献[19]中提出的方法, 评估联邦学习模型与集中式学习模型之间的偏差, 即
$$ De{v_{{\rm{avg}}}} = \frac{1}{{cn}}\sum\limits_{i = 1}^{cn} {\left| {ac{c_{{\rm{FL}},i}} - ac{c_{{\rm{CL}},i}}} \right|} $$ (33) 式中, cn为数据集中类别的个数, accFL,i为联邦学习模型在第i类数据识别的准确率, accCL,i为集中式学习模型在第i类数据识别的准确率.
5.2 性能对比实验
根据文献[16, 18, 33], 本节分别设置模型更新间隔为$ \tau $= 1, 4和15, 与采用本文提出的自适应联邦学习算法进行对比. 自适应联邦学习算法首先根据所提出的自适应模型聚合方案对各个参与者的Mini-batch值进行设定, 联邦学习中参与者1号的Mini-batch设为int(512$\times $(4/10)) = 204, 而参与者2号和3号的Mini-batch设为int$(512\times (3/10)) =$ 153. 图6和图7分别为各联邦学习方案在CIFAR10和F-MNIST数据集上的实验曲线. 从准确率曲线可以看出, 所提出方法在训练过程前期模型准确率上升速度低于FL ($ \tau $= 1, 4)和CL, 因为此时APFL所设定的$\tau $大于4. 随着训练过程的进行, APFL逐渐调低全局模型聚合间隔$\tau $, 即提升全局模型更新频率. 表4和表5分别为不同联邦学习模型在CIFAR10和F-MNIST数据集上的分类结果. 从表中可以看出, 在CIFAR10和F-MNIST数据集上, APFL的通信次数相比于FL ($\tau $= 1)分别降低了31.43%和55.44%. 同时, 从实验结果可以看出, 本文所提出的自适应调整模型聚合间隔方法, 能够根据任务难度进行调整. 在较为简单的F-MNIST数据集, 全局模型聚合间隔降低的速率低于CIFAR10数据集. 从本节的实验结果可以看出, 所提出的自适应模型聚合方案能够在保证模型精度的前提下, 降低模型聚合次数, 从而降低计算和通信成本, 进而提高训练效率.
表 4 CIFAR10上不同联邦学习模型的分类结果(%)Table 4 Classification results of the different federated learning models on CIFAR10 (%)表 5 F-MNIST上不同联邦学习模型的分类结果(%)Table 5 Classification results of the different federated learning models on F-MNIST (%)5.3 自适应模型聚合方案作用分析
本文提出的自适应模型聚合方案主要包含两个部分: Mini-batch设定和自适应调整全局模型聚合间隔算法. 为评估这两个部分的作用, 本节采用消融实验对其进行分析.
5.3.1 Mini-batch设定消融实验
第3.3节提出了不同参与者Mini-batch设定方案, 该方案根据参与者所拥有的数据量大小, 对参与者的Mini-batch值进行设定. Mini-batch设定的消融实验结果如图8、表6和表7所示. 由实验结果可以看出, 联邦学习模型使用了Mini-batch设定算法后, 能够一定程度上提升模型的性能. 并且, 在较低的全局模型更新间隔$\tau=4 $或较为简单的数据集F-MNIST时, 采用Mini-batch设定算法对联邦学习的性能提升效果较为明显.
表 6 CIFAR10下的Mini-batch设定消融实验结果(%)Table 6 Ablation experiment results of the Mini-batch size setting on CIFAR10 (%)方法 Accuracy Precision Recall Devavg CL 63.36 63.92 63.29 — ${\rm{FL} }\; (\tau= 15)$[33] 25.76 9.34 25.87 49.91 ${\rm{FL} }\; (\tau= 15)+{\rm{mbs} }$ 25.70 9.14 25.78 50.07 ${\rm{FL} }\;(\tau= 4)$ 27.64 50.14 27.76 45.04 ${\rm{FL} }\;(\tau= 4)+{\rm{mbs} }$ 63.66 60.93 36.06 32.90 ${\rm{FL} }\;(\tau= 1)$[18] 61.78 62.76 61.77 1.91 ${\rm{FL} }\;(\tau= 1)+{\rm{mbs} }$ 63.02 64.08 62.27 1.53 表 7 F-MNIST下的Mini-batch设定消融实验结果(%)Table 7 Ablation experiment results of the Mini-batch size setting on F-MNIST (%)方法 Accuracy Precision Recall Devavg CL 90.15 90.07 90.15 — ${\rm{FL} }\; (\tau= 15)$[33] 65.99 62.18 65.99 31.43 ${\rm{FL} }\; (\tau= 15)+{\rm{mbs} }$ 69.99 64.29 69.99 26.05 ${\rm{FL} }\;(\tau= 4)$ 27.76 50.14 27.76 45.04 ${\rm{FL} }\;(\tau= 4)+{\rm{mbs} }$ 76.23 84.84 76.23 14.85 ${\rm{FL} }\;(\tau= 1)$[18] 89.10 89.25 89.10 0.88 ${\rm{FL} }\;(\tau= 1)+{\rm{mbs} }$ 89.27 89.25 89.27 0.99 5.3.2 自适应调整全局模型更新间隔算法消融实验
第3.3节提出了自适应全局模型更新间隔方法, 该方法能够根据参与者上传的训练信息, 对全局模型更新间隔进行调整. 自适应全局模型更新间隔方法的消融实验结果如图9、图10、表8和表9所示. 由实验结果可以看出, 采用了自适应调整全局模型更新间隔算法的联邦学习模型性能与FL ($\tau $=1)模型接近相同, 同时减小了模型聚合次数, 进而提高了联邦学习训练效率. 值得注意的是, 相比于APFL算法, 没有采用Mini-batch设定算法(APFL (no mbs))的模型性能发生了下降, 与CL模型的精度偏差有所增加.
表 8 CIFAR10下的自适应更新间隔消融实验结果(%)Table 8 Ablation experiment results of the adaptive model aggregation interval on CIFAR10 (%)表 9 F-MNIST下的自适应更新间隔消融实验结果(%)Table 9 Ablation experiment results of the adaptive model aggregation interval on F-MNIST (%)6. 结束语
本文首先以神经网络模型为例, 说明梯度参数是如何泄露本地数据的, 并通过数学公式推导分析了联邦学习性能损失的原因. 针对联邦学习性能损失问题, 本文提出一种自适应模型聚合方案, 该方案能够自适应调整参与者Mini-batch值和全局模型更新间隔. 针对联邦学习隐私泄露的问题, 本文首次将图像加密领域中的混沌加密算法引入联邦学习领域中, 用于构建一种基于混沌系统和同态加密的混合隐私保护方案, 从而进一步提高数据隐私保护水平. 理论分析和实验结果表明, 本文提出的联邦学习算法能够保护参与者的隐私信息, 并在非独立同分布数据的场景下提升训练效率, 降低模型的性能损失, 具备实际工业场景应用的可行性.
本文所提出的联邦学习算法, 没有对低质量数据的参与者进行考虑. 然而, 在真实工业场景中, 可能存在拥有低质量数据的参与者, 进而导致整个联邦学习模型性能下降. 因此, 下一步拟打算在保护参与者隐私前提下, 设计一种低质量数据参与者的识别算法, 并使用更加复杂的数据集对算法进行测试与优化, 从而进一步推动联邦学习在工业领域中的应用.
-
表 1 2018年信息学部F06申请资助情况[2]
Table 1 Application and funding of F06 in Department of Information Sciences 2018
项目类型 申请数量 资助数量 资助比例 (%) 平均资助强度 (万元) 面上项目 1322 231 17.47 60.21 青年项目 905 223 24.64 24.64 地区项目 256 40 15.63 37.98 重点项目 72 16 22.22 285.25 表 2 2019年信息学部F06申请资助情况
Table 2 Application and funding of F06 in Department of Information Sciences 2019
项目类型 申请数量 资助数量 资助比例 (%) 平均资助强度 (万元) 面上项目 1447 256 17.69 59.89 青年项目 960 225 23.44 24.22 地区项目 280 41 14.64 38.39 重点项目 59 15 25.42 300.13 表 3 2020年信息学部F06申请资助情况
Table 3 Application and funding of F06 in Department of Information Sciences 2020
项目类型 申请数量 资助数量 资助比例 (%) 平均资助强度 (万元) 面上项目 1573 263 16.72 58.70 青年项目 1146 257 22.43 24.00 地区项目 312 49 15.71 36.00 重点项目 71 13 18.31 296.23 表 4 2019−2020年度信息学部F06面上项目申请量排名前五位的依托单位
Table 4 Top 5 application of F06 general projects in Department of Information Sciences 2019−2020
2019年 2020年 依托单位 项目数 占比 (%) 依托单位 项目数 占比 (%) 电子科技大学 32 2.21 电子科技大学 24 1.53 西安电子科技大学 27 1.87 华南理工大学 23 1.46 西安交通大学 24 1.66 中国科学院自
动化研究所22 1.40 广东工业大学 20 1.38 同济大学 21 1.34 中国科学院自
动化研究所19 1.31 广东工业大学 20 1.27 表 5 2019−2020年度信息学部F06面上项目资助量排名前五位的依托单位
Table 5 Top 5 funding of F06 general projects in Department of Information Sciences 2019−2020
2019年 2020年 依托单位 项目数 资助率 (%) 依托单位 项目数 资助率 (%) 大连理工大学 8 50.00 中国科学院自
动化研究所8 36.36 中国科学院自
动化研究所7 36.84 大连理工大学 8 53.33 哈尔滨工业大学 7 36.84 北京邮电大学 7 35.00 电子科技大学 7 21.88 复旦大学 7 43.75 中山大学 7 46.67 中山大学 6 42.86 表 6 2019−2020年度信息学部F06青年项目申请量排名前五位的依托单位
Table 6 Top 5 application of F06 youth science foundation projects in Department of Information Sciences 2019−2020
2019年 2020年 依托单位 项目数 占比 (%) 依托单位 项目数 占比 (%) 国防科技大学 27 2.81 中国科学院自
动化研究所22 1.92 中国科学院自
动化研究所21 2.19 国防科技大学 20 1.75 西安电子科技大学 13 1.35 深圳大学 12 1.05 北京工业大学 11 1.15 西安电子科技大学 10 0.87 中山大学 11 1.15 国防科技创
新研究院10 0.87 表 7 2019−2020年度信息学部F06青年项目资助量排名前五位的依托单位
Table 7 Top 5 funding of F06 youth science foundation projects in Department of Information Sciences 2019−2020
2019年 2020年 依托单位 项目数 资助率 (%) 依托单位 项目数 资助率 (%) 国防科技大学 12 44.44 中国科学院自
动化研究所9 40.91 西安电子科
技大学10 76.92 哈尔滨工业大学 6 100 中国科学院自
动化研究所10 47.62 深圳大学 5 83.33 北京工业大学 7 63.64 广东工业大学 5 55.56 合肥工业大学 6 75.00 中山大学 5 71.43 表 8 2019−2020年度信息学部F06地区项目申请量排名前五位的依托单位
Table 8 Top 5 application of F06 projects for developing region in Department of Information Sciences 2019−2020
2019年 2020年 依托单位 项目数 占比 (%) 依托单位 项目数 占比 (%) 新疆大学 24 8.57 新疆大学 17 5.45 昆明理工大学 15 5.36 云南大学 11 3.53 桂林电子科技大学 13 4.64 桂林电子科技大学 10 3.21 江西师范大学 12 4.29 贵州大学 10 3.21 云南大学 10 3.57 昆明理工大学 9 2.88 表 9 2019−2020年度信息学部F06地区项目资助量排名前五位的依托单位
Table 9 Top 5 funding of F06 projects for developing region in Department of Information Sciences 2019−2020
2019年 2020年 依托单位 项目数 资助率 (%) 依托单位 项目数 资助率 (%) 江西师范大学 4 33.33 南昌大学 5 71.43 云南大学 3 30.00 云南大学 3 27.27 内蒙古大学 3 50.00 贵州大学 3 30.00 桂林电子
科技大学3 23.08 桂林电子
科技大学2 20.00 内蒙古工业大学 2 100 内蒙古工业大学 2 50.00 表 10 2019−2020年度信息学部F06重点项目申请量排名前五位的依托单位
Table 10 Top 5 application of F06 key projects in Department of Information Sciences 2019−2020
2019年 2020年 依托单位 项目数 占比 (%) 依托单位 项目数 占比 (%) 西安电子科技大学 5 8.47 西安电子科技大学 6 8.45 清华大学 4 6.78 中国科学院自
动化研究所5 7.04 北京邮电大学 3 5.08 北京大学 5 7.04 北京师范大学 2 3.39 天津大学 4 5.63 西北工业大学 2 3.39 清华大学 4 5.63 表 11 2019−2020年度信息学部F06重点项目资助量排名前五位的依托单位
Table 11 Top 5 funding of F06 key projects in Department of Information Sciences 2019−2020
2019年 2020年 依托单位 项目数 资助率 (%) 依托单位 项目数 资助率 (%) 清华大学 3 75.00 北京大学 2 40.00 同济大学 1 100 中国科学院自
动化研究所2 40.00 大连理工大学 1 100 西安电子科技大学 2 33.33 西北工业大学 1 50.00 电子科技大学 1 100 华南理工大学 1 100 西安交通大学 1 50.00 表 12 2020年人工智能 (F06) 新版学科代码与旧版学科代码的迁移变化关系
Table 12 The relationship between 2020 new-version code and old-version code of artificial intelligence (F06)
旧版代码 原学科领域 变化 新版代码 现学科领域 F0601 人工智能基础 迁移 F0601 人工智能基础 新增 F0602 复杂性科学与人工智能理论 F0602 机器学习 迁移 F0603 机器学习 F0603 机器感知与模式识别 迁移 F0604 机器感知与机器视觉 新增 F0605 模式识别与数据挖掘 F0604 自然语言处理 迁移 F0606 自然语言处理 F0605 知识表示与处理 迁移 F0607 知识表示与处理 F0606 智能系统与应用 迁移 F0608 智能系统与人工智能安全 F0607 认知与神经科学启发的人工智能 迁移 F0609 认知与神经科学启发的人工智能 新增 F0610 交叉学科中的人工智能问题 表 13 2018−2020年度人工智能 (F06) 各学科代码的资助率 (以新版代码统计) (%)
Table 13 The funding rate of each artificial intelligence (F06) code in 2018−2020 (Based on new-version code) (%)
学科领域 代码 面上项目 青年项目 地区项目 2018年 2019年 2020年 2018年 2019年 2020年 2018年 2019年 2020年 人工智能基础 F0601 18.40 21.52 19.49 31.64 25.66 26.42 25.00 20.59 25.00 复杂性科学与人工智能理论 F0602 0.00 0.00 9.09 0.00 0.00 18.92 0.00 0.00 25.00 机器学习 F0603 14.38 9.51 16.92 26.45 23.77 24.83 21.74 17.65 7.41 机器感知与机器视觉 F0604 18.24 33.33 16.55 26.38 25.42 23.43 17.86 11.76 19.15 模式识别与数据挖掘 F0605 20.99 32.86 20.45 21.19 23.20 24.34 12.50 11.11 16.67 自然语言处理 F0606 21.28 54.17 23.08 25.42 29.31 31.94 14.29 15.56 10.20 知识表示与处理 F0607 11.76 4.24 15.49 18.18 28.57 18.87 11.76 19.05 15.38 智能系统与人工智能安全 F0608 14.63 17.78 19.72 21.98 19.81 20.63 3.70 14.29 0.00 认知与神经科学启发的人工智能 F0609 20.21 13.14 18.28 35.14 19.74 22.67 20.00 9.09 33.33 交叉学科中的人工智能问题 F0610 14.56 9.49 12.11 13.33 18.75 15.10 20.00 10.53 16.67 人工智能 F06 0.00 0.00 0.00 16.67 0.00 8.33 0.00 0.00 0.00 合计 17.47 17.69 16.72 24.64 23.44 22.43 15.63 14.64 15.71 表 14 2019−2020年度信息学部人工智能 (F06) 面上项目科学问题属性分布
Table 14 Scientific properties of artificial intelligence (F06) general projects in Department of Information Sciences 2019−2020
年份 科学属性 申请数 上会数 资助数 上会/申请 (%) 资助/上会 (%) 资助率 (%) 2019年 A类 145 36 21 24.83 58.33 14.48 B类 532 194 131 36.47 67.53 24.62 C类 506 125 77 24.70 61.60 15.22 D类 264 54 27 20.45 50.00 10.23 合计 1447 409 256 28.27 62.59 17.69 2020年 A类 105 14 11 13.33 78.57 10.48 B类 609 188 134 30.87 71.28 22.00 C类 540 123 87 22.78 70.73 16.11 D类 319 54 31 16.93 57.41 9.72 合计 1573 379 263 24.09 69.39 16.72 表 15 2019−2020年度信息学部人工智能 (F06) 青年项目科学问题属性分布
Table 15 Scientific properties of artificial intelligence (F06) youth science foundation projects in Department of Information Sciences 2019−2020
年份 科学属性 申请数 上会数 资助数 上会/申请 (%) 资助/上会 (%) 资助率 (%) 2019年 A类 83 25 13 30.12 52.00 15.66 B类 367 167 113 45.50 67.66 30.79 C类 314 112 64 35.67 57.14 20.38 D类 196 56 35 28.57 62.50 17.86 合计 960 360 225 37.50 62.50 23.44 2020年 A类 86 21 13 24.42 61.9 15.12 B类 462 176 129 38.10 73.30 27.92 C类 367 110 72 29.97 65.45 19.62 D类 231 64 43 27.71 67.19 18.61 合计 1146 371 257 32.37 69.27 22.43 表 16 2019−2020年度信息学部人工智能 (F06) 地区项目科学问题属性分布
Table 16 Scientific properties of artificial intelligence (F06) projects for developing region in Department of Information Sciences 2019−2020
年份 科学属性 申请数 上会数 资助数 上会/申请 (%) 资助/上会 (%) 资助率 (%) 2019年 A类 28 1 0 3.57 0.00 0.00 B类 76 18 11 23.68 61.11 14.47 C类 119 31 18 26.05 58.06 15.13 D类 57 15 12 26.32 80.00 21.05 合计 280 65 41 23.21 63.08 14.64 2020年 A类 17 5 5 29.41 100.00 29.41 B类 86 24 16 27.91 66.66 18.60 C类 141 30 20 21.28 66.66 14.18 D类 68 12 8 17.65 66.66 11.76 合计 312 71 49 22.76 69.01 15.71 表 17 2019−2020年度信息学部人工智能 (F06) 重点项目科学问题属性分布
Table 17 Scientific properties of artificial intelligence (F06) key projects in Department of Information Sciences 2019−2020
年份 科学属性 申请数 上会数 资助数 上会/申请 (%) 资助/上会 (%) 资助率 (%) 2019年 A类 5 1 1 20.00 100.00 20.00 B类 13 5 3 38.46 60.00 23.08 C类 28 13 8 46.43 61.54 28.57 D类 13 4 3 30.77 75.00 23.08 合计 59 23 15 38.98 65.22 25.42 2020年 A类 3 0 0 0.00 — 0.00 B类 20 3 1 15.00 33.33 5.00 C类 41 13 10 31.71 76.92 24.39 D类 7 3 2 42.86 66.66 28.57 合计 71 19 13 26.76 68.42 18.31 -
[1] 中国人工智能2.0发展战略研究项目组. 中国人工智能2.0发展战略研究. 杭州: 浙江大学出版社, 2019.China AI 2.0 Development Strategy Research Group. China AI 2.0 Development Strategy Research. Hangzhou: Zhejiang University Press, 2019. [2] 吴国政, 胡振涛, 潘庆, 李建军, 张兆田. 2018年度信息科学部基金评审工作综述. 中国科学基金, 2019, 31(1): 15−18Wu Guo-Zheng, Hu Zhen-Tao, Pan Qing, Li Jian-Jun, Zhang Zhao-Tian. Proposal application, peer review and funding of the Department of Information Sciences in 2018: an overview. Bulletin of National Natural Science Foundation of China, 2019, 31(1): 15−18 [3] 李静海. 全面深化科学基金改革更好发挥在国家创新体系中的基础引领作用. 中国科学基金, 2019, 33(3): 209−214Li Jing-Hai. Deepen the reform of the National Natural Science Fund to play the fundamental and leading role in the national innovation system. Bulletin of National Natural Science Foundation of China, 2019, 33(3): 209−214 [4] 李静海. 构建新时代科学基金体系, 夯实世界科技强国根基. 中国科学基金, 2018, 32(4): 345−350Li Jing-Hai. Building a science funding system for a new paradigm shift in science. Bulletin of National Natural Science Foundation of China, 2018, 32(4): 345−350 [5] 邓方, 宋苏, 刘克, 吴国政, 付俊. 国家自然科学基金自动化领域数据分析与研究热点变化. 自动化学报, 2018, 44(2): 377−384Deng Fang, Song Su, Liu Ke, Wu Guo-Zheng, Fu Jun. Data and research hotspot analyses of National Natural Science Foundation of China in automation field. Acta Automatica Sinica, 2018, 44(2): 377−384 [6] 吴飞, 阳春华, 兰旭光, 丁进良, 郑南宁, 桂卫华, 等. 人工智能的回顾与展望. 中国科学基金, 2018, 32(3): 243−250Wu Fei, Yang Chun-Hua, Lan Xu-Guang, Ding Jin-Liang, Zheng Nan-Ning, Gui Wei-Hua, et al. Artificial intelligence: review and future opportunities. Bulletin of National Natural Science Foundation of China, 2018, 32(3): 243−250 期刊类型引用(5)
1. 谢国,张怀文,王乐,廖清,张奥千,周志立,葛慧林,王志衡,吴国政. 2024年国家自然科学基金人工智能学科项目受理与资助情况. 计算机研究与发展. 2025(03): 648-661 . 百度学术
2. 谢国,王乐,宋和平,肖斌,廖清,王志衡,吴国政. 2023年度人工智能领域国家自然科学基金项目申请与资助情况综述. 模式识别与人工智能. 2024(02): 95-105 . 百度学术
3. 谢国,王增茂,王志衡,肖斌,廖清,宋和平,夏辉,吴国政. 2018~2023年国家自然科学基金人工智能学科人才项目申请及资助综述. 中国科学:信息科学. 2024(11): 2689-2708 . 百度学术
4. 陈孟. 从科学基金角度剖析广东人工智能产业发展现状. 控制工程. 2023(01): 186-192 . 百度学术
5. 吴国政,肖斌,赵瑞珍,陈厅. 2021年度NSFC人工智能学科基金项目申请资助情况及学科发展展望. 智能系统学报. 2021(06): 1166-1171 . 百度学术
其他类型引用(2)
-