-
摘要: 假设空间复杂性是统计学习理论中用于分析学习模型泛化能力的关键因素.与数据无关的复杂度不同,Rademacher复杂度是与数据分布相关的,因而通常能得到比传统复杂度更紧致的泛化界表达.近年来,Rademacher复杂度在统计学习理论泛化能力分析的应用发展中起到了重要的作用.鉴于其重要性,本文梳理了各种形式的Rademacher复杂度及其与传统复杂度之间的关联性,并探讨了基于Rademacher复杂度进行学习模型泛化能力分析的基本技巧.考虑样本数据的独立同分布和非独立同分布两种产生环境,总结并分析了Rademacher复杂度在泛化能力分析方面的研究现状.展望了当前Rademacher复杂度在非监督框架与非序列环境等方面研究的不足,及其进一步应用与发展.
-
关键词:
- 机器学习 /
- 统计学习理论 /
- 泛化界 /
- Rademacher 复杂度
Abstract: Measuring the complexity of a hypothesis space plays a crucial role in statistical learning theory. Unlike those data-independent complexities, Rademacher complexity, which is data-dependent, can attain a much more compact generalization representation. In recent years, Rademacher complexity has attracted more attention and found broad applications in the development of statistical learning theory. Because of its importance, in this paper we review several complexity measures of function classes and their relations with Rademacher complexities. Next, we describe the techniques of Rademacher complexities in generalization analysis. Then, we present the recent researches of Rademacher complexity learning bounds for independent and identical distribution (i.i.d.) and non-independent and identical distribution (non-i.i.d.). Finally, we discuss the potential issues and possible directions of Rademacher complexities in statistical learning theory. -
机器学习是从人工智能中分离出来,应用驱动的一门学科.近年来随着大数据时代的来临,机器学习备受各行各业如计算机视觉、自动控制、生物特征识别、数据分析、互联网、多媒体、社会安全等的广泛关注.
机器学习不仅在应用领域取得了不胜枚举的成功,在理论方面也在不断完善,尤其是在统计学习理论的研究方面.从学习的本质来看,机器学习旨在基于已知样本数据集,通过学习来构造逼近真实分布如函数依赖关系或内在规律的学习模型.其中,学习模型对未知数据的预测或泛化能力是统计学习理论的主要关注目标.
一般来说,按训练样本是否有标签可将机器学习大致分为有监督学习、半监督学习和无监督学习三个主要学习框架.在有监督学习框架下,训练样本数据集被看作是一组来自某一函数 ($h_{{\rm P}}$) 依赖关系的输入输出对. 机器学习的目的就是基于该样本数据集,通过学习的方式,从给定的函数集 ($\mathcal{H}$,一般称假设空间)中找到某一函数 ($\hat{h}$),使其尽可能地逼近目标函数 ($h_{{\rm P}}$). 本文讨论的内容主要是在有监督学习框架下展开的.
学习理论的研究最早出现在数学领域中. Tikhonov 和 Arsenin指出多数数据预测为病态问题 (Ill-posed problem),需要引入某些限制来保证问题的良态化[1].而在机器学习领域,也存在类似的问题. 如果 $\mathcal{H}$ 中函数自由参数过于简单,那么,在给定样本数据集上,$\hat{h}$ 将可能不会很好地逼近 $h_{{\rm P}}$,即,欠拟合; 如果 $\mathcal{H}$ 中函数自由参数过于复杂,那么,在给定样本数据集之外的测试数据集或是未知数据集上,$\hat{h}$也将可能不会很好地逼近 $h_{{\rm P}}$,即,过拟合. 因此,为了权衡 $\mathcal{H}$中函数自由参数的复杂性与学习模型的泛化能力,一些有关参数复杂性的模型准则陆续被一些学者提出,试图通过控制模型参数的复杂性来获得理想的学习模型,如 Akaike提出的用于控制神经网络参数个数的 AIC 准则 (An information criterion)[2],Akaike[3] 和 Schwarz[4]用于控制多元高斯混合模型参数个数的 BIC 准则 (Bayesian information criterion),Kolmogorov 等从编码角度提出的 Kolmogorov 复杂度(Kolmogorov complexity,KC)[5-8]以及基于此发展的针对聚类的最小信息长度 (Minimum message length,MML) 模型[9]等. 但在实际应用中,基于这些准则来学习得到模型时将碰到困难,会出现如"维数灾难''、实际计算困难等问题. 在20世纪60至70年代,Vapnik和 Chervonenkis 对复杂性的定义进行了重新思考,发现学习模型的泛化能力主要取决于学习所基于的假设空间的复杂性,而假设空间的复杂性本质上不同于模型中自由参数的复杂性或是个数[10-12].因此,如何定义假设空间的复杂性并度量其复杂性,对学习模型泛化能力的控制和估计显得极为重要. 同时,在 Popper哲学思想[13]的影响下,Vapnik 和 Chervonenkis 提出了Vapnik-Chervonenkis (VC) 熵、linebreak 生长函数和 VC维等一系列著名的复杂性度量,并将 VC维用于刻画和度量假设空间的复杂性,从而来估计和控制学习模型的泛化能力. 同时,在1984 年 Valiant提出了概率近似正确 (Probabilistic approximate correct,PAC) 的概念,他指出学习模型将以概率 $1-\delta$ $(0<\delta<1) $的方式逼近真实分布[14].以上这些努力奠定了统计学习理论的基础. 之后,Kearns 等又将 VC维由示性函数推广到了一般实值函数,提出了 Fat-shattering维的概念[15-16]. 但是,由于 VC维是在假设空间上引入额外的度量,并且 VC 维与所给的样本数据集 (分布)无关或是说数据独立 (Data independent) 等特点,使其在进行学习模型泛化能力分析方面显得过于保守.
Shawe-Taylor 等在对统计学习理论深入研究中注意到数据相依 (Data dependent) 复杂性度量的重要性[17],Koltchinskii 等将Rademacher 复杂度引入到了统计学习理论学习模型的泛化能力分析研究中,发现由于 Rademacher复杂度在对假设空间进行复杂性度量时不需要引入额外度量,并且依赖于特定样本数据集 (分布) 或是说数据相依[18-19],这是明显不同于 VC 维要求的数据独立、一致分布等较强条件. 因此,Rademacher 复杂度能以一种比 VC维更加紧致的方式关联经验过程极大泛函,从而,在学习模型的泛化能力分析方面能得到较好的预测精度及稍快的收敛速度[18-19]. Bartlett 等通过进一步研究发现,对学习模型泛化能力起关键作用的往往不是整个假设空间中的函数,而是那些具有较小方差的函数所构成的假设空间的子空间[20-23],基于此发现给出了局部Rademacher 复杂度的概念. 此后,Rademacher复杂度在统计学习理论学习模型泛化能力分析研究方面开始得到高度的关注和广泛的应用.
国内学者在假设空间复杂性与学习模型泛化性能研究方面,也做了许多相关工作. 如,西安交通大学的徐宗本院士和西北大学的张海教授在文献[24]中主要从学习算法稳定性和泛化性角度综述了现有稳定性框架之间的关系,湖北汽车工业学院的胡政发硕士在文献[25] 中基于 VC 维和 Banach 空间$L$-范数研究了假设空间的复杂性度量,湖北大学的陈将宏硕士及其导师李落清教授在文献 [26] 中基于覆盖数(具体定义见附录 A 覆盖数)、VC 维和 Rademacher 复杂度讨论了支持向量机(Support vector machine,SVM) 的泛化性能,武汉大学的雷云文博士及其导师丁立新教授等在文献 [27-32] 中基于Rademacher 复杂度讨论了多核学习 (Multiple kernel learning,MKL)、多模态 (Multi-modal) 学习、神经网络学习、自由节点样条(Free knot spline,FKS)学习等几种不同学习算法的泛化性能,北京大学的许超教授及其合作者在文献 [33] 中运用 Rademacher复杂度讨论了多标签学习算法的泛化性能,南京大学的高尉博士及其导师周志华教授在文献[34]中基于 Rademacher复杂度分析了深度神经网络中Dropout的泛化界等.
本文主要是从综述的角度,系统地总结了现有的各种形式 Rademacher复杂度[18-23, 27, 32, 34-43]及其与传统复杂度之间的关联性 [20-21, 27-29, 32, 36-37, 39-41, 44-50],并概述了当前 Rademacher复杂度在统计学习理论泛化界分析方面的应用成果 [19, 27-28, 30-33, 36-43, 47-49, 51-56].本文的主要内容安排如下: 第1节简单介绍了复杂度研究发展的历史背景;第2节给出了本文后续讨论要用的一些定义和符号; 第3节总结了各种形式的Rademacher 复杂度,并进一步分析了 Rademacher复杂度的特点及基本的分析处理技巧; 第4节讨论了各种形式的 Rademacher复杂度与传统复杂度之间的关系;第5节在样本数据集为独立同分布的假设下,讨论 Rademacher复杂度在泛化界分析方面的研究现状;第6节在样本数据集为非独立同分布的假设下,讨论 Rademacher复杂度在泛化界分析方面的研究现状; 第7 节对本文进行小结,并展望了Rademacher 复杂度在泛化界分析方面研究的不足与进一步发展应用.
1. 定义和模型
在本节中,我们将对本文后续讨论中要用到的一些符号和基本的学习模型分别进行约定与说明.
1) 集合$\mathcal{X}$表示输入空间,集合$\mathcal{Y}$表示输出空间,集合$\mathcal{Z}$ $(\mathcal{Z}=(\mathcal{X}×\mathcal{Y}))$表示样本数据集或称样本空间.记$\mathcal{P}(\mathcal{Y}^{\mathcal{X}})$为$\mathcal{Y}^{\mathcal{X}}$的幂集,集合$\mathcal{H}$为假设空间且$\mathcal{H}$ $\in$$\mathcal{P}(\mathcal{Y}^{\mathcal{X}})$.记$Q:(\mathcal{X}×\mathcal{Y})×\mathcal{P}({\mathcal{Y}}^{\mathcal{X}})\rightarrow[0,+\infty]$ 为损失函数,该函数量化了$h(\in\mathcal{Y}^{\mathcal{X}})$ 在 $\mathcal{Z}$ 上的学习效果.
2) 集合$\mathcal{F}:=\{Q(z,h):h\in\mathcal{H},z\in\mathcal{Z}\}$.
3) 集合${\bf N}$ 为自然数集. 对任意 $n\in{\bf N}$,记 ${\bf N}_{n}$$=$ $\{1,2,\cdots,n\}$.
4) 集合${\bf R}$为实数集.
5) 记$f\in\mathcal{F}$,$\|f\|_{L_{q}(\mu)}:={\left(\int|f|^{q}{\rm{d}}\mu\right)}^{1/q}$.
6) 记$\|\cdot\|$ 为 ${\bf R}^{d× d}$ $(d\in{\bf N})$ 上范数(如,Frobenius范数等),对偶范数定义如下:
\begin{align}\displaystyle\|M\|_{*}:=\sup\{\langle X,M\rangle:X\in{\bf R}^{d× d},\|X\|\leq 1\}\end{align}
(1) 其中,内积$\left\langle X,M \right\rangle :=\text{tr}({{X}^{\text{T}}}M),\text{tr}$表示矩阵的迹.
7) 任意$d,m\in{\bf N}$,$d×(md)$对称矩阵空间为
\begin{align}\displaystyle{S}^{d×(md)}:=&\ \displaystyle\{(M^{1},\cdots,M^{m}): M^{l}\in{\bf R}^{d× d},\notag\\&\ \displaystyle(M^{l})^{\rm T}=M^{l},l\in{\bf N}_{m}\}\end{align}
(2) 定义 1. 对于模型$h\in\mathcal{H}$,其泛化误差1
\begin{align}{\label{addcite2}}\displaystyle{\rm E}(h):=\int_{\mathcal{Z}}Q(z(\omega),h){\rm P}({\rm{d}\omega})\end{align}
(3) 定义 2. 称$h_{{\rm P}}$为目标函数,若
\begin{align}{\displaystyle h_{{\rm P}}:={\arg\min\limits_{h\in\Xi} {\rm E}(h)}}\end{align}
(4) 其中,$\Xi =\left\{ h|{{h}^{-1}}(B)\in \sigma {{(\mathcal{X})}^{2}},\forall B\subset \mathcal{Y} \right\}$. $h_{{\rm P}}$表示$Q$意义下预测能力最好的模型.
但在实际应用中,上面定义2中的 ${\rm P}$ 一般未知,泛化误差 ${\rm E}(h)$往往实际无法计算. 所以,通常采用如下基于给定样本数据集的经验误差
\begin{align}\label{ERM}\displaystyle{\rm E}_{n}(h):=\frac{1}{n}\sum\limits_{i=1}^{n}Q(z_{i},h)\end{align}
(5) 并通过取$\min_{h\in\mathcal{H}}{\rm E}_{n}(h)$的方式,来得到对$h_{{\rm P}}$的逼近$\hat{h}$. 这里,$z_{i}$,$i=1,2,\cdots,n$,表示给定样本数据集.
1式(3) 有时也记为E[Q].
2其中,$\sigma{(\mathcal{X})}$表示由${\mathcal{X}}$生成的$\sigma$代数[57].
一般地,将式(5) 称为经验风险,基于经验风险最小化来求解得到估计模型的学习策略,称为经验风险最小化(Empirical risk minimization,ERM).由于多数机器学习问题属于病态问题,常在经验风险后增加与模型复杂度相关的正则项或惩罚项,并通过最小化引入正则项或惩罚项后的模型来实现良态解.如下面的结构风险最小化(Structural risk minimization,SRM) 策略
\begin{align}\label{SRM}&\displaystyle\hat{h}:=\displaystyle\arg\min\limits_{h\in\mathcal{H}_{k},k\in {{\bf N}}}({\rm E}_{n}(h)+{\rm{pen}}{(k,n)}),\notag\\&\qquad\qquad\displaystyle\mathcal{H}_{k}\subset\mathcal{H}_{k+1},~~k=1,2,\cdots\in{\bf N}\end{align}
(6) 和正则化 (Regularizer) 策略
\begin{align}\label{NOR}\displaystyle\hat{h}:=\arg\min\limits_{h\in\mathcal{H}}({\rm E}_{n}(h)+{λ\Omega(h)})\end{align}
(7) 注 1[58].式(6) 中的${\rm{pen}}{(k,n)}$称为惩罚项,与假设空间$\mathcal{H}_k$的复杂度及样本数据集的容量有关.$\Omega(h)$为正则化算子,$λ$ 为正则化参数: $λ$较小时,得到的学习模型拟合能力较强; $λ$较大时,得到的学习模型形式较简单.
在统计学习理论中,通过式(5) 、(6) 或(7) 等学习策略获得预测模型$\hat{h}$后,一般基于如下的偏差-- 方差分解来研究$\hat{h}$的泛化能力:
\begin{align}\displaystyle {{\rm E}(\hat{h})-{\rm E}(h_{{\rm P}})=\underbrace{{\rm E}(\hat{h})-{\rm E}(h^{*})}_{\textrm{估计误差(方差)}}+\underbrace{{\rm E}(h^{*})-{\rm E}(h_{{\rm P}})}_{\textrm{逼近误差 (偏差)}}}\end{align}
(8) 其中,$h^{*}=\arg\min_{h\in\mathcal{H}}{\rm E}(h)$.
本文的讨论所关注的估计误差,主要是通过如下公式
\begin{align}& \displaystyle{\rm E}(\hat{h})-{{\rm E}({h}^{*})}\leq\displaystyle\underbrace{{\rm E}(\hat{h})-{{\rm E}_{n}(\hat{h})}}_{\textrm{算法稳定性}}+\underbrace{\displaystyle{{\rm E}_{n}({h}^{*})}-{{\rm E}({h}^{*})}}_{\textrm{一致偏差}}\end{align}
(9) 将估计误差分解为算法稳定性和一致偏差等两方面,本文重点是关于一致偏差的分析研究.
另外,本文在综述 Rademacher复杂度在统计学习理论泛化界分析方面的研究时,考虑到一致性和易读性,对分散于各文献资料中的相关结果,按本节的约定和说明作了符号统一化处理.
2. 复杂度指标
我们知道假设空间的复杂性对学习模型的泛化能力有重要影响. 在本节中,将总结分析各种形式的 Rademacher 复杂度,并讨论应用 Rademacher复杂度进行假设空间复杂性刻画及学习模型泛化界分析的基本技巧和特点.
Rademacher 复杂度以德国数学家 Hans Adolph Rademacher(1892$\sim$1969) 命名. 早在 Rademacher复杂度应用于统计学习理论之前,一些学者就已经对Rademacher复杂度的一些特性展开过深入的讨论和研究. 如,Rademacher复杂度的熵积分,Rademacher 复杂度的压缩准则等[59-61].
在统计学习理论的早期研究中,Vapnik 和 Chervonenkis 提出的 VC维是一种通过度量假设空间复杂性来控制学习模型泛化能力的分析方法. 在VC 维理论提出之后,一些学者开始注意到,基于 VC维的泛化界是数据独立、分布无关的. 如,$0<\delta$ $<$ $1$,有如下式
\begin{align}\label{VC}\displaystyle\sup\limits_{h\in\mathcal{H}}|{\rm E}_{n}(h)-{\rm E}(h)|\leq\sqrt{\frac{d\log n}{n}}\end{align}
(10) 对一切样本数据集分布 ${\rm P}$ 至少以概率$1-\delta$一致地成立,即,对任意的数据集分布${\rm P}$,式(10) 至少以概率$1-\delta$成立. 这里,$d$表示$\mathcal{H}$的 VC 维. 从而,导致通过 VC维分析得到的学习模型泛化界过于保守. 在式(10) 中的左边,如果放弃一致性条件限制,而是使其依赖于特定样本数据集的分布,那么,式(10) 中右侧的界 (不再数据独立)将会比原来的界更紧致[62].于是,一些学者开始研究关联实际样本数据集分布的复杂性度量[17].Koltchinskii 等将 Rademacher复杂度引入到统计学习理论的泛化界分析研究[18-19],发现Rademacher 复杂度作为一种依赖特定数据集分布的复杂性度量,可以有效地用于学习模型中假设空间复杂性的刻画,改进学习模型的泛化界.之后,经过许多学者的进一步工作,Rademacher复杂度被广泛应用于统计学习理论的泛化界分析研究.
2.1 Rademacher 复杂度
一般地,Rademacher 复杂度分为两种情形: Rademacher 复杂度和经验Rademacher 复杂度. Rademacher 复杂度及经验 Rademacher复杂度的定义分别如下:
定义 3. 假设$X_{i}$,$i=1,2,\cdots,n$为定义在$\mathcal{X}$上且服从分布${\rm P}$的独立同分布 (Independent and identical distribution,i.i.d.) 随机变量序列. 令$\sigma_{i}$$\in$ $\{-1,$ $+1\}$,$i=1,2,\cdots,n$ 为Rademacher随机变量序列.记函数$f:\mathcal{X}\rightarrow {\bf R}$,$\mathcal{F}$是$f$ 的集合.记
\begin{align}\displaystyle R_{n}f:=\frac{1}{n}\sum\limits_{i=1}^{n}\sigma_{i}f(X_{i})\end{align}
(11) 和
\begin{align}\displaystyle R_{n}\mathcal{F}:=\sup\limits_{f\in\mathcal{F}}R_{n}f\end{align}
(12) 称$\{R_{n}f:f\in\mathcal{F}\}$ 为 Rademacher 过程,Radema-cher复杂度记为
\begin{align}\label{EXPRad}\displaystyle {\rm E}(R_{n}{\mathcal{F}}):={\rm E}\left[{\sup_{f\in\mathcal{F}}\frac{1}{n}\sum\limits_{i=1}^{n}\sigma_{i}f(X_{i})}\right]\end{align}
(13) 而
\begin{align}\label{EMPRad}\displaystyle{\rm E}_{\sigma}(R_{n}{\mathcal{F}}):={\rm E}\left[\sup_{f\in\mathcal{F}}\frac{1}{n}\sum\limits_{i=1}^{n}\sigma_{i}f(X_{i})|X_{1},\cdots,X_{n}\right]\end{align}
(14) 称经验 Rademacher 复杂度. 为便于后面的讨论,约定将式(13) 和(14) 中定义的 Rademacher 复杂度分别称为经典Rademacher 复杂度和经典经验 Rademacher 复杂度.
经典Rademacher 复杂度与经典经验 Rademacher 复杂度的关系,本质上也是期望量与经验量之间的关系,因而,可以通过概率集中不等式[63]等数学技术对其中的关系进行刻画.同时,在经典与经典经验 Rademacher 复杂度定义中,涉及的$n$个样本数据集 (分布) 是给定的,即,基于Rademacher复杂度的泛化界分析依赖于具体学习问题上的数据集分布,有点类似于为该学习问题"量身定制'' 的[64].对于具体的学习模型泛化能力的分析,如[65],取$\mathcal{Y}=\{-1,+1\}$,$0<\delta<1$,任意的$h\in\mathcal{H}$,可以得到如下两式
\begin{align}{\label{radeexam1}}\displaystyle{\rm E}_{n}(h)-{\rm E}(h)\leq 2{\rm E}(R_{n}{\mathcal{H}})+\sqrt{\frac{\log\frac{1}{\delta}}{2n}}\end{align}
(15) 和
\begin{align}{\label{radeexam2}}\displaystyle{\rm E}_{n}(h)-{\rm E}(h)\leq 2{\rm E}_{\sigma}(R_{n}{\mathcal{H}})+3\sqrt{\frac{\log\frac{2}{\delta}}{2n}}\end{align}
(16) 分别以至少概率$1-\delta$成立. 从式(13) 和(14) 可以看出,上面的不等式(15) 和(16) 右侧与具体学习问题的数据分布有关. 同时,后面也将会看到,不等式(15) 和(16) 的证明采用了比不等式(10) 的证明更精细的处理技巧.因而,基于Rademacher复杂度的分析通常会得到比VC维更紧致的泛化界,在实际中也更易于计算.
经典 (经验) Rademacher 复杂度原理上是通过引入 Rademacher随机变量而得到的一种对函数空间复杂性的度量,本质上从量化角度揭示了假设空间关联随机噪声的能力. Koltchinskii在文献[18] 中指出: 关于经典 Rademacher复杂度惩罚项的计算与基于随机重新标记 (Randomly relabeled)样本数据集,并通过 ERM 策略来获得学习模型之间具有等价性,即,
\begin{align}\displaystyle\sup\limits_{A\in{\mathcal{H}}}\sum\limits_{i=1}^{n}\sigma_{i}I_{\{Y_{i}\not=I_{A}(X_{i})\}}\Leftrightarrow\inf\limits_{A\in{\mathcal{H}}}\sum\limits_{i=1}^{n}I_{\{\widetilde{Y}_{i}\not= I_{A}(X_{i})\}}\end{align}
(17) 其中,$\sigma_{i}=-1$,$\widetilde{Y}_{i}=0$,且$\sigma_{i}=1$,$\widetilde{Y}_{i}=1$.
证明. 一方面
\begin{align}&\displaystyle\sum\limits_{i=1}^{n}\sigma_{i}I_{\{Y_{i}\not = I_{A}(X_{i})\}}=\notag\\&\qquad\displaystyle\sum\limits_{\sigma_{i}=1,Y_{i}=1}(1-I_{A}(X_{i}))+\sum\limits_{\sigma_{i}=1,Y_{i}=0}I_{A}(X_{i})~-\notag\\&\qquad\displaystyle\sum\limits_{\sigma_{i}=-1,Y_{i}=1}(1-I_{A}(X_{i}))-\sum\limits_{\sigma_{i}=-1,Y_{i}=0}I_{A}(X_{i})=\notag\\&\qquad\displaystyle\sum\limits_{i=1,2,\cdots,n,Y_{i}=1}\sigma_{i}+\sum\limits_{i=1}^{n}\sigma_{i}I_{A}(X_{i})\end{align}
(18) 另一方面,注意到
\begin{align}\label{EQ1}&\displaystyle\sum\limits_{i=1}^{n}\sigma_{i}I_{A}(X_{i})=\notag\\&\qquad\displaystyle\sum\limits_{\sigma_{i}=1}I_{A}(X_{i})-\sum\limits_{\sigma_{i}=-1}I_{A}(X_{i})=\notag\\&\qquad\displaystyle-\sum\limits_{\sigma_{i}=-1}I_{A}(X_{i})-\sum\limits_{\sigma_{i}=1}(1-I_{A}(X_{i}))+num\end{align}
(19) 其中,$num$表示集合$\{i\in{\bf N}_n: \sigma_i=+1\}$中的元素个数.
对式(19) 取$\sup$,实际上就是对下式取inf
\begin{align}&\displaystyle\sum\limits_{\sigma_{i}=-1}I_{A}(X_{i})+\sum\limits_{\sigma_{i}=1}(1-I_{A}(X_{i}))=\notag\\&\qquad\displaystyle\sum\limits_{i=1}^{n}I_{\{\widetilde{Y}\not=I_{A}(X_{i})\}}\end{align}
(20) 注 2[18]. 上面的讨论说明: Rademacher复杂度可以看作是衡量集类 $\mathcal{H}$ (假设空间)分离能力的一种度量,即,$\sup_{A\in{\mathcal{H}}}\sum_{i=1}^{n}\sigma_{i}I_{\{Y_{i}\not= I_{A}(X_{i})\}}$ 很大时,通过 $\mathcal{H}$来对样本数据集进行分类,即使样本数据集中数据标签是随机标记的,错误也会很小. 另一方面也说明,过大的$\sup_{A\in{\mathcal{H}}}\sum_{i=1}^{n}\sigma_{i}I_{\{Y_{i}\not= I_{A}(X_{i})\}}$是不恰当的,因为合理的 $\mathcal{H}$是要能对正确标记的样本数据集中数据进行分类,而不是对任意随机标记的样本数据集中数据进行分类.
2.2 经典 Rademacher 复杂度的推广
在本小节中,将介绍和讨论在经典 (经验) Rademacher复杂度基础上推广提出的各种形式 Rademacher 复杂度.
2.2.1 局部 Rademacher 复杂度
一批学者注意到,一般地,基于经典 Rademacher 复杂度分析得到的泛化界为O$(n^{-1/2})$,但在实际中这往往是次优的[20]. 同时,也发现在统计学习理论中对学习模型泛化性能起决定性作用的,不是全局的假设函数空间,而是那些具有较小方差的函数所构成的假设空间的子空间. 基于此发现,Bartlett等提出了局部 Rademacher 复杂度的概念--- 考察原假设空间中具有较小方差的函数子集[20-23],存在$r\in{\bf R}$ 且 $r>0$,
\begin{align}{\label{LocalRad}}\displaystyle{\rm E}R_{n}\{f\in\mathcal{F}: {\rm P}f^{2}\leq r\}\end{align}
(21) 2.2.2 Rademacher chaos 复杂度
以 SVM为代表的核方法是机器学习中解决非线性模式分析问题的一种有效方法.MKL是为了解决核方法在核函数选取等方面的不足而被引入到机器学习中[66],主要从具体样本数据集出发,在给定的核函数集中寻找最能表达对应样本数据集的核函数. 因此,与单核学习相比有更好的适应性和灵活性. 但这不能保证基于 MKL所得到的学习模型一定有更好的泛化能力,因为还需要同时考察 MKL对应假设空间的复杂性. 于是,Ying 等[49]将$U$--过程(见附录 A $U$--过程)中的二阶 Rademacher chaos复杂度引入到统计学习理论中,用于刻画 MKL 对应假设空间的复杂性,分析MKL 算法的泛化性能. 下面,给出二阶 (经验) Rademacher chaos复杂度的相关定义.
定义 4. 假设$X_{i}$,$i=1,2,\cdots,n$为定义在$\mathcal{X}$上且服从分布${\rm P}$的i.i.d.随机变量序列. 令$\sigma_{i}\in$ $\{-1$,$+1\}$,$i=1,2,\cdots,n$为Rademacher随机变量序列.记函数$f:\mathcal{X}×\mathcal{X}\rightarrow {\bf R}$,$\mathcal{F}$是$f$ 的集合. 记
\begin{align}\displaystyle\mathcal{U}_{n}(f):=\frac{1}{n}\sum\limits_{i<j\leq n}\sigma_{i}\sigma_{j}f(X_{i},X_{j})\end{align}
(22) 和
\begin{align}\displaystyle\mathcal{U}_{n}(\mathcal{F}):=\sup\limits_{f\in\mathcal{F}}\mathcal{U}_{n}(f)\end{align}
(23) 则称
\begin{align}\displaystyle\left\{\mathcal{U}_{n}(f):=\frac{1}{n}\sum\limits_{i<j\leq n}\sigma_{i}\sigma_{j}f(X_{i},X_{j}),\ \ f\in\mathcal{F}\right\}\end{align}
(24) 为二阶齐次Rademacher chaos过程.
Rademacher chaos复杂度记为
\begin{align}\displaystyle{\rm E}\mathcal{U}_{n}(\mathcal{F}):= \displaystyle{\rm E}\left[\sup_{f\in\mathcal{F}}|\mathcal{U}_{n}(f)|\right]\end{align}
(25) 而
\begin{align} & \displaystyle{\rm E}_{\sigma}\mathcal{U}_{n}(\mathcal{F}):= \displaystyle{\rm E}_{\sigma}\left[\sup_{f\in\mathcal{F}}|\mathcal{U}_{n}(f)|\right]= \notag\\&\qquad \displaystyle{\rm E}\left[\sup_{f\in\mathcal{F}}\frac{1}{n}|\sum_{i<j\leq n}\sigma_{i}\sigma_{j}f(X_{i},X_{j})\|X_{1},\cdots,X_{n}\right]\end{align}
(26) 称为经验Rademacher chaos复杂度.
注 3. 实际上,经典的 Rademacher 复杂度可以看作是一阶Rademacher chaos 复杂度[32].
2.2.3 单模态 Rademacher 复杂度
度量或相似性学习 (Metric or similarity learning)是计算机视觉和模式识别等领域的热点研究问题之一,是诸如$K$-means聚类分析、$K$--近邻分类等学习算法的基础,主要基于训练样本数据集学习得到有效的距离度量来衡量目标之间的相似性.Cao等为了分析度量学习的泛化性能,构造了用于度量学习的Rademacher复杂度[36].由于文献[36]中考虑的数据描述视角是单一的,为了区分后面讨论的多模态度量学习情形的 Rademacher复杂度[27],我们将其称为单模态度量学习下的 Rademacher复杂度.
定义 5. 假设 $X_{i}$,$i=1,2,\cdots,n$ 为$\mathcal{X}$$(\mathcal{X}\subset{\bf R}^{d})$上的i.i.d.随机变量序列. 令$\{\sigma_{i}\}_{i=1}^{\lfloor{\frac{n}{2}}\rfloor}$ 为Rade-macher随机变量序列. 则单模态度量学习下 Rade- macher 复杂度定义为
\begin{align}&\displaystyle{\rm E}R_{n}^{\rm{single}}:=\notag\\&\qquad\displaystyle\frac{1}{\lfloor{\frac{n}{2}}\rfloor}{\rm E}\left\|\sum\limits_{i=1}^{\lfloor{\frac{n}{2}}\rfloor}\sigma_{i}(X_{i}-X_{\lfloor{\frac{n}{2}}\rfloor+i})(X_{i}-X_{\lfloor{\frac{n}{2}}\rfloor+i})^{\rm T}\right\|_{*}\end{align}
(27) 而
\begin{align}&\displaystyle{\rm E}_{\sigma}R^{\rm{single}}_{n}:=\notag\\&\quad\ \displaystyle\frac{1}{\lfloor{\frac{n}{2}}\rfloor}{\rm E}\Bigg[\left\|\sum\limits_{i=1}^{\lfloor{\frac{n}{2}}\rfloor}\sigma_{i}(X_{i}-X_{\lfloor{\frac{n}{2}}\rfloor+i})(X_{i}-X_{\lfloor{\frac{n}{2}}\rfloor+i})^{\rm T}\right\|_{*}\notag\\&\quad\ \displaystyle|X_1,X_2,\cdots,X_{\lfloor{\frac{n}{2}}\rfloor+\lfloor{\frac{n}{2}}\rfloor}\Bigg]\end{align}
(28) 称为单模态度量学习下经验Rademacher 复杂度.
2.2.4 多模态 Rademacher 复杂度
由于实际中涉及的数据信息往往是来自多个异构数据源,通过多个视角来描述. 如,音乐网站的歌曲可以通过节奏和音色等声音特征、标签和歌词等语义特征、协同过滤(Collaborative filtering)和人物传记等社会特征描述[67-68]. 因此,Lei等在文献[36]中单模态 Rademacher 复杂度基础上,进一步提出了适用于多模态度量学习研究的Rademacher复杂度[27, 32],用于多模态度量学习的泛化能力分析.
定义 6. 假设 $X_{i}$,$i=1,2,\cdots,n$ 为$\mathcal{X}$$(\mathcal{X}$ $\subset$ ${\bf R}^{md})$上的i.i.d.随机变量序列. 令$\{\sigma_{i}\}_{i=1}^{\lfloor{\frac{n}{2}}\rfloor}$ 为Rade-macher随机变量序列. 记 $\mathcal{M}\subset{S}^{d× (md)}$,则多模态度量学习下 Rademacher 复杂度为
\begin{align}&\displaystyle{\rm E}R^{\rm{multi}}_{n}\mathcal{M}:=\notag\\&\qquad\displaystyle\frac{1}{\lfloor{\frac{n}{2}}\rfloor}{\rm E}\left[\sup\limits_{M\in\mathcal{M}}\sum\limits_{i=1}^{\lfloor{\frac{n}{2}}\rfloor}\sigma_{i}d_{M}(X_{i},X_{\lfloor{\frac{n}{2}}\rfloor+i})\right]\end{align}
(29) 而
\begin{align}&\displaystyle{\rm E}_{\sigma}R^{\rm{multi}}_{n}\mathcal{M}:=\notag\\&\qquad \displaystyle\frac{1}{\lfloor{\frac{n}{2}}\rfloor}{\rm E}\Bigg[\sup\limits_{M\in\mathcal{M}}\sum\limits_{i=1}^{\lfloor{\frac{n}{2}}\rfloor}\sigma_{i}d_{M}(X_{i},X_{\lfloor{\frac{n}{2}}\rfloor+i}) \notag\\&\qquad\displaystyle|X_1,X_2,\cdots,X_{\lfloor{\frac{n}{2}}\rfloor+\lfloor{\frac{n}{2}}\rfloor}\Bigg]\end{align}
(30) 称为多模态度量学习下经验Rademacher复杂度. 其中,$d_{M}(X_{i},X_{\lfloor{\frac{n}{2}}\rfloor+i}):=\sum_{k=1}^{m}(X_{i}^{k}-X_{\lfloor{\frac{n}{2}}\rfloor+i}^{k})^{\rm T}$ $×$$M^{k}(X_{i}^{k}-X_{\lfloor{\frac{n}{2}}\rfloor+i}^{k})$,$X_{i}^{k}\in{\bf R}^{d}$,$M^{k}\in{S}^{d× d}$,$k=1$,$2$,$\cdots$,$m$.
2.2.5 Dropout Rademacher 复杂度
在训练深度神经网络模型时,如果训练样本较少,为防止模型过拟合,Hinton等提出了Dropout技术,其基本思想是: 训练模型时,以一定的概率让网络中某些节点不工作[69]. Wan等利用经典Rade-macher复杂度对Dropout的泛化界进行过研究[70].Gao等注意到经典Rademacher复杂度仅仅是和训练样本有关,而没有刻画出Dropout技术在训练模型时随机改变网络结构的特性,于是便提出了Dropout Rademacher 复杂度[34].
定义 7. 假设$X_{i}$,$i=1,2,\cdots,n$为定义在$\mathcal{X}$上且服从分布${\rm P}$的i.i.d.随机变量序列,令$\sigma_{i}\in \{-1$,$+1\}$,$i=1,2,\cdots,n$为Rademacher随机变量序列. 记 $R_{s}=\{{\pmb r}^{s}=(r_{1},r_{2},\cdots,r_{s}): r_{j}\sim {\rm{Bern}}(1$,$p)$,$j=1,2,\cdots,s\}$3,其中,$s$ 依赖于具体的 (深度)神经网络和不同类型的Dropout (如,隐藏层节点的Dropout、权重的Dropout等)4. 令 ${\pmb r}_{i}^{s}=\{r_{i1}$,$r_{i2}$,$\cdots,r_{is}\}\in R_{s}$,$i=1,2,\cdots,n$ 为对应 $n$个样本Dropout概率的相关向量序列. 记函数 $f_{s}:\mathcal{X}× R_{s}$ $\rightarrow$ ${\bf R}$,$\mathcal{F}_{s}$是$f$的集合.Dropout Rademacher 复杂度定义为
\begin{align}\displaystyle {\rm E}R_{n}^{\rm{Dropout}}\mathcal{F}_{s}:={\rm E}\left[\sup\limits_{f\in\mathcal{F}}\frac{1}{n}\sum\limits_{i=1}^{n}\sigma_{i}f(X_{i},{\pmb r}_{i}^{s})\right]\end{align}
(31) 3${\rm{Bern}}(1,p)$表示参数为$p$的伯努利分布.如果随机变量$X\sim{\rm{Bern}}(1,p)$,则$X$分别以概率$p$取值$1$,以概率$1-p$取值$0$.
4如果是隐藏层节点的Dropout,那么,$r_{j}=0$表示某节点不工作.
而
\begin{align}&\displaystyle{\rm E}_{\sigma}R_{n}^{\rm{Dropout}}\mathcal{F}_{s}:=\notag\\&\qquad\displaystyle{\rm E}\Big[\sup\limits_{f\in\mathcal{F}}\frac{1}{n}\sum\limits_{i=1}^{n}\sigma_{i}f(X_{i},{\pmb r}_{i}^{s})\notag\\&\qquad|X_{1},\cdots,X_{n}; {\pmb r}_{1}^{s},\cdots,{\pmb r}_{n}^{s}\Big]\end{align}
(32) 即是经验Dropout Rademacher复杂度.
上面介绍的 Rademacher复杂度的几种推广形式都是基于样本数据集产生环境为独立同分布的假定.但是,在具体实际应用中存在着大量非独立同分布 (Non-independent and identical distribution,non-i.i.d.) 的数据,如,股票市场预测、天气预报、垃圾邮件检测等. 因此,在 non-i.i.d.情形下 (如,平稳$\beta$-mixing、非平稳$\beta$-mixing、独立不同分布、 鞅等)对学习模型的泛化性能进行研究就显得非常必要和有实际意义. 目前,已经有学者提出了几类特殊 non-i.i.d.情形的 Rademacher 复杂度 (如,块 (Block) Rademacher 复杂度、独立不同分布 Rademacher 复杂度、序列(Sequential) Rademacher 复杂度等),用于 non-i.i.d.情形下学习模型的泛化性能分析.
2.2.6 块 Rademacher 复杂度
为了研究样本数据集产生环境为平稳$\beta$-mixing情形的学习模型泛化能力,Mohri等在文献[38]中将经典Rademacher复杂度推广到了平稳$\beta$-mixing情形,给出了块 Rademacher复杂度的定义. Kuznetsov等进一步地完善文献[38]中块Rademacher复杂度,并将其应用到了非平稳时间序列预测[42-43].Mohri和Kuznetsov等在将块Rademacher复杂度用于分析估计学习模型泛化能力过程中,都使用到了一种独立块(Independent blocks,IB)的技巧,从而将对于平稳$\beta$-mixing 和非平稳 $\beta$-mixing等环境下的分析研究与原有经典i.i.d.环境下的研究结果建立关联.下面给出块 Rademacher 复杂度定义 (具体有关平稳、$\beta$-mixing等概念以及独立块技巧参见附录 A 平稳性、\linebreak$\beta$-mixing、独立块技巧).
定义 8. 记样本$Z_1^{\rm T}=\{Z_1,Z_2,\cdots,Z_T\}$.令$\sigma_{i}$ $\in$ $\{-1,+1\}$,$i=1,2,\cdots,m$为 Rademacher随机变量序列. $I_{1}$ 表示$Z_{1}^{\rm T}$中被划入奇数编号块的样本数据点对应的指标组成的集合.记$\gamma_{i}$为被划入$Z(2i-1) $块的样本数据点对应的指标组成的集合,$i=1,2,\cdots,m$. $l(f,Z(2i-1) )=\sum_{t\in{\gamma_{i}}}l(f,Z_{t})$ $=$$\sum_{t\in{\gamma_{i}}}Q(Y_{t},f(X_{t}))$,$Z_{t}=(X_{t},Y_{t})\in\mathcal{Z}$5,则块Rademacher复杂度定义为
\begin{align}&\displaystyle{\rm E}R^{\beta\text{-mixing}}_{|I_{1}|}\mathcal{F}:=\notag\\&\qquad\frac{1}{|I_{1}|}{\rm E}_{\tilde{Z}^{o},\sigma}\left[{\sup_{f\in\mathcal{F}}\sum\limits_{i=1}^{m}\sigma_{i}l(f,Z(2i-1) )}\right]\end{align}
(33) 5涉及更进一步的符号参见附录 A独立块技巧中的说明.
而
\begin{align}&\displaystyle{\rm E}_{\sigma}R^{\beta\text{-mixing}}_{|I_{1}|}\mathcal{F}:=\notag\\&\qquad\displaystyle\frac{1}{|I_{1}|}{\rm E}_{\tilde{Z}^{o},\sigma}\Bigg[{\sup_{f\in\mathcal{F}}\sum\limits_{i=1}^{m}\sigma_{i}l(f,Z(2i-1) )} \notag\\&\qquad\displaystyle |Z_1,\cdots,Z_{2m-1}\Bigg]\end{align}
(34) 即是经验块Rademacher复杂度. 对于偶数编号块,块与经验块Rademacher复杂度分别记为
\begin{align}\displaystyle{\rm E}R^{\beta\text{-mixing}}_{|I_{2}|}\mathcal{F}:=\frac{1}{|I_{2}|}{\rm E}_{\tilde{Z}^{ e},\sigma}\left[{\sup_{f\in\mathcal{F}}\sum\limits_{i=1}^{m}\sigma_{i}l(f,Z(2i))}\right]\end{align}
(35) 和
\begin{align}&\displaystyle{\rm E}_{\sigma}R^{\beta\text{-mixing}}_{|I_{2}|}\mathcal{F}:=\notag\\&\qquad\frac{1}{|I_{2}|}{\rm E}_{\tilde{Z}^{ e},\sigma}\Bigg[{\sup_{f\in\mathcal{F}}\sum\limits_{i=1}^{m}\sigma_{i}l(f,Z(2i))} \notag\\&\qquad\displaystyle |Z_2,\cdots,Z_{2m}\Bigg]\end{align}
(36) 这里,$I_{2}$ 表示$Z_{1}^{\rm T}$中被划入偶数编号块的样本数据点对应的指标组成的集合.
2.2.7 独立不同分布 Rademacher 复杂度
为处理独立但不同分布的样本数据,Mohri等在文献[37]中给出了如下的Rademacher 复杂度定义:
定义 9. 假设$X_{i}$,$i=1,2,\cdots,n$为$\mathcal{X}$上的独立不同分布随机变量序列,其对应的分布分别记为${\rm P}_{X_{i}}$,$i=1,2,\cdots,n$. 令$\sigma_{i}\in\{-1,+1\}$,$i=1,2,\cdots,n$ 为 Rademacher随机变量序列. 记函数$f$: $\mathcal{Z}$ $\rightarrow{\bf R}$,$\mathcal{F}$是$f$的集合. 有关独立不同分布的Rademacher复杂度定义为
\begin{align}\displaystyle {\rm E}R^{\text{non-identical}}_{n}{\mathcal{F}}:={\rm E}_{\prod\limits_{i=1}^{n}{{\rm P}_{X_{i}}},\sigma}\left[{\sup_{f\in\mathcal{F}}\frac{1}{n}\sum\limits_{i=1}^{n}\sigma_{i}f(X_{i})}\right]\end{align}
(37) 而经验Rademacher复杂度${\rm E}_{\sigma}R^{\text{non-identical}}_{n}$类似于定义3中的经典经验Rademacher 复杂度.
注 4. 在上面的定义中,若${\rm P}_{X_{i}}$,$i=1,2,\cdots,n$为相同分布时,则退化为定义3中的Rademacher复杂度.
2.2.8 序列 Rademacher 复杂度
Rakhlin等在文献[39-41]中考察了更一般的样本数据集产生环境,将经典Rademacher 复杂度推广到了鞅的情形,提出了序列 Rademacher 复杂度,用于分析样本数据集产生环境为鞅情形下的学习模型泛化能力. 下面给出序列Rademacher 复杂度定义 (具体有关鞅的说明参见附录 A).
定义 10. 令 $\sigma_{i}\in\{-1,+1\}$,$i=1,2,\cdots,n$为Rademacher随机变量序列.$\mathcal{Z}$是可分度量空间6 .记函数$f:\mathcal{Z}\rightarrow{\bf R}$是$\mathcal{Z}$上的有界实值函数,$\mathcal{F}$是$f$的集合,$Z$为一棵$\mathcal{Z}$--值树7.序列Rademacher复杂度定义为
\begin{align}\displaystyle {\rm E}(R^{\rm{mar}}_{n}{\mathcal{F}}):=\sup\limits_{Z}{\rm E}_{\sigma}\left[\sup_{f\in\mathcal{F}}\frac{1}{n}\sum\limits_{i=1}^{n}\sigma_{i}f(Z_{i}(\sigma))\right]\end{align}
(38) 其中,$Z_{1}(\sigma)$表示根结点,$Z_{t}(\sigma)$则依赖于$\sigma_1,\sigma_2$,$\cdots$,$\sigma_{t-1}$,$t> 1$.
6度量空间$(X,\rho)$被称为是可分的,如果$X$有一可数的稠密子集,即,存在$Y\subset X$,$Y$为可数的,且任意$x\in X$,存在$r>0,\text{s}.\text{t}.,B(x,r)(:=\{g\in X:\rho (g,x)<r\})\cap Y\not{=}\varnothing $ [71].
7一棵结点取值于可分度量空间$\mathcal{Z}$,深度为$n$的完全二叉树.
2.3 基于 Rademacher 复杂度的分析技术与特点
在前一小节中,总结了一批学者针对不同样本数据集产生环境以及不同的假设空间,进行学习模型泛化能力研究时,提出的各种形式 Rademacher 复杂度.在本节中,将对基于 Rademacher复杂度进行学习模型泛化能力分析的相关处理技巧和特点进行总结.
在学习模型泛化能力分析研究中,一种非常有用的数学技术是概率集中不等式,是关于独立随机变量均值(或函数) 与其期望之间偏差的概率不等式 (如Hoeffding 不等式、Bernstein 不等式、\linebreak McDiarmid 不等式、 Talagrand不等式等[63]). 并且,让我们感兴趣的是这些不等式的偏差概率界往往是以指数或超级指数 (Super exponentially) 速度衰减,而学习模型的估计误差则可以通过经验过程与其期望的一致偏差进行估计.因此,概率集中不等式为学习模型的泛化能力分析提供了必要的数学技术.
在早期的学习模型泛化能力分析研究中,一般是采用传统概率集中不等式(如Hoeffding 不等式、\linebreak Bernstein 不等式等)和Union不等式8进行研究,具体如下:
8${\rm P}(A\cup B)\leq{\rm P}(A)+{\rm P}(B)$.
利用概率集中不等式,如Hoeffding 不等式. 一般地,可以得到,任意$\epsilon>0$,存在$h_{0}\in\mathcal{H}$,
\begin{align}{\label{traditional1}}\displaystyle{\rm P}\left({\rm E}(h_{0})-{\rm E}_{n}(h_{0})\geq\epsilon\right)\leq{\rm{exp}}\left({-\frac{n\epsilon^{2}}{{C}^{2}}}\right)\end{align}
(39) 这里,${C}$ 为常数.
若$|\mathcal{H}|<\infty$,则结合式(39) ,并利用Union不等式,便有
\begin{align}{\label{traditional2}}&\displaystyle{\rm P}\left(\exists h\in\mathcal{H},{\rm E}(h)-{\rm E}_{n}(h)\geq\epsilon\right)=\notag\\&\qquad\displaystyle{\rm P}\left[\bigcup\limits_{h\in\mathcal{H}}({\rm E}(h)-{\rm E}_{n}(h)\geq\epsilon)\right]\leq\notag\\ &\qquad\displaystyle\sum\limits_{h\in\mathcal{H}}{\rm P}({\rm E}(h)-{\rm E}_{n}(h)\geq\epsilon)\leq\notag\\ &\qquad\displaystyle|\mathcal{H}|\cdot{\rm{exp}}\left({-\frac{n\epsilon^{2}}{{C}^{2}}}\right)\end{align}
(40) 由式(40) ,即有 $0<\delta<1$,
\begin{align}\sup_{h\in\mathcal{H}}({\rm E}h-{\rm E}_{n}h)\leq {C}\sqrt{\frac{{\log|\mathcal{H}|+\log\frac{1}{\delta}}}{n}}\end{align}
(41) 至少以$1-\delta$概率成立. 于是,就可以用于一致偏差的估计.
若$|\mathcal{H}|=\infty$,式(40) 得到的泛化界就没有意义. 此时,可以考虑对假设空间$\mathcal{H}$复杂性定义其他类型的度量,如,用 VC维来代替 $|\mathcal{H}|$.
注 5. 从上面的讨论中可以看到,由于使用了Union不等式,这些分析所得到的界对分布是一致成立的,与特定的样本数据集(分布)无关.
Rademacher 复杂度是与具体样本数据集分布有关的复杂性度量,基于Rademacher 复杂度的学习模型泛化能力分析不再使用Union不等式,而是采用了诸如McDiarmid 不等式、Talagrand不等式等较新的概率集中不等式成果及链式技巧9. 因此,往往能得到比基于传统复杂度泛化分析相对较紧致的界. 一般地,基于Rademacher 复杂度的泛化界分析处理技巧和特点可以总结如下:
9任意$f\in\mathcal{F}$,存在$n_{0}\in{\bf N}$及函数 $f_{i}$,$i=1,2,\cdots,n_{0}$,按链式展开有 $f=f-f_{n_{0}}+\sum_{i=1}^{n_{0}}(f_{i}-f_{i-1})$,其中,约定f0=0[72].
1) 在损失函数集$\mathcal{F}$或假设空间$\mathcal{H}$满足一定的假设条件下,使用概率集中不等式(如,McDiarmid 不等式),建立经验过程极大泛函与其期望之间的偏差关系. 如在文献[52]中,$0<\delta<1$,下式至少以概率$1-\delta$成立10
\begin{align}\displaystyle\sup\limits_{f\in\mathcal{F}}|{\rm P}f-{\rm P}_{n}f|\leq{\rm E}\sup\limits_{f\in\mathcal{F}}|{\rm P}f-{\rm P}_{n}f|+\sqrt{\frac{2\log\frac{1}{\delta}}{n}}\end{align}
(42) 10这里,${\rm P}f={\rm E}(h)$,${\rm P}_n f={\rm E}_{n}(h)$.
2) 不直接刻画函数空间的复杂性规模,而是关联经验过程的极大泛函. 首先,针对特定的样本数据集产生环境以及损失函数集$\mathcal{F}$(或假设空间$\mathcal{H}$),定义具体的Rademacher复杂度. 然后,根据对称性质11,得到极大泛函期望与Rademacher复杂度的关系不等式. 如,在文献[52]中有,任意$\mathcal{F}$,
\begin{align}&\displaystyle\max\{{\rm E}\sup\limits_{f\in\mathcal{F}}({\rm P}f-{\rm P}_nf),{\rm E}\sup\limits_{f\in\mathcal{F}}({\rm P}_n f-{\rm P}f)\}\leq\notag\\&\qquad\displaystyle 2{\rm E}(R_{n}\mathcal{F})\end{align}
(43) 11对称性质的基本思想: 假设 $X_{i}$,$i=1,2,\cdots,n$ 为 i.i.d.随机变量序列.如果$\frac{1}{n}\sum_{i=1}^{n}f(X_{i})$的值接近${\rm E}f(X_{1})$,那么,$\frac{1}{n}\sum_{i=1}^{n}f(X_{i})$的值接近$\frac{1}{n}\sum_{i=1}^{n}f(X'_{i})$,其中,$X'_{i}$ 与 $X_{i}$,$i=1,2,\cdots,n$ 独立且同分布.
最后,基于得到的关系不等式(43) ,建立经验过程极大泛函与Rademacher复杂度之间的关联.
3) 建立Rademacher复杂度与经验Radema- cher 复杂度之间的关联. 如,在文献[20]中有,基于概率集中 (如Talagrand 不等式),得到 Rademacher过程的集中不等式,记函数$f:\mathcal{X}\rightarrow [a,b]$$(a,b\in{\bf R})$,$\mathcal{F}$是$f$ 的集合,便有,任意$\epsilon>0$,
\begin{align}{\label{addcite1}}&\displaystyle{\rm P}\left({\rm E}_{\sigma}(R_{n}\mathcal{F})\leq{\rm E}(R_{n}\mathcal{F})-\sqrt{\frac{\epsilon\cdot{\rm E}(R_{n}\mathcal{F})}{(b-a)^{-1}\cdot n}}\right)\leq\notag\\&\qquad\displaystyle{\rm{exp}}\left(-\epsilon\right)\end{align}
(44) 4) 利用数学不等式 (如Cauchy 不等式等)与链式技巧[72],给出经验Rademacher复杂度的上界. 如熵积分 (或 Dudley积分)[61],任意$\mathcal{F}$,
\begin{align}{\label{Dudley}}\displaystyle{\rm E}_{\sigma}(R_{n}\mathcal{F})\leq12\int_{0}^{\infty}\sqrt{\frac{\log{\mathcal{N}(\epsilon,\mathcal{F},\|\cdot\|_{L_{2}({\rm P}_{n})})}}{n}}{\rm{d}}\epsilon\end{align}
(45) 5) 在不同的算法策略下 (如 ERM、 SRM、正则化等),基于经验 Rademacher复杂度的上界,计算获得学习模型的泛化界. 一般地,基于 Rademacher复杂度的分析可以获得比 VC 维稍快的界.
3. 不同复杂度间的关联
在第2节中,对现有文献中各种形式 Radema- cher 复杂度进行了总结.在本节中,将讨论各种形式 Rademacher复杂度与传统复杂度12间的相互关系.
12本文中所讨论的传统复杂度主要限于VC熵、退火 VC 熵、生长函数、VC维、覆盖数、伪维度、Fat-shattering维等复杂度.
传统复杂度之间的关联性已经被许多学者进行过广泛的讨论(关联性情况见图 1中的(12) $\sim$(16) ,具体关联性讨论见文献 [11, 48, 73-77]). 当前,关于 Rademacher复杂度在学习模型泛化能力分析方面的研究,主要是关注训练样本数据集为i.i.d.和non- i.i.d.两类产生环境,相关结果总结至表 1. 为了理解 Rademacher复杂度在学习模型泛化能力方面的应用与分析,一批学者在根据具体情形提出各种形式的 Rademacher 复杂度之后,也对其与传统复杂度之间的关系进行了深入分析. 接下来,我们对各种形式的Rademacher 复杂度及其与传统复杂度之间的关联性进行总结,相关情况见图 1. 下面是按图 1 中关联性1$\sim$11展开的具体讨论.
表 1 Rademacher 复杂度及传统复杂度Table 1 Rademacher complexities and kinds of complexities of function classes复杂度类型 本数据集
产生环境复杂度名称 传统复杂度 i.i.d./non-
i.i.d.VC 熵,退火 VC 熵,生长函数,VC 维,
覆盖数,伪维度,Fat-shattering维等
经典 Rademacher 复杂度,局部
Rademacher 复杂度Rade-
macher
复杂度i.i.d. Rademacher chaos 复杂度,单模态
Rademacher 复杂度,
多模态 Rademacher 复杂度,Dropout
Rademacher 复杂度non-i.i.d. 独立不同分布 Rademacher 复杂度,
块Rademacher 复杂度,
序列 Rademacher 复杂度关联性 1. Rademacher 复杂度与 VC 熵、生长函数、VC维、退火 VC 熵
Massart在文献[50]中,尝试建立了经典 Rademacher复杂度与生长函数之间的关联性. 如,
\begin{align}{\label{Grow}}\displaystyle{\rm E}(R_{n}{\mathcal{F}})\leq \sqrt{\frac{2\cdot S_{\mathcal{F}}(n)}{n}}\end{align}
(46) 其中,$S_{\mathcal{F}}(n)$ 为生长函数.
Kääriäinen在文献[45]中对 Rademacher复杂度与VC维之间的关系进行了深入的分析讨论. Anguita等在文献[44]中建立了如下经典 Rademacher 复杂度和 VC 的熵关系
\begin{align*}\displaystyle{\rm E}(R_{n}{\mathcal{F}})\leq\min\limits_{λ\in(0,\infty]}\frac{H_{\mathcal{F}}(n)}{λ n}+ \frac{\ln\cosh(λ)}{λ}\end{align*}
且有
\begin{align}\displaystyle\lim\limits_{λ\rightarrow\infty}\frac{H_{\mathcal{F}}(n)}{λ n}+\frac{\ln\cosh(λ)}{λ}=1\end{align}
(47) 其中,$H_{\mathcal{F}}(n)$ 为 VC 熵,$\cosh$ 为双曲余弦函数.进一步地,Anguita 等基于组合的分析方法,讨论分析了经典 Rademacher复杂度与退火VC 熵,生长函数和VC维之间的关系,并给出了经典 Rademacher复杂度和 VC 熵之间互为可逆的计算关系. 基于这种计算关系,通过数值模拟的方式表明,可以将经典 Rademacher 复杂度上界改进为介于${{\rm O}}(n^{-1})$$\sim$${{\rm O}}(n^{-1/2})$之间.
关联性 2. 经典 Rademacher 复杂度与覆盖数
Srebro等在文献[46-47]中讨论改进了文献[61]中经典 Rademacher复杂度与覆盖数之间的关系,给出了比式(45) 更为严格的熵积分,任意$\mathcal{F}$,
\begin{align}{\label{modifyadd1}}&\displaystyle{\rm E}_{\sigma}(R_{n}\mathcal{F})\leq\notag\\ &\qquad\displaystyle 4\epsilon+12\int_{\epsilon}^{\infty}\sqrt{\frac{\log{\mathcal{N}(\epsilon',\mathcal{F},\|\cdot\|_{L_{2}({\rm P}_{n})})}}{n}}{\rm{d}}\epsilon'\end{align}
(48) V$'$Yugin 在文献[48]中进一步给出了经典 Rademacher复杂度-生长函数、经典经验 Rade- macher 复杂度-覆盖数与经典Rademacher 复杂度-覆盖数之间的等价关系.
关联性 3. 局部 Rademacher 复杂度与经典 Rademacher复杂度
Barlett等在文献 [20-21]中研究分析了假设空间中具有较小方差的函数集.于是,在(全局)经典Rademacher复杂度基础上得到了局部Radema-cher复杂度,见式(21) .
关联性 4. 局部 Rademacher 复杂度与覆盖数
Lei等在文献[72]基础上得到了局部Radema-cher复杂度与覆盖数之间的关系[28, 32]
$\begin{align} & \text{E}{{\mathcal{R}}_{n}}\{f\in \mathcal{F}:\text{P}{{f}^{2}}\le r\}\le \\ & \underset{\epsilon >0}{\mathop{\inf }}\,\left[ 2\epsilon +\sqrt{\frac{2r\log \mathcal{N}(\frac{\epsilon }{2},\mathcal{F},\|\cdot {{\|}_{2}})}{n}} \right.+ \\ & \left. \frac{8b\log \mathcal{N}(\frac{\epsilon }{2},\mathcal{F},\|\cdot {{\|}_{2}})}{n} \right] \\ \end{align}$
(49) 关联性 5. Rademacher chaos 复杂度与覆盖数
Lei等在文献[49]的基础上进一步给出了Rademacher chaos复杂度与覆盖数之间的关系[29, 32]
\begin{align}&\displaystyle{\rm E}_{\sigma}\mathcal{U}_{n}(\mathcal{F})\leq\notag\\&\qquad\displaystyle\inf\limits_{0<\epsilon<\frac{D}{2}}\Bigg[\sqrt{\frac{n(n-1) }{2}}\epsilon +\notag\\&\qquad\displaystyle c\int_{\frac{\epsilon}{2}}^{D}\log\mathcal{N}(\omega,\mathcal{F}\cup\{0\},d_{x}){\rm{d}}\omega\Bigg]\end{align}
(50) 关联性 6. Dropout Rademacher 复杂度与经典 Rademacher复杂度
Gao等在文献[34]中为深入研究深度神经网络中Dropout的泛化性能,提出了用于反映网络结构变化的 Dropout Rademacher 复杂度.当刻画网络结构变化的随机向量序列${\pmb r}_{i}^{s}$,$i=1,2,\cdots,n$退化为常向量序列时,Dropout Rademacher复杂度就在一定意义下退化为经典 Rademacher 复杂度.
关联性 7$\sim$9. 序列 Rademacher 复杂度与Fat-shattering维、覆盖数、经典Rademacher复杂度
Rakhlin等在文献 [39-41]中给出了鞅情形的序列Rademacher复杂度,建立了类似经典Rade-macher复杂度与覆盖数的熵积分关系(见式(48))
\begin{align}&\displaystyle {\rm E}(R^{\rm{mar}}_{n}{\mathcal{F}})\leq\notag\\&\qquad\displaystyle\inf\limits_{0<\epsilon}\left[4\epsilon+\frac{12}{\sqrt{n}}\int_{\epsilon}^{1}\sqrt{\log\mathcal{N}_{2}(\omega,\mathcal{F},Z)}{\rm{d}}\omega\right]\end{align}
(51) 这里,$\mathcal{N}_p(\epsilon,\mathcal{F},Z)$表示树$Z$上$\mathcal{F}$在$p$范数意义下的覆盖数.并且,还在一定意义下给出了序列Rade- macher复杂度和Fat-shattering维之间的关联性. 同时,说明了在$Z_{t}(\sigma)$不依赖于$\sigma_1,\sigma_2,\cdots,\sigma_{t-1}$时,则序列Rademacher复杂度退化为经典Radema- cher复杂度. 并且,还给出了类似经典Radema- cher 复杂度的序列Rademacher复杂度结构化结果.另外,在鞅条件下,对统计学习理论中的相关传统复杂性度量性质(如生长函数与VC维关联性等)进行了推广和研究.
关联性 10. 多模态Rademacher复杂度与单模态Rademacher复杂度
Lei和Cao等分别在文献[27, 32, 36]中研究了单模态Rademacher复杂度和多模态Rademacher复杂度.在多模态退化为单模态的情况下,多模态Rademacher复杂度[27]就退化为了单模态Rade-macher复杂度[36].
关联性 11. 独立不同分布 Rademacher 复杂度与经典Rademacher 复杂度
在独立不同分布退化为独立同分布的情况下,Mohri等在文献[37]中关于独立不同分布的Rade-macher复杂度定义就退化为了经典 (经验) Rade- macher复杂度.
Rademacher复杂度不同于传统VC理论,是一种依赖特定样本数据集 (分布)的复杂性度量技术,能获得比VC维更加紧致的界.基于上面关联性1$\sim$11的讨论,可以知道,当前关于Rademacher复杂度在泛化界分析研究方面主要集中在训练样本数据集产生环境为i.i.d.和non-i.i.d.两种情形,而关于i.i.d.的研究已有较长时间,且研究结果也相对较完善,而对于non-i.i.d.的研究主要是最近几年的工作,并且研究结果相对尚不完善. 同时也发现,无论是i.i.d.还是non-i.i.d.的研究,都试图将Radema-cher复杂度转化为有意义且可计算的上界:
1) 将 Rademacher 复杂度转化为(熵)积分形式. 如上面讨论中的关联性2、4、5、7$\sim$9等;
2) 将 Rademacher 复杂度 (如单模态 Radema- cher 复杂度、多模态Rademacher 复杂度、独立不同分布 Rademacher 复杂度、块 Rademacher复杂度等) 通过不同意义下的可计算上界 (如范数界[27, 34, 36]、VC维界[37]、次根函数上界[42]、核值Gram矩阵迹[48]等)得到学习模型的泛化界,从而用于泛化能力的分析研究. 这些复杂度是否存在(熵) 积分形式仍是一个值得探讨的问题.
4. 独立同分布环境
在本节中,约定样本数据以独立同分布的方式产生,按照对假设空间$\mathcal{H}$的不同假定,在相应的策略下来讨论Rademacher复杂度在泛化能力方面的应用分析情况.下面对这些方面的应用成果[19, 27-28, 30-33, 36, 47-49, 51-56] 总结如下:
1) 假定
$\left\{ \begin{array}{*{35}{l}} \mathcal{H}=\{h:h~\text{为从}\mathcal{X}~\text{到}~\{-1,+1\}\text{的映射}\} \\ \text{ERM策略} \\ \end{array} \right.$
Boucheron等在文献[52]中总结了 Radema- cher复杂度对泛化界一致偏差的分析情况.
a) 建立经验过程极大泛函与其期望之间的偏差关系,见式(42) ;
b) 建立极大泛函期望与经典Rademacher复杂度的关系,见式(43) ;
c) 建立经典经验Rademacher复杂度与生长函数的关系,见式(46) .
一般地,结合a)$\sim$c)便可以得到一致偏差为O$({1}/{\sqrt{n}})$.Oneto等在文献 [53-55]中基于 Talagrand 集中不等式,将经典 Rademacher复杂度应用于学习模型泛化误差分析,将一致偏差改进为介于O$({1}/{n})$$\sim$${\rm O}({1}/{\sqrt{n}})$之间,并给出了最优情况为O$({1}/{n})$.
注 6. V$'$Yugin在文献[48] 中,说明了上述c)中关系等价于经典(经验)Rademacher复杂度与覆盖数的熵积分关系,并给出了覆盖数与Fat-shattering 维之间的关系,从而,可以在一定条件下更方便地计算估计经典 Rademacher 复杂度.
2) 假定
$\left\{ \begin{array}{*{35}{l}} \mathcal{H}=\{h:h~\text{为从}\mathcal{X}~\text{到}\mathbf{R}\text{的映射}\} \\ \text{ERM策略} \\ \end{array} \right.$
在经典的统计机器学习理论中,往往是在一定条件下(如基于损失函数的Lipschitz 条件、基于一致有界等[19, 79]),针对一些具体的Fat-shattering维,覆盖数等的上界,分析并获得一致偏差或估计误差为O$({1}/{\sqrt{n}})$.Srebro等在文献[47]中,对损失函数进行特殊假定13
\begin{align}\displaystyle\left|\frac{\partial^2 Q(z,h)}{\partial h^2}\right|\leq{ H},\ \ {H}\textrm{为常数}\end{align}
(52) 13满足该条件,称为$H$--光滑(Smooth)[47].
从而,在一定意义下可以获得更好的估计误差为O${({1}/{n})}$,并将相关结果应用到了在线学习(On-line learning)和随机优化(Stochastic optimization).
Lei 等[28, 32]在损失函数为一致有界的条件下,给出了局部Rademacher 复杂度的熵积分,见式(49) . 同时,基于Bernstein不等式,对于特殊情况下可计算的覆盖数上界,获得诸如 O$(({(\log^{p}n)}/$${n})^{1/(2-\alpha)})$,$p>0$,$0<\alpha\leq 1$等估计误差.
3) 假定
$\left\{ \begin{array}{*{35}{l}} \mathcal{H}=\{f:f~\text{为从}{{\mathbf{R}}^{d}}~\text{到}\mathbf{R}\text{的映射}\} \\ \text{ERM策略} \\ \end{array} \right.$
Gnecco 等在文献 [51]中应用经典Rademacher复杂度分析了径向基神经(Radial basis function,RBF) 网络的逼近误差,得到一定条件下14的学习率为O$({1}/{\sqrt{n}})$.
14如对 $f$ 加限制,${\rm s.t.}$,$f=\beta_{r}\cdot λ$,$\beta_{r}$为 $r$ 阶贝塞尔位势 (Bessel potential of order $r$),$λ$ 满足 $L^{1}$ 范数条件[71].
4) 假定
$\left\{ \begin{array}{*{35}{l}} \mathcal{H}=\{f:f~\text{为从}\mathcal{X}\text{到}{{\{0,1\}}^{L}}\text{的映射},L\ge 1\} \\ \text{ERM策略} \\ \end{array} \right.$
Yu等在文献[56]中应用经典Rademacher复杂度分析了多标签学习(Multi-label) 的泛化误差,得到估计误差为O$({1}/{\sqrt{n}})$. Xu等在文献[33]中基于局部Rademacher 复杂度分析了多标签学习,改进了文献[56]中结果,在一定条件下得到了O$({(\log n)}/{n})$的估计误差.
前面的讨论,对于假设空间的限制较少,下面将讨论几类特殊假设空间的学习模型泛化能力分析情况.
5) 假定
$\left\{ \begin{array}{*{35}{l}} {{\mathcal{H}}_{k}}=\left\{ {{\pi }_{b}}(h):h\in \sum\limits_{k,l}{(\mathcal{X})} \right\},\forall k\in \text{N} \\ \text{ERM策略} \\ \end{array} \right.$
其中,$S_{l}(T)$为关于节点集$T$的$l$-阶样条集合,$\sum_{k,l}(\mathcal{X})=\bigcup_{T:=\{a=t_{0}<t_{1}<\cdots<t_{k}=b\}}S_{l}(T)$,$\pi_{b}(h)(x)$ $:=$$\max\{-b$,$\min\{b,h(x)\}\}$,$\forall x\in \mathcal{X}$.
Lei等在文献 [31-32]中分析了FKS,得到FKS的局部Rademacher紧致上界,分析了FKS的估计误差,利用逼近论分析FKS的逼近误差,在对目标函数等做一定的假定下,得到一定意义下的泛化误差为O$(({\log n}/{n})^{2\alpha/(1+2\alpha)})$,其中,$0<\alpha<l$,$l$表示样条的阶.
6) 假定15
$\left\{ \begin{array}{*{35}{l}} {{\mathcal{H}}_{s}}=\left\{ {{h}_{s}}:{{h}_{s}}\text{为从}\mathcal{X}\times {{R}_{s}}~\text{到}~\mathbf{R}~\text{的映射} \right\} \\ \text{ERM策略} \\ \end{array} \right.$
15这里,$R_{s}$参见定义7.
Hinton等为防止深度神经网络中的过拟合问题,于2012年提出了Dropout技术[69]. Wan等基于经典 Rademacher复杂度对Dropout的泛化性进行过分析研究[70]. Gao等注意到经典Rademacher 复杂度无法反映出Dropout技术所带来的网络结构动态变化,于是在文献[34]中提出了 Dropout Rademacher 复杂度,并基于此复杂度研究了深度神经模型的泛化性能. 在一定条件下(如$Q(\cdot,\cdot)\leq {M}$,${ M}$为常数)得到了类似于经典情况(如式(15) 和(16) 或是按式(42) 、(43) 和(44) 得到)的不等式(以$1-\delta$概率成立)
\begin{align}\displaystyle{\rm E}_{n}(h)-{\rm E}(h)\leq 2{\rm E}(R_{n}^{\rm{Dropout}}\mathcal{H}_{s})+{M}\sqrt{\frac{\log\frac{1}{\delta}}{2n}}\end{align}
(53) 和
\begin{align}\displaystyle{\rm E}_{n}(h)-{\rm E}(h)\leq 2{\rm E}_{\sigma}(R_{n}^{\rm{Dropout}}\mathcal{H}_{s})+3{M}\sqrt{\frac{\log\frac{2}{\delta}}{2n}}\end{align}
(54) 进一步地,为分析研究具有$k$,$k\in{\bf N}_{n}$层隐藏层深度神经网络的误差估计,讨论得到了深度神经网络中三种不同类型的Dropout对应的Dropout Rade-macher 复杂度上界 (刻画了 Dropout Radema- cher复杂度与深度神经网络隐藏层数之间的关系). 具体如下:
a) 如果是节点的Dropout,Dropout Radema- cher 复杂度上界为O$({p^{(k+1) /2}}/{\sqrt{n}})$;
b) 如果是权重的Dropout,Dropout Radema- cher 复杂度上界为O$({p^{(k+1) /2}}/{\sqrt{n}})$;
c) 如果是节点和权重混合的Dropout,Drop- out Rademacher 复杂度上界为O$({p^{(k+1) }}/{\sqrt{n}})$.
7) 假定16
$\left\{ \begin{array}{*{35}{l}} \mathcal{H}= \\ \{h:h~\text{为从}\mathcal{X}~\text{到}\mathbf{R}~\text{的映射},\text{且}~h\in {{\mathcal{H}}_{K}},~K\in \mathcal{K}\} \\ \text{正则化策略} \\ \end{array} \right.$
16再生核希尔伯特空间 (Reproducing kernel Hilbert space,RKHS)[29, 48].
其中,$\mathcal{H}_{K}$为 RKHS,Mercer核集合记为$\mathcal{K}$.
Lei等[28, 32]改进了文献[39]中Rademacher chaos复杂度,得到了更为一般的结果,见式(50) . 在损失函数为Lipschitz连续,且假设空间函数满足,存在$R>0$,
$\|h{{\|}_{K}}\le R,\ \ \forall \in {{\mathcal{H}}_{K}}$
(55) 的条件下,将文献[49]中给出的泛化误差与Rade- macher chaos复杂度之间量化关系,应用于MKL算法泛化误差的分析[29, 32]. 对于Hinge损失函数和$q$-范数软边缘损失函数,得到了比文献[49]中更一般化的泛化能力或是说额外错分率 (Excess misclassification error) 结果. V$'$Yugin则在文献[48]中 (这里,$\mathcal{Y}$为${\{-1,+1\}}$),基于样本数据点$\{(X_1,Y_1) $,$\cdots$,$(X_n,Y_n)\}$的核值 Gram 矩阵 $G$,给出了经典 Rademacher复杂度的上界
\begin{align}\displaystyle R_{n}\mathcal{F}\leq \frac{1}{n}\sqrt{{\rm{tr}}(G)}\end{align}
(56) 然后,基于式(42) 和(43) ,在一定意义下给出了泛化误差或是说错分率(Misclassification error) 为O$({\sqrt{{\rm{tr}}(G)}}/{n}+{1}/{\sqrt{n}})$.
8) 假定
$\left\{ \begin{array}{*{35}{l}} \mathcal{H}=\left\{ M\in {{S}^{d}}:\|M\|\le \frac{1}{\sqrt{\lambda }} \right\} \\ \text{正则化策略} \\ ({{M}_{z}},{{b}_{z}}):=\arg \underset{M\in {{S}^{d}},b\in \mathbf{R}}{\mathop{\min }}\,\left\{ {{\text{E}}_{z}}(M,b)+\lambda \|M{{\|}^{2}} \right\} \\ \end{array} \right.$
Cao等在文献[36]中研究了单模态度量学习的估计误差(算法稳定性).具体如下:
a) 定义${\rm E}R_{n}^{\rm{single}}$,给出估计误差与${\rm E}R_{n}^{\rm{single}}$之间的量化关系
\begin{align}&\displaystyle{\rm E}(M_{z},b_{z})-{\rm E}_{n}(M_{z},b_{z})\leq\notag\\&\qquad\displaystyle\sup\limits_{(M,b)\in\mathcal{F}}[{\rm E}(M,b)-{\rm E}_{n}(M,b)]\leq\notag\\&\qquad\displaystyle\frac{4{\rm E}R_{n}^{\rm{single}}}{\sqrt{λ}}+\frac{4(3+2X_{*}/\sqrt{λ})}{\sqrt{n}}+\notag\\&\qquad2(1+X_{*}/\sqrt{λ})\left(\frac{2\ln(\frac{1}{\delta})}{n}\right)^{\frac{1}{2}}\end{align}
(57) 其中,$X_{*}=\sup_{x,x'\in\mathcal{X}}\|(x-x')(x-x')^{\rm T}\|_{*}$.
b) 在弗罗贝尼乌斯-范数 (Frobenius-norm),稀疏$L^{1}$-范数(Sparse $L^{1}$-norm) 和混合$(2,1) $-范数 (Mixed $(2,1) $-norm)等几种不同 (矩阵) 范数意义下,估计 ${\rm E}R_{n}^{\rm{single}}$的上界.
c) 结合a)和b)得到了诸如O$({1}/{\sqrt{n}})$等估计误差.
9) 假定
$\left\{ \begin{array}{*{35}{l}} \mathcal{H}=\left\{ M\in {{S}^{d\times (md)}}:\|M\|\le \frac{1}{\sqrt{\lambda }} \right\} \\ \text{正则化策略} \\ ({{M}_{z}},{{b}_{z}}):=\arg \underset{M\in {{S}^{d\times (md)}},b\in \mathbf{R}}{\mathop{\min }}\,\left\{ {{\text{E}}_{z}}(M,b)+\lambda \|M{{\|}^{2}} \right\} \\ \end{array} \right.$
McFee等在文献 [67-68, 80-81]对多模态度量学习进行了广泛而深入的研究,但是这些研究更多的是偏重多模态度量学习的算法,有关模型学习能力的研究工作则相对缺乏. Lei 等在文献[27, 32]中基于文献[36] 单模态度量学习的工作,展开了多模态度量模型学习能力的研究.
a) 在一定条件下(如 ${\bf R}^{d×(md)}$上函数满足$\beta$--强凸[27]等)给出了${\rm E}R^{\rm{multi}}_{n}(\mathcal{M})$的估计上界
\begin{align}\displaystyle {\rm E}(R^{\rm{multi}}_{n}\mathcal{M})\leq X_{*}\sqrt{\frac{2f_{\rm{max}}}{\beta\lfloor\frac{n}{2}\rfloor}}\end{align}
(58) b) 给出估计误差与多模态 Rademacher 复杂度之间的量化关系
\begin{align}{\label{multiform}}&\displaystyle{\rm E}(M_{z},b_{z})-{\rm E}_{n}(M_{z},b_{z})\leq\notag\\&\qquad\displaystyle{2{\rm E}(R_{n}^{\rm{multi}}}{\mathcal{M}})+2\left(1+\frac{X_{*}}{\sqrt{λ}}\right)\frac{1+2\sqrt{\ln(\frac{1}{\delta})}}{\sqrt{\lfloor\frac{n}{2}\rfloor}}\end{align}
(59) c) 结合a)和b),讨论了混合-范数和Schat- ten-范数等几种不同(矩阵) 范数意义下的多模态度量模型学习能力,得到了诸如O$({1}/{\sqrt{n}})$等估计误差.
注 7. 当多模态退化为单模态时,式(59) 就退化成了单模态情形下 (见式(57) ) 的更紧致的上界.
10) 假定
$\left\{ \begin{array}{*{35}{l}} {{\mathcal{H}}_{k}}=\left\{ \sum\limits_{i=1}^{k}{{{\omega }_{i}}}K({{[x-{{c}_{i}}]}^{\text{T}}}{{A}_{i}}[x-{{c}_{i}}])+{{w}_{0}}: \right. \\ \left. \sum\limits_{i=0}^{k}{|}{{\omega }_{i}}|\le b \right\},~~k\in \mathbf{N} \\ \text{SRM策略} \\ \end{array} \right.$
神经网络的学习能力已经有大批学者从逼近误差和估计误差两方面进行了广泛而深入的研究[51, 76, 82-87]. Lei等[30, 32]在文献[82]中关于估计误差的分析基础上,将局部Rademacher复杂度引入到神经网络估计误差的分析. 首先,改进了式(49) 的结果,得到
\begin{align}&\displaystyle{\rm E}\mathcal{R}_{n}\{f\in\mathcal{F}: {\rm P}f^{2}\leq r\}\leq\notag\\&\quad \inf\limits_{\epsilon>0}\Bigg[2\epsilon+(2\sqrt{2b\epsilon}+\sqrt{r})\sqrt{\displaystyle\frac{2\log{\mathcal{N}(\epsilon,\mathcal{F},\|\cdot\|_{1})}}{n}}+\notag\\&\quad\displaystyle\frac{8b\log\mathcal{N}(\epsilon,\mathcal{F},\|\cdot\|_{1})}{n}\Bigg]\end{align}
(60) 然后,结合式(60) ,并应用Talagrand不等式,在核函数、损失函数等满足一定条件下,得到估计误差为O$(({1}/{n})^{{1}/{(2-\alpha_{p})}})$,其中,$\alpha_{p}=(2/p)\wedge 1$,$p>1$.
注 8. 本节主要讨论了样本数据集为i.i.d.的情形,按照一般的假设空间以及特殊的假设空间 (如 $\mathcal{H}$为RKHS、矩阵空间和样条函数空间等几类情况),在ERM、SRM和正则化等几种不同的学习策略下,总结讨论了Rademacher复杂度在学习模型泛化界方面的应用分析.在这些应用分析中,主要采用了概率集中不等式、覆盖数、链式技巧和Cauchy不等式等一系列数学技术. 一般地,基于 Rademacher 复杂度的分析能得到比VC 维相对紧致的界. 为便于阅读,相关内容总结至表 2.
表 2 i.i.d.情形的泛化界分析Table 2 Generalization analysis for i.i.d.本数据集产生环境 学习策略 假设空间 泛化能力 i.i.d. ERM 1) $\mathcal{X}\rightarrow\{-1,+1\}$ O$O\left( \frac{1}{\sqrt{n}} \right)$ [52],O$\left(\frac{1}{n} \right)$[53-55]等 2) $\mathcal{X}\rightarrow{\bf R}$ O$\left( \frac{1}{n} \right)$[47],$\text{O}{{\left( \frac{{{\log }^{p}}n}{n} \right)}^{1/(2-\alpha )}}$ [28, 32]等 3) ${\bf R}^{d}\rightarrow{\bf R}$ O$O\left( \frac{1}{\sqrt{n}} \right)$ [51] 4) $\mathcal{X}\rightarrow\{-1,+1\}^{L}$ O$O\left( \frac{1}{\sqrt{n}} \right)$ [56],$O\left( \frac{\log n}{n} \right)$[33] 5) 自由样条函数空间 $O\left( {{\left( \frac{\log n}{n} \right)}^{2\alpha /(1+2\alpha )}} \right)$ [31-32]等 6) $\mathcal{X}× R_{s}\rightarrow\mathcal{{\bf R}}$ $O\left( \frac{{{p}^{(k+1)/2}}}{\sqrt{n}}+\frac{1}{\sqrt{n}} \right),O\left( \frac{{{p}^{k+1}}}{\sqrt{n}}+\frac{1}{\sqrt{n}} \right)$[34] 正则化 7) RKHS $O\left(\frac{\sqrt{{\rm{tr}}(G)}}{n}+\frac{1}{\sqrt{n}}\right)$ [48] 8) ${S}^{d}$ $O\left( \frac{1}{\sqrt{n}} \right)$ [36]等 9) ${S}^{d×(md)}$ $O\left( \frac{1}{\sqrt{n}} \right)$ [27, 32]等 SRM 10) 神经网络空间 $O\left(\left(\frac{1}{n}\right)^{\frac{1}{2-\alpha_{p}}}\right)$[30, 32] 5. 非独立同分布环境
在前一节中,主要讨论了在样本数据为i.i.d.的假定下,Rademacher复杂度在泛化能力分析方面的应用. 但是,现实应用中存在的大量数据,本质上具有相依性或时间相关性. 所以,对具体实际应用而言,i.i.d.是一个非常强的假设. 正是因为如此,很多学者开始考虑研究non-i.i.d.情形下的学习模型泛化能力.最早的工作可以追溯到Yu在文献[88]中基于Bernstein的独立块技术,在样本数据分布为平稳分布且满足$\beta$-mixing的假定下,对学习模型泛化误差进行的VC维界分析研究. 之后,Meir在文献[89]中基于假设空间复杂性的覆盖数度量,分析研究了学习模型的泛化误差. 针对具体样本数据集分布,Mohri等在文献[38] 中开始采用 Rademacher复杂度来分析假设空间的复杂性,研究讨论了在样本数据分布为平稳分布且满足$\beta$-mixing的假定下,学习模型的一致偏差. 之后,许多学者陆续将Radema-cher复杂度的泛化能力研究推广到样本数据集分布为几种特殊non-i.i.d.的情形.
本节主要在样本数据分别为独立但不同分布、\linebreak$\beta$-mixing、鞅和非平稳等几种 non-i.i.d.情形约定下,按对假设空间$\mathcal{H}$ 的不同假定,来讨论 Radema- cher复杂度在学习模型泛化能力方面的分析应用结果 (见文献 [37-43]).
1) 假定
$\left\{ \begin{array}{*{35}{l}} \text{独立不同分布} \\ \mathcal{H}=\left\{ f:f\text{为从}\mathcal{X}\text{到}\mathcal{Y}\text{的映射} \right\} \\ \end{array} \right.$
Mohri等[37]基于文献 [90-91]中研究结果,进一步提出不同分布下的Rademacher复杂度,来分析研究训练样本数据集独立但是不同分布的情况,在一定条件下(如$Q(\cdot,\cdot)\leq { M}$,${M}$为常数)得到了
\begin{align}{\label{Nonidentical}}&\displaystyle{\rm E}_{{P}_{X_{n+1}}}[h]-{\rm E}_{n}[h]\leq\notag\\&\qquad\displaystyle 2{\rm E}(R^{\text{non-identical}}_{n}\mathcal{H})+{ M}\sqrt{\frac{\log{\frac{1}{\delta}}}{2n}}+\notag\\&\qquad\displaystyle\frac{1}{n}\sum\limits_{i=1}^{n}\sup\limits_{h\in\mathcal{H}}|{\rm E}_{{P}_{X_{i}}}[h]-{\rm E}_{{P}_{X_{n+1}}}[h]|\end{align}
(61) 基于上一节i.i.d.部分的讨论,可以知道,在一定意义下一致偏差为O$({1}/{\sqrt{n}})$. 同时,Mohri等还将相关结果应用到了在线学习.
注 9. 当${\rm P}_{X_{i}}$,$i=1,2,\cdots$,为相同分布时,式(61) 就退化为式(42) 和(43) 的情形.
2) 假定
$\left\{ \begin{array}{*{35}{l}} \text{平稳分布且}\beta \text{-mixing} \\ \mathcal{H}=\left\{ f:f\text{为从}\mathcal{X}\text{到}\mathbf{R}\text{的映射} \right\} \\ \end{array} \right.$
Mohri等[38]在文献 [88-89]基础上,采用独立块技巧,应用Rademacher复杂度分析研究了平稳$\beta$-mixing序列17.
17这里,处理的$\mathcal{F}$是特殊的,实际上即是假设空间$\mathcal{H}$.
a) 建立原始样本数据集中数据块与构造的独立块之间的泛化误差关系
\begin{align}\displaystyle|{\rm E}_{{Z}^{o}}[h]-{\rm E}_{\tilde{Z}^{o}}[h]|\leq(s-1) \cdot { M}\cdot\beta{(a')}\end{align}
(62) b) 应用i.i.d.情形下的对称性质,建立极大泛函期望与Rademacher复杂度的关系
\begin{align}\displaystyle{\rm E}_{\tilde{Z}^{o}}[\Phi(\tilde{Z}^{o})]\leq 2{\rm E}(R^{\beta\text{-mixing}}_{|I_{1}+I_{2}|}\mathcal{H})\end{align}
(63) 其中,$\Phi(\tilde{Z}^{o})=\sup_{h\in\mathcal{H}}({\rm E}_{\tilde{Z}^{o}}\frac{1}{m}\sum_{i=1}^{m}h(\tilde{Z}(2i-1) )-\frac{1}{m}\sum_{i=1}^{m}h(\tilde{Z}(2i-1) ))$.
c) 结合a)和b),并应用i.i.d.情形下的 Mcdiarmid 不等式,得到一致偏差的Rademacher复杂度上界不等式
\begin{align}{\label{Stationary}}&\displaystyle {\rm E}\frac{1}{n}\sum\limits_{i=1}^{n}h(Z_{i})-\frac{1}{n}\sum\limits_{i=1}^{n}h(Z_{i})\leq\notag\\&\qquad\displaystyle 2{\rm E}(R^{\beta\text{-mixing}}_{|I_{1}+I_{2}|}\mathcal{H})+{M}\sqrt{\frac{\log{\frac{2}{\delta}}}{2s}}\end{align}
(64) 其中,$n=2sa$,$a$为块的长度,${\rm E}(R^{\beta\text{-mixing}}_{|I_{1}+I_{2}|}\mathcal{H})=\frac{1}{|I_{1}+I_{2}|}{\rm E}_{(\tilde{Z}^{o},\tilde{Z}^{e}),\sigma}[{\sup_{f\in\mathcal{F}}\sum_{i=1}^{s}\sigma_{i}l(f,Z(i))}]$.其他符号见第3节中块Rademacher 复杂度以及附录 A 独立块技巧的说明.
类似于i.i.d.的讨论[48],在$\mathcal{Y}=\{-1,+1\}$的假定下,给出了一定意义下泛化误差或是错分率为O$({\sqrt{{\rm{tr}}(G)}}/{s}+{1}/{\sqrt{s}})$,其中,$n=2sa$.
注 10. 当假定条件退化为独立同分布时,式(64) 就退化为式(42) 和(43) 中的特殊情况.
3) 假定
$\left\{ \begin{array}{*{35}{l}} \text{非平稳分布且}\beta \text{-mixing} \\ \mathcal{H}=\left\{ f:f\text{为从}\mathcal{X}\text{到}\mathcal{Y}\text{的映射} \right\} \\ \end{array} \right.$
Kuznetsov在文献[42]中提出了子样选取(Sub-sample selection)技巧,具体如下:
记样本数据集$Z_1^{n}$,给定常数$a\geq 1$,存在$k\geq 1$,${\rm s.t.}$,$n=ka$. 定义子样
\begin{align}\displaystyle Z^{(j)}=\left(Z_{1+j},Z_{2+j},\cdots,Z_{k-1+j}\right)\end{align}
(65) 其中,$j=0,1,\cdots,a-1$.
基于该技巧以及文献[88]中的独立块技巧,考虑分析了平均错误 (Averaged error) 下的一致偏差,建立了与Rademacher复杂度之间的关系不等式
\begin{align}&\displaystyle {\rm E}_{Z_{n+s}}[Q(Z_{n+s},h)]-\frac{1}{n}\sum\limits_{i=1}^{n}Q(Z_{i},h)\leq\notag\\&\quad\displaystyle 2\max\left({\rm E}(R^{\beta\text{-mixing}}_{|I_{1}|}\mathcal{F}),{\rm E}(R^{\beta\text{-mixing}}_{|I_{2}|}\mathcal{F})\right)+\notag\\&\quad\max(\Delta_{1},\Delta_{2})~+\notag\\&\quad{ M}\max\left(\sqrt{\sum\limits_{j=1}^{m}a_{2j-1}^{2}},\sqrt{\sum\limits_{j=1}^{m}a_{2j}^{2}},\sqrt{\frac{\log\frac{2}{\delta}}{2n^2}}\right)\leq\notag\\ &\quad\displaystyle \frac{2}{a}\sum\limits_{j=1}^{2a}\left(\frac{1}{k}{\rm E} [\sup\limits_{h\in\mathcal{H}}\sum_{i=1}^{k}\sigma_{i}Q(Z_{a(2i-1) +j},h)]\right)+\notag\\&\quad\displaystyle\frac{2}{n}\sum\limits_{t=1}^{n}\sup\limits_{h\in\mathcal{H}}|{\rm E}_{Z_{n+s}}[Q(Z_{n+s},h)]-{\rm E}_{Z_{t}}[Q(Z_{t},h)]|+\notag\\&\quad\displaystyle{ M}\sqrt{\frac{\log\frac{2}{\delta}}{8k}}\end{align}
(66) 其中,$I_{2}$表示$Z_{1}^{n}$中被划入偶数编号块的样本数据点对应的指标组成的集合,$\Delta_{i}=\frac{1}{|I_{i}|}\sum_{t\in I_{i}}\sup_{h\in\mathcal{H}}|\\{\rm E}_{Z_{n+s}}[Q(Z_{n+s},h)]-{\rm E}_{Z_{t}}[Q(Z_{t},h)]|,i=1,2.$ 其他符号见第3节中块 Rademacher复杂度以及附录 A 独立块技巧的说明.
同时,还讨论研究了路径相依错误 (Path-dependent error) 下的一致偏差,建立了与Rade- macher复杂度之间的关系不等式
\begin{align}&\displaystyle {\rm E}_{Z_{n+s}}[Q(Z_{n+s},h)]-\frac{1}{n}\sum\limits_{i=1}^{n}Q(Z_{i},h)\leq\notag\\ &\quad\displaystyle \frac{1}{n}\sum\limits_{t=1}^{n}\sup\limits_{h\in\mathcal{H}}|{\rm E}_{Z_{n+s}}[Q(Z_{n+s},h)]-{\rm E}_{Z_{t}}[Q(Z_{t},h)]|+\notag\\&\quad2 {\rm E}(R^{\rm{mar}}_{n-s}{\mathcal{F}})+{\rm O}\left(\sqrt{\frac{(\log n)^3}{n}}\right)\end{align}
(67) 又注意到样本数据的非平稳性,可能会导致样本分布不收敛到目标分布,所以定义了比$\beta$-mixing更强的条件: 随机过程的极限收敛于平稳分布,并基于次根函数和局部Rademacher复杂度,讨论了该极限平稳分布下学习模型的泛化误差情况. 另外,Kuznetsov在文献[43]中进一步推广了文献[42]中有关泛化界分析的结果,并且基于推广后的结果设计了非平稳时间序列预测的有关算法.
注 11. 若非平稳分布退化为平稳分布,则上述式(66) 退化为类似式(64) 中的情况;若非平稳分布退化为独立不同分布,则上述式(66) 退化为类似式(61) 中的情况; 若非平稳分布退化为独立同分布,则上述式(66) 退化为类似由式(42) 和(43) 得到的特殊情况.
另外,平稳或非平稳的 $\beta$-mixing 的 Radema- cher泛化性能分析结果,目前还未见到用于在线学习,然而在在线学习中经常会出现"随时间推移,未来对过去的依赖充分地小''的情形,这正是附录中注A1所描述的 $\beta$-mixing 的直观意义. 所以,平稳或非平稳的 $\beta$-mixing 学习模型的 Rademacher泛化性能分析结果,将会有助于在线学习泛化性能的分析研究.
4) 假定
$\left\{ \begin{array}{*{35}{l}} \text{鞅} \\ \mathcal{H}=\left\{ f:f\text{为从}\mathcal{Z}\text{到}\left[ -1,1 \right]\text{的映射} \right\} \\ \end{array} \right.$
其中,$\mathcal{Z}$ 为可分度量空间.
Rakhlin等在文献 [39-41]中基于给出的序列Rademacher复杂度,讨论了学习模型的一致收敛性.
a) 建立鞅差序列与序列Rademacher复杂度的关系
\begin{align}&\displaystyle{\rm E}\sup\limits_{f\in\mathcal{F}}\left(\frac{1}{n}\sum\limits_{i=1}^{n}({\rm E}[f(X_t)|\mathcal{A}_{t-1}]-f(X_{t}))\right)\leq\notag\$2mm]&\qquad\displaystyle 2{\rm E}(R^{\rm{mar}}_{n}{\mathcal{F}})\end{align}
(68) b) 给出序列Rademacher复杂度的收敛速度
\begin{align}\displaystyle{\rm E}(R^{\rm{mar}}_{n}{\mathcal{F}})={\rm O}\left(\frac{B}{\sqrt{n}}\right)\end{align}
(69) 其中,$B=\inf_{z\in{Z}}\sup_{f,f'\mathcal{F}}(f(z)-f(z'))\geq 0$.
c) 结合a)和b),当$n\rightarrow 0$时,保证了鞅意义下学习过程的一致收敛性.Rakhlin等还进一步讨论了相关结果在在线学习方面的应用.
相比其他 non-i.i.d.方面的研究,基于鞅的学习模型泛化界研究工作尚不完善.
注 12. 本节主要讨论了样本数据集分布为non-i.i.d.的情形,从经验过程极大泛函的角度,基于 Rademacher复杂度分析讨论学习模型的泛化能力. 在这部分的讨论中,还引入了独立块与子样选取等一些新的数学处理技巧. 为便于阅读,相关内容总结至表 3.
表 3 non-i.i.d.情形的泛化界分析Table 3 Generalization analysis for non-i.i.d.样本数据集产生环境 假设空间 泛化能力 独立不同分布 1)$\mathcal{X}\rightarrow\mathcal{Y}$ $O\left(\frac{1}{\sqrt{n}}\right)$[37] 平稳分布且$\beta\textrm{-mixing}$ 2) $\mathcal{X}\rightarrow{\bf R}$ $O\left(\frac{\sqrt{{\rm{tr}}(G)}}{n}+\frac{1}{\sqrt{n}}\right)$[38] 非平稳分布且$\beta\textrm{-mixing}$ 3) $\mathcal{X}\rightarrow\mathcal{Y}$ 非平稳性可能导致
不收敛于0[42]鞅 4) $\mathcal{Z}\rightarrow $[-1,1] 一致收敛[39-41] 6. 小结与展望
学习模型的泛化能力分析是当前统计学习理论中的研究热点和难点,经过很多学者的努力(如文献 [18-21, 92]等),Rademacher复杂性度量已经发展成为一种度量函数空间容量,进行学习模型泛化能力分析的极其有效的工具.与已有的VC维等函数空间复杂性度量方法相比,Rademacher复杂度与一致偏差具有更加紧密的关联性,并且更能客观地定量刻画假设空间的复杂性[45],因此,在统计学习理论研究中越来越体现出其重要意义与研究价值.
从当前的研究现状来看,Rademacher 复杂度在统计学习理论的应用主要是:在学习框架和样本数据空间的假定下,针对具体的假设空间,展开对学习模型泛化能力的分析研究. 在学习框架假定方面,本文关注有监督学习框架,而关于非监督学习框架下学习模型的泛化能力研究,Rademacher复杂度也有一些最新的应用,如,在直推学习 (Transductive learning)框架下提出的直推Rademacher复杂度和置换 (Permutational)Rademacher复杂度[93-95]等,但相关研究尚不完善和成熟;在样本数据空间假定方面,当前关于 Rademacher复杂度在统计学习理论中的应用主要是关于序列方面,并且主要集中在序列的样本数据产生环境为i.i.d.情形,在non-i.i.d情形,虽有一些研究但也相对尚不完善. 同时,对于非序列方面,如,有关随机场学习模型泛化能力的研究,则处于空白阶段.随着关于随机场的集中不等式研究成果[96-97] 的出现,将会有助于 Rademacher复杂度在随机场等非序列学习模型泛化能力方面的应用与研究.
另外,随着 Rademacher复杂度在统计学习理论泛化能力方面的进一步深入应用与研究,一方面,会有更紧致、更容易指导实践的泛化界被发现,从而将有助于更好地指导实际算法的设计. 另一方面,也会促进其他领域如认知心理学等的应用与发展[98-99].
附录 A
在本部分中,考虑到本文的可读性,给出前面讨论要用到的相关定义和技巧.
A1 覆盖数
覆盖数作为实变函数理论中的概念,最早由Kolmogorov等给出[78],本质上是从函数逼近论观点刻画函数空间的复杂度,其基本思想是利用有限个半径固定的球来逼近原本无限的函数空间.覆盖数可以看作是对生长函数的一种推广[76].此处引用文献[32]中给出的定义形式:
假定 $(\mathcal{G},d)$ 为度量空间,$\mathcal{F}\subset\mathcal{G}$.任意 $\epsilon>0$,有任意 $f\in\mathcal{F}$,存在$g\in\mathcal{F}^{\Delta}$,${\rm s.t.}$,$d(f,g)\leq\epsilon$,则$\mathcal{F}^{\Delta}$为$\mathcal{F}$ 的一个$\epsilon$-覆盖.若$\epsilon$-覆盖$\mathcal{F}^{\Delta}\subset\mathcal{F}$,则称$\mathcal{F}^{\Delta}$为$\mathcal{F}$的一个正则$\epsilon$-覆盖. 记$\mathcal{N}(\epsilon,\mathcal{F},d):=\min\{|\mathcal{F}^{\Delta}|:\mathcal{F}^{\Delta}\subset\mathcal{F}{\textrm{~是~}}\mathcal{F}{\textrm{~的一个}}~\epsilon{\textrm{--覆盖}}\}$.
A2 ${\pmb U-}$过程
假设 $X_{i}$,$i=1,2,\cdots,n$ 为定义在 $\mathcal{X}$上且服从分布${\rm P}$的i.i.d.随机变量序列,记函数$f:\mathcal{X}×\mathcal{X}\rightarrow {\bf R}$,且 $f$是对称的,$\mathcal{F}$是$f$的集合. 则
$\frac{1}{n(n-1)}\sum\limits_{1\le i\not{=}j\le n}{f}({{X}_{i}},{{x}_{j}}),~~\forall \in \mathcal{F}$
(A1) 称为$U$-过程[100].
$U$-过程最初由 Nolan 等引入随机过程理论,是一簇指标取自对称核函数集合的$U$-统计量,Pe\~na等为了研究退化$U$-过程的渐进行为,提出了 $m\in{\bf N}$ 阶Rademacher chaos 复杂度的定义[35].
A3 平稳性[101]
随机过程$\{X_{t},t\in T\}$称作是平稳的,若有$\forall n\geq 1$,$t_1$,$t_2$,$\cdots$,$t_n\in T$ 和 $h\in{\bf R}$,$t_1+h$,$t_2+h$,$\cdots$,$t_n+h\in T$,有
$\text{P}({{X}_{h+{{t}_{1}}}},\cdots ,{{X}_{h+{{t}_{n}}}})=\text{P}({{X}_{{{t}_{1}}}},\cdots ,{{X}_{{{t}_{n}}}})$
(A2) 其中,${\rm P}$ 为$\{X_{t},t\in T\}$对应的联合分布.
A4 $\pmb\beta$ -mixing}[42-43]
设$\{Z_t\}_{t=-\infty}^{+\infty}$为$\mathcal{Z}$上对应联合分布为${\rm P}$的双无限(Doubly infinite)随机变量序列,则$\beta$-mixing系数记为:任意$a\in{\bf N}$ 且 $a>0$,
$\beta (a):=\underset{t}{\mathop{\sup }}\,{{\text{E}}_{Z_{-\infty }^{t}}}[\underset{A\in \sigma (Z_{t+a}^{\infty })}{\mathop{\sup }}\,|\text{P}_{t+a}^{\infty }(A|Z_{-\infty }^{t})-\text{P}_{t+a}^{\infty }(A)|]$
(A3) 其中,$\sigma(Z_{t+a}^{\infty})$表示由$Z_{t+a}^{\infty}$生成的$\sigma$-代数,则称${\rm P}$是$\beta$-mixing,若$a\rightarrow \infty$,有
$\beta (a)\to 0$
(A4) 注 A1. $\beta$-mixing的直观意义: 随着时间的推移,未来对过去的依赖充分地小.
A5 独立块技巧[42, 88]
独立块技巧最早可以追溯至1927年Bernstein的工作.
记样本$Z_1^{\rm T}=\{Z_1,Z_2,\cdots,Z_T\}$,将其分为大小为$a_i$,$i$$=$ $1,2,\cdots,2m$的$2m$块,且$T=\sum_{i=1}^{2m}a_{i}$,即
$Z_{1}^{\text{T}}=\{Z(1),Z(2),\cdots ,Z(2m)\}$
(A5) 其中,$Z(1) =Z_{l(i)}^{u(i)}$,$l(i)=1+\sum_{j=1}^{i-1}a_{j}$,$u(i)=1+\sum_{j=1}^{i}a_{j}$,$i$ $=$ $1,2,\cdots,2m$. 于是,有
奇数编号块
${{Z}^{o}}=\{Z(1),Z(3),\cdots ,Z(2m-1)\}$
(A6) 偶数编号块
${{Z}^{e}}=\{Z(2),Z(4),\cdots ,Z(2m)\}$
(A7) 对于表达式(A6) 和(A7) ,分别构造表达式(A8) 和(A9) 如下:
${{\tilde{Z}}^{o}}=\{\tilde{Z}(1),\tilde{Z}(3),\cdots ,\tilde{Z}(2m-1)\}$
(A8) 和
${{\tilde{Z}}^{e}}=\{\tilde{Z}(2),\tilde{Z}(4),\cdots ,\tilde{Z}(2m)\}$
(A9) 其中,在式(A8) 中$\tilde{Z}(i)$,$i=1,3,\cdots,2m-1$是独立随机变量序列,且 $\tilde{Z}(i)$和$ Z(i)$,$i=1,3,\cdots,2m-1$具有相同分布. 在式(A9) 中$\tilde{Z}(i)$,$i=2,4,\cdots,2m$是独立随机变量序列,且 $\tilde{Z}(i)$和$ Z(i)$,$i=2,4,\cdots,2m$具有相同分布.
A6 鞅[71]
随机过程$\{X_{t},t\in T\}$,其中,集合$T$为任意指标集,$X_{t}$:$\mathcal{X}$ $\rightarrow$ ${\bf R}$. 若满足: 任意$ t\in T$,$X_{t}$是关于$\mathcal{A}_{t}$-可测的随机变量; ${\rm E}|X_{t}|<\infty$,$t\in T$; 并且任意$s,t\in T$,$s\leq t$,有
$\text{E}({{X}_{t}}|{{\mathcal{A}}_{s}})={{X}_{s}},,\text{a}.\text{e}.$
(A10) 则称$\{X_{t},t\in T\}$为鞅. 这里,$\sigma{(\mathcal{A}_{t})}$表示由$\{X_{s}\leq t\}$生成的$\sigma$-代数.
注 A2. 为简单起见,假定指标集$T$为离散集.鞅反映了某种无后效性,即,当已知时刻$t$以及之前的值$X_1,X_2$,$\cdots$,$X_t$,那么,$t+1$时刻的值$X_{t+1}$对$X_1,X_2,\cdots,X_t$的条件期望与时刻$t$之前的值$X_1,X_2,\cdots,X_{t-1}$无关,且等于$X_t$.
-
表 1 Rademacher 复杂度及传统复杂度
Table 1 Rademacher complexities and kinds of complexities of function classes
复杂度类型 本数据集
产生环境复杂度名称 传统复杂度 i.i.d./non-
i.i.d.VC 熵,退火 VC 熵,生长函数,VC 维,
覆盖数,伪维度,Fat-shattering维等
经典 Rademacher 复杂度,局部
Rademacher 复杂度Rade-
macher
复杂度i.i.d. Rademacher chaos 复杂度,单模态
Rademacher 复杂度,
多模态 Rademacher 复杂度,Dropout
Rademacher 复杂度non-i.i.d. 独立不同分布 Rademacher 复杂度,
块Rademacher 复杂度,
序列 Rademacher 复杂度表 2 i.i.d.情形的泛化界分析
Table 2 Generalization analysis for i.i.d.
本数据集产生环境 学习策略 假设空间 泛化能力 i.i.d. ERM 1) $\mathcal{X}\rightarrow\{-1,+1\}$ O$O\left( \frac{1}{\sqrt{n}} \right)$ [52],O$\left(\frac{1}{n} \right)$[53-55]等 2) $\mathcal{X}\rightarrow{\bf R}$ O$\left( \frac{1}{n} \right)$[47],$\text{O}{{\left( \frac{{{\log }^{p}}n}{n} \right)}^{1/(2-\alpha )}}$ [28, 32]等 3) ${\bf R}^{d}\rightarrow{\bf R}$ O$O\left( \frac{1}{\sqrt{n}} \right)$ [51] 4) $\mathcal{X}\rightarrow\{-1,+1\}^{L}$ O$O\left( \frac{1}{\sqrt{n}} \right)$ [56],$O\left( \frac{\log n}{n} \right)$[33] 5) 自由样条函数空间 $O\left( {{\left( \frac{\log n}{n} \right)}^{2\alpha /(1+2\alpha )}} \right)$ [31-32]等 6) $\mathcal{X}× R_{s}\rightarrow\mathcal{{\bf R}}$ $O\left( \frac{{{p}^{(k+1)/2}}}{\sqrt{n}}+\frac{1}{\sqrt{n}} \right),O\left( \frac{{{p}^{k+1}}}{\sqrt{n}}+\frac{1}{\sqrt{n}} \right)$[34] 正则化 7) RKHS $O\left(\frac{\sqrt{{\rm{tr}}(G)}}{n}+\frac{1}{\sqrt{n}}\right)$ [48] 8) ${S}^{d}$ $O\left( \frac{1}{\sqrt{n}} \right)$ [36]等 9) ${S}^{d×(md)}$ $O\left( \frac{1}{\sqrt{n}} \right)$ [27, 32]等 SRM 10) 神经网络空间 $O\left(\left(\frac{1}{n}\right)^{\frac{1}{2-\alpha_{p}}}\right)$[30, 32] 表 3 non-i.i.d.情形的泛化界分析
Table 3 Generalization analysis for non-i.i.d.
样本数据集产生环境 假设空间 泛化能力 独立不同分布 1)$\mathcal{X}\rightarrow\mathcal{Y}$ $O\left(\frac{1}{\sqrt{n}}\right)$[37] 平稳分布且$\beta\textrm{-mixing}$ 2) $\mathcal{X}\rightarrow{\bf R}$ $O\left(\frac{\sqrt{{\rm{tr}}(G)}}{n}+\frac{1}{\sqrt{n}}\right)$[38] 非平稳分布且$\beta\textrm{-mixing}$ 3) $\mathcal{X}\rightarrow\mathcal{Y}$ 非平稳性可能导致
不收敛于0[42]鞅 4) $\mathcal{Z}\rightarrow $[-1,1] 一致收敛[39-41] -
[1] Tikhonov A N, Arsenin V Y. Solution of Ill-posed Problems. Washington:Winston and Sons, 1977. [2] Akaike H. A new look at the statistical model identification. IEEE Transactions on Automatic Control, 1974, 19(6):716-723 doi: 10.1109/TAC.1974.1100705 [3] Akaike H. A Bayesian analysis of the minimum AIC procedure. Annals of the Institute of Statistical Mathematics, 1978, 30(1):9-14 doi: 10.1007/BF02480194 [4] Schwarz G. Estimating the dimension of a model. Annals of Statistics, 1978, 6(2):461-464 doi: 10.1214/aos/1176344136 [5] Kolmogorov A N. On tables of random numbers. Sankhya:The Indian Journal of Statistics, 1963, 25:369-376 http://cn.bing.com/academic/profile?id=2319581f805b56782c9de35bf823fe97&encoded=0&v=paper_preview&mkt=zh-cn [6] Kolmogorov A N. Three approaches to the quantitative definition of information. Problems of Information Transmission, 1965, 1(1):1-7 http://cn.bing.com/academic/profile?id=c9935bf10e0666e93d39e022ca502b3d&encoded=0&v=paper_preview&mkt=zh-cn [7] Chaitin G J. On the length of programs for computing finite binary sequences. Journal of the ACM, 1966, 13(4):547-569 doi: 10.1145/321356.321363 [8] Solomonoff R J. A formal theory of inductive inference. Part II. Information and Control, 1964, 7(2):224-254 doi: 10.1016/S0019-9958(64)90131-7 [9] Wallace C S, Boulton D M. An information measure for classification. The Computer Journal, 1968, 11(2):185-194 doi: 10.1093/comjnl/11.2.185 [10] Vapnik V N, Chervonenkis A Y. On the uniform convergence of relative frequencies of events to their probabilities. Theory of Probability and Its Applications, 1971, 16(2):264-280 doi: 10.1137/1116025 [11] Vapnik V N. The Nature of Statistical Learning Theory. New York:Springer, 1995. [12] Vapnik V N. An overview of statistical learning theory. IEEE Transactions on Neural Networks, 1999, 10(5):988-999 doi: 10.1109/72.788640 [13] Popper K R. The Logic of Scientific Discovery. United Kingdom:Hutchinson, 1959. [14] Valiant L G. A theory of the learnable. Communications of the ACM, 1984, 27(11):1134-1142 doi: 10.1145/1968.1972 [15] Kearns M J, Schapire R E. Efficient distribution-free learning of probabilistic concepts. Journal of Computer and System Sciences, 1994, 48(3):464-497 doi: 10.1016/S0022-0000(05)80062-5 [16] Bartlett P L, Long P M, Williamson R C. Fat-shattering and the learnability of real-valued functions. Journal of Computer and System Sciences, 1996, 52(3):434-452 doi: 10.1006/jcss.1996.0033 [17] Shawe-Taylor J, Bartlett P L, Williamson R C, Anthony M. Structural risk minimization over data-dependent hierarchies. IEEE Transactions on Information Theory, 1998, 44(5):1926-1940 doi: 10.1109/18.705570 [18] Koltchinskii V. Rademacher penalties and structural risk minimization. IEEE Transactions on Information Theory, 2001, 47(5):1902-1914 doi: 10.1109/18.930926 [19] Bartlett P L, Mendelson S. Rademacher and Gaussian complexities:risk bounds and structural results. The Journal of Machine Learning Research, 2003, 3:463-482 http://cn.bing.com/academic/profile?id=59b9b1ed8c26e154cc8cc3bb9f31c21f&encoded=0&v=paper_preview&mkt=zh-cn [20] Bartlett P L, Bousquet O, Mendelson S. Local Rademacher complexities. The Annals of Statistics, 2005, 33(4):1497-1537 doi: 10.1214/009053605000000282 [21] Koltchinskii V. Local Rademacher complexities and oracle inequalities in risk minimization. The Annals of Statistics, 2006, 34(6):2593-2656 doi: 10.1214/009053606000001019 [22] Koltchinskii V, Panchenko D. Rademacher processes and bounding the risk of function learning. High Dimensional Probability II. Boston:Birkhäuser, 2004. 443-457 [23] Bousquet O, Koltchinskii V, Panchenko D. Some local measures of complexity of convex hulls and generalization bounds. Computational Learning Theory. Sydney, Australia:Springer, 2004. 59-73 [24] 张海, 徐宗本. 学习理论综述(I):稳定性与泛化性. 工程数学学报, 2008, 25(1):1-9 http://www.cnki.com.cn/Article/CJFDTOTAL-GCSX200801004.htmZhang Hai, Xu Zong-Ben. A survey on learning theory (I):stability and generalization. Chinese Journal of Engineering Mathematics, 2008, 25(1):1-9 http://www.cnki.com.cn/Article/CJFDTOTAL-GCSX200801004.htm [25] 胡政发. 统计量复杂性估计及其在机器学习中的应用. 自动化学报, 2008, 34(10):1332-1336 http://www.aas.net.cn/CN/abstract/abstract17904.shtmlHu Zheng-Fa. The statistic complexity estimates and its application to machine learning. Acta Automatica Sinica, 2008, 34(10):1332-1336 http://www.aas.net.cn/CN/abstract/abstract17904.shtml [26] 陈将宏. Rademacher复杂性与支持向量机的推广性能[硕士学位论文], 湖北大学, 中国, 2005.Chen Jiang-Hong. Rademacher Complexities and the Generalization Performance of SVM[Master dissertation], Hubei University, China, 2005. [27] Lei Y W, Ying Y M. Generalization analysis of multi-modal metric learning[Online], available:https://www.research-gate.net/publication/282969709, November 3, 2015 [28] Lei Y W, Ding L X, Bi Y Z. Local Rademacher complexity bounds based on covering numbers[Online], available:http://arxiv.org/pdf/1510.01463v1.pdf, October 6, 2015 [29] Lei Y W, Ding L X. Refined rademacher chaos complexity bounds with applications to the multikernel learning problem. Neural Computation, 2014, 26(4):739-760 doi: 10.1162/NECO_a_00566 [30] Lei Y W, Ding L X, Zhang W S. Generalization performance of radial basis function networks. IEEE Transactions on Neural Networks and Learning Systems, 2015, 26(3):551-564 doi: 10.1109/TNNLS.2014.2320280 [31] Lei Y W, Ding L X, Wu W L. Universal learning using free multivariate splines. Neurocomputing, 2013, 119(16):253-263 [32] 雷云文. Rademacher复杂度及其在机器学习中的应用[博士学位论文], 武汉大学, 中国, 2015.Lei Yun-Wen. Rademacher Complexities with Applications to Machine Learning[Ph.D. dissertation], Wuhan University, China, 2015. [33] Xu C, Liu T L, Tao D C, Xu C. Local Rademacher complexity for multi-label learning[Online], available:http://arxiv.org/pdf/1410.6990.pdf, October 26, 2014 [34] Gao W, Zhou Z H. Dropout Rademacher complexity of deep neural networks. Science China:Information Sciences, 2016, 59(7):072104:1-072104:12 doi: 10.1007/s11432-015-5470-z [35] de la Peña V, Giné E. Decoupling:From Dependence to Independence. New York:Springer-Verlag, 1999. [36] Cao Q, Guo Z C, Ying Y M. Generalization bounds for metric and similarity learning. Machine Learning, 2016, 102(1):115-132 doi: 10.1007/s10994-015-5499-7 [37] Mohri M, Medina A M. New analysis and algorithm for learning with drifting distributions. In:Proceedings of the 23rd International Conference on Algorithmic Learning Theory. Lyon, France:Springer-Verlag, 2012. 124-138 [38] Mohri M, Rostamizadeh A. Rademacher complexity bounds for non-I.I.D. processes. In:Proceedings of the 2008 Advances in Neural Information Processing Systems 21. Vancouver, BC, Canada:Curran Associates, Inc., 2008. 1097-1104 [39] Rakhlin A, Sridharan K. On martingale extensions of Vapnik-Chervonenkis theory with applications to online learning. Measures of Complexity. Switzerland:Springer International Publishing, 2015. 197-215 [40] Rakhlin A, Sridharan K, Tewari A. Sequential complexities and uniform martingale laws of large numbers. Probability Theory and Related Fields, 2015, 161(1-2):111-153 doi: 10.1007/s00440-013-0545-5 [41] Rakhlin A, Sridharan K, Tewari A. Online learning:random averages, combinatorial parameters, and learnability. In:Proceedings of the 2010 Advances in Neural Information Processing Systems 23. Vancouver, BC, Canada:Curran Associates, Inc., 2010. 1984-1992 [42] Kuznetsov V, Mohri M. Generalization bounds for time series prediction with non-stationary processes. In:Proceedings of the 25th International Conference on Algorithmic Learning Theory. Bled, Slovenia:Springer International Publishing, 2014. 260-274 [43] Kuznetsov V, Mohri M. Forecasting non-stationary time series:from theory to algorithms[Online], available:http://www.cims.nyu.edu/~vitaly/pub/fts.pdf, July 12, 2016 [44] Anguita D, Ghio A, Oneto L, Ridella S. A deep connection between the Vapnik-Chervonenkis entropy and the Rademacher complexity. IEEE Transactions on Neural Networks and Learning Systems, 2014, 25(12):2202-2211 doi: 10.1109/TNNLS.2014.2307359 [45] Kääriäinen M. Relating the Rademacher and VC Bounds, Technical Report, C-2004-57, Department of Computer Science, University of Helsinki, Finland, 2004. [46] Srebro N, Sridharan K. Note on refined dudley integral covering number bound[Online], available:http://ttic.uchicago.edu/~karthik/dudley.pdf, July 12, 2016 [47] Srebro N, Sridharan K, Tewari A. Smoothness, low noise and fast rates. In:Proceedings of the 2010 Advances in Neural Information Processing Systems 23. Vancouver, BC, Canada:Curran Associates, Inc., 2010. 2199-2207 [48] V'Yugin V V. VC dimension, fat-shattering dimension, Rademacher averages, and their applications. Measures of Complexity. Switzerland:Springer International Publishing, 2015. 57-74 [49] Ying Y M, Campbell C. Rademacher chaos complexities for learning the kernel problem. Neural Computation, 2010, 22(11):2858-2886 doi: 10.1162/NECO_a_00028 [50] Massart P. Some applications of concentration inequalities to statistics. Annales De La Faculté Des Sciences De Toulouse, 2000, 9(2):245-303 doi: 10.5802/afst.961 [51] Gnecco G, Sanguineti M. Approximation error bounds via Rademacher's complexity. Applied Mathematical Sciences, 2008, 2(4):153-176 [52] Boucheron S, Bousquet O, Lugosi G. Theory of classification:a survey of some recent advances. ESAIM:Probability and Statistics, 2005, 9:323-375 doi: 10.1051/ps:2005018 [53] Oneto L, Ghio A, Ridella S, Anguita D. Global Rademacher complexity bounds:from slow to fast convergence rates. Neural Processing Letters, 2016, 43(2):567-602 doi: 10.1007/s11063-015-9429-2 [54] Oneto L, Ghio A, Ridella S, Anguita D. Fast convergence of extended Rademacher complexity bounds. In:Proceedings of the 2015 International Joint Conference on Neural Networks. Killarney, Ireland:IEEE, 2015. 1-10 [55] Oneto L, Ghio A, Anguita D, Ridella S. An improved analysis of the Rademacher data-dependent bound using its self bounding property. Neural Networks, 2013, 44:107-111 doi: 10.1016/j.neunet.2013.03.017 [56] Yu H F, Jain P, Kar P, Dhillon I S. Large-scale multi-label learning with missing labels. In:Proceedings of the 31st International Conference on Machine Learning. Beijing, China, 2014. 593-601 [57] 丁万鼎. 测度论概要. 合肥:安徽人民出版社, 2005.Ding Wan-Ding. Essentials of Measure Theory. Hefei:Anhui People's Publishing House, 2005. [58] Hastie T, Friedman J, Tibshirani R. The Elements of Statistical Learning:Data Mining, Inference, and Prediction. New York:Springer, 2001. [59] van der Vaart A W, Wellner J A. Weak Convergence and Empirical Processes. New York:Springer-Verlag, 1996. [60] Ledoux M, Talagrand M. Probability in Banach Spaces:Isoperimetry and Processes. Berlin:Springer-Verlag, 1991. [61] Dudley R M. The sizes of compact subsets of Hilbert space and continuity of Gaussian processes. Journal of Functional Analysis, 1967, 1(3):290-330 doi: 10.1016/0022-1236(67)90017-1 [62] Lozano F. Model selection using Rademacher penalization. In:Proceedings of the 2nd ICSC Symposium on Neural Networks. London:Academic Press, 2000. [63] Boucheron S, Lugosi G, Massart P. Concentration Inequalities:A Nonasymptotic Theory of Independence. United Kingdom:Oxford University Press, 2013. [64] 周志华. 机器学习. 北京:清化大学出版社, 2016.Zhou Zhi-Hua. Machine Learning. Beijing:Tsinghua University Press, 2016. [65] Mohri M, Rostamizadeh A, Talwalkar A. Foundations of Machine Learning. Cambridge:MIT Press, 2012. [66] 汪洪桥, 孙富春, 蔡艳宁, 陈宁, 丁林阁. 多核学习方法. 自动化学报, 2010, 36(8):1037-1050 doi: 10.3724/SP.J.1004.2010.01037Wang Hong-Qiao, Sun Fu-Chun, Cai Yan-Ning, Chen Ning, Ding Lin-Ge. On multiple kernel learning methods. Acta Automatica Sinica, 2010, 36(8):1037-1050 doi: 10.3724/SP.J.1004.2010.01037 [67] McFee B, Lanckriet G. Learning multi-modal similarity. Journal of Machine Learning Research, 2011, 12:491-523 http://cn.bing.com/academic/profile?id=938f4935300ae26d31169f6fc0730139&encoded=0&v=paper_preview&mkt=zh-cn [68] Xie P T, Xing E P. Multi-modal distance metric learning. In:Proceedings of the 23rd International Joint Conference on Artificial Intelligence. Beijing, China:AAAI, 2013. 1806-1812 [69] Hinton G E, Srivastava N, Krizhevsky A, Sutskever I, Salakhutdinov R R. Improving neural networks by preventing co-adaptation of feature detectors[Online], available:http://arxiv.org/pdf/1207.0580v1.pdf, July 3, 2012 [70] Wan L, Zeiler M, Zhang S X, LeCun Y, Fergus R. Regularization of neural networks using dropconnect. In:Proceedings of the 30th International Conference on Machine Learning. Atlanta, Georgia, USA, 2013. 1058-1066 [71] Rudin W. Functional Analysis (2nd edition). New York:McGraw-Hill, 1991. [72] Mendelson S. A few notes on statistical learning theory. Advanced Lectures on Machine Learning. Berlin Heidelberg:Springer, 2003. 1-40 [73] Sauer N. On the density of families of sets. Journal of Combinatorial Theory, Series A, 1972, 13(1):145-147 doi: 10.1016/0097-3165(72)90019-2 [74] Pollard D. Convergence of Stochastic Processes. New York:Springer-Verlag, 1984. [75] Duan H H. Bounding the fat shattering dimension of a composition function class built using a continuous logic connective[Online], available:http://arxiv.org/pdf/1105.4618v1. pdf, May 23, 2011 [76] Anthony M, Bartlett P L. Neural Network Learning-Theoretical Foundations. Cambridge:Cambridge University Press, 2009. [77] Alon N, Ben-David S, Cesa-Bianchi N, Haussler D. Scale-sensitive dimensions, uniform convergence, and learnability. Journal of the ACM, 1997, 44(4):615-631 doi: 10.1145/263867.263927 [78] Kolmogorov A N, Tihomirov V M. ε-entropy and ε-capacity of sets in functional space. American Mathematical Society Translations, 1961, 17(2):277-364 http://citeseerx.ist.psu.edu/showciting?cid=139921 [79] Bousquet O. New approaches to statistical learning theory. Journal of the Institute of Statistical Mathematics, 2003, 55(2):371-389 http://cn.bing.com/academic/profile?id=672bc751662466966b4cbbca41bef961&encoded=0&v=paper_preview&mkt=zh-cn [80] Wu P C, Hoi S C H, Xia H, Zhao P L, Wang D Y, Miao C Y. Online multimodal deep similarity learning with application to image retrieval. In:Proceedings of the 21st ACM International Conference on Multimedia. New York, USA:ACM, 2013. 153-162 [81] Xia H, Wu P C, Hoi S C H. Online multi-modal distance learning for scalable multimedia retrieval. In:Proceedings of the 6th International Conference on Web Search and Data Mining. New York, USA:ACM, 2013. 455-464 [82] Krzyzak A, Linder T. Radial basis function networks and complexity regularization in function learning. IEEE Transactions on Neural Networks, 1998, 9(2):247-256 doi: 10.1109/72.661120 [83] Niyogi P, Girosi F. On the relationship between generalization error, hypothesis complexity, and sample complexity for radial basis functions. Neural Computation, 1996, 8(4):819-842 doi: 10.1162/neco.1996.8.4.819 [84] Park J, Sandberg I W. Universal approximation using radial-basis-function networks. Neural Computation, 1991, 3(2):246-257 doi: 10.1162/neco.1991.3.2.246 [85] Girosi F. Approximation error bounds that use VC-bounds[Online], available:https://www.researchgate.net/public-ation/2782224_Approximation_Error_Bounds_That_Use_Vc-Bounds, February 18, 2013 [86] Györfi L, Kohler M, Krzyżak A, Walk H. A Distribution-Free Theory of Nonparametric Regression. Berlin:Springer-Verlag, 2010. [87] Haussler D. Decision theoretic generalizations of the PAC model for neural net and other learning applications. Information and Computation, 1992, 100(1):78-150 doi: 10.1016/0890-5401(92)90010-D [88] Yu B. Rates of convergence for empirical processes of stationary mixing sequences. The Annals of Probability, 1994, 22(1):94-116 doi: 10.1214/aop/1176988849 [89] Meir R. Nonparametric time series prediction through adaptive model selection. Machine Learning, 2000, 39(1):5-34 doi: 10.1023/A:1007602715810 [90] Bartlett P L. Learning with a slowly changing distribution. In:Proceedings of the 5th Annual Workshop on Computational Learning Theory. New York, USA:ACM, 1992. 243-252 [91] Mansour Y, Mohri M, Rostamizadeh A. Domain adaptation:learning bounds and algorithms. In:Proceedings of the 22nd Annual Conference on Learning Theory. Montreal, QC:Morgan Kaufmann Publishers, 2009. [92] Anguita D, Ghio A, Oneto L, Ridella S. In-sample and out-of-sample model selection and error estimation for support vector machines. IEEE Transactions on Neural Networks and Learning Systems, 2012, 23(9):1390-1406 doi: 10.1109/TNNLS.2012.2202401 [93] El-Yaniv R, Pechyony D. Transductive Rademacher complexity and its applications. Journal of Artificial Intelligence Research, 2007, 35:193-234 [94] Tolstikhin I, Blanchard G, Kloft M. Localized complexities for transductive learning[Online], available:http://arxiv. org/pdf/1411.7200.pdf, November 26, 2014 [95] Tolstikhin I, Zhivotovskiy N, Blanchard G. Permutational Rademacher complexity. Algorithmic Learning Theory. Switzerland:Springer International Publishing, 2015. 209-223 [96] Chazottes J R, Collet P, Külske C, Redig F. Concentration inequalities for random fields via coupling. Probability Theory and Related Fields, 2007, 137(1):201-225 [97] Belomestny D, Spokoiny V. Concentration inequalities for smooth random fields. Theory of Probability and Its Applications, 2014, 58(2):314-323 doi: 10.1137/S0040585X9798659X [98] Zhu X J, Rogers T T, Gibson B R. Human Rademacher complexity. In:Proceedings of the 2009 Advances in Neural Information Processing Systems 22. Vancouver, BC, Canada:Curran Associates, Inc., 2009. 2322-2330 [99] Vahdat M, Oneto L, Ghio A, Anguita D, Funk M, Rauterberg M. Human algorithmic stability and human Radema-cher complexity. In:Proceedings of the 23rd European Symposium on Artificial Neural Networks, Computational Intelligence and Machine Learning. Bruges, Belgium:Katholieke Universiteit Leuven, 2015. 313-318 [100] Nolan D, Pollard D. U-processes:rates of convergence. The Annals of Statistics, 1987, 15(2):780-799 doi: 10.1214/aos/1176350374 [101] Karlin S, Taylor H M. A First Course in Stochastic Processes (2nd edition). New York:Academic Press, 1975. 期刊类型引用(1)
1. 杨柳,于剑,刘烨,詹德川. 面向认知的多源数据学习理论和算法研究进展. 软件学报. 2017(11): 2971-2991 . 百度学术
其他类型引用(10)
-