2.845

2023影响因子

(CJCR)

  • 中文核心
  • EI
  • 中国科技核心
  • Scopus
  • CSCD
  • 英国科学文摘

留言板

尊敬的读者、作者、审稿人, 关于本刊的投稿、审稿、编辑和出版的任何问题, 您可以本页添加留言。我们将尽快给您答复。谢谢您的支持!

姓名
邮箱
手机号码
标题
留言内容
验证码

结构辨识和参数优化协同学习的概率TSK模糊系统

顾晓清 倪彤光 张聪 戴臣超 王洪元

顾晓清, 倪彤光, 张聪, 戴臣超, 王洪元.结构辨识和参数优化协同学习的概率TSK模糊系统.自动化学报, 2021, 47(2): 349-362 doi: 10.16383/j.aas.c180298
引用本文: 顾晓清, 倪彤光, 张聪, 戴臣超, 王洪元.结构辨识和参数优化协同学习的概率TSK模糊系统.自动化学报, 2021, 47(2): 349-362 doi: 10.16383/j.aas.c180298
Gu Xiao-Qing, Ni Tong-Guang, Zhang Cong, Dai Chen-Chao, Wang Hong-Yuan. Probabilistic TSK fuzzy system in the simultaneous learning of structure identiflcation and parameter optimization. Acta Automatica Sinica, 2021, 47(2): 349-362 doi: 10.16383/j.aas.c180298
Citation: Gu Xiao-Qing, Ni Tong-Guang, Zhang Cong, Dai Chen-Chao, Wang Hong-Yuan. Probabilistic TSK fuzzy system in the simultaneous learning of structure identiflcation and parameter optimization. Acta Automatica Sinica, 2021, 47(2): 349-362 doi: 10.16383/j.aas.c180298

结构辨识和参数优化协同学习的概率TSK模糊系统

doi: 10.16383/j.aas.c180298
基金项目: 

国家自然科学基金 61806026

国家自然科学基金 61572085

江苏省自然科学基金 BK20180956

江苏省教育科学"十三五"规划2018年度课题 Ba/2018/01/41

详细信息
    作者简介:

    顾晓清  常州大学信息科学与工程学院副教授. 2017年获江南大学博士学位.主要研究方向为模式识别和机器学习.E-mail:czxqgu@163.com

    张聪  常州大学信息科学与工程学院硕士研究生.主要研究方向为模糊理论.E-mail:18000052@smail.cczu.edu.cn

    戴臣超  常州大学信息科学与工程学院硕士研究生.主要研究方向为机器学习.E-mail:17000138@smail.cczu.edu.cn

    王洪元  常州大学信息科学与工程学院教授. 2004年获南京理工大学博士学位.主要研究方向为人工智能.E-mail:hywang@cczu.edu.cn

    通讯作者:

    倪彤光  常州大学信息科学与工程学院副教授. 2014年获江南大学博士学位.主要研究方向为人工智能.本文通信作者. E-mail:hbxtntg-12@163.com

Probabilistic TSK Fuzzy System in the Simultaneous Learning of Structure Identiflcation and Parameter Optimization

Funds: 

National Natural Science Foundation of China 61806026

National Natural Science Foundation of China 61572085

National Natural Science Foundation of Jiangsu Province BK20180956

Topics of the 13th Five-Year Plan for Educational Science in Jiangsu Province in 2018 Ba/2018/01/41

More Information
    Author Bio:

    GU Xiao-Qing   Associate professor at the School of Information Science and Engineering, Changzhou University. She received her Ph. D. degree from Jiangnan University in 2017. Her research interest covers pattern recognition and machine learning

    ZHANG Cong   Master student at the School of Information Science and Engineering, Changzhou University. His main research interest is fuzzy theory

    DAI Chen-Chao   Master student at the School of Information Science and Engineering, Changzhou University. His main research interest is machine learning

    WANG Hong-Yuan   Professor at the School of Information Science and Engineering, Changzhou University. He received his Ph. D. degree from Nanjing University of Science and Technology in 2004. His main research interest is artiflcial intelligence

    Corresponding author: NI Tong-Guang   Associated professor at the School of Information Science and Engineering, Changzhou University. He received his Ph. D. degree from Jiangnan University in 2014. His main research interest is artiflcial intelligence. Corresponding author of this paper.E-mail:hbxtntg-12@163.com
  • 摘要: 传统Takagi-Sugeno-Kang (TSK)模糊系统的结构辨识和参数优化往往分阶段进行, 同时模糊规则数需要预先设定, 因此TSK模糊系统的逼近性能和解释性往往不理想.针对此问题, 提出了一种结构辨识和参数优化协同学习的概率TSK模糊系统(Probabilistic TSK fuzzy system, PTSK).首先, PTSK使用概率模型表示模糊回归系统, 将结构辨识和参数优化作为一个整体来考虑.其次, PTSK不借助于专家经验, 使用粒子滤波方法对规则数和前后件参数协同学习, 得到系统全部参数的最优解.实验结果表明, PTSK具有良好的逼近性能, 同时能获得较少的模糊规则数.
    Recommended by Associate Editor XU Bin
  • 模糊推理系统(Fuzzy inference system, FIS)以模糊集合和模糊推理为基础, 能够将自然语言直接转译成计算机语言, 使得机器具有表达模糊语意的能力, 目前被广泛应用在时间序列分析、工业控制和故障诊断等方面[1-2].相比大多数智能模型, FIS的优势在于: 1) FIS具有很强的面向不确定系统的构建能力, 能模拟人类专家知识和推理的不确定性; 2)不像SVM和神经网络等被视为一个黑箱, FIS具有良好的基于规则的解释性; 3) FIS具有强大的学习能力, 能利用模糊逻辑较强的结构性知识表达, 也可以像神经网络等模型一样利用数据集信息对模型参数进行优化学习.由Takagi, Sugeno和Kang提出的Takagi-Sugeno-Kang (TSK)模糊系统, 又称TSK模糊模型, 因其结构简单和逼近能力强, 是一种常用的FIS工具[2]. TSK模糊系统使用具有解释性的"IF-THEN"规则来定义系统的规则库, 规则库的构建工作由2部分组成:规则结构的辨识和规则参数的优化.规则结构的辨识指为系统的输入空间找到合适的模糊划分; 规则参数的优化则指确定模糊规则前件和后件的参数.其中, 选择合适的模糊规则数是结构辨识的核心工作[3].模糊规则数过多会导致模糊系统复杂化, 易产生过拟合现象; 模糊规则数过少则导致系统逼近性能不佳.

    目前, 确定模糊规则数最简单的方法是基于网格的输入空间划分法.特征数是$d$的数据集, 如使用固定$m$网格的输入空间划分法, 共提取到$m^{d}$条模糊规则数.显然这一方法不适用于高维数据[4].确定模糊规则数的另一类常用方法是聚类算法[5-6], 聚类法TSK模糊系统的一大优点是能获得较小规模的规则数, 但模糊规则数往往需要预先设定, 如文献[5-7]使用交叉验证的方法获得模糊规则数的最优值.虽然一些聚类有效性指标如Xie-Beni指标和Mountainpotential指标等能用于聚类数的选择, 但这些有效性指标用于确定模糊规则数时往往效果不佳[8].此外, 聚类法TSK模糊系统在优化模糊规则的前件和后件参数时往往分阶段计算, 这种学习策略的优点是时间复杂度相对较低, 但其存在一个严重的缺陷:无法捕捉输入空间和输出空间之间的内在联系, 因此得到的TSK模糊系统的逼近性能往往达不到最优.为解决这一问题, 近年来一些学者开始研究前件和后件参数的联合学习方法, 如文献[9]使用迭代线性支持向量回归机来联合学习前件和后件参数, 文献[10]建立了前件和后件参数联合学习的贝叶斯推理模型, 并使用Metropolis-Hastings (MH)采样方法求解参数的最优解.然而这两个算法仍需事先设定模糊规则数.

    众所周知, 模糊理论和概率模型是常用于描述复杂问题不确定的两类方法.但两者的侧重点不同:模糊理论能较好地描述自然语言的不确定性, 即语义的不确定性; 概率模型能较好地描述由系统固有偶然性或变异性带来的随机不确定性, 即系统性能或预测结果的不确定性[11]. Zadeh在文献[11]中首次提出了"概率和模糊互补多于竞争"这一思想, 认为两者通过协同学习可以提高系统的性能.受这一思想启发, 本文提出了一种结构辨识和参数优化协同学习的概率TSK模糊系统(Probabilistic TSK fuzzy system, PTSK). PTSK的核心思想是将数据的输入/输出空间、系统结构和规则参数作为一个整体来考虑, 并基于概率理论使用概率模型来构建模糊回归系统.不借助于专家经验, 基于最大后验概率估计(Maximum-a-posteriori, MAP), PTSK使用粒子滤波方法[12]同时得到模糊规则数、规则前件/后件参数的最优解. PTSK模糊系统的优点有: 1)以一种协同学习的形式构建了基于概率模型的TSK模糊系统.该系统兼具统计学和模糊逻辑的优点, 能有效处理非线性回归问题. 2)不同于传统聚类法TSK模糊系统使用"黑盒"策略(如网格搜索法)优化模糊规则数的方法, PTSK无需任何专家经验, 使用粒子滤波方法能自动学习模糊规则的所有参数. 3) PTSK充分挖掘数据集的整体特征, 同时考虑输入空间和输出空间对模糊规则参数的影响.实验结果表明PTSK兼具强解释性和良好逼近性能的特点.

    TSK模糊系统规则库中的第$k$个模糊规则可用以下形式表示:

    $$ \begin{align} & R^{k}: {\text{IF}}~ x_{1} ~{\text{is}} ~A_{k1}^{{}}, ~x_{2}~{\rm is}~ A_{k2}^{{}}, \cdots, x_{d}(k)~ {\rm is}~ A_{kd}^{{}}, \nonumber \\& {\text{THEN}} ~ \!f_{k}({\pmb{x}})= v_{k0} +\sum\limits_{j=1}^{d}{{{v}_{kj}}}{{x}_{j}}, k =1, \cdots, K \end{align} $$ (1)

    其中${{x}_{1}}, {{x}_{2}}, \cdots , {{x}_{d}}$是输入向量${\pmb{x}}$的$d$维分量, ${{{\pmb{A}}}_{k}}$ (${{{{\pmb{A}}}}_{k}}={{[{{{A}}}_{k 1}^{{}}, {{A}}_{k2}^{{}}, \cdots, {{A}}_{kd}^{{}}]}^{\rm T}}$)是输入空间的模糊子集, $K$是模糊规则数.令${{{\pmb{v}}}_{k}}={{[{{{\pmb{v}}}_{k0}}, {{{\pmb{v}}}_{k1}}, \cdots , {{{\pmb{v}}}_{kd}}]}^{\rm T}}$, ${\tilde{{\pmb{x}}}}={{[1, {\pmb{x}}_{{}}^{\rm T}]}^{\rm T}}$, 模糊规则THEN部分的${{f}_{k}}({\pmb{x}})$可以写成:

    $$ \begin{equation} {{f}_{k}}({\pmb{x}})={\pmb{v}}_k^{\rm T}{\tilde{{\pmb{x}}}}\end{equation} $$ (2)

    令${{\mu }_{k}}({\pmb{x}})$是第$k$条模糊规则的隶属度函数, 其值可由各维对应的隶属度值通过合取操作获得,

    $$ \begin{equation} {{\mu }_{k}}({\pmb{x}})=\prod\limits_{i=1}^{d}{{{\mu }_{{{{\pmb{A}}}_{ki}}}}({{x}_{i}})} \end{equation} $$ (3)

    ${{\tilde{\mu }}_{k}}({\pmb{x}})$为第$k$条模糊规则对应的归一化后的隶属度函数, 其值可由下式计算得到:

    $$ \begin{equation}{{\tilde{\mu }}_{k}}({\pmb{x}})=\frac{{{\mu }_{k}}({\pmb{x}})}{\sum\limits_{{k}'=1}^{K}\mu _{k}'({\pmb{x}})} \end{equation} $$ (4)

    若引入高斯函数作为隶属度函数, 式(3)中${{\mu }_{{{{\pmb{A}}}_{ki}}}}({{x}_{i}})$可表示为:

    $$ \begin{equation} {{\mu }_{{{{\pmb{A}}}_{ki}}}}({{x}_{i}})=\exp\left(\frac{-{{\left\| {{x}_{i}}-{{c}_{ki}} \right\|}^{2}}}{{{\delta }_{ki}}}\right) \end{equation} $$ (5)

    其中隶属度函数的中心${{c}_{ki}}$和方差${{\delta}_{ki}}$被称为模糊规则的前件参数.TSK模糊系统的实值输出$\hat{y}$为:

    $$ \begin{equation} \hat{y}=\sum\limits_{k=1}^{K}{{{{\tilde{\mu }}}_{k}}({\pmb{x}})}{{f}_{k}}({\pmb{x}}) \end{equation} $$ (6)

    表 1比较了聚类法TSK模糊系统中常用的规则前件/后件参数学习方法.系统中每一个聚类划分转化为一条模糊规则.此时式(5)中的隶属度函数中心${{{\pmb{c}}}_{k}}$为聚类中心, 方差${{\bf{ \pmb{\mathsf{ δ}} }}_{k}}$可由下式计算得到:

    $$ \begin{align} \delta _{ki}^{2}= &\sum\limits_{{\pmb{x}}\in {{{\pmb{c}}}_{k}}}\frac{{{({{x}_{ji}}-c_{ki}^{{}})}^{2}}} {{N}_{k}}, \nonumber \\&i=1, \cdots, d, \ k=1, \cdots, K \end{align} $$ (7)
    表 1  聚类法TSK模糊系统中常用的模糊规则前件/后件参数学习方法
    Table 1  The common learning methods for the antecedent/consequent parameters in the clustering based TSK fuzzy system
    前件参数学习
    FCM模糊聚类[5] 优点 获得的空间划分具有模糊性, 算法实现简单
    缺点 聚类数需要预先设定
    Gustafson-Kessel[13]和Gath-Geva聚类[14] 优点 均使用诱导矩阵识别数据集的结构
    缺点 矩阵计算量较大
    One-pass聚类[15] 优点 数据集只需要遍历一遍即可完成空间划分, 适用于增量或在线学习模式
    缺点 对凸型数据分布识别较差; 且与聚类数有关的参数需要预先设定
    后件参数学习
    最小二乘法[3, 8] 优点 最常用; 显式地得到后件参数的解析解, 计算简单
    缺点 对噪声数据敏感
    支持向量回归机[15] 优点 保证参数的全局最优解, 逼近性能较强
    缺点 二次规划问题求解的计算量较大
    进化计算[4] 优点 模拟自然随机优化算法, 不依赖对象的数学模型
    缺点 遗传编码的选择较难解决, 时间复杂度较高
    反向传播算法[16] 优点 在小数据集上很快达到局部最优解
    缺点 收敛较慢, 不适用于大规模数据集
    下载: 导出CSV 
    | 显示表格

    其中$N_{k}^{{}}$是第$k$个聚类中样本的个数.若采用最小二乘法求解后件, TSK模糊系统的目标函数可写成:

    $$ \begin{align} \underset{{\pmb{V}}}{\mathop{\min }} \ &\sum\limits_{i=1}^{N}{{{({{y}_{i}}-{{{\hat{y}}}_{i}})}^{2}}}= \sum\limits_{i=1}^{N}{{{({{y}_{i}}-{{{\pmb{V}}}^{\rm T}}\phi ({\pmb{x}}))}^{2}}} =\nonumber\\ &{{({\pmb{Y}}-\phi ({\pmb{X}}){\pmb{V}})}^{\rm T}}({\pmb{Y}}- \phi ({\pmb{X}}){\pmb{V}}) \end{align} $$ (8)

    其中$\phi ({\pmb{x}})={{[{{({{\mu }_{1}}({\pmb{x}}){{{\pmb{x}}}_{e}})}^{\rm T}}, \ \cdots, {{({{\mu }_{K}}({\pmb{x}}){{{\pmb{x}}}_{e}})}^{\rm T}}]}^{\rm T}}$, ${{{\pmb{x}}}_{e}}={{[1, \ {{{\pmb{x}}}^{\rm T}}]}^{\rm T}}$.后件参数矩阵${\pmb{V}}$则可通过下式求解得到:

    $$ \begin{equation} {\pmb V}={{(\phi {{({\pmb{X}})}^{\rm T}}\phi ({\pmb{X}}))}^{-1}}\phi {{({\pmb{X}})}^{\rm T}}{\pmb{Y}} \end{equation} $$ (9)

    给定输入数据集${\pmb{X}}=\{{{{\pmb{x}}}_{i}}, i=1, 2, \cdots, N, {{{\pmb{x}}}_{i}}\in {{{\bf{R}}}^{d}}\}$和对应的输出集${\pmb{Y}}=\{{{y}_{i}}, i=1, 2, \cdots, N, {{y}_{i}} \in {\bf{R}}\}$, PTSK关于输入/输出数据、规则数和前件/后件参数的联合概率表示为$p({\pmb{X}}, K, {\pmb{U}}, {\pmb{C}}, {\pmb{Y}}, {\pmb{V}})$, 其中4个待优化参数分别是模糊规则数$K$, 聚类中心矩阵${\pmb{C}}$, 模糊划分矩阵${\pmb{U}}$和后件参数矩阵${\pmb{V}}$.根据贝叶斯概率, $p({\pmb{X}}, K, {\pmb{U}}, {\pmb{C}}, {\pmb{Y}}, {\pmb{V}})$可以表示为:

    $$ \begin{align} &p({\pmb{X}}, K, {\pmb{U}}, {\pmb{C}}, {\pmb{Y}}, {\pmb{V}})=p({\pmb{X}}|K, {\pmb{U}}, {\pmb{C}}, {\pmb{Y}}, {\pmb{V}})\cdot \nonumber\\ &\qquad p({\pmb{U}}|K, {\pmb{C}}, {\pmb{Y}}, {\pmb{V}})p({\pmb{C}}, {\pmb{Y}}, {\pmb{V}}|K)p(K) \end{align} $$ (10)

    式(10)由4个因子构成.下面对这4个因子展开叙述.

    1) $p({\pmb{X}}|K, {\pmb{U}}, {\pmb{C}}, {\pmb{Y}}, {\pmb{V}})$:聚类法TSK模糊系统中每一个聚类对应一条模糊规则.此时, 条件似然$p({\pmb{X}}|K, {\pmb{U}}, {\pmb{C}}, {\pmb{Y}}, {\pmb{V}})$仅与聚类数$K$, 模糊隶属度矩阵${\pmb{U}}$和聚类中心矩阵${\pmb{C}}$有关, 等价于$p({\pmb{X}}|K, {\pmb{U}}, {\pmb{C}})$. PTSK假设${{{\pmb{x}}}_{n}}$的先验是$K$个正态分布的乘积, 正态分布的中心为聚类中心${{{\pmb{c}}}_{k}}$, 协方差是其模糊隶属度分量$u_{nk}^{{}}$构成的单位阵$\frac{K{\pmb{I}}}{u_{nk}^{m}}$, 即

    $$ \begin{align} &p({{{\pmb{x}}}_{n}}|K, {\pmb{U}}, {\pmb{C}})=\prod \limits_{k=1}^{K}{\mathcal{N}\left({{{\pmb{x}}}_{n}}| \bf{ \pmb{\mathsf{ μ}} }={{{\pmb{C}}}_{k}}, \ \bf{\Lambda }= \frac{K{\pmb{I}}}{u_{nk}^{m}}\right)} =\nonumber\\ &\quad \frac{1}{2{{\pi }^{\frac{d}{2}}}}\prod\limits_{k=1}^{K} {{{\left(\frac{u_{nk}^{m}}{K}\right)}^{\frac{d}{2}}}}\exp\left(-\frac{1}{2K}u_{nk}^{m} {{\left\| {{{\pmb{x}}}_{n}}-{{{\pmb{C}}}_{k}} \right\|}^{2}}\right) \end{align} $$ (11)

    其中$m$是模糊指数.输入数据${\pmb{X}}$中的每个样本都满足独立同分布, 条件似然$p({\pmb{X}}|K, {\pmb{U}}, {\pmb{C}}, {\pmb{Y}}, {\pmb{V}})$可表示为全部样本的正态分布先验的乘积, 即

    $$ \begin{array}{l} p\left( {\mathit{\boldsymbol{X}}{}\left| {K,\mathit{\boldsymbol{U}}{}} \right.,\mathit{\boldsymbol{Y}},\mathit{\boldsymbol{C}}} \right) =\prod \limits_{n = 1}^N p\left( {{\mathit{\boldsymbol{x}}_n}\left| {K,\mathit{\boldsymbol{U}},C} \right.} \right).\\ \propto \left( {\prod \limits_{n = 1}^N \prod \limits_{k = 1}^K {{\left( {\frac{{u_{nk}^m}}{K}} \right)}^{\frac{d}{2}}}} \right).\\ \exp \left( { - \frac{1}{{2K}}\mathop \sum \limits_{n = 1}^N \mathop \sum \limits_{k = 1}^K u_{nk}^m{{\left\| {{\mathit{\boldsymbol{x}}_n} - {\mathit{\boldsymbol{c}}_k}} \right\|}^2}} \right) \end{array} $$ (12)

    2) $p({\pmb{U}}|K, {\pmb{C}}, {\pmb{Y}}, {\pmb{V}})$:模糊划分矩阵${\pmb{U}}$仅与聚类个数$K$和聚类中心矩阵${\pmb{C}}$有关, 且每个样本对应的模糊隶属度相互独立, 因此${\pmb{U}}$的条件似然可以写成$p({\pmb{U}}|K, {\pmb{C}}, {\pmb{Y}}, {\pmb{Y}})=\prod_{n=1}^{N}{p\text{(}{{{\pmb{U}}}_{n}}|K, {\pmb{C}})}$.狄利克雷(Dirichlet)分布是一种多变量连续概率分布, 其每个分量均大于0且每一维度之和为1.文献[17]使用狄利克雷分布来构造模糊聚类的模糊隶属度.拉普拉斯(Laplace)分布较正态分布在中心点处有较高的峰度, 文献[18]使用拉普拉斯分布来提高聚类模型的稀疏性.因此, PTSK在模糊划分矩阵${\pmb{U}}$的条件似然中同时考虑狄利克雷和拉普拉斯分布, $p({\pmb{U}}|K, {\pmb{C}}, {\pmb{Y}}, {\pmb{V}})$可以写成:

    $$ \begin{align} p({{{\pmb{u}}}_{n}}|K, {\pmb{C}})&= \left(\prod\limits_{k=1}^{K}{{\left(\frac{u_{nk}^{m}}{K}\right)}^ {-\frac{d}{2}}}\right){\rm Dirichlet}{({{{\pmb{u}}}_{n}}| α)}^{\frac{1}{K}}\cdot\nonumber\\ & \prod\limits_{k=1}^{K}{\rm Laplace}{{\left({{u}_{nk}}|1, \frac{1}{\beta }\right)}^{\frac{1}{K}}} \end{align} $$ (13)

    式(13)第1项用于消去式(12)中的$\prod_{k=1}^{K}{{{(u_{nk}^{m}/K)}^{d/2}}}$项.狄利克雷分布Dirichlet$({{{\pmb{u}}}_{n}}|\bf{ \pmb{\mathsf{ α}} })$的形式为:

    $$ \begin{equation} {\rm Dirichlet}({{{\pmb{u}}}_{n}}|α)=\frac{1}{{\pmb{B}}(\bf{ \pmb{\mathsf{ α}} })}\prod\limits_{k=1}^{K}{u_{_{nk}}^{{{\alpha }_{k}}-1}} \end{equation} $$ (14)

    其中$\bf{ \pmb{\mathsf{ α}} }={{[{{\alpha }_{1}}, {{\alpha }_{2}}, \cdots , {{\alpha }_{K}}]}^{\rm T}}$是狄利克雷参数, ${\pmb{B}}(\bf{ \pmb{\mathsf{ α}}})$是一个正常数.第3项$K$维拉普拉斯分布的形式为:

    $$ \begin{align} & \prod\limits_{k=1}^{K}{{\rm Laplace}{{\left({{u}_{nk}}|1, \frac{1}{\beta }\right)}^ {\frac{1}{K}}}}=\nonumber\\ &\qquad \prod\limits_{k=1}^{K}\left(\frac{1}{\beta }\exp(-\beta \left| {{u}_{nk}}-1 \right|)\right)^\frac{1}{K}=\nonumber\\ &\qquad\frac{\beta }{2}\exp(-\beta )\exp\left(\frac{\beta }{K}\right) \end{align} $$ (15)

    其中$\beta $是拉普拉斯分布的尺度参数.因为${{u}_{nk}}$在[0, 1]之间且满足$\sum_{k=1}^{K}{u_{nk}^{{}}=1}$, 化简后其值在上式中被消去.对式(13)~(15)进行整理, $p({\pmb{U}}|K, {\pmb{C}}, {\pmb{Y}}, {\pmb{V}})$可以写成以下形式

    $$ \begin{align} p({\pmb{U}}|K, &{\pmb{C}}, {\pmb{Y}}, {\pmb{V}})=\prod\limits_{n=1}^{N}{p\text{(}{{{\pmb{u}}}_{n}}|K, {\pmb{C}})}\propto\nonumber\\ & \prod\limits_{n=1}^{N}\left[\left(\prod\limits_{k=1}^{K} {\left(\frac{u_{nk}^{m}}{K}\right)}^{-\frac{d}{2}}\right){\rm Dirichlet}({{{\pmb{u}}}_{n}}|\bf{ \pmb{\mathsf{ α}} })^{\frac{1}{K}}\right]\cdot\nonumber\\ &\left({K}^{-\frac{Kd}{2}}\right)\exp\left(\frac{\beta N}{K}\right) \end{align} $$ (16)

    3) $p({\pmb{C}}, {\pmb{Y}}, {\pmb{V}}|K)$:在给定模糊规则数的情况下, PTSK在条件似然$p({\pmb{C}}, {\pmb{Y}}, {\pmb{V}}|K)$中考虑系统在$K$条模糊规则上的平均估计误差, 即

    $$ \begin{equation} p({\pmb{C}}, {\pmb{Y}}, {\pmb{V}}|K)=\exp\left(-\frac{1}{2K} \sum\limits_{n=1}^{N}{({{y}_{n}}-{{{\hat{y}}}_{n}}}{{)}^{2}}\right) \end{equation} $$ (17)

    其中${{\hat{y}}_{n}}$是PTSK模糊系统中第$n$个样本的实际输出.指数函数$\exp(-{{x}^{2}})$呈现单调递减性, 当$\sum_{n=1}^{N}{({{y}_{n}}-{{{\hat{y}}}_{n}}}{{)}^{2}}$趋近于最小值时, 使用最大后验概率估计能得到系统参数的最优值.

    4) $p(K)$:模糊规则数是正整数, 其服从离散分布.其分布可采用两种方法:一种是假设模糊规则数服从离散均匀分布, 即$p(K)={\rm discrete}(K)=1/l$, 其中$l$是区间内离散值的个数.此时模糊规则数的选取等价于网格搜索法.另一种是使用泊松过程或泊松分布[12].因为离散均匀分布的区间上界不易设定, 本文设定模糊规则数的先验分布服从泊松分布:

    $$ \begin{equation} p(K)={\rm Poisson}(K, \lambda )=\frac{{{\lambda }^{K}}\exp(-\lambda )}{K!} \end{equation} $$ (18)

    其中$\lambda$是形状参数, 参照文献[19], $\lambda ={\rm lg}N$.

    将式(12), (16), (17)和(18)相乘, 得到PTSK关于数据、规则数和前件/后件参数的联合概率模型:

    $$ \begin{align} p({\pmb{X}}, &K, {\pmb{U}}, {\pmb{C}}, {\pmb{Y}}, {\pmb{V}})= p({\pmb{X}}|K, {\pmb{U}}, {\pmb{C}}, {\pmb{Y}}, {\pmb{V}})\cdot \nonumber\\ & p({\pmb{U}}|K, {\pmb{C}}, {\pmb{Y}}, {\pmb{V}})p({\pmb{C}}, {\pmb{V}}, {\pmb{Y}}|K)p(K)\propto\nonumber\\ & \exp\left(-\frac{1}{2K}\sum\limits_{n=1}^{N}{\sum \limits_{k=1}^{K}{u_{nk}^{m}||{{{\pmb{x}}}_{n}}- {{{\pmb{c}}}_{k}}|{{|}^{2}}}}\right) \cdot\nonumber\\ & \prod\limits_{n=1}^{N}{\prod\limits_{k=1}^{K}{{{(u_{nk}^{{{\alpha }_{k}}-1})}^{\frac{1}{K}}}}} \exp\left(\frac{\beta N}{K}\right)\cdot\nonumber\\ & \exp(-\frac{1}{2K}\sum\limits_{n=1}^{N}{{{\text{(}{{y}_{n}}-{{{\hat{y}}}_{n}})}^{2}}}) \frac{{{\lambda }^{K}}}{K!}\exp(-\lambda) \end{align} $$ (19)

    对上式取自然对数, 可以得到PTSK的目标函数:

    $$ \begin{align} J= &-\frac{1}{2K}\sum\limits_{n=1}^{N}{\sum\limits_{k=1}^{K}{u_{nk}^{m}||{{{\pmb{x}}}_{n}}-{{{\pmb{c}}}_{k}}|{{|}^{2}}}} +\nonumber\\ &\frac{1}{K}\left( \sum\limits_{n=1}^{N}{\sum\limits_{k=1}^{K}{({{\alpha }_{k}}-1) \lg{{u}_{nk}}}} \right)+\frac{\beta N}{K}-\nonumber\\ &\frac{1}{2K}\sum\limits_{n=1}^{N}{{{\text{(}{{y}_{n}}- {{{\hat{y}}}_{n}})}^{2}}}+K\lg\lambda -\sum\limits_{k=1}^{K}{\lg k} \end{align} $$ (20)

    从式(19)和(20)可以看成, PTSK将数据的输入/输出空间、规则数的识别和前件/后件参数的优化视作一个整体, 得到的规则数和前件/后件参数一定是相互依赖、密切相关的.当式(20)联合概率模型达到MAP值时, PTSK中参数$\left\{K, {\pmb{U}}, {\pmb{C}}, {\pmb{V}} \right\}$同时得到最优解.

    粒子滤波方法是一种序贯蒙特卡罗方法, 使用带权值的随机粒子按照序贯重要性采样方法递归估计状态变量的后验概率分布.粒子滤波方法还具有噪声容忍性强和模型初始状态不敏感的优点. PTSK采用粒子滤波方法求得式(20)的最大后验估计. PTSK结构辨识和参数优化的协同学习示意图如图 1所示.

    图 1  PTSK结构辨识和参数优化的协同学习示意图
    Fig. 1  The diagram of simultaneous learning of structure identiflcation and parameter optimization in PTSK

    图 1可以看出, PTSK结构辨识和参数优化的协同学习由一系列迭代过程构成.在算法初始化阶段, PTSK创建一组带权重的离散粒子$WDP[r]={{\{\{K, {\pmb{U}}, {\pmb{C}}, {\pmb{V}}\}, ll\}}^{\rm T}}~(r=1, 2, \cdots, P)$, 其中$ll$是式(20)对应的目标函数的值, $P$是粒子数. PTSK设置各粒子模糊规则数$K$的初值为1, 模糊隶属度矩阵${\pmb{U}}$的元素初值为${{u}_{i1}=1}~(i=1, 2, \cdots, N)$, 聚类中心矩阵${\pmb{C}}$的元素初值${{c}_{i}}_{\text{1}}$为输入数据${\pmb{X}}$的均值. PTSK创建候选最优粒子集$CAND$, 设置$CAND[1]=WDP[1]$.下面详细介绍第$n$次迭代过程, 其主要由4个步骤构成:

    1) 采样.使用式(18)对模糊规则数${{K}^{*}}$进行采样, 其泊松分布的均值为当前规则数$K$.如果新采样的模糊规则数${{K}^{*}}$小于当前规则数$K$, 从聚类中心矩阵${\pmb{C}}$中随机选择${{K}^{*}}$个中心作为当前聚类中心矩阵; 如果新采样的模糊规则数${{K}^{*}}$大于当前规则数$K, $则保留当前聚类中心矩阵${\pmb{C}}$, 并使用$d$维拉普拉斯分布采样${{K}^{*}}-K$个新聚类中心

    $$ \begin{equation} {{{\pmb c}}_{k}}\sim \prod\limits_{i=1}^{d}{{\rm Laplace}({{e}_{i}}, \gamma )} =\prod\limits_{i=1}^{d}\frac{1}{2\gamma } \exp\left(-\frac{\left| \left. {{e}_{i}} \right| \right.} {\gamma }\right) \end{equation} $$ (21)

    其中拉普拉斯分布的位置参数${\pmb{e}}$是输入数据${\pmb{X}}$的均值, $\gamma $是尺度参数.经过大量实验, $\gamma $取值为5.

    2) 参数优化.这一步骤的工作是根据采样得到的模糊规则数${{K}^{*}}$对参数$\left\{ {\pmb{U}}, {\pmb{C}}, {\pmb{V}}\right\}$进行优化.

    a) 优化模糊隶属度矩阵${{\pmb{U}}}$.随着模糊规则数$K$的变化, 模糊隶属度矩阵${{\pmb{U}}}$也相应变化.由于对模糊隶属度的取值无先验知识, PTSK假设模糊隶属度服从平坦型狄利克雷(Flat Dirichlet)分布[20], 此时狄利克雷分布参数$\bf{ \pmb{\mathsf{ α}}}$中各分量为1.狄利克雷分布能保证所采样的模糊隶属度元素满足${{u}_{nk}}\ge 0$且$\sum_{k=1}^{K}{{{u}_{nk}}}=1$, 将其作为约束条件改造式(20)可得:

    $$ \begin{align} {J}{'}= &-\frac{1}{2K}\sum\limits_{n=1}^{N} {\sum\limits_{k=1}^{K}{u_{nk}^{m}||{{{\pmb{x}}}_{n}}- {{{\pmb{c}}}_{k}}|{{|}^{2}}}}+\frac{\beta N}{K} -\nonumber\\ &\frac{1}{2K}\sum\limits_{n=1}^{N}{\sum\limits_{k=1}^{K} {{{{\tilde{w}}}_{k, n}}{{({{y}_{n}}-{\pmb{v}}_{k}^{\rm T}{{\tilde{{\pmb{x}}}}_{n}})}^{2}}}}+K\lg\lambda -\nonumber\\ & \sum\limits_{k=1}^{K}{\lg k}+\sum\limits_{n=1}^{N}{{{\eta }_{n}}(\sum\limits_{k=1}^{K}{{{u}_{nk}}-1)}} \end{align} $$ (22)

    其中${{\eta }_{n}}$是拉格朗日乘子.上式得到极值的必要条件为$\partial {{J}{'}}/\partial {{u}_{nc}}=0$, 可得${{u}_{nc}}$的解析解:

    $$ \begin{equation} {{u}_{nk}}=\frac{{{\left\| {{{\pmb{x}}}_{n}}-{{{\pmb{c}}}_{k}} \right\|}^{\frac{2}{1-m}}}}{\sum\limits_{k=1}^{K}{{{\left\| {{{\pmb{x}}}_{n}}-{{{\pmb{c}}}_{k}} \right\|}^{\frac{2}{1-m}}}}} \end{equation} $$ (23)

    当前隶属度函数的宽度矩阵$\bf{ \pmb{\mathsf{ δ}}}$和后件参数矩阵${{\pmb{V}}}$可以分别通过式(7)和式(9)计算得到.

    b) 优化聚类中心矩阵${{\pmb{C}}}$.固定模糊规则数$K$和模糊隶属度矩阵${{\pmb{U}}}$, 此时式(20)得到极值的必要条件为$\partial J/\partial c_{ki}^{{}}=0$, 可得$c_{ki}^{{}}$的解析解:

    $$ \begin{align} &{{c}_{ki}}= \frac{\frac{\sum\limits_{n=1}^{N}{u_{nk}^{m}{{x}_{ni}}}}{K}+2 \sum\limits_{n=1}^{N}{({{y}_{n}}-{{{\hat{y}}}_{n}})\times \frac{{{f}_{k}}({{{\pmb{x}}}_{n}})\times \sum\limits_{k=1}^{K}{{{\mu }_{k}}({{{\pmb{x}}}_{n}})-\sum\limits_{k=1}^{K}{{{f}_{k}} ({{{\pmb{x}}}_{n}})\times {{\mu }_{k}}({{{\pmb{x}}}_{n}})}}}{(\sum\limits_{k=1}^{K}{{{\mu }_{k}}({{{\pmb{x}}}_{n}}){{)}^{2}}}}\times {{\mu }_{k}}({{{\pmb{x}}}_{n}})\times \frac{{{x}_{ni}}}{\delta _{i}^{k}}}}{\frac{\sum\limits_{n=1}^{N}{u_{nk}^{m}}}{K}+2 \sum\limits_{n=1}^{N}{({{y}_{n}}-{{{\hat{y}}}_{n}})\times \frac{{{f}_{k}}({{{\pmb{x}}}_{n}})\times \sum\limits_{k=1}^{K}{{{\mu }_{k}}({{{\pmb{x}}}_{n}})-\sum\limits_{k=1}^{K}{{{f}_{k}} ({{{\pmb{x}}}_{n}})\times {{\mu }_{k}}({{{\pmb{x}}}_{n}})}}}{(\sum\limits_{k=1}^{K}{{{\mu }_{k}}({{{\pmb{x}}}_{n}}){{)}^{2}}}}\times {{\mu }_{k}}({{{\pmb{x}}}_{n}})\times \frac{1}{\delta _{i}^{k}}}} \end{align} $$ (24)

    c) 优化后件参数矩阵${\pmb{V}}$.优化模糊划分矩阵${{\pmb{U}}}$和聚类中心矩阵${{\pmb{C}}}$后, 此时式(20)得到极值的必要条件为$\partial J/\partial {\pmb{V}}=0$, 可得${{\pmb{V}}}$的解析解的形式与式(9)相同.

    d) 计算粒子对应的目标函数值.在优化了每个粒子对应的参数$\left\{ K, {\pmb{U}}, {\pmb{C}}, {\pmb{V}}\right\}$后, 每个粒子对应的目标函数值$ll$可通过计算式(20)得到.

    3) 粒子更新.检查粒子集$WDP$中的每个粒子的$ll$值能否提高当前模糊规则数对应的目标函数值, 如果是, 则将该粒子替换当前模糊规则数的候选最优粒子$CAND[K]$, 并加入到粒子集$CAND$中, 如果不是, 则保留$CAND[K]$, 即

    $$ \begin{align} & CAND[K]= \nonumber\\ &\begin{cases} WDP[r], & \mbox{若}\ \ WDP[r].ll>CAND[K].ll \\ CAND[K], & \mbox{其他} \\ \end{cases} \end{align} $$ (25)

    然后使用$WDP$和$CAND$构建粒子集$PS$,

    $$ \begin{equation} PS=\left\{ WDP, CAND \right\} \end{equation} $$ (26)

    4) 权重计算和重采样.为了减少粒子退化的影响, PTSK根据粒子权重执行重采样操作, 更新粒子集$WDP$.每一个粒子的权重值${{w}_{i}}$的计算式为

    $$ \begin{equation} {{w}_{i}}=\frac{\exp(PS[i].ll)}{\sum\limits_{i=1}^{\left| PS \right|}{\exp(PS[i].ll})} \end{equation} $$ (27)

    其中$\left|PS\right|$表示粒子集$PS$中粒子的个数.每个粒子的重采样概率与权重值${{w}_{i}}$成正比, 从粒子集$PS$中重采样$P$个粒子并使用它们更新粒子集$WDP$.这样$WDP$中权重小的粒子被剔除掉, 权重大的粒子被保留, 甚至被多遍复制.最终, 在经过若干次迭代后, 粒子集$WDP$中最大$ll$值对应的粒子的参数$\left\{ {\pmb{U}}, {\pmb{C}}, {\pmb{V}} \right\}$为PTSK模糊系统的最优参数.

    首先给出PTSK模糊系统的构建算法描述, 如算法1所示.

    在重采样步骤中, 相比传统粒子滤波方法[21]仅使用固定规模的粒子集$WDP$, PTSK使用不固定规模的粒子集$PS$, $PS$粒子集由2部分构成:粒子集$WDP$和$CAND$, 其中$CAND$由采样得到的不同模糊规则数的候选最优粒子构成, 粒子数不固定.粒子集$CAND$的作用是进一步减小粒子退化的影响, 加快算法的收敛.

    接下来, 我们分析PTSK模糊系统的收敛性.在实际应用中, 粒子数的规模有限, 系统需要在收敛速度和系统性能之间进行平衡.因此, PTSK在算法的终止条件上除了设置最大迭代次数外, 还计算当前目标函数值与上一次迭代目标函数值之间的差值, 若其值小于阈值$\varepsilon$, 则统计其次数.当累计次数超过设定值$miter$时, 算法终止.因为随着迭代次数的增加, 模糊规则数趋于固定, 规则的前件/后件参数也仅在最优值附近微调, 此时使用式(17)计算全部规则上的平均估计误差几乎不变, 系统的性能趋于稳定.因此, 依据文献[22]粒子滤波方法求解系统静态参数可得局部最优解的结论, 算法1也可保证所得模糊规则数和规则前件/后件参数的最优解是局部最优解.最后, 我们分析PTSK模糊系统的时间复杂度.由算法1步骤可知, PTSK模糊系统的时间复杂度主要集中在对参数$\left\{{\pmb{U}}, {\pmb{C}}, {\pmb{V}}\right\}$的优化部分.使用式(23)优化模糊隶属矩阵${\pmb{U}}$的时间复杂度是O$(NK)$.使用式(24)优化聚类中心${{\pmb{c}}_{k}}$的时间复杂度是O$(N{{K}^{\text{2}}}(d+\text{1}))$.基于平均估计误差的模糊规则后件参数的时间复杂度是O$({{N}^{3}})$.因此, 算法1执行单次迭代的时间复杂度为O$(P(NK+{{K}^{2}}N(d+1)+{{N}^{3}}))$, 其中$N$, $K$, $d$和$P$分别表示训练样本个数, 模糊规则数, 样本维数和粒子数.

    算法1. PTSK模糊系统的构建

    //初始化

    1) 创建粒子集$WDP$, 设置$K=1$, 分别使用式(21)和(23)初始化$c$和$u$;

    2) 创建粒子集$CAND$, 设置$CAND[1]= WDP[1]$;

    3) 设置迭代次数$t=1$, $r=1$;

    Repeat $t=t+1$;

    Repeat $r=r+1$;

    //采样模糊规则数$K$

    4) 用式(25)更新$K*$;

    //优化参数$\left\{\pmb{U}, \pmb{C}, \pmb{V} \right\}$

    5) 更新$WDP[r]. K={{K}^{*}}$;

    6) 使用式(23)计算$WDP[r].{\pmb{U}}$;

    7) 使用式(24)计算$WDP[r].{\pmb{C}}$;

    8) 使用式(9)计算$WDP[r].{\pmb{V}}$;

    9) 使用式(20)计算$WDP[r].ll$;

    //粒子更新

    10) 使用式(25)得到候选最优粒子集$CAND$;

    11) 构建粒子集$PS=\left\{ WDP, CAND \right\}$;

    Until $r>P$

    //权重计算和重采样

    12) 使用式(27)计算$PS$中粒子的权重值${{w}_{i}}$;

    13) 以${{w}_{i}}$为重采样概率, 在$PS$中重采样$P$个粒子, 并更新粒子集$WDP$;

    Until $t\ge {{t}_{\max}}$或者

    $count(\left| \max{{\{PS[{{r}_{1}}].ll\}}_{t}}-\max{{\{PS[{{r}_{2}}].ll\}}_{t-}}_{1} \right|\!<\!\varepsilon)\!>$ $miter, ({{r}_{1}}, {r}_{2}=1, 2, \cdots , \left| PS \right|)$;

    14) 选择$CAND$中$ll$值最大的粒子, 得到$\left\{K, {\pmb{U}}, {\pmb{C}}, {\pmb{V}} \right\}$最优解;

    //构建模糊规则

    15) 使用最优解$\left\{K, {\pmb{U}}, {\pmb{C}}, {\pmb{V}} \right\}$构建模糊规则, 并由式(6)得到输出函数.

    为了验证本文方法的有效性, 本节将通过28个回归数据集对PTSK模糊系统进行分析与验证.实验安排如下:第3.1节对数据集和实验的设置进行了介绍; 第3.2节分析了PTSK和7种对比算法在28个数据集上的实验结果; 第3.3节对实验结果进行了统计分析; 最后给出PTSK收敛性和参数敏感性分析.

    表 2列出了实验中使用的28个回归数据集的基本信息. mexihat、abalone、housing、mg和bodyfat来自LIBSVM数据集[23], gc-s、gc-x和gc-p数据集来自文献[6], 其余数据集来自KEEL数据集[24].实验比较了两类共7种回归算法, 一类是TSK模糊系统: L2-TSK-FS[5], TSK-IRL-R[25], MOGUL-TSK-R[26]和B-ZTSK-FS[10].另一类是经典的回归算法: WM-R[27], ENSEMBLE-R[28]和PSVR[29]. L2-TSK-FS, B-ZTSK-FS, PSVR和PTSK使用MATLAB2016b实现; 其余方法使用KEELtoolbox软件实现[24].实验中各算法参数的设置如表 3所示, 7种对比算法的参数设置均使用相应文献的默认设置.参数的选取使用5重交叉验证的方法.实验采用3个评价指标: 1)均方误差MSE (Mean squared error)和方差; 2)平均训练时间; 3) TSK模糊系统的平均规则数.同时, 为了使得性能对比更具有统计意义, 本文采用无参统计学方法中的Friedman检验[30]和Host事后检验[31]进行统计测试.本文全部实验在Intel i7-3770 CPU 3.4 GHz, 16 GB RAM, Windows 7的环境下执行.

    表 2  数据集基本信息
    Table 2  Basic information of datasets
    数据集 规模 维数
    abalone 4 177 8
    anacalt 4 052 7
    autompg6 392 5
    autompg8 392 7
    bodyfat 252 14
    compactiv 8 192 21
    concrete 1 030 8
    dee 365 6
    delta-ail 7 129 5
    delta-elv 9 517 6
    diabert 43 2
    elevators 16 599 18
    friedman 1 200 5
    gc-s 56 000 6
    gc-x 56 000 6
    gc-p 56 000 6
    housing 506 13
    mexihat 2 500 2
    mg 1 385 6
    mortgage 1 049 15
    plastic 1 650 2
    pole 14998 26
    puma32h 8 192 32
    quake 2 178 3
    stock 950 9
    treasury 1 049 15
    wankara 1 609 9
    wizmir 1 461 9
    下载: 导出CSV 
    | 显示表格
    表 3  算法参数设置
    Table 3  Parameter setting
    算法 参数设置
    L2-TSK-FS 模糊规则数$K\in \{{{2}^{2}}, {{3}^{2}}, \cdots, {{11}^{2}}\}$, 尺度参数$h\in \{{{0.2}^{2}}, {{0.4}^{2}}, \cdots, {{2}^{2}}\}$, 模糊指数$m=2$, 正则化参数$C\in\{{{2}^{-4}}, {{2}^{0}}, \cdots, {{2}^{7}}\}$.
    TSK-IRL-R 适应性函数最小匹配度= 1.5, 种群数= 61, 交叉概率= 0.1, 种群比例=0.2.
    MOGUL-R 正类样本的匹配度参数= 0.05, 负类样本的允许比例参数= 1.5, 适应性函数最小匹配度= 0.1, 种群数= 15.
    B-ZTSK-FS 模糊规则数$K\in \{{{2}^{2}}, {{3}^{2}}, \cdots, {{11}^{2}}\}$, 尺度参数$h\in \{{{0.2}^{2}}, {{0.4}^{2}}, \cdots, {{2}^{2}}\}$, 模糊指数$m=2$, 狄利克雷参数= 1 000.
    WM 标签数= 5.
    ENSEMBLE 隐层数= 2, 隐结点数= 15, 学习系数= 0.15, 动量系数= 0.1, 集成方法类型: BEM, 网络数= 10.
    PSVR 正则化参数$C\in \{{{10}^{-3}}, {{10}^{-2}}, \cdots, {{10}^{3}}\}$, 高斯核核参$\sigma \in\{{{10}^{-3}}, {{10}^{-2}}, \cdots, {{10}^{3}}\}$.
    PTSK 模糊指数$m=2$, 最大迭代次数${10}^{3}$, 阈值$\varepsilon =10^{-3}$, 收敛阈值$miter=50$, 稀疏参数$\beta \in \{1, 2, \cdots, 8\}$, 粒子数$P=10$.
    下载: 导出CSV 
    | 显示表格

    实验比较了PTSK和另外7种回归算法在28个数据集上的实验结果, 表 4表 5分别显示了各算法的MSE (标准差)和平均训练时间, 表 6比较了6种TSK模糊系统得到的平均模糊规则数.

    表 4  8 种算法在 28 个数据集上的 MSE (标准差) 比较
    Table 4  MSE (Standard deviation) comparison of 8 algorithms on 28 datasets
    数据集 ENSEMBLE-R PSVR WM-R MOGUL-R TSK-IRL-R L2-TSK-FS B-ZTSK-FS PTSK
    mexihat 0.0205 0.0222 0.0219 0.0207 0.0231 0.0226 0.0239 $ \bf{0.0204}$
    1.004$\times {{10}^{-3}}$ 1.023$\times {{10}^{-3}}$ 1.011$\times {{10}^{-3}}$ 1.025$\times {{10}^{-3}}$ 1.017$\times {{10}^{-3}}$ 1.003$\times {{10}^{-3}}$ 1.020$\times {{10}^{-3}}$ 1.001$\times {{10}^{-3}}$
    abalone 4.1738 5.0107 6.6225 4.7323 5.8258 5.1987 4.1186 $ \bf{ 4.0810}$
    0.383 0.376 0.301 0.273 0.326 0.298 0.213 0.196
    anacalt 0.0531 0.0478 0.0595 0.0521 0.0829 0.0542 0.0496 $ \bf{0.0435 }$
    1.452$\times {{10}^{-3}}$ 1.023$\times {{10}^{-3}}$ 4.520$\times {{10}^{-3}}$ 1.102$\times {{10}^{-3}}$ 4.239$\times {{10}^{-3}}$ 2.358$\times {{10}^{-3}}$ 2.102$\times {{10}^{-3}}$ 1.404$\times {{10}^{-3}}$
    autompg6 11.8797 11.8827 13.3320 14.1473 $\bf{ 8.2574}$ 13.6705 12.3298 11.0676
    4.831 2.681 1.821 8.553 1.325 1.964 1.759 1.553
    autompg8 8.6182 8.2351 8.7713 9.6884 $ \bf{ 6.6799}$ 9.9872 8.8537 8.2122
    1.131 1.756 1.098 1.205 0.975 1.210 1.026 1.003
    bodyfat 5.1200$\times {{10}^{-4}}$ $ \bf{2.0201}\times{{10}^{-4}}$ 5.8424$\times {{10}^{-4}}$ 9.9749$\times{{10}^{-4}}$ 4.4523$\times {{10}^{-4}}$ 5.2704$\times{{10}^{-4}}$ 5.0125$\times {{10}^{-4}}$ 3.4402$\times{{10}^{-4}}$
    1.711$\times {{10}^{-5}}$ 2.310$\times {{10}^{-5}}$ 6.418$\times {{10}^{-5}}$ 6.528$\times {{10}^{-5}}$ 3.245$\times {{10}^{-5}}$ 4.718$\times {{10}^{-5}}$ 3.610$\times {{10}^{-5}}$ 2.036$\times {{10}^{-5}}$
    compactiv $ \bf{ 34.8932}$ 37.6408 35.7480 37.1190 37.4625 39.6401 38.3607 36.8515
    4.544 5.008 4.646 5.121 4.673 4.786 4.145 4.006
    concrete 52.6524 $ \bf{ 50.5003}$ 56.2245 55.1906 58.2542 58.8612 55.8678 50.5285
    3.535 4.388 6.541 3.325 3.875 3.764 3.757 3.400
    dee 0.2524 0.2627 $ \bf{0.2296 }$ 0.3034 0.6920 0.2956 0.2765 $ \bf{0.2294 }$
    0.024 0.032 0.086 0.184 0.085 0.030 0.027 0.021
    delta-elv 2.7764$\times {{10}^{-6}}$ 2.2719$\times{{10}^{-6}}$ 3.3007$\times {{10}^{-6}}$ 3.5924$\times{{10}^{-6}}$ $ \bf{ 1.9863\times {{10}^{-6}}}$ 4.3942$\times{{10}^{-6}}$ 3.5075$\times{{10}^{-6}}$ 2.1432$\times{{10}^{-6}}$
    6.892$\times {{10}^{-7}}$ 5.231$\times {{10}^{-7}}$ 3.390$\times {{10}^{-7}}$ 6.743$\times {{10}^{-7}}$ 4.721$\times {{10}^{-7}}$ 5.432$\times {{10}^{-7}}$ 5.121$\times {{10}^{-7}}$ 3.976$\times {{10}^{-7}}$
    delta-ail 3.5813$\times {{10}^{-8}}$ 3.5842$\times{{10}^{-8}}$ 5.7242$\times {{10}^{-8}}$ 3.6223$\times{{10}^{-8}}$ 2.9804$\times {{10}^{-8}}$ 3.7946$\times{{10}^{-8}}$ 5.1313$\times {{10}^{-8}}$ $ \bf{ 2.7236\times{{10}^{-8}}}$
    2.017$\times {{10}^{-9}}$ 4.654$\times {{10}^{-9}}$ 8.523$\times {{10}^{-9}}$ 7.487$\times {{10}^{-9}}$ 6.754$\times {{10}^{-9}}$ 5.987$\times {{10}^{-9}}$ 6.000$\times {{10}^{-9}}$ 3.003$\times {{10}^{-9}}$
    diabert 0.4932 0.5785 0.7266 0.6225 0.9208 1.1231 0.7334 $ \bf{0.4883 }$
    0.259 0.236 0.699 0.354 0.435 0.500 0.465 0.398
    elevator 2.5947$\times{{10}^{-4}}$ 2.5398$\times{{10}^{-4}}$ $ \bf{2.3237\times {{10}^{-4}} }$ 5.6023$\times{{10}^{-4}}$ 5.7413$\times{{10}^{-4}}$ 7.6498$\times{{10}^{-4}}$ 6.5429$\times {{10}^{-4}}$ 5.5531$\times{{10}^{-4}}$
    2.646$\times {{10}^{-5}}$ 1.658$\times {{10}^{-5}}$ 1.765$\times {{10}^{-5}}$ 2.991$\times {{10}^{-5}}$ 3.102$\times {{10}^{-5}}$ 3.832$\times {{10}^{-5}}$ 3.801$\times {{10}^{-5}}$ 3.124$\times {{10}^{-5}}$
    friedman 2.7852 2.2769 3.1595 2.1445 3.0082 3.0603 2.4206 $ \bf{ 2.1408}$
    0.352 0.615 0.371 0.201 0.308 0.312 0.311 0.353
    gc-s 0.5734 0.6024 0.4216 0.5015 0.2601 0.3267 0.2602 $\bf{ 0.2304}$
    0.064 0.078 0.060 0.078 0.012 0.038 0.014 0.010
    gc-x 4.6492$\times {{10}^{-3}}$ 4.9121$\times {{10}^{-3}}$ 4.8530$\times {{10}^{-3}}$ 4.8000$\times {{10}^{-3}}$ 3.5912$\times {{10}^{-3}}$ 3.8955$\times {{10}^{-3}}$ 3.4279$\times {{10}^{-3}}$ $ \bf{ 3.2687\times{{10}^{-4}}}$
    3.042$\times {{10}^{-5}}$ 3.550$\times {{10}^{-5}}$ 3.706$\times {{10}^{-5}}$ 3.743$\times {{10}^{-5}}$ 3.001$\times {{10}^{-5}}$ 3.330$\times {{10}^{-5}}$ 3.328$\times {{10}^{-5}}$ 2.004$\times {{10}^{-5}}$
    gc-p 0.0826 0.0980 0.0900 0.0900 0.0807 0.0856 0.0754 $\bf{0.0717 }$
    2.998$\times {{10}^{-3}}$ 3.005$\times {{10}^{-3}}$ 3.071$\times {{10}^{-3}}$ 3.026$\times {{10}^{-3}}$ 3.053$\times {{10}^{-3}}$ 3.251$\times {{10}^{-3}}$ 3.117$\times {{10}^{-3}}$ 3.010$\times {{10}^{-3}}$
    housing $ \bf{ 29.6062}$ 33.7403 34.8514 30.4763 34.9782 37.5164 34.0108 33.0672
    6.899 7.041 6.948 6.389 5.839 5.214 5.317 5.215
    mg 0.0203 0.0214 0.0179 0.0163 0.0166 0.0188 0.0176 $\bf{ 0.0157}$
    1.873$\times {{10}^{-3}}$ 1.431$\times {{10}^{-3}}$ 1.351$\times {{10}^{-3}}$ 1.572$\times {{10}^{-3}}$ 1.313$\times {{10}^{-3}}$ 1.082$\times {{10}^{-3}}$ 1.277$\times {{10}^{-3}}$ 1.139$\times {{10}^{-3}}$
    mortgage 0.0843 0.0448 0.0925 0.6160 0.0881 0.0589 0.0409 $ \bf{ 0.0407}$
    3.985$\times {{10}^{-3}}$ 2.751$\times {{10}^{-3}}$ 3.618$\times {{10}^{-3}}$ 1.916$\times {{10}^{-2}}$ 2.936$\times {{10}^{-3}}$ 2.643$\times {{10}^{-3}}$ 2.603$\times {{10}^{-3}}$ 2.517$\times {{10}^{-3}}$
    plastic 2.6657 2.3495 2.3646 2.3735 2.8642 2.9098 2.8477 $ \bf{ 2.2153}$
    0.401 0.098 0.446 0.110 0.100 0.218 0.231 0.200
    pole 206.5032 203.5998 229.1911 207.0983 233.7895 225.5987 216.9002 $ \bf{ 200.9751}$
    4.167 5.531 6.258 4.003 5.638 4.980 4.678 4.236
    puma 6.2417$\times {{10}^{-3}}$ $ \bf{ 2.3405\times{{10}^{-3}}}$ 4.6104$\times {{10}^{-3}}$ 5.8963$\times{{10}^{-3}}$ 4.3104$\times {{10}^{-3}}$ 4.7403$\times{{10}^{-3}}$ 4.7612$\times {{10}^{-3}}$ 3.7208$\times{{10}^{-3}}$
    7.835$\times {{10}^{-6}}$ 7.230$\times {{10}^{-6}}$ 7.200$\times {{10}^{-6}}$ 7.737$\times {{10}^{-6}}$ 6.875$\times {{10}^{-6}}$ 6.943$\times {{10}^{-6}}$ 7.032$\times {{10}^{-6}}$ 7.053$\times {{10}^{-6}}$
    quake 0.0591 $ \bf{ 0.0350}$ 0.0538 0.0371 0.0461 0.0570 0.0532 0.0356
    4.752$\times {{10}^{-3}}$ 1.995$\times {{10}^{-3}}$ 6.863$\times {{10}^{-3}}$ 2.700$\times {{10}^{-3}}$ 3.286$\times {{10}^{-3}}$ 3.274$\times {{10}^{-3}}$ 2.863$\times {{10}^{-3}}$ 2.965$\times {{10}^{-3}}$
    stock 1.5008 $ \bf{ 1.1681}$ 1.3863 1.6803 1.5430 1.6518 1.7626 1.1938
    0.321 0.477 0.459 0.287 0.300 0.348 0.372 0.265
    treasury 0.4287 0.4562 0.4199 0.5553 0.5421 0.4198 0.4568 $ \bf{ 0.4124}$
    0.102 0.021 0.122 0.099 0.078 0.063 0.067 0.066
    wankara 1.6955 2.0040 2.6569 2.8312 2.7434 1.8889 1.7313 $ \bf{1.6096 }$
    0.409 0.143 0.588 0.164 0.296 0.302 0.228 0.199
    wizmir 2.1475 1.6275 2.2321 2.2404 2.3343 1.9649 1.9772 $\bf{ 1.5245}$
    0.467 0.146 0.502 0.161 0.278 0.222 0.234 0.211
    下载: 导出CSV 
    | 显示表格
    表 5  8种算法在28个数据集上的平均训练时间(s)的比较
    Table 5  Comparison of the average training time (s) of 8 algorithms on 28 datasets
    数据集 ENSEMBLE-R PSVR WM-R MOGUL-R TSK-IRL-R L2-TSK-FS B-ZTSK-FS PTSK
    mexihat 18.82 5.03 20.36 50.14 160.23 $ \bf{ 4.25 }$ 90.23 70.18
    abalone 21.31 $ \bf{ 3.00 }$ 28.22 5 238.68 7 192.52 3.17 51.89 40.35
    anacalt 36.94 $ \bf{ 2.31 }$ 27.58 1 006.54 60.48 2.45 22.31 18.96
    autompg6 8.38 $ \bf{ 1.37 }$ 7.14 320.26 70.69 1.89 8.15 6.38
    autompg8 8.55 $ \bf{ 1.55 }$ 8.01 309.65 392.45 1.81 20.64 9.10
    bodyfat 7.10 0.65 7.71 420.68 856.98 $ \bf{ 0. 52 }$ 6.69 5.98
    compactiv 44.88 $ \bf{ 28.38 }$ 98.39 4 124.81 4 792.17 30.34 729.93 640.63
    concrete 30.95 $ \bf{ 5.01 }$ 41.30 1 100.41 8 649.22 5.33 72.66 41.80
    dee 10.43 $ \bf{0.36 }$ 9.31 30.82 89.47 0.93 9.39 5.61
    delta-elv 29.47 $ \bf{ 3.56 }$ 35.72 965.03 7536.12 3.88 79.38 51.69
    delta-ail 30.10 $ \bf{ 5.78 }$ 27.26 1 167.60 2 546.60 6.06 109.63 69.61
    diabert 7.81 0.45 3.64 24.10 16.935 $ \bf{ 0.43 }$ 1.96 1.74
    elevator 186.64 $ \bf{ 30.07 }$ 181.18 3 508.54 3 286.65 100.64 828.80 559.20
    friedman 53.26 $ \bf{ 2.81 }$ 47.96 124.85 1 003.47 2.95 68.036 31.47
    gc-s 245.27 79.34 268.96 3 976.33 4 024.20 $ \bf{ 79.11}$ 964.45 520.76
    gc-x 252.85 78.02 270.82 4 034.87 4 035.65 $ \bf{ 78.00}$ 968.02 518.32
    gc-p 248.38 80.13 268.40 3 956.67 4 020.55 $ \bf{ 80.05 }$ 966.27 523.44
    housing 20.37 $ \bf{ 3.87 }$ 13.86 398.50 445.20 4.12 75.82 47.83
    mg 32.54 $ \bf{ 3.25}$ 23.54 786.92 765.32 3.56 60.43 23.67
    mortgage 20.15 $ \bf{ 3.88 }$ 22.16 1 039.27 1238.48 4.02 68.26 57.20
    plastic 22.74 $ \bf{ 4.79 }$ 23.58 305.20 268.09 5.07 120.3 78.64
    pole 96.36 $ \bf{ 40.86 }$ 720.44 6 290.63 8 533.63 42.75 1075.56 713.70
    puma 40.58 $ \bf{ 30.05 }$ 130.83 4 903.38 4 893.30 32.70 1073.12 796.57
    quake 28.57 $ \bf{2.54 }$ 19.80 360.25 400.39 2.97 63.92 18.48
    stock 19.43 $ \bf{ 3.50 }$ 25.32 1 490.34 2 175.56 3.89 78.46 22.46
    treasury 19.45 $ \bf{ 5.83 }$ 18.21 1 202.40 2 543.82 6.02 117.20 78.30
    wankara 28.76 $ \bf{ 4.38 }$ 27.33 2 009.35 2 464.50 4.85 164.64 79.43
    wizmir 19.29 $ \bf{ 4.02}$ 16.36 1 344.52 2 032.38 4.21 100.28 70.35
    下载: 导出CSV 
    | 显示表格
    表 6  6种TSK模糊系统在28个数据集上的平均模糊规则数比较
    Table 6  Comparison of the average number of fuzzy rules of six TSK fuzzy systems on 28 datasets
    数据集 WM-R MOGUL-R TSK-IRL-R L2-TSK-FS B-ZTSK-FS PTSK
    mexihat 8.8 10.4 28.2 6.8 6.6 $ \bf{4.2 }$
    abalone 217.6 114.4 6434.0 16.0 9.0 $ \bf{6.0 }$
    anacalt 124.6 313.6 185.4 16.0 25.0 $ \bf{4.8 }$
    autompg6 117.0 81.2 786.0 36.0 36.0 $ \bf{18.2 }$
    autompg8 182.0 380.0 2658.0 36.0 25.0 $ \bf{6.6 }$
    bodyfat 190.6 101.2 1715.2 9.0 6.0 $ \bf{ 3.2}$
    compactiv 1 599.6 536.2 2097.0 25.0 16.0 $ \bf{11.0 }$
    concrete 309.2 360.4 1 497.2 49.0 36.0 $ \bf{ 8.6}$
    dee 161.4 112.2 3051.4 36.0 36.0 $ \bf{ 34.6}$
    delta-elv 708.8 220.6 6 510.0 36.0 25.0 $ \bf{5.8 }$
    delta-ail 241.8 104.6 1 476.6 25.0 36.0 $ \bf{8.8 }$
    diabert 16.4 32.8 22.8 25.0 16.0 $ \bf{ 8.4}$
    elevator 4286.7 801.0 191 25.0 25.0 $ \bf{ 23.8}$
    friedman 767.8 432.2 3 043.2 25.0 16.0 $ \bf{6.6 }$
    gc-s 62.8 40.2 226.2 16.0 9.0 $ \bf{6.4 }$
    gc-x 60.8 43.2 220.8 16.0 9.0 $ \bf{ 6.2}$
    gc-p 61.4 40.0 218.8 16.0 9.0 $ \bf{ 6.4}$
    housing 291.2 288.4 2 673.0 49.0 49.0 $ \bf{ 40.0}$
    mg 240.0 175.0 3 887.0 9.0 9.0 $ \bf{5.4 }$
    mortgage 198.2 62.8 122.6 25.0 16.0 $ \bf{ 14.4}$
    plastic 14.8 97.4 87.8 49.0 25.0 $ \bf{ 21.4}$
    pole 3 228.8 100.2 1 775.0 36.0 36.0 $ \bf{ 23.4}$
    puma 6 553.4 188.0 3 221.0 81.0 64.0 $ \bf{60.8 }$
    quake 54.2 173.4 985.8 36.0 $ \bf{25.0 }$ 29.0
    stock 264.8 80.6 578 36.0 36.0 $ \bf{8.6 }$
    treasury 197.2 63.6 70.0 49.0 36.0 $ \bf{35.6 }$
    wankara 458.6 127.8 836.0 25.0 25.0 $ \bf{ 22.0}$
    wizmir 413.8 119.3 189.4 36.0 $ \bf{ 25.0}$ $ \bf{ 25.0}$
    下载: 导出CSV 
    | 显示表格

    1) 从表 4可以看出, PTSK在所有数据集上取得了令人满意的MSE值, PTSK在28个数据集上胜出17次, ENSEMBLE-R、PSVR、TSK-IRL-R和WM-R各胜出2、5、3和1次. L2-TSK-FS和B-ZTSK-FS采用网格搜索法求得模糊规则最优解, 但设定合适的规则数搜索区域较困难, 因而L2-TSK-FS和B-ZTSK-FS的平均MSE值不理想.由此可知挖掘数据输入空间和输出空间内在联系对TSK模糊系统的性能有着重要的影响, 亦说明PTSK采用的基于概率模型的结构辨识和优化参数的协同学习机制有利于找到合适的模糊规则数.

    2) 从表 5可以看出, 8种回归算法中MOGUL-R和TSK-IRL-RPTSK训练时间最长, PSVR和L2-TSK-FS训练时间最短, PTSK在样本规模较大的数据集上训练时间也较长.但由表 3可以看出, PTSK需要寻优的参数只有1个, 而L2-TSK-FS需要寻优的参数有3个, 因此, 在实际应用中L2-TSK-FS在训练时间上并不具备优势. PSVR是支持向量机算法, 虽然训练时间较短, 但它不具有FIS的语义性和解释性.另外, TSK-IRL-R, MOGUL-TSK-R, WM-R和ENSEMBLE-R通过KEEL toolbox平台实现, 该平台使用Java软件实现.由于相同代码在MATLAB平台的运行时间比在Java平台的时间时间慢大约6倍左右[32], 因此, ENSEMBLE-R和WM-R在训练时间上也并不比PTSK具有优势.

    3) 从表 6可以看出, 与对比的5种TSK模糊系统相比, PTSK仅需少量的模糊规则就能取得良好的分类效果, 说明PTSK有较强的解释性.尽管B-ZTSK-FS使用MH采样方法能够同时学习模糊规则的前件和后件参数, 但是该方法不能自动学习模糊规则数, 因此B-ZTSK-FS构建的模糊规则数多于PTSK.

    图 2显示了PTSK在mexihat数据集上某一折的实验结果, 图 3对应显示了PTSK在mexihat数据集上得到的4条模糊规则的模糊集示意图.从图 2可以看出, PTSK取得了良好的逼近性能.我们知道, 规则库的解释性与模糊规则数有关, 另一方面, 规则库的解释性也与模糊子集的清晰度有关.从图 3可以看出模糊集具有语义解释性, 由此可得对应的4条模糊规则也具有较高的解释性.

    图 2  PTSK在mexihat数据集上的实验结果
    Fig. 2  Experimental results of PTSK on mexihat dataset
    图 3  PTSK在mexihat数据集上得到的模糊集示意图
    Fig. 3  Fuzzy sets obtained by PTSK on mexihat dataset
    3.3.1   参数敏感性实验和收敛性分析

    首先对PTSK的参数敏感性进行分析.稀疏因子$\beta$使用5折交叉验证的方法得到最优值.实验设置$\beta$的搜索范围是$\left\{ \text{1}, \text{ 2}, \cdots, \text{8}\right\}$.由于篇幅所限, 表 7显示了在mexihat, elevators, bodyfat和wizmir数据集上$\beta$参数对MSE指标和模糊规则数的影响.

    表 7  mexihat, elevators, bodyfat 和 wizmir 数据集上 β 参数敏感性实验
    Table 7  Sensitivity experiments of parameter β on mexihat, elevators, bodyfat and wizmir datasets
    Datasets $\beta = 1$ $\beta = 2$ $\beta = 3$ $\beta = 4$ $\beta = 5$ $\beta = 6$ $\beta = 7$ $\beta = 8$
    mexihat MSE 0.0367 0.0304 0.0257 0.0222 0.0204 0.0213 0.0248 0.0248
    Rules 10.4 8.6 6.6 5.2 4.0 3.8 3.6 3.6
    elevators MSE 5.9476$\times {{10}^{-4}}$ 5.5531$\times{{10}^{-4}}$ 5.6307$\times {{10}^{-4}}$ 5.6948$\times {{10}^{-4}}$ 5.6281$\times {{10}^{-4}}$ 5.5845$\times {{10}^{-4}}$ 6.0934$\times {{10}^{-4}}$ 6.4256$\times {{10}^{-4}}$
    Rules 24.4 23.8 22.6 21.2 20.8 20.2 18.4 16.6
    bodyfat MSE 3.4876$\times {{10}^{-4}}$ 3.5512$\times{{10}^{-4}}$ 3.4402$\times {{10}^{-4}}$ 3.6802$\times{{10}^{-4}}$ 3.9823$\times {{10}^{-4}}$ 3.8963$\times{{10}^{-4}}$ 3.9027$\times {{10}^{-4}}$ 3.9216$\times {{10}^{-4}}$
    Rules 3.5 3.0 3.2 3.0 2.8 2.6 2.6 2.6
    wizmir MSE 1.7657 1.7606 1.6435 1.5245 1.5288 1.7578 1.9244 2.0864
    Rules 28.2 28.0 26.0 25.0 25.0 22.6 20.8 19.8
    下载: 导出CSV 
    | 显示表格

    表 7的结果可以看出: 1)稀疏因子$\beta$对模糊规则数起到了决定性作用.对于绝大多数数据集而言, $\beta $值越大获得的模糊规则数越少; 反之, $\beta$值越小获得的模糊规则数越大.只有极个别数据集上的模糊规则数受$\beta $值的影响不大, 其原因是该数据集在模糊空间分布较紧密且聚类划分结果清晰. 2) PTSK模糊系统的回归性能与模糊规则数密切相关, 模糊规则数较大时MSE值达不到最优, 此时易发生过拟合的现象; 模糊规则数较小时MSE值也达不到最优.因此, 稀疏因子$\beta$起到了平衡系统性能和复杂度的作用, 对$\beta$在使用交叉验证的方法寻优是必要的.

    为了考察PTSK模糊系统的收敛情况, 图 4给出了PTSK在mexihat, elevators, bodyfat和wizmir数据集上某次运行的收敛曲线(固定参数$\beta=4$).从图中曲线可以看出, PTSK在这4个数据集上的迭代次数均小于200.此时模糊规则数和求得的规则前件/后件参数趋于最优值, 系统的性能达到稳定.

    图 4  PTSK某次运行的收敛曲线
    Fig. 4  Convergence curves of PTSK at a certain simulation
    3.3.2   非参数检验

    本小节使用非参数检验中的Friedman检验和Holm post-hoc检验来分析8种算法在28个数据集上MSE值的统计学显著性差异, 设置显著性水平$\alpha =0.05$. Friedman检验是一种利用秩实现对多个总体分布是否存在显著差异的非参数检验方法.图 5显示了8种算法在Friedman检验上Friedman秩结果.实验结果表明本文提出的PTSK模糊系统在25个数据集上取得了最佳结果.

    图 5  8种算法的Friedman检验结果
    Fig. 5  Friedman results of eight algorithms

    Holm post-hoc检验作为事后分析方法, 常用于根据Friedman检验结果进行最优算法与其他算法的两两比较分析.实验中将PTSK与另外7种算法进行两两比较, 如果得到的APV (Adjusted $p$-value)值小于显著性水平, 即$p<\alpha /i$, 则说明PTSK模糊系统有显著优势, 反之则说明两个算法的性能间没有显著差异. Holm post-hoc检验的结果如表 8所示.从表 8中数据可知, 与对比的7种算法相比, 所提PTSK模糊系统在系统性能上具有显著优势.

    表 8  Holm post-hoc检验结果
    Table 8  Holm post-hoc results
    Algorithm $z$ $ p$ Holm = $a/i$ Hypothesis
    L2-TSK-FS 6.9284 0 7.143$\times {{10}^{-3}}$ Rejected
    WM-R 5.7555 0 8.333$\times {{10}^{-3}}$ Rejected
    MOGUL-R 5.5918 0 0.0100 Rejected
    TSK-IRL-R 5.4009 0 0.0125 Rejected
    B-ZTSK-FS 5.0190 1.0$\times {{10}^{-6}}$ 0.0167 Rejected
    ENSEMBLE-R 3.8461 1.2$\times {{10}^{-5}}$ 0.0250 Rejected
    PSVR 3.2460 0.00117 0.0500 Rejected
    下载: 导出CSV 
    | 显示表格

    本文使用概率模型构建了一种新的概率TSK模糊系统PTSK.在模糊和概率理论的协同工作模式下, PTSK建立了结构辨识和参数优化的协同学习机制.该学习机制将TSK模糊系统的构建视为一个整体, 能充分挖掘输入空间和输出空间之间的内在联系. PTSK基于最大后验概率估计, 使用粒子滤波同时求得模糊规则数和前后件参数的最优解, 解决了传统聚类法TSK模糊系统分阶段求解参数和模糊规则数需预先设定的问题.实验结果表明PTSK的逼近性能和模糊规则数均取得了令人满意的结果.应当指出, 本文算法仍存在一些不足之处, 例如, 在大规模样本的回归问题中, PTSK的时间效率还有待提高; 另外, PTSK能否有效处理带噪声的回归数据亦没有进行探讨, 这将作为我们近期的研究重点.


  • 本文责任编委 许斌
  • 图  1  PTSK结构辨识和参数优化的协同学习示意图

    Fig.  1  The diagram of simultaneous learning of structure identiflcation and parameter optimization in PTSK

    图  2  PTSK在mexihat数据集上的实验结果

    Fig.  2  Experimental results of PTSK on mexihat dataset

    图  3  PTSK在mexihat数据集上得到的模糊集示意图

    Fig.  3  Fuzzy sets obtained by PTSK on mexihat dataset

    图  4  PTSK某次运行的收敛曲线

    Fig.  4  Convergence curves of PTSK at a certain simulation

    图  5  8种算法的Friedman检验结果

    Fig.  5  Friedman results of eight algorithms

    表  1  聚类法TSK模糊系统中常用的模糊规则前件/后件参数学习方法

    Table  1  The common learning methods for the antecedent/consequent parameters in the clustering based TSK fuzzy system

    前件参数学习
    FCM模糊聚类[5] 优点 获得的空间划分具有模糊性, 算法实现简单
    缺点 聚类数需要预先设定
    Gustafson-Kessel[13]和Gath-Geva聚类[14] 优点 均使用诱导矩阵识别数据集的结构
    缺点 矩阵计算量较大
    One-pass聚类[15] 优点 数据集只需要遍历一遍即可完成空间划分, 适用于增量或在线学习模式
    缺点 对凸型数据分布识别较差; 且与聚类数有关的参数需要预先设定
    后件参数学习
    最小二乘法[3, 8] 优点 最常用; 显式地得到后件参数的解析解, 计算简单
    缺点 对噪声数据敏感
    支持向量回归机[15] 优点 保证参数的全局最优解, 逼近性能较强
    缺点 二次规划问题求解的计算量较大
    进化计算[4] 优点 模拟自然随机优化算法, 不依赖对象的数学模型
    缺点 遗传编码的选择较难解决, 时间复杂度较高
    反向传播算法[16] 优点 在小数据集上很快达到局部最优解
    缺点 收敛较慢, 不适用于大规模数据集
    下载: 导出CSV

    表  2  数据集基本信息

    Table  2  Basic information of datasets

    数据集 规模 维数
    abalone 4 177 8
    anacalt 4 052 7
    autompg6 392 5
    autompg8 392 7
    bodyfat 252 14
    compactiv 8 192 21
    concrete 1 030 8
    dee 365 6
    delta-ail 7 129 5
    delta-elv 9 517 6
    diabert 43 2
    elevators 16 599 18
    friedman 1 200 5
    gc-s 56 000 6
    gc-x 56 000 6
    gc-p 56 000 6
    housing 506 13
    mexihat 2 500 2
    mg 1 385 6
    mortgage 1 049 15
    plastic 1 650 2
    pole 14998 26
    puma32h 8 192 32
    quake 2 178 3
    stock 950 9
    treasury 1 049 15
    wankara 1 609 9
    wizmir 1 461 9
    下载: 导出CSV

    表  3  算法参数设置

    Table  3  Parameter setting

    算法 参数设置
    L2-TSK-FS 模糊规则数$K\in \{{{2}^{2}}, {{3}^{2}}, \cdots, {{11}^{2}}\}$, 尺度参数$h\in \{{{0.2}^{2}}, {{0.4}^{2}}, \cdots, {{2}^{2}}\}$, 模糊指数$m=2$, 正则化参数$C\in\{{{2}^{-4}}, {{2}^{0}}, \cdots, {{2}^{7}}\}$.
    TSK-IRL-R 适应性函数最小匹配度= 1.5, 种群数= 61, 交叉概率= 0.1, 种群比例=0.2.
    MOGUL-R 正类样本的匹配度参数= 0.05, 负类样本的允许比例参数= 1.5, 适应性函数最小匹配度= 0.1, 种群数= 15.
    B-ZTSK-FS 模糊规则数$K\in \{{{2}^{2}}, {{3}^{2}}, \cdots, {{11}^{2}}\}$, 尺度参数$h\in \{{{0.2}^{2}}, {{0.4}^{2}}, \cdots, {{2}^{2}}\}$, 模糊指数$m=2$, 狄利克雷参数= 1 000.
    WM 标签数= 5.
    ENSEMBLE 隐层数= 2, 隐结点数= 15, 学习系数= 0.15, 动量系数= 0.1, 集成方法类型: BEM, 网络数= 10.
    PSVR 正则化参数$C\in \{{{10}^{-3}}, {{10}^{-2}}, \cdots, {{10}^{3}}\}$, 高斯核核参$\sigma \in\{{{10}^{-3}}, {{10}^{-2}}, \cdots, {{10}^{3}}\}$.
    PTSK 模糊指数$m=2$, 最大迭代次数${10}^{3}$, 阈值$\varepsilon =10^{-3}$, 收敛阈值$miter=50$, 稀疏参数$\beta \in \{1, 2, \cdots, 8\}$, 粒子数$P=10$.
    下载: 导出CSV

    表  4  8 种算法在 28 个数据集上的 MSE (标准差) 比较

    Table  4  MSE (Standard deviation) comparison of 8 algorithms on 28 datasets

    数据集 ENSEMBLE-R PSVR WM-R MOGUL-R TSK-IRL-R L2-TSK-FS B-ZTSK-FS PTSK
    mexihat 0.0205 0.0222 0.0219 0.0207 0.0231 0.0226 0.0239 $ \bf{0.0204}$
    1.004$\times {{10}^{-3}}$ 1.023$\times {{10}^{-3}}$ 1.011$\times {{10}^{-3}}$ 1.025$\times {{10}^{-3}}$ 1.017$\times {{10}^{-3}}$ 1.003$\times {{10}^{-3}}$ 1.020$\times {{10}^{-3}}$ 1.001$\times {{10}^{-3}}$
    abalone 4.1738 5.0107 6.6225 4.7323 5.8258 5.1987 4.1186 $ \bf{ 4.0810}$
    0.383 0.376 0.301 0.273 0.326 0.298 0.213 0.196
    anacalt 0.0531 0.0478 0.0595 0.0521 0.0829 0.0542 0.0496 $ \bf{0.0435 }$
    1.452$\times {{10}^{-3}}$ 1.023$\times {{10}^{-3}}$ 4.520$\times {{10}^{-3}}$ 1.102$\times {{10}^{-3}}$ 4.239$\times {{10}^{-3}}$ 2.358$\times {{10}^{-3}}$ 2.102$\times {{10}^{-3}}$ 1.404$\times {{10}^{-3}}$
    autompg6 11.8797 11.8827 13.3320 14.1473 $\bf{ 8.2574}$ 13.6705 12.3298 11.0676
    4.831 2.681 1.821 8.553 1.325 1.964 1.759 1.553
    autompg8 8.6182 8.2351 8.7713 9.6884 $ \bf{ 6.6799}$ 9.9872 8.8537 8.2122
    1.131 1.756 1.098 1.205 0.975 1.210 1.026 1.003
    bodyfat 5.1200$\times {{10}^{-4}}$ $ \bf{2.0201}\times{{10}^{-4}}$ 5.8424$\times {{10}^{-4}}$ 9.9749$\times{{10}^{-4}}$ 4.4523$\times {{10}^{-4}}$ 5.2704$\times{{10}^{-4}}$ 5.0125$\times {{10}^{-4}}$ 3.4402$\times{{10}^{-4}}$
    1.711$\times {{10}^{-5}}$ 2.310$\times {{10}^{-5}}$ 6.418$\times {{10}^{-5}}$ 6.528$\times {{10}^{-5}}$ 3.245$\times {{10}^{-5}}$ 4.718$\times {{10}^{-5}}$ 3.610$\times {{10}^{-5}}$ 2.036$\times {{10}^{-5}}$
    compactiv $ \bf{ 34.8932}$ 37.6408 35.7480 37.1190 37.4625 39.6401 38.3607 36.8515
    4.544 5.008 4.646 5.121 4.673 4.786 4.145 4.006
    concrete 52.6524 $ \bf{ 50.5003}$ 56.2245 55.1906 58.2542 58.8612 55.8678 50.5285
    3.535 4.388 6.541 3.325 3.875 3.764 3.757 3.400
    dee 0.2524 0.2627 $ \bf{0.2296 }$ 0.3034 0.6920 0.2956 0.2765 $ \bf{0.2294 }$
    0.024 0.032 0.086 0.184 0.085 0.030 0.027 0.021
    delta-elv 2.7764$\times {{10}^{-6}}$ 2.2719$\times{{10}^{-6}}$ 3.3007$\times {{10}^{-6}}$ 3.5924$\times{{10}^{-6}}$ $ \bf{ 1.9863\times {{10}^{-6}}}$ 4.3942$\times{{10}^{-6}}$ 3.5075$\times{{10}^{-6}}$ 2.1432$\times{{10}^{-6}}$
    6.892$\times {{10}^{-7}}$ 5.231$\times {{10}^{-7}}$ 3.390$\times {{10}^{-7}}$ 6.743$\times {{10}^{-7}}$ 4.721$\times {{10}^{-7}}$ 5.432$\times {{10}^{-7}}$ 5.121$\times {{10}^{-7}}$ 3.976$\times {{10}^{-7}}$
    delta-ail 3.5813$\times {{10}^{-8}}$ 3.5842$\times{{10}^{-8}}$ 5.7242$\times {{10}^{-8}}$ 3.6223$\times{{10}^{-8}}$ 2.9804$\times {{10}^{-8}}$ 3.7946$\times{{10}^{-8}}$ 5.1313$\times {{10}^{-8}}$ $ \bf{ 2.7236\times{{10}^{-8}}}$
    2.017$\times {{10}^{-9}}$ 4.654$\times {{10}^{-9}}$ 8.523$\times {{10}^{-9}}$ 7.487$\times {{10}^{-9}}$ 6.754$\times {{10}^{-9}}$ 5.987$\times {{10}^{-9}}$ 6.000$\times {{10}^{-9}}$ 3.003$\times {{10}^{-9}}$
    diabert 0.4932 0.5785 0.7266 0.6225 0.9208 1.1231 0.7334 $ \bf{0.4883 }$
    0.259 0.236 0.699 0.354 0.435 0.500 0.465 0.398
    elevator 2.5947$\times{{10}^{-4}}$ 2.5398$\times{{10}^{-4}}$ $ \bf{2.3237\times {{10}^{-4}} }$ 5.6023$\times{{10}^{-4}}$ 5.7413$\times{{10}^{-4}}$ 7.6498$\times{{10}^{-4}}$ 6.5429$\times {{10}^{-4}}$ 5.5531$\times{{10}^{-4}}$
    2.646$\times {{10}^{-5}}$ 1.658$\times {{10}^{-5}}$ 1.765$\times {{10}^{-5}}$ 2.991$\times {{10}^{-5}}$ 3.102$\times {{10}^{-5}}$ 3.832$\times {{10}^{-5}}$ 3.801$\times {{10}^{-5}}$ 3.124$\times {{10}^{-5}}$
    friedman 2.7852 2.2769 3.1595 2.1445 3.0082 3.0603 2.4206 $ \bf{ 2.1408}$
    0.352 0.615 0.371 0.201 0.308 0.312 0.311 0.353
    gc-s 0.5734 0.6024 0.4216 0.5015 0.2601 0.3267 0.2602 $\bf{ 0.2304}$
    0.064 0.078 0.060 0.078 0.012 0.038 0.014 0.010
    gc-x 4.6492$\times {{10}^{-3}}$ 4.9121$\times {{10}^{-3}}$ 4.8530$\times {{10}^{-3}}$ 4.8000$\times {{10}^{-3}}$ 3.5912$\times {{10}^{-3}}$ 3.8955$\times {{10}^{-3}}$ 3.4279$\times {{10}^{-3}}$ $ \bf{ 3.2687\times{{10}^{-4}}}$
    3.042$\times {{10}^{-5}}$ 3.550$\times {{10}^{-5}}$ 3.706$\times {{10}^{-5}}$ 3.743$\times {{10}^{-5}}$ 3.001$\times {{10}^{-5}}$ 3.330$\times {{10}^{-5}}$ 3.328$\times {{10}^{-5}}$ 2.004$\times {{10}^{-5}}$
    gc-p 0.0826 0.0980 0.0900 0.0900 0.0807 0.0856 0.0754 $\bf{0.0717 }$
    2.998$\times {{10}^{-3}}$ 3.005$\times {{10}^{-3}}$ 3.071$\times {{10}^{-3}}$ 3.026$\times {{10}^{-3}}$ 3.053$\times {{10}^{-3}}$ 3.251$\times {{10}^{-3}}$ 3.117$\times {{10}^{-3}}$ 3.010$\times {{10}^{-3}}$
    housing $ \bf{ 29.6062}$ 33.7403 34.8514 30.4763 34.9782 37.5164 34.0108 33.0672
    6.899 7.041 6.948 6.389 5.839 5.214 5.317 5.215
    mg 0.0203 0.0214 0.0179 0.0163 0.0166 0.0188 0.0176 $\bf{ 0.0157}$
    1.873$\times {{10}^{-3}}$ 1.431$\times {{10}^{-3}}$ 1.351$\times {{10}^{-3}}$ 1.572$\times {{10}^{-3}}$ 1.313$\times {{10}^{-3}}$ 1.082$\times {{10}^{-3}}$ 1.277$\times {{10}^{-3}}$ 1.139$\times {{10}^{-3}}$
    mortgage 0.0843 0.0448 0.0925 0.6160 0.0881 0.0589 0.0409 $ \bf{ 0.0407}$
    3.985$\times {{10}^{-3}}$ 2.751$\times {{10}^{-3}}$ 3.618$\times {{10}^{-3}}$ 1.916$\times {{10}^{-2}}$ 2.936$\times {{10}^{-3}}$ 2.643$\times {{10}^{-3}}$ 2.603$\times {{10}^{-3}}$ 2.517$\times {{10}^{-3}}$
    plastic 2.6657 2.3495 2.3646 2.3735 2.8642 2.9098 2.8477 $ \bf{ 2.2153}$
    0.401 0.098 0.446 0.110 0.100 0.218 0.231 0.200
    pole 206.5032 203.5998 229.1911 207.0983 233.7895 225.5987 216.9002 $ \bf{ 200.9751}$
    4.167 5.531 6.258 4.003 5.638 4.980 4.678 4.236
    puma 6.2417$\times {{10}^{-3}}$ $ \bf{ 2.3405\times{{10}^{-3}}}$ 4.6104$\times {{10}^{-3}}$ 5.8963$\times{{10}^{-3}}$ 4.3104$\times {{10}^{-3}}$ 4.7403$\times{{10}^{-3}}$ 4.7612$\times {{10}^{-3}}$ 3.7208$\times{{10}^{-3}}$
    7.835$\times {{10}^{-6}}$ 7.230$\times {{10}^{-6}}$ 7.200$\times {{10}^{-6}}$ 7.737$\times {{10}^{-6}}$ 6.875$\times {{10}^{-6}}$ 6.943$\times {{10}^{-6}}$ 7.032$\times {{10}^{-6}}$ 7.053$\times {{10}^{-6}}$
    quake 0.0591 $ \bf{ 0.0350}$ 0.0538 0.0371 0.0461 0.0570 0.0532 0.0356
    4.752$\times {{10}^{-3}}$ 1.995$\times {{10}^{-3}}$ 6.863$\times {{10}^{-3}}$ 2.700$\times {{10}^{-3}}$ 3.286$\times {{10}^{-3}}$ 3.274$\times {{10}^{-3}}$ 2.863$\times {{10}^{-3}}$ 2.965$\times {{10}^{-3}}$
    stock 1.5008 $ \bf{ 1.1681}$ 1.3863 1.6803 1.5430 1.6518 1.7626 1.1938
    0.321 0.477 0.459 0.287 0.300 0.348 0.372 0.265
    treasury 0.4287 0.4562 0.4199 0.5553 0.5421 0.4198 0.4568 $ \bf{ 0.4124}$
    0.102 0.021 0.122 0.099 0.078 0.063 0.067 0.066
    wankara 1.6955 2.0040 2.6569 2.8312 2.7434 1.8889 1.7313 $ \bf{1.6096 }$
    0.409 0.143 0.588 0.164 0.296 0.302 0.228 0.199
    wizmir 2.1475 1.6275 2.2321 2.2404 2.3343 1.9649 1.9772 $\bf{ 1.5245}$
    0.467 0.146 0.502 0.161 0.278 0.222 0.234 0.211
    下载: 导出CSV

    表  5  8种算法在28个数据集上的平均训练时间(s)的比较

    Table  5  Comparison of the average training time (s) of 8 algorithms on 28 datasets

    数据集 ENSEMBLE-R PSVR WM-R MOGUL-R TSK-IRL-R L2-TSK-FS B-ZTSK-FS PTSK
    mexihat 18.82 5.03 20.36 50.14 160.23 $ \bf{ 4.25 }$ 90.23 70.18
    abalone 21.31 $ \bf{ 3.00 }$ 28.22 5 238.68 7 192.52 3.17 51.89 40.35
    anacalt 36.94 $ \bf{ 2.31 }$ 27.58 1 006.54 60.48 2.45 22.31 18.96
    autompg6 8.38 $ \bf{ 1.37 }$ 7.14 320.26 70.69 1.89 8.15 6.38
    autompg8 8.55 $ \bf{ 1.55 }$ 8.01 309.65 392.45 1.81 20.64 9.10
    bodyfat 7.10 0.65 7.71 420.68 856.98 $ \bf{ 0. 52 }$ 6.69 5.98
    compactiv 44.88 $ \bf{ 28.38 }$ 98.39 4 124.81 4 792.17 30.34 729.93 640.63
    concrete 30.95 $ \bf{ 5.01 }$ 41.30 1 100.41 8 649.22 5.33 72.66 41.80
    dee 10.43 $ \bf{0.36 }$ 9.31 30.82 89.47 0.93 9.39 5.61
    delta-elv 29.47 $ \bf{ 3.56 }$ 35.72 965.03 7536.12 3.88 79.38 51.69
    delta-ail 30.10 $ \bf{ 5.78 }$ 27.26 1 167.60 2 546.60 6.06 109.63 69.61
    diabert 7.81 0.45 3.64 24.10 16.935 $ \bf{ 0.43 }$ 1.96 1.74
    elevator 186.64 $ \bf{ 30.07 }$ 181.18 3 508.54 3 286.65 100.64 828.80 559.20
    friedman 53.26 $ \bf{ 2.81 }$ 47.96 124.85 1 003.47 2.95 68.036 31.47
    gc-s 245.27 79.34 268.96 3 976.33 4 024.20 $ \bf{ 79.11}$ 964.45 520.76
    gc-x 252.85 78.02 270.82 4 034.87 4 035.65 $ \bf{ 78.00}$ 968.02 518.32
    gc-p 248.38 80.13 268.40 3 956.67 4 020.55 $ \bf{ 80.05 }$ 966.27 523.44
    housing 20.37 $ \bf{ 3.87 }$ 13.86 398.50 445.20 4.12 75.82 47.83
    mg 32.54 $ \bf{ 3.25}$ 23.54 786.92 765.32 3.56 60.43 23.67
    mortgage 20.15 $ \bf{ 3.88 }$ 22.16 1 039.27 1238.48 4.02 68.26 57.20
    plastic 22.74 $ \bf{ 4.79 }$ 23.58 305.20 268.09 5.07 120.3 78.64
    pole 96.36 $ \bf{ 40.86 }$ 720.44 6 290.63 8 533.63 42.75 1075.56 713.70
    puma 40.58 $ \bf{ 30.05 }$ 130.83 4 903.38 4 893.30 32.70 1073.12 796.57
    quake 28.57 $ \bf{2.54 }$ 19.80 360.25 400.39 2.97 63.92 18.48
    stock 19.43 $ \bf{ 3.50 }$ 25.32 1 490.34 2 175.56 3.89 78.46 22.46
    treasury 19.45 $ \bf{ 5.83 }$ 18.21 1 202.40 2 543.82 6.02 117.20 78.30
    wankara 28.76 $ \bf{ 4.38 }$ 27.33 2 009.35 2 464.50 4.85 164.64 79.43
    wizmir 19.29 $ \bf{ 4.02}$ 16.36 1 344.52 2 032.38 4.21 100.28 70.35
    下载: 导出CSV

    表  6  6种TSK模糊系统在28个数据集上的平均模糊规则数比较

    Table  6  Comparison of the average number of fuzzy rules of six TSK fuzzy systems on 28 datasets

    数据集 WM-R MOGUL-R TSK-IRL-R L2-TSK-FS B-ZTSK-FS PTSK
    mexihat 8.8 10.4 28.2 6.8 6.6 $ \bf{4.2 }$
    abalone 217.6 114.4 6434.0 16.0 9.0 $ \bf{6.0 }$
    anacalt 124.6 313.6 185.4 16.0 25.0 $ \bf{4.8 }$
    autompg6 117.0 81.2 786.0 36.0 36.0 $ \bf{18.2 }$
    autompg8 182.0 380.0 2658.0 36.0 25.0 $ \bf{6.6 }$
    bodyfat 190.6 101.2 1715.2 9.0 6.0 $ \bf{ 3.2}$
    compactiv 1 599.6 536.2 2097.0 25.0 16.0 $ \bf{11.0 }$
    concrete 309.2 360.4 1 497.2 49.0 36.0 $ \bf{ 8.6}$
    dee 161.4 112.2 3051.4 36.0 36.0 $ \bf{ 34.6}$
    delta-elv 708.8 220.6 6 510.0 36.0 25.0 $ \bf{5.8 }$
    delta-ail 241.8 104.6 1 476.6 25.0 36.0 $ \bf{8.8 }$
    diabert 16.4 32.8 22.8 25.0 16.0 $ \bf{ 8.4}$
    elevator 4286.7 801.0 191 25.0 25.0 $ \bf{ 23.8}$
    friedman 767.8 432.2 3 043.2 25.0 16.0 $ \bf{6.6 }$
    gc-s 62.8 40.2 226.2 16.0 9.0 $ \bf{6.4 }$
    gc-x 60.8 43.2 220.8 16.0 9.0 $ \bf{ 6.2}$
    gc-p 61.4 40.0 218.8 16.0 9.0 $ \bf{ 6.4}$
    housing 291.2 288.4 2 673.0 49.0 49.0 $ \bf{ 40.0}$
    mg 240.0 175.0 3 887.0 9.0 9.0 $ \bf{5.4 }$
    mortgage 198.2 62.8 122.6 25.0 16.0 $ \bf{ 14.4}$
    plastic 14.8 97.4 87.8 49.0 25.0 $ \bf{ 21.4}$
    pole 3 228.8 100.2 1 775.0 36.0 36.0 $ \bf{ 23.4}$
    puma 6 553.4 188.0 3 221.0 81.0 64.0 $ \bf{60.8 }$
    quake 54.2 173.4 985.8 36.0 $ \bf{25.0 }$ 29.0
    stock 264.8 80.6 578 36.0 36.0 $ \bf{8.6 }$
    treasury 197.2 63.6 70.0 49.0 36.0 $ \bf{35.6 }$
    wankara 458.6 127.8 836.0 25.0 25.0 $ \bf{ 22.0}$
    wizmir 413.8 119.3 189.4 36.0 $ \bf{ 25.0}$ $ \bf{ 25.0}$
    下载: 导出CSV

    表  7  mexihat, elevators, bodyfat 和 wizmir 数据集上 β 参数敏感性实验

    Table  7  Sensitivity experiments of parameter β on mexihat, elevators, bodyfat and wizmir datasets

    Datasets $\beta = 1$ $\beta = 2$ $\beta = 3$ $\beta = 4$ $\beta = 5$ $\beta = 6$ $\beta = 7$ $\beta = 8$
    mexihat MSE 0.0367 0.0304 0.0257 0.0222 0.0204 0.0213 0.0248 0.0248
    Rules 10.4 8.6 6.6 5.2 4.0 3.8 3.6 3.6
    elevators MSE 5.9476$\times {{10}^{-4}}$ 5.5531$\times{{10}^{-4}}$ 5.6307$\times {{10}^{-4}}$ 5.6948$\times {{10}^{-4}}$ 5.6281$\times {{10}^{-4}}$ 5.5845$\times {{10}^{-4}}$ 6.0934$\times {{10}^{-4}}$ 6.4256$\times {{10}^{-4}}$
    Rules 24.4 23.8 22.6 21.2 20.8 20.2 18.4 16.6
    bodyfat MSE 3.4876$\times {{10}^{-4}}$ 3.5512$\times{{10}^{-4}}$ 3.4402$\times {{10}^{-4}}$ 3.6802$\times{{10}^{-4}}$ 3.9823$\times {{10}^{-4}}$ 3.8963$\times{{10}^{-4}}$ 3.9027$\times {{10}^{-4}}$ 3.9216$\times {{10}^{-4}}$
    Rules 3.5 3.0 3.2 3.0 2.8 2.6 2.6 2.6
    wizmir MSE 1.7657 1.7606 1.6435 1.5245 1.5288 1.7578 1.9244 2.0864
    Rules 28.2 28.0 26.0 25.0 25.0 22.6 20.8 19.8
    下载: 导出CSV

    表  8  Holm post-hoc检验结果

    Table  8  Holm post-hoc results

    Algorithm $z$ $ p$ Holm = $a/i$ Hypothesis
    L2-TSK-FS 6.9284 0 7.143$\times {{10}^{-3}}$ Rejected
    WM-R 5.7555 0 8.333$\times {{10}^{-3}}$ Rejected
    MOGUL-R 5.5918 0 0.0100 Rejected
    TSK-IRL-R 5.4009 0 0.0125 Rejected
    B-ZTSK-FS 5.0190 1.0$\times {{10}^{-6}}$ 0.0167 Rejected
    ENSEMBLE-R 3.8461 1.2$\times {{10}^{-5}}$ 0.0250 Rejected
    PSVR 3.2460 0.00117 0.0500 Rejected
    下载: 导出CSV
  • [1] 张必山, 马忠军, 杨美香.既含有一般多个随机延迟以及多个测量丢失和随机控制丢失的鲁棒H∞模糊输出反馈控制.自动化学报, 2017, 43(9): 1656-1664 doi: 10.16383/j.aas.2017.e150082

    Zhang Bi-Shan, Ma Zhong-Jun, Yang Mei-Xiang. Robust H∞ fuzzy output-feedback control with both general multiple probabilistic delays and multiple missing measurements and random missing control. Acta Automatica Sinica, 2017, 43(9): 1656-1664 doi: 10.16383/j.aas.2017.e150082
    [2] 顾晓清, 蒋亦樟, 王士同.用于不平衡数据分类的0阶TSK型模糊系统.自动化学报, 2017, 43(10): 1773-1788 doi: 10.16383/j.aas.2017.c160200

    Gu Xiao-Qing, Jiang Yi-Zhang, Wang Shi-Tong. Zero-order TSK-type fuzzy system for imbalanced data classification. Acta Automatica Sinica, 2017, 43(10): 1773-1788 doi: 10.16383/j.aas.2017.c160200
    [3] Luo M, Sun F C, Liu H P. Joint block structure sparse representation for multi-input-multi-output (MIMO) T-S fuzzy system identification. IEEE Transactions on Fuzzy Systems, 2014, 22(6): 1387-1400 doi: 10.1109/TFUZZ.2013.2292973
    [4] Garcia A M, Carmona C J, Gonzalez P, Jesus M J. MOEA-EFEP: Multi-objective evolutionary algorithm for the extraction of fuzzy emerging patterns. IEEE Transactions on Fuzzy Systems, 2018, 3(9): 2861-2872
    [5] Deng Z H, Choi K S, Wang S T. Scalable TSK fuzzy modeling for very large datasets using minimal-enclosing-ball approximation. IEEE Transactions on Fuzzy Systems, 2011, 19(4): 210-226
    [6] Leski J M. SparseFIS: Data-driven learning of fuzzy systems with sparsity constraints. IEEE Transactions on Fuzzy Systems, 2010, 18(2): 396-411
    [7] 蒋亦樟, 邓赵红, 王士同. ML型迁移学习模糊系统.自动化学报, 2012, 38(9): 1393-1409 doi: 10.3724/SP.J.1004.2012.01393

    Jiang Y Z, Deng Z H, Wang S T. Mamdani-Larsen type transfer learning fuzzy system. Acta Automatica Sinica, 2012, 38(9): 1393-1409 doi: 10.3724/SP.J.1004.2012.01393
    [8] Pal N R, Mudi R, Pal K, Rule extraction through exploratory data analysis for self-tuning fuzzy controllers. International Journal of Fuzzy Systems, 2004, 6(2): 71-80
    [9] Juang C F, Hsieh C D. A fuzzy system constructed by rule generation and iterative linear SVR for antecedent and consequent parameter optimization. IEEE Transactions on Fuzzy Systems, 2012, 20(2): 372-384 doi: 10.1109/TFUZZ.2011.2174997
    [10] Liu J F, Chung F L, Wang S T. Bayesian zero-order TSK fuzzy system modeling. Applied Soft Computing, 2017, 55(6): 253-264
    [11] Zadeh L A. Discussion: Probability theory and fuzzy logic are complementary rather than competitive. Technometrics, 1995, 37(3): 271-276 doi: 10.1080/00401706.1995.10484330
    [12] Hardy A. The Poisson processes in cluster analysis, classification and multivariate analysis for complex data structures: studies in classification, data analysis, and knowledge organization. Springer-Verlag Berlin Heidelberg. July 2011
    [13] Puri C, Kumar N. Type-2 projected Gustafson-Kessel clustering algorithm. International Journal of Computer Applications, 2017, 167(14): 1-6 doi: 10.5120/ijca2017914445
    [14] Agounad S, Aassif E H, Khandouch Y, Maze G, Décultot D. Characterization and prediction of the backscattered form function of an immersed cylindrical shell using hybrid fuzzy clustering and bio-inspired algorithms. Ultrasonics, 2018, 83(2): 222-235
    [15] Cheng W Y, Juang C F. A fuzzy model with online incremental SVM and margin-selective gradient descent learning for classification problems. IEEE Transactions on Fuzzy System, 2012, 20(2): 372-384 doi: 10.1109/TFUZZ.2011.2174997
    [16] Lin C J, Chen C H. A self-constructing compensatory neural fuzzy and its applications. Mathematical and Computer Modelling, 2000, 42(3): 339-351
    [17] Chao C, Zare A, Trinh H N, Omotara G O, Cobb J T, Lagaunne T A. Partial membership latent Dirichlet allocation for soft image segmentation. IEEE Transactions on Image Processing, 2017, 26(12): 5590-5602
    [18] Mitianoudis N. A generalized directional Laplacian distribution: Estimation, mixture models and audio source separation. IEEE Transactions on Audio Speech and Language Processing, 2012, 20(9): 2397-2408 doi: 10.1109/TASL.2012.2203804
    [19] Gu X Q, Chung F L, Ishibuchi H, Wang S T. Imbalanced TSK fuzzy classifier by cross-class Bayesian fuzzy clustering and imbalance learning. IEEE Transactions on Systems, Man, and Cybernetics: Systems, 2017, 47(8): 2005-2020 doi: 10.1109/TSMC.2016.2598270
    [20] Gu X Q, Wang S. Bayesian Takagi-Sugeno-Kang fuzzy model and its joint learning of structure identification and parameter estimation. IEEE Transactions on Industrial Informatics, 2018, 47(8): 5327-5337
    [21] Chopin N. A sequential particle filter method for static models. Biometrika, 2002, 89(3): 539-551 doi: 10.1093/biomet/89.3.539
    [22] Cheng W C. PSO algorithm particle filters for improving the performance of lane detection and tracking systems in difficult roads. Sensors, 2012, 12(12): 17168-17185 doi: 10.3390/s121217168
    [23] LIBSVM Datasets[Online], available: https://www.csie.ntu.edu.tw/~cjlin/libsvmtools/datasets, November 11, 2017
    [24] KEEL Software and KEEL Datasets[Online], available: http://sci2s.ugr.es/keel, November 11, 2017
    [25] Cordón O, Herrera F. A two-stage evolutionary process for designing TSK fuzzy rule-based systems. IEEE Trans. Systems, Man and Cybernetics, Part B: Cybernetics, 1999, 29(6): 703-715 doi: 10.1109/3477.809026
    [26] Alcalá R, Alcala-Fdez J, Casillas J, Cordón O, Herrera F. Local identification of prototypes for genetic learning of accurate TSK fuzzy rule-based systems. International Journal of Intelligent Systems, 2007, 22(9): 909-941 doi: 10.1002/int.20232
    [27] Wang L X, Mendel J M. Generating fuzzy rules by learning from examples. IEEE Transactions on Systems, Man and Cybernetics, 1992, 22(6): 1414-1427 doi: 10.1109/21.199466
    [28] Pedrajas N G, Osorio C G, Fyfe C. Nonlinear boosting projections for ensemble construction. Journal of Machine Learning Research, 2007, 8(1): 1-33
    [29] Peng X J, Xu D. Projection support vector regression algorithms for data regression. Knowledge-Based Systems, 2016, 112(11): 54-66
    [30] Demsar J. Statistical comparisons of classifiers over multiple data sets. Journal of Machine Learning Research, 2006, 7(1): 1-30
    [31] Holm S. A simple sequentially rejective multiple test procedure. Scandinavian Journal of Statistics, 1979, 6(2): 65-70
    [32] Eichhorn H, Cano J L, McLean F, Anderl R. A comparative study of programming languages for next-generation astrodynamics systems. CEAS Space Journal, 2018, 10(3): 115-123
  • 期刊类型引用(1)

    1. 陈晶,程连元,李俊红,朱全民. 结构未知系统降维辨识方法——变量消去算法. 控制与决策. 2024(01): 171-179 . 百度学术

    其他类型引用(0)

  • 加载中
  • 图(5) / 表(8)
    计量
    • 文章访问数:  1414
    • HTML全文浏览量:  326
    • PDF下载量:  188
    • 被引次数: 1
    出版历程
    • 收稿日期:  2018-05-10
    • 录用日期:  2018-12-12
    • 刊出日期:  2021-02-26

    目录

    /

    返回文章
    返回