-
摘要: 针对长时海量心电信号自动分类系统中,心电专家诊断费时、费力和成本高,心电信号形态复杂导致特征提取困难,异常诊断模型适应性差、准确度低等问题,本文提出一种基于深度学习和模糊C均值的心电信号分类方法.该方法主要包括心电信号降噪预处理、心电信号分段和采样点统一化、无监督心跳特征学习、模糊C均值分类4个步骤,给出了模糊C均值深度信念网络FCMDBN模型结构和学习分类算法.仿真实验基于MIT-BIH心率异常数据库表明,与基于传统心电特征人工设计的分类方法相比,本文提出的信号诊断方法具有较高的适应性和准确度.Abstract: In the classification system for longtime and massive ECG signals, ECG diagnosis is time-consuming, laborious and costly. It is difficult to extract signal features because of the complex ECG morphology. The diagnosis model has low adaptability and accuracy. To solve the above problem, a novel method for ECG classification using deep learning and fuzzy C-means is proposed. The method includes four steps:ECG signal preprocessing, heartbeat segmentation and sampling point unification, ECG feature deep learning, fuzzy C-means classification. The structure and algorithm of fuzzy C-means deep belief networks (FCMDBN) are shown in the paper. The method is validated on the well-known MIT-BIH arrhythmia database. Experiment results show that the approach achieves higher adaptability and accuracy than traditional hand-designed methods on classification of ECG signals.
-
Key words:
- ECG classification /
- deep learning /
- fuzzy C-means /
- deep belief networks (DBNs)
-
据世界卫生组织统计, 2012年全球约有17.5万人死于心血管疾病, 占全球死亡人数的31 % [1].为降低心脏疾病的发生, 预防性的前期诊断是关键.心电图作为一种重要的非侵入式心电检测工具被心脏专家广泛使用.通常情况下, 针对短时心电图可通过视觉观察来识别各种心电信号异常的各种症状.但是, 随着便携式心电图(例如, Holter、Loop recorder)的广泛使用, 因其可连续记录24小时、48小时, 甚至14个月的心电信号记录[2].面对庞大的数据, 采用传统的视觉方法判断心脏疾病已不可能, 取而代之的是采用智能化的心电信号自动分类技术.
心电信号自动分类系统通常包括5个阶段, 包括心电信号采集、预处理、心跳分段、特征提取和降维、自动分类, 如图 1所示.心电信号采集可综合利用智能硬件、物联网等核心技术远程采集心电信号数据, 汇入医疗健康数据仓库.心电信号预处理主要去除心电信号的各种噪声, 为后续阶段处理提供干净的信号信息, 去除的心电噪声主要包括基线漂移、工频干扰和高频噪声等[3].心跳分段的目的是提取每个完整的心跳周期波形, 需要检测P波、QRS波群和T波等关键点[4].针对心电信号预处理和心跳分段技术, 已有众多学者在文献中进行了研究并得到了广泛应用, 本文重点研究心电信号特征提取和自动分类两方面技术.在心电信号特征提取方面, 近十年来大量文献提出了各种方法, 包括心电信号形态特征[3]、时间间隔特征[5]、小波变换特征[6]和高阶统计特征[7]等.为获取更有效的特征集合, 在分类系统应用中往往组合运用多种类型的心电信号特征, 为此, 特征降维方法, 例如主成分分析、独立成分分析等[6-9]常应用于上百心电特征的关键特征提取中.在心电信号自动分类技术方面, 以低维特征空间为基础, 分类模型多采用各种智能算法, 例如人工神经网络[9]、最近路径森林[10]、群智能算法[11]和模糊分类[12]等.
从以上提到的各种文献来看, 尽管各种心电信号分类系统在特定心电信号数据集(例如, MIT-BIH、AHA和CSE数据库等)取得较高的准确率.但仍然面临以下几个问题: 1)特征提取的过程通常需要心脏专家的参与, 导致时间和费用成本的增加; 2)因心电特征需人工设计, 可能造成源心电信号特征信息丢失; 3)构建的心电信号分类模型对不同病患者具有低适应性的缺陷.针对上述问题, 近年来, 随着深度无监督特征提取技术的深入研究, 基于深度学习技术的心电信号自动分类系统得到广泛关注.
深度学习方法思想是对输入层数据可自动学习特征的过程.与传统方法相比, 深度学习已在图像识别[13]、语音识别[14]和生理数据分析[15]等方面取得较好的成绩.典型的深度学习框架包括深度信念网络(Deep belief network, DBN) [16]、栈式自编码器(Stacked auto-encoder, SAE) [17]和卷积神经网络(Convolutional neural network, CNN) [18]等.基于深度学习方法进行心电信号自动识别已有众多学者开展研究, 并取得了较好的结果.例如, Kiranyaz等[19]采用一维卷积神经网络提取信号特征为特定病人进行心电异常实时诊断; Rahhal等[15]提出采用栈式自动编码器从源心电信号中学习特征进行心电信号分类, 并用Softmax算法实现多心律分类; Yan等[20]和Meng等[21]均基于受限玻尔兹曼机(Restricted Boltzmann machine, RBM)构造的DBN提取心电特征, 在分类技术方面, 前者使用Softmax多分类器, 后者使用支持向量机决策树.从上述文献来看, 基于无监督深度学习的心电特征提取技术相对于传统的人工特征设计方法优势突出, 而在心电信号分类技术方面, 仍旧难以体现心电信号模糊分类特性.传统心电信号异常诊断中, 医生的诊断过程本身具有模糊性, 而且大量复杂多样心电信号中异常心跳属于少数.因此, 采用具有对稀有数据敏感特性、模糊性和更符合人类思维过程的模糊聚类过程算法进行心电信号分类得到广泛研究. Özbay等[22]结合模糊C均值(Fuzzy c-means, FCM)聚类算法和多层感知机对多种心电信号分类; Yeh等[23]利用FCM算法对异常心电分类并给出了4个详细的聚类步骤.本文综合深度学习与模糊分类技术的优势, 提出一种结合深度学习和模糊C均值技术的心电信号分类方法.首先, 描述了该方法的技术流程, 包括心电信号降噪预处理、心电信号分段和采样点统一化、无监督心跳特征学习、模糊分类等; 然后, 提出模糊C均值深度信念网络模型结构和算法, 介绍了面向心电信号特征提取的深度网络DBN构建方法和面向心电信号的模糊C均值分类方法; 最后, 基于MIT-BIH心律异常数据库进行仿真实验, 验证该方法的有效性.
1. 提出的方法
本文基于深度学习和模糊C均值的心电信号分类技术流程如图 2所示, 心电信号降噪预处理、心电信号分段和采样点统一化、无监督心跳特征学习、模糊分类4个步骤依次推进、相互依赖, 每个步骤都影响着最终分类结果的准确性.
1.1 心电信号降噪预处理
采集的心电信号通常需要去除基线漂移、肌电噪声和工频噪声等干扰信号, 提高波形检测和分类准确率.从去噪预处理技术发展来看, 主要包括数字滤波器技术、自适应滤波器技术和以小波变换、数学形态学及神经网络为代表的现代高新滤波技术.由于数字滤波器具有很好的系统可靠性、低廉的设计成本及灵活方便的应用性等优点, 是心电信号预处理最简单且广泛的应用技术.本文按照de Chazal等[3]提出的降噪预处理方法, 先用200 ms中值滤波去除QRS波群和P波, 然后再用600 ms的中值滤波去除T波, 最后用源信号减去两个中值滤波后的信号即可得到去除基线漂移心电信号, 肌电和工频噪声信号使用带有35 Hz、3 dB、12-tap低通滤波器去除, 最后得到可用于后续处理的心电信号.
1.2 心电信号分段与采样点统一化
心电信号分技术已有三十多年的研究历史, 主要围绕P波峰和QRS波群的检测来展开. Pan等[4]提出了一种基于数字滤波的检测方法, 可有效检测P、QRS和T波的波峰、上下沿等关键点, 该方法因其简单性和有效性得到广泛应用.本文利用基于该方法开发的Ecgpuwave工具"http://www.physionet.org/physiotools/wag/ecgpuw-1.htm"识别心电信号各种波形边界, 以实现心电信号心跳分段.根据检测获取的各个关键点计算后, 可容易分段各心跳样本.因不同的个人身体状况具有不同的心跳周期, 分段后的样本具有不同的采样点数目, 而心电特征抽取模型需要统一的输入.为此, 需要对心跳样本进行采样点统一化处理, 本文采用插值算法对获取到的心跳样本统一化为200个采样点.
1.3 无监督心跳特征学习
无监督特征学习可自动抽取无标签样本特征, 相对人工设计特征的方式能够更好地发现潜在特征, 且减少数据专家参与, 具有省时、省力, 降低数据分析成本的优点.目前, 具有无监督特征学习能力的数据模型结构有多种, 例如受限玻尔兹曼机(RBM) [16]及其扩展模型条件RBM [24]、门限RBM [25]、自动编码器(Auto-encoder, AE) [26]、循环神经网络(Recurrent neural network, RNN) [27]等.本文采用具有无监督特征学习能力的DBN抽取心电信号的高层抽象特征, 该DBN由多层高斯伯努利RBM (Gaussian-Bernoulli RBM, GBRBM)和伯努利伯努利RBM (Bernoulli-Bernoulli RBM, BBRBM)堆栈而成, 最底层GBRBM用于接收连续值心电信号, 最顶层使用线性激活函数输出连续特征向量, 构建过程包括无监督模型训练和有监督模型优化微调两个阶段.
1.4 心电信号模糊分类
近年来, 模糊系统在医疗健康领域得到广泛应用, 用于诊断和识别各种疾病, 例如帕金森疾病[28]、乳腺癌[29]和肝脏疾病[30]等.从文献来看, 无监督模糊分类技术不仅应用于医疗图像分段分析, 还广泛用于各种医疗体征信号的识别诊断中.例如, Meau等[31]基于多层感知机扩展了卡尔曼滤波, 构建了一套复杂的模糊系统用于心电信号分类. Ozbay等[32]利用模糊聚类神经网络进行早期心脏疾病诊断.本文以深度模型抽取的心电信号高层抽象特征为数据基础, 采用目前最为广泛使用的FCM算法进行心电信号分类. FCM算法最早在1973年由Dunn提出[33], 1981年Bezdek对该算法进行了优化[34], 被广泛应用于图像检索、语音识别和模式识别等领域.
2. 模糊C均值深度信念网络模型
分段采样点统一化后的心电信号数据集可表示为$s=[s^1, s^2, \cdots, s^{R+T}]$, 其中, $s=[s_1, s_2, \cdots, s_D]^{'}$表示每条心电信号采样数据, $R$是训练样本数, $T$是测试样本数, $D$是每条心电信号的采样点数.从$R$条训练样本中随机或主动挑选$L$条构成训练样本$X^L=[x^1, \cdots, x^L]$, 其中$1\le L\le R$.则对应的样本标签向量为$Y^L=[y^1, y^2, \cdots, y^L]$, 其中$y=[y_1, y_2, \cdots, y_c]^{'}$, $c$表示标签类数量, 其中$y_i $取值如式(1)所示.
$ y_i =\left\{ {{\begin{array}{*{20}c} 1, \\ 0, \\ \end{array}}{\begin{array}{*{20}c} \\ \\ \end{array} }{\begin{array}{*{20}c} x~\text{属于}~i~\text{类} \\ x~\text{不属于}~i~\text{类} \\ \end{array} }} \right. $
(1) 则网络模型的实现目标是基于采集的心电信号数据找到$X^L\to Y^L$的映射关系.本文提出的模糊C均值深度网络结构包括DBN抽象特征提取和FCM分类两部分, 如图 3所示.底层DBN网络模型由多层无方向的受限玻尔兹曼机(RBM)堆建而成, 含有一层可接收连续心电信号的可见单元和多层二值隐藏单元, 最后输出高层连续抽象特征向量, 为构建DBN模型通常需要无监督学习训练和模型微调两个阶段.顶层FCM分类模型以DBN输出的高层抽象特征为基础, 计算每类心电信号的聚类中心, 然后计算最短距离的方式进行心电信号的模糊分类, 为构建FCM模型一般需要计算心电信号聚类中心和中心距离计算两个阶段.
2.1 深度网络DBN构建
心电信号DBN模型采用经典的由低到高逐层贪婪无监督训练RBM方法, 对深度网络内的RBM参数进行设置. RBM作为DBN的基本模块具有很强的非线性无监督学习能力, 能够从复杂的数据中学习有用信息, 具备针对一组状态$(v, h)$的能量定义.模型第一层RBM因需要接收心电信号连续值, 则使用高斯-伯努利RBM (GBRBM), 其能量定义如式(2).模型其他层RBM均为伯努利-伯努利RBM (BBRBM), 其能量定义如式(3).
$ E(v, h;\theta _1 )= \sum\limits_{i=1}^n \frac{{(v_i -a_i )^2}} {2\sigma _i^2 } -\sum\limits_{j=1}^m {b_j h_j } -\\ \sum\limits_{i=1}^n \sum\limits_{j=1}^m \frac{{v_i } }{\sigma _i }h_j w_{ij} $
(2) $ E(v, h;\theta _2 )= \sum\limits_{i=1}^n \frac{{(v_i -a_i )^2} }{2\sigma _i^2 } -\sum\limits_{j=1}^m {b_j h_j } -\\ \sum\limits_{i=1}^n \sum\limits_{j=1}^m \frac{{v_i } }{\sigma _i }h_j w_{ij} $
(3) 其中, $v$表示RBM的可见层单元向量, $h$表示RBM的隐藏层单元向量. $\theta_1=\{w, a, b, \sigma\}$, $\theta_2=\{w, a, b\}$分别为GBRBM和BBRBM的参数向量, $W$表示RBM可见层单元和隐藏层单元之间的无向权值向量, $a$和$b$分别为可见层单元和隐藏层单元的偏置向量, $\sigma$为可见层单元高斯噪音的标准差向量. $n$表示可见层单元数量, $m$表示隐藏层单元数量.
因RBM具有层间连接、层内无连接的结构, 可方便计算第$j$个隐藏单元的条件概率和第$i$个可见单元的条件概率.则针对GBRBM和BBRBM, 条件概率计算公式分别为式(4)、(5)和式(6)、(7).
$ p(v_i =v\vert h, \theta _1 )=\eta \left(v\vert a_i +\sum\limits_{j=1}^n {h_j w_{ij} }, \sigma _i^2 \right) $
(4) $ p(h_j =1\vert v, \theta _1 )=\delta \left(b_j +\sum\limits_{i=1}^n {\frac{v_i }{\sigma _i^2 }w_{ij} } \right) $
(5) $ p(v_i =1\vert h, \theta _2 )=\delta\left (a_i +\sum\limits_{j=1}^m {h_j w_{ij} } \right) $
(6) $ p(h_j =1\vert v, \theta _2 )=\delta \left(b_j +\sum\limits_{i=1}^n {v_i w_{ij} } \right) $
(7) 其中, $\eta (.\vert u, \sigma ^2)$表示均值$u$和方差$\sigma ^2$的高斯概率密度函数, $\delta (x)$表示逻辑回归函数.
利用心电信号数据训练RBM目的是获取$\theta _1 $和$\theta _2 $参数值, 可根据Hinton提出的对比散度快速学习算法[35]使其对数似然函数在训练集上最大化, 则连接权重$w_{ij} $、可见层单元的偏置$a_i $和隐藏层单元的偏置$b_j $的更新准则为:
$ \Delta w_{ij} \approx \varepsilon \left(\left\langle \dfrac{v_i }{\sigma _i^2 }h_j \right\rangle_{data} -\left\langle \dfrac{v_i }{\sigma _i^2 }h_j \right\rangle_{\rm model} \right) \\ \Delta a_i \approx \varepsilon \left(\left\langle \dfrac{v_i } {\sigma _i^2 }\right\rangle_{data} -\left\langle \dfrac{v_i }{\sigma _i^2 }\right\rangle_{\rm model}\right ) \\ \Delta b_j \approx \varepsilon \left(\left\langle h_j \right\rangle_{data} -\left\langle h_j \right\rangle_{\rm model} \right) $
(8) $ \Delta w_{ij} \approx \varepsilon (\langle v_i h_j \rangle_{data} -\langle v_i h_j \rangle_{\rm model} ) \\ \Delta a_i \approx \varepsilon (\langle v_i \rangle_{data} -\langle v_i \rangle_{\rm model} ) \\ \Delta b_j \approx \varepsilon (\langle h_j \rangle_{data} -\langle h_j \rangle_{\rm model} ) $
(9) 依据DBN深度框架从低到高逐层训练RBM的方法, 在初始阶段各层之间的连接权重$w$和偏置$a, b$全部随机产生, 最顶层输出$h^t$即为心电信号的高层抽象特征, 如式(10)所示.
$ h^t=\delta (b^t+\sum {h^{t-1}w^t} ) $
(10) DBN无监督训练结束后, 使用$L$条有标签的心电信号样本通过梯度下降和反馈传播算法对参数进行优化微调以增强模型的分类性能, 此优化问题可用式(11)表达:
$ \theta ^{\ast }{=}\arg \min \sum\limits_{i=1}^L {\sum\limits_{j=1}^C {\exp (-\delta ^i(b_j^t +\sum {h_j^{t-1} w_j^t } )y_j^i )} } $
(11) 2.2 模糊C均值分类
设$H=\{h_1, h_2, \cdots, h_L\}$是通过深度DBN模型抽取的对应$L$条心电信号样本的抽象特征向量, 若抽象特征维度为$p$, 则$H$可用式(12)表示.
$ H=\left[{{\begin{array}{*{20}c} {h_{1, 1} } & {h_{1, 2} } & {\cdots} & {h_{1, p} } \\ {h_{2, 1} } & {h_{2, 2} } & {\cdots} & {h_{2, p} } \\ \vdots &\vdots & {\ddots} & \vdots \\ {h_{L, 1} } & {h_{L, 2} } & {\cdots} & {h_{L, p} } \\ \end{array} }} \right] $
(12) 本文利用FCM算法, 通过最小化目标函数(13), 不断更新隶属度和心电信号分类中心, 直到分类中心位置固定或两次迭代的目标函数值之差在允许的范围内.
$ J(H;U, V)=\sum\limits_{c=1}^C {\sum\limits_{l=1}^L {(u_{c, l} )^m(d_{c, l} )^2} } $
(13) 其中, $m$为模糊度参数, $U=(u_{c, l})_{C\times L} $为划分矩阵, 如式(14), $u_{c, l} $为属于类$c$的$h_l $特征向量的隶属度, 且满足式(15)的两个条件, $V=\{v_1, v_2, \cdots, v_C \}$为心电聚类中心向量集合, $v_c $可根据式(16)计算, $d_{c, l} $为$h_l $样本特征向量到心电类$c$中心$v_c $的欧氏距离.
$ U=(u_{c, l} )_{C\times L} =\left[{{\begin{array}{*{20}c} {u_{1, 1} } & {u_{1, 2} } & {\cdots} & {u_{1, L} } \\ {u_{2, 1} } & {u_{2, 2} } & {\cdots} & {u_{2, L} } \\ {\vdots} & {\vdots} & {\ddots} & {\vdots} \\ {u_{C, 1} } & {u_{C, 2} } & {\cdots} & {u_{C, L} } \\ \end{array} }} \right] $
(14) $ \left\{{{\begin{array}{*{20}c} {0\le u_{c, l} \le 1, \qquad 1\le c\le C, 1\le l\le L} \\ {\sum\limits_{c=1}^C {u_{c, l} =1, \qquad 1\le l\le L} } \\ \end{array} }} \right. $
(15) $ v_c =\frac{\sum\limits_{l=1}^L {(u_{c, l} )^mh_l } }{\sum\limits_{l=1}^L {(u_{c, l} )^m} }, \qquad 1\le c\le C $
(16) 2.3 模糊C均值深度信念网络算法FCMDBN
传统的模糊神经网络通过调整模糊参数$m$来优化隶属度函数以达到对目标数据进行分类的目的.而在模糊深度网络结构中, 针对心电信号分类需求, 模型的优化需要心电信号采样数据$L$、高层抽象心电特征向量$H$、模糊参数$m$和相应的标签向量$Y$协同建模与微调.
算法1描述了FCMDBN的训练和分类过程, 因采样得到的心电信号是连续值数据, 在初始化DBN阶段需设置最底层RBM类型为GBRBM, 其他层RBM类型为BBRBM; 隐藏层单元个数、模型层数、训练次数和批次大小等参数根据心电信号数据维度和样本集大小确定; 动量学习率、学习率、惩罚率和初始偏置等, 则需要经验赋初始值; RBM初始化权值向量则随机产生; 模糊分类个数和聚类终止阈值根据具体心电信号分类需求进行设置, 模糊度参数同样需经验赋值.
FCMDBN模型经过以下两个构建过程后可对心电信号类型进行分类:
1) 利用无标签和有标签的心电信号采样数据训练DBN模型, 获取心电信号类型的FCM划分矩阵.首先, 利用无标签采用数据对DBN模型进行逐层贪婪无监督学习和有标签采样数据对DBN模型进行梯度下降监督学习.然后, 依据获取的高层抽象心电信号特征向量数据计算每类心电信号的聚类中心, 构建划分矩阵.
2) 优化微调FCMDBN模型.结合反向回馈算法和FCMDBN模糊分类功能, 利用有标签的心电信号采样数据进行逐层贪婪学习和梯度下降学习后对FCMDBN模型参数进行调整优化.
算法1. ECG-FCMDBN
输入.训练样本$ds\_training=\{(x_l, y_l)\}_{l=1}^L $; 测试样本$ds\_testing=\{(x_t, y_t)\}_{t=1}^T $
FCMDBN参数:
每层RBM类型{GBRBM, BBRBM};
模型层数$n$; 每层单元个数$N_1, N_2, \cdots, N_n $;
训练次数$E$; 随机初始化权值向量$w$; 初始化偏置向量$a$, $b$;
动量学习率$\vartheta $; 学习率$\eta $; 惩罚率$p$; 批次大小$s$;
模糊分类个数$C$; 模糊度参数$m$; 聚类终止阈值$\varepsilon $;
输出. FCMDBN模型的权值向量$w$, 偏置向量$a$, $b$, 划分矩阵$U$
步骤1.基于心电信号ds_training训练样本对DBN进行逐层贪婪无监督学习
for $k=1$; $k < n$ do
if $k==1$ do
设置RBM可见单元Gaussian类型;
else if $k==n-1$ do
设置RBM隐藏单元为Gaussian类型;
else do
设置RBM隐藏单元Binary类型;
end
for $e=1$; $e\leq E$ do
for $l=1$; $l\leq L$ do
if $k==1$ do
根据式(3)和(4)分别计算GBRBM隐藏单元和可见单元的条件概率;
根据式(7)计算更新GBRBM连接权重和隐藏单元和可见单元偏置;
else do
if $k==n-1$ do
设置激活函数为线性函数
else do
设置激活函数为逻辑回归函数
end
根据式(5)和(6)分别计算BBRBM隐藏单元和可见单元的条件概率;
根据式(8)计算更新BBRBM连接权重和隐藏单元和可见单元偏置;
end
end
end
end
步骤2.根据式(10)对训练的DBN进行有监督学习, 获取训练样本的高层抽象特征向量.
步骤3.根据式(12)计算每一种心电信号类型的聚类中心向量, 构建划分矩阵$U$.
步骤4.采用$X^L$, $Y^L$, $U$微调FCMDBN模型
再次基于心电信号ds_training训练样本对DBN进行逐层贪婪无监督学习.
再次根据式(10)对训练的DBN进行有监督学习, 采用反向回馈算法调整DBN参数.
步骤5.基于心电信号ds_testing测试样本进行分类.
3. 实验与结果分析
3.1 实验数据
实验数据来源于MIT-BIH心律异常数据库, 该数据库由麻省理工学院开发, 数据全部采集于Beth Israel医院的心律异常实验室. MIT-BIH心律异常数据库中每条记录采集心电信号时间约30分钟, 采样频率360 Hz, 心跳类型18种并已做标签注释.共包含48条记录, 23条心电记录可作为常规临床记录的代表性样本, 其他25条记录包含了复杂心室、交界和室上性等心律失常问题.参照文献[3]中对心电信号预处理方式, 实验选取5类心律类型进行分类, 包括正常心跳(NORM)、左束支传导阻滞(LBBB)、右束支传导阻滞(RBBB)、室性早搏(PVC)和房性早搏(APC), 如图 4中(1-1)、(2-1)、(3-1)、(4-1)和(5-1)所示.不同人体对象通常具有不同的心跳频率, 分段后的心电信号具有不同的心跳长度, 实验对分段信号进行重插值抽样, 在保持原有波形形态的情况下得到统一长度为200个采样点的心跳信号, 如图 4中(1-2)、(2-2)、(3-2)、(4-2)和(5-2)所示.最后得到的5类心律实验数据集如表 1所示, 其中$DS1$为训练数据集, $DS2$为测试数据集.
表 1 5类心律MIT-BIH实验数据集Table 1 The data set of MIT-BIH including five types of cardiac rhythms数据集 类型 心跳记录 NORM LBBB RBBB PVC APC 合计 $DS1$ 训练数据集 100、105、108、111、114、116、118、201、203、207、208、209、215
219、222、228、23330 179 3 578 2 251 3 387 892 40 287 $DS2$ 测试数据集 103、106、109、119、124、205、214、221、223、231、232 14 560 1 999 3 182 2 247 1 462 23 450 3.2 实验与结果分析
实验中FCMDBN模型的DBN各层单元个数结构为${200 -400 -300 -100 -50 -10}$, 第1层200单元接收统一宽度的心电信号连续数据, 第6层10单元输出心电信号的高层抽象特征信息.模型定义动力学习率= [0.4 0.3 0.2 0.1 0], 批次大小= 100, 训练次数= 50, 惩罚率= 0.0002; FCM模糊分类个数= 5, 模糊度参数$m=1.2$, 聚类终止阈值= 0.001.实验利用台式计算机进行仿真, 设备配置为Intel Core i7-4790, CPU 3.6 GHz, RAM 16 GB, and GPU Intel HD graphics 4 600.
基于DBN抽取的样本10个心电特征数据, 本文对每类心律类型进行分析和聚类中心点计算.箱线图 5描述了每类心律特征值信息, 从图 5结果来看, NORM、LBBB、RBBB、PVC和APC 5类心律值具有明显可区分的分布范围. 表 2给出了5类心律特征中心点数据, 基于中心点数据计算某心电信号的距离进行心律分类.
表 2 5类心律特征中心点Table 2 The centers of feature vectors of five kinds of cardiac rhythms特征点 NORM LBBB RBBB PVC APC $F1$ $ -$1.8883 $ -$4.9128 $ -$1.8114 3.2888 2.3609 $F2$ $ -$1.8629 0.2611 4.3143 2.0445 2.5327 $F3$ $ -$2.4740 $ -$2.5394 $ -$1.5449 2.5297 2.2344 $F4$ $ -$3.8821 0.3071 0.3587 2.9173 1.6611 $F5$ $ -$2.4890 $ -$0.4371 1.7242 1.1693 $ -$2.5217 $F6$ $ -$0.1716 $ -$2.3649 1.0338 2.7506 2.4165 $F7$ $ -$0.4175 1.6318 1.1534 3.2230 $ -$2.3545 $F8$ 1.5320 0.2320 3.5207 2.8277 0.2495 $F9$ 4.4273 1.9278 2.1546 2.6333 $ -$1.7905 $F10$ 2.7375 0.4500 0.7206 1.4910 $ -$0.8220 实验随机选择特征点向量为[3.8624, 1.9699, $-$4.6216, 3.3794, 1.1686, 2.2271, 3.1660, 3.5609, $-$3.5019, 0.7997]的样本, 其与各特征中心点的欧氏距离分别为$d1=14.4160, d2=12.6650, d3=9.6987, d4=9.5196, d5=10.6587, $如图 6所示, 根据距离最小原则, 该心电信号样本属于RBBB类型.
为方便分类结果比较, 本文采用灵敏度(Sensitivity, Se), 阳性预测值(Positive predictive value, PPV)和总准确率(Total classification accuracy, TCA)三种度量方式, 公式定义分别如下所示.
$ Se=\frac{TP}{TP+FN} $
(17) $ PPV=\frac{TP}{FP+TP} $
(18) $ TCA=\frac{TP+TN}{TP+FP+FN+TN} $
(19) 其中, $TP$表示心跳被正确分类的个数; $FN$表示心跳被错误分类的个数; $TN$表示不属于某种心跳被分类的个数; $FP$表示属于某种心跳被错误分类的个数.
表 3是基于FCMDBN模型在DS2数据集上的分类混淆矩阵结果, 从表 4分类结果性能比较来看, 本文采用的基于深度学习的模糊分类方法可自动提取源心电信号的全面高层抽象特征进行聚类, 相对其他方法具有较高的分类准确性, NORM、LBBB、RBBB、PVC、APC 5类心律的分类性能分别为: $Se=98.32{ \%}$ $PPV=99.28{ \%}; $ $Se=98.32{ \%}, $ $PPV=99.28{ \%}; $ $Se=98.32{ \%}, $ $PPV=99.28{ \%}; $ $Se=98.32{ \%}, $ $PPV=99.28{ \%}; $ $Se=98.32{ \%}, $ $PPV=99.28{ \%}$, 总体准确律$TCA=96.54{ \%}$.另外, 仿真实验中模型训练和测试采用了不同的数据集, 证明了所提方法对心电信号诊断的适应性更强.
表 3 FCMDBN模型在DS2数据集上的分类混淆矩阵Table 3 Confusion matrix for ECG arrhythmias classification on DS2 using the FCMDBN心律类型 NORM LBBB RBBB PVC APC Total NORM 14 316 111 69 39 25 14 560 LBBB 23 1 811 57 51 57 1 999 RBBB 32 12 3 001 86 51 3 182 PVC 36 29 49 2 121 12 2 247 APC 12 20 11 28 1 391 1 462 表 4 分类结果性能比较Table 4 Performance comparison of classification results方法 NORM LBBB RBBB PVC APC Se (%) 98.32 90.59 94.31 94.39 95.14 FCMDBN PPV (%) 99.28 91.32 94.16 91.22 90.55 TCA (%) 96.54 Se (%) 98.28 90.35 86.97 92.19 94.86 FCMM [12] PPV(%) 97.38 90.97 87.07 86.82 93.87 TCA (%) 93.57 Se (%) 94.80 58.10 88.50 88.80 74.50 Knn-NN [36] PPV (%) 98.09 74.36 78.86 54.79 78.49 TCA (%) Se (%) 100 48.0 74.6 98.6 99.3 MLP PPV (%) 92.6 96.0 99.1 81.3 78.8 network [37] TCA (%) 87.6 4. 结论
面对大数据量心电信号自动分析诊断问题, 本文提出了基于深度学习和模糊分类相结合的心脏疾病诊断方法.深度学习是目前研究最为广泛的对象特征自动提取技术, 在众多应用领域均有研究成果, 本文采用基于RBM构建的深度信念网络DBN对连续心电信号进行高层抽象特征抽取, 形成用于心律分类的特征向量数据基础, 然后结合模糊C均值聚类算法构建心电分类模型.仿真实验表明:与传统人工设计心电特征相比, 本文所提方法分类准确率更高、适应性更强.未来工作可深入研究其他深度学习方法和分类算法相结合在心电信号自动分类中的应用, 构建多种不同的体征信号自动分析算法库.
-
表 1 5类心律MIT-BIH实验数据集
Table 1 The data set of MIT-BIH including five types of cardiac rhythms
数据集 类型 心跳记录 NORM LBBB RBBB PVC APC 合计 $DS1$ 训练数据集 100、105、108、111、114、116、118、201、203、207、208、209、215
219、222、228、23330 179 3 578 2 251 3 387 892 40 287 $DS2$ 测试数据集 103、106、109、119、124、205、214、221、223、231、232 14 560 1 999 3 182 2 247 1 462 23 450 表 2 5类心律特征中心点
Table 2 The centers of feature vectors of five kinds of cardiac rhythms
特征点 NORM LBBB RBBB PVC APC $F1$ $ -$1.8883 $ -$4.9128 $ -$1.8114 3.2888 2.3609 $F2$ $ -$1.8629 0.2611 4.3143 2.0445 2.5327 $F3$ $ -$2.4740 $ -$2.5394 $ -$1.5449 2.5297 2.2344 $F4$ $ -$3.8821 0.3071 0.3587 2.9173 1.6611 $F5$ $ -$2.4890 $ -$0.4371 1.7242 1.1693 $ -$2.5217 $F6$ $ -$0.1716 $ -$2.3649 1.0338 2.7506 2.4165 $F7$ $ -$0.4175 1.6318 1.1534 3.2230 $ -$2.3545 $F8$ 1.5320 0.2320 3.5207 2.8277 0.2495 $F9$ 4.4273 1.9278 2.1546 2.6333 $ -$1.7905 $F10$ 2.7375 0.4500 0.7206 1.4910 $ -$0.8220 表 3 FCMDBN模型在DS2数据集上的分类混淆矩阵
Table 3 Confusion matrix for ECG arrhythmias classification on DS2 using the FCMDBN
心律类型 NORM LBBB RBBB PVC APC Total NORM 14 316 111 69 39 25 14 560 LBBB 23 1 811 57 51 57 1 999 RBBB 32 12 3 001 86 51 3 182 PVC 36 29 49 2 121 12 2 247 APC 12 20 11 28 1 391 1 462 表 4 分类结果性能比较
Table 4 Performance comparison of classification results
方法 NORM LBBB RBBB PVC APC Se (%) 98.32 90.59 94.31 94.39 95.14 FCMDBN PPV (%) 99.28 91.32 94.16 91.22 90.55 TCA (%) 96.54 Se (%) 98.28 90.35 86.97 92.19 94.86 FCMM [12] PPV(%) 97.38 90.97 87.07 86.82 93.87 TCA (%) 93.57 Se (%) 94.80 58.10 88.50 88.80 74.50 Knn-NN [36] PPV (%) 98.09 74.36 78.86 54.79 78.49 TCA (%) Se (%) 100 48.0 74.6 98.6 99.3 MLP PPV (%) 92.6 96.0 99.1 81.3 78.8 network [37] TCA (%) 87.6 -
[1] World Health Organization. Cardiovascular diseases[Online], Available: http://www.who.int/mediacentre/factsheets/fs317/en/, May, 2017. [2] Waktare J E P, Malik M. Holter, loop recorder, and event counter capabilities of implanted devices. Pacing and Clinical Electrophysiology, 1997, 20(10):2658-2669 doi: 10.1111/pace.1997.20.issue-10 [3] de Chazal P, O'Dwyer M, Reilly R B. Automatic classification of heartbeats using ECG morphology and heartbeat interval features. IEEE Transactions on Biomedical Engineering, 2004, 51(7):1196-1206 doi: 10.1109/TBME.2004.827359 [4] Pan J P, Tompkins W J. A real-time QRS detection algorithm. IEEE Transactions on Biomedical Engineering, 1985, BME-32(3):230-236 doi: 10.1109/TBME.1985.325532 [5] de Chazal P, Reilly R B. A patient-adapting heartbeat classifier using ECG morphology and heartbeat interval features. IEEE Transactions on Biomedical Engineering, 2006, 53(12):2535-2543 doi: 10.1109/TBME.2006.883802 [6] Martis R J, Acharya U R, Min L C. ECG beat classification using PCA, LDA, ICA and discrete wavelet transform. Biomedical Signal Processing and Control, 2013, 8(5):437-448 doi: 10.1016/j.bspc.2013.01.005 [7] Kampouraki A, Manis G, Nikou C. Heartbeat time series classification with support vector machines. IEEE Transactions on Information Technology in Biomedicine, 2009, 13(4):512-518 doi: 10.1109/TITB.2008.2003323 [8] Rodríguez R, Mexicano A, Bila J, Cervantes S, Ponce R. Feature extraction of electrocardiogram signals by applying adaptive threshold and principal component analysis. Journal of Applied Research and Technology, 2015, 13(2):261-269 doi: 10.1016/j.jart.2015.06.008 [9] Ceylan R, Özbay Y. Comparison of FCM, PCA and WT techniques for classification ECG arrhythmias using artificial neural network. Expert Systems with Applications, 2007, 33(2):286-295 doi: 10.1016/j.eswa.2006.05.014 [10] da S Luz E J, Nunes T M, de Albuquerque V H C, Papa J P, Menotti D. ECG arrhythmia classification based on optimum-path forest. Expert Systems with Applications, 2013, 40(9):3561-3573 doi: 10.1016/j.eswa.2012.12.063 [11] Dilmac S, Korurek M. ECG heart beat classification method based on modified ABC algorithm. Applied Soft Computing, 2015, 36:641-655 doi: 10.1016/j.asoc.2015.07.010 [12] Yeh Y C, Lin H J. Cardiac arrhythmia diagnosis method using fuzzy C-Means algorithm on ECG signals. In: Proceedings of the 2010 International Symposium on Computer, Communication, Control and Automation (3CA). Tainan, China: IEEE, 2010. 272-275. [13] Hayat M, Bennamoun M, An S J. Deep reconstruction models for image set classification. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2015, 37(4):713-727 doi: 10.1109/TPAMI.2014.2353635 [14] Graves A, Mohamed A R, Hinton G. Speech recognition with deep recurrent neural networks. In: Proceedings of the 2013 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). Vancouver, BC, Canada: IEEE, 2013. [15] Al Rahhal M M, Bazi Y, AlHichri H, Alajlan N, Melgani F, Yager R R. Deep learning approach for active classification of electrocardiogram signals. Information Sciences, 2016, 345:340-354 doi: 10.1016/j.ins.2016.01.082 [16] Hinton G E, Osindero S, Teh Y W. A fast learning algorithm for deep belief nets. Neural Computation, 2006, 18(7):1527-1554 doi: 10.1162/neco.2006.18.7.1527 [17] Wang Y S, Yao H X, Zhao S C. Auto-encoder based dimensionality reduction. Neurocomputing, 2016, 184:232-242 doi: 10.1016/j.neucom.2015.08.104 [18] Schmidhuber J. Deep learning in neural networks:an overview. Neural Networks, 2015, 61:85-117 doi: 10.1016/j.neunet.2014.09.003 [19] Kiranyaz S, Ince T, Gabbouj M. Real-time patient-specific ECG classification by 1-D convolutional neural networks. IEEE Transactions on Biomedical Engineering, 2016, 63(3):664-675 doi: 10.1109/TBME.2015.2468589 [20] Yan Y, Qin X B, Wu Y G, Zhang N N, Fan J P, Wang L. A restricted Boltzmann machine based two-lead electrocardiography classification. In: Proceedings of the 2015 IEEE 12th International Conference on Wearable and Implantable Body Sensor Networks (BSN). Cambridge, MA, USA: IEEE, 2015. 1-9 [21] Meng H H, Zhang Y. Classification of electrocardiogram signals with deep belief networks. In: Proceedings of the 2014 IEEE 17th International Conference on Computational Science and Engineering (CSE). Chengdu, China: IEEE, 2014. [22] Özbay Y, Ceylan R, Karlik B. Integration of type-2 fuzzy clustering and wavelet transform in a neural network based ECG classifier. Expert Systems with Applications, 2011, 38(1):1004-1010 [23] Yeh Y C, Wang W J, Chiou C W. A novel fuzzy c-means method for classifying heartbeat cases from ECG signals. Measurement, 2010, 43(10):1542-1555 doi: 10.1016/j.measurement.2010.08.019 [24] Sutskever I, Hinton G E. Learning multilevel distributed representations for high-dimensional sequences. Journal of Machine Learning Research, 2007, 2:548-555 [25] Memisevic R, Hinton G. Unsupervised learning of image transformations. In: Proceedings of the 2007 IEEE Conference on Computer Vision and Pattern Recognition. Minneapolis, MN, USA: IEEE, 2007. [26] Bengio Y, Lamblin P, Popovici D, Larochelle H. Greedy layer-wise training of deep networks. In: Proceedings of the 19th International Conference on Neural Information Processing Systems. Cambridge, MA, USA: MIT Press, 2006. 153-160 [27] Hüsken M, Stagge P. Recurrent neural networks for time series classification. Neurocomputing, 2003, 50:223-235 doi: 10.1016/S0925-2312(01)00706-8 [28] Polat K. Classification of Parkinson's disease using feature weighting method on the basis of fuzzy C-means clustering. International Journal of Systems Science, 2012, 43(4):597-609 doi: 10.1080/00207721.2011.581395 [29] Hwang S H, Kim D, Kang T K, Park G T. Medical diagnosis system of breast cancer using FCM based parallel neural networks. In: Proceedings of ICIC 2007: Advanced Intelligent Computing Theories and Applications with Aspects of Artificial Intelligence. Berlin Heidelberg: Springer, 2007. 712-719 [30] Ekong V E, Onibere E A, Imianvan. Fuzzy cluster means system for the diagnosis of liver diseases. Journal of Computer Science & Technology, 2011, 2(3):205-209 [31] Meau Y P, Ibrahim F, Narainasamy S A L, Omar R. Intelligent classification of electrocardiogram (ECG) signal using extended Kalman Filter (EKF) based neuro fuzzy system. Computer Methods and Programs in Biomedicine, 2006, 82(2):157-168 doi: 10.1016/j.cmpb.2006.03.003 [32] Özbay Y, Ceylan R, Karlik B. A fuzzy clustering neural network architecture for classification of ECG arrhythmias. Computers in Biology and Medicine, 2006, 36(4):376-388 http://www.wanfangdata.com.cn/details/detail.do?_type=perio&id=JJ029949063 [33] Dunn J C. A fuzzy relative of the ISODATA process and its use in detecting compact well-separated clusters. Journal of Cybernetics, 1973, 3(3):32-57 doi: 10.1080/01969727308546046 [34] Bezdek J C. Pattern Recognition with Fuzzy Objective Function Algorithms. New York: Springer, 1981. 203-239 [35] Hinton G E. Training products of experts by minimizing contrastive divergence. Neural Computation, 2002, 14(8):1771-1800 doi: 10.1162/089976602760128018 [36] Jekova I, Bortolan G, Christov I. Assessment and comparison of different methods for heartbeat classification. Medical Engineering & Physics, 2008, 30(2):248-257 http://www.wanfangdata.com.cn/details/detail.do?_type=perio&id=JJ02961447 [37] Dokur Z, Ölmez T. ECG beat classification by a novel hybrid neural network. Computer Methods and Programs in Biomedicine, 2001, 66(2-3):167-181 doi: 10.1016/S0169-2607(00)00133-4 -