No Reference Video Quality Objective Assessment Based on Multilayer BP Neural Network
-
摘要: 机器学习在视频质量评价(Video quality assessment, VQA)模型回归方面具有较大的优势, 能够较大地提高构建模型的精度. 基于此, 设计了合理的多层BP神经网络, 并以提取的失真视频的内容特征、编解码失真特征、传输失真特征及其视觉感知效应特征参数为输入, 通过构建的数据库中的样本对其进行训练学习, 构建了一个无参考VQA模型. 在模型构建中, 首先采用图像的亮度和色度及其视觉感知、图像的灰度梯度期望值、图像的模糊程度、局部对比度、运动矢量及其视觉感知、场景切换特征、比特率、初始时延、单次中断时延、中断频率和中断平均时长共11个特征, 来描述影响视频质量的4个主要方面, 并对建立的两个视频数据库中的大量视频样本, 提取其特征参数; 再以该特征参数作为输入, 对设计的多层BP神经网络进行训练, 从而构建VQA模型; 最后, 对所提模型进行测试, 同时与14种现有的VQA模型进行对比分析, 研究其精度、复杂性和泛化性能. 实验结果表明: 所提模型的精度明显高于其14种现有模型的精度, 其最低高出幅度为4.34 %; 且优于该14种模型的泛化性能, 同时复杂性处于该15种模型中的中间水平. 综合分析所提模型的精度、泛化性能和复杂性表明, 所提模型是一种较好的基于机器学习的VQA模型.Abstract: Machine learning has a great advantage in the regression of video quality assessment (VQA) model and can greatly improve the accuracy of built model. To this end, a reasonable BP neural network is designed, and taking the feature values of the distorted video contents, code and decode distortion, transmission distortion, and visual perception effect as inputs, a no reference VQA model is constructed by training them with the samples of the built video databases. In modeling, firstly, 11 features are used to describe the four main factors that affect video quality, which are the brightness and chroma of image and their visual perception, the gray gradient expectation of image, the blur degree of image, the local contrast, the motion vectors and their visual perception, the scene switching feature, the bitrate, the initial delay, the single interrupt delay, the interrupt frequency and the average time of interrupt. And the feature parameters of a large number of video samples in the two video databases established are extracted. Then by using these feature parameters as inputs, the BP neural network is trained to construct our VQA model. Finally, the proposed model is tested and compared with 14 existing VQA models to study its accuracy, complexity and generalization performance. The experimental results show that the accuracy of the proposed model is significantly higher than those of 14 existing models, and the lowest increase was 4.34%. And in the generalization performance, it is better than 14 models. Moreover, the complexity of the proposed model is at the intermediate in the 15 VQA methods. Comprehensively analyzing the accuracy, generalization performance and complexity of the proposed model, it is shown that it is a good VQA model based on machine learning.
-
Key words:
- Video quality evaluation /
- neural networks /
- delay /
- video contents
-
模态是指人接受信息的特定方式, 由于多媒体数据往往是多种信息的传递媒介, 多模态学习已逐渐发展为多媒体内容分析和理解的主要手段. 在医学领域, 也有研究者应用多模态学习. 针对Alzheimer病, 韩坤等[1]提出结合磁共振图像(Magnetic resonance imaging, MRI)和正电子发射型计算机断层显像(Positron emission computed tomography, PET)图像模态的特征信息相融合的方法, 实验结果表明该方法在准确率上取得了较好的成绩. 为了解决传统模态医学图像缺陷, 张淑丽等[2]提出了自由变形法对多模态的医学图像进行融合. 然而大多数研究人员主要融合多模态的医学图像, 没有加入电子病历等文本模态的数据. 调查发现, 肺癌是世界发病率和死亡率最高的疾病之一[3]. 病人在进行肺疾病诊断时, 需要CT检查, 影像科医生对CT影像进行检查描述, 但在实际的诊断和治疗过程中, 常常是由主治医生根据检查描述以及CT影像进行进一步的判断. 这一过场不仅增加了主治医生的工作量, 也导致了医疗资源的不合理应用.
基于此, 本文在影像CT基础上, 融入影像医生对CT影像描述的文本信息, 以及一些其他检验结果(比如癌胚抗原测定、鳞状上皮细胞癌抗原测定等), 构建深度学习模型对肺疾病进行预测, 将影像医生给出的CT影像和检查描述以及其他检验结果输入到模型中, 对疾病进行判别并给出得病概率, 患病概率大的病人则交由主治医生更进一步地诊断和治疗, 以减轻主治医生的工作量, 提高工作效率.
1. 数据预处理
本文收集的电子病历数据, 主要分为三部分: 检查描述、CT影像和检验结果.
对检查描述研究发现, 虽出自不同医生之手, 但是对医学名词写法相同, 只是在电子病历输入的时候, 存在错别字、同音异字等问题. 如“双肺实质未见明显异常密度, 双肺门不大, 纵膈内未见明确肿大淋巴结 ··· 肺癌不除外纵隔淋巴结增大, 肝脏内见斑片状高密度影, 门静脉周围间隙增宽.” 数据中除了含有少见的医学专有名词“纵隔淋巴结”、“斑片状高密度影”外, 还有错别字“隔”. 本文使用预定义词库的方法, 解决医学常见缩略语的分词问题, 然后使用Multi-head attention与Bi-LSTM对文本进行编码, 减少同音异字或者语法错误带来的文本理解上的问题.
CT影像数据是通过成像设备进行采集的, 但是由于成像设备参数、外界环境的干扰, 会导致采集的CT图像数据有差异, 这些问题都会影响模型的准确率. 本文使用去噪和归一化等图像处理技术对CT图像进行处理.
其他检验结果主要是痰液细胞学、胸水检查、血常规检查和肿瘤标记物筛查等. 痰液与胸水细胞学检查, 主要是判断痰液与胸水中是否存在肿瘤细胞; 血常规检查包括白细胞、红细胞和血小板以及细胞酸碱性等; 肺癌筛选的肿瘤标记物主要有癌胚抗原(Carcinoembryonic antigen, CEA)、癌抗原CA125 (Cancer antigen 125, CA125)、细胞角蛋白19片段(Cytokeratin fragment 19, CYFRA21-1)等.
考虑到数据由文本数据和图像数据两部分组成, 因此分别对两部分数据进行处理.
1.1 文本数据预处理
1.1.1 检查描述数据预处理
深度学习出现后, 基于神经网络的词嵌入模型成为了主流, GloVe[4]使用词共现矩阵学习更广泛的共现概率. CoVe[5]通过神经翻译的编码器向词嵌入中添加含有上下文背景的表征向量, 令模型学习上下文背景化的语义. BERT (Bidirectional encoder representation from transformers)使用多层Transformer[6]编码器学习词汇前后的语义依赖关系, 并通过遮罩语言模型(Masked language model, MLM)解决了模型的输入在多层Transformer 结构中可以看到自己的“镜像问题”. ERNIE[7]提出了知识融合与对话语言模型的概念, 针对中文通用领域的自然语言处理任务对BERT进行了优化.
本文使用jieba分词, 考虑医学短文本中特有的专有名词、缩写语多的特点, 在分词过程中加入了医学词库, 医学词库的建立一方面是通过网络爬取医学专业词汇, 另一方面通过影像科医生总结出常见的肺部CT描述词汇. 文本数据中有大量的词虽然出现频率很高, 却对分类预测没有帮助, 比如在“检查描述”中常出现“无”、“可”、“检查”这类词在实际训练中不能体现不同病历差异性的作用, 更加重了学习器的负担, 一般称其为“停用词”. 因此在分词的时候, 需要将这些停用词去掉. 分词之后的文本数据还需向量化, 本论文使用(Word to vector, word2vec) 模型来训练词向量, 并在模型中加入位置词向量与Multi-head attention来更好地表征文本语义.
1.1.2 检验结果数据预处理
检验结果主要是痰液细胞学、胸水检查、血常规检查和肿瘤标记物筛查等, 检验项目如表1所示, 电子病历中的检查结果会给出参考范围、检查名称、状态和结果值, 由于不同检查项目的量纲不同, 所以结果值有很大的差异, 因此, 本文使用状态值来作模型的输入, 将正常的状态映射为0, 非正常状态(高或低)映射为1, 然后输入到模型里面.
表 1 检验项目Table 1 Examine items参考范围 检验名称 状态 结果值 血常规检查 0 ~ 0.1 嗜碱性粒细胞 正常 0.01 0.05 ~ 0.5 嗜酸性粒细胞 正常 0.07 0 ~ 1 嗜碱性粒细胞比率 正常 0.20 % 110 ~ 160 血红蛋白 正常 128 g/L 100 ~ 300 血小板 正常 $13510{\hat 9}/{\rm{L}}$ 3.5 ~ 5.5 红细胞 正常 4.25 37 ~ 50 红细胞分布宽度 正常 43.90 % 4 ~ 10 白细胞 正常 $6.1810{\hat 9}/{\rm{L}}$ 86 ~ 100 红细胞平均体积 正常 88.2 fL 痰液检查 无肿瘤细胞 痰液细胞 正常 无肿瘤细胞 肿瘤标记物 5 μg/ml CEA (Carcinoembryonic antigen) 正常 2.31 30 U/ml CA125 (Cancer antigen 125) 正常 13.70 U/ml 8.20 U/ml CA72-4 (Cancer antigen 72-4) 正常 1.34 U/ml 16.3 ng/ml NSE (Neuron-specific enolase) 正常 15.18 ng/ml 1.5 ng/ml SCC (Squamous cell carcinoma) 正常 0.8 ng/ml 2.0 ng/ml CYFRA21-1 (Cytokeratin fragment 19) 高 7.31 ng/ml 胸水检验 0.38 ~ 2.1 甘油三脂 正常 0.74 mmol/L 0.8 ~ 1.95 高密度脂蛋白 正常 1.31 mmol/L 3.8 ~ 6.1 葡萄糖 高 10.11 mmol/L 2 ~ 4 低密度脂蛋白 正常 2.02 mmol/L 109 ~ 271 乳酸脱氢酶 正常 205.2 U/L 0 ~ 6.8 直接胆红素 正常 3.49 μmol/L 3.6 ~ 5.9 总胆固醇 低 3.54 mmol/L 20 ~ 45 球蛋白 正常 31.7 g/L 1.2 图像数据预处理
在计算机辅助诊断领域中, 主要针对肺部CT影像进行肺癌良恶性的诊断. Sun等[8]使用了单层的CNN (Convolutional neural networks)和SDAE (Stacked denoised autoencoder) (3个DAE (DialAnExchange))以及DBN (Deep belief nets)(4层RBM (Restricted Boltzmann machine))解决了肺节点的良恶性分类问题. Xiao等[9]增加了一个卷积层, 使用CNN (2个卷积层、2个池化层、2个全连接层)和DBN (2层RBM)实现了肺节点的良恶性分类, 其效果有明显的提高. Cheng等[10]提出将肺节点兴趣区的多个参数与肺节点兴趣区一起输入到SDAE模型, 仅使用肺节点中间切片的Single模型与使用所有肺节点切片的All模型进行对比, 实验结果表明All模型相比Single模型, 在准确率上大约有11 %的提升, 而AUC大约有5 %的提升. Nibali等[11]将深度残差网络模型与迁移学习应用到肺癌分类中, 由于深度残差模型, 在加深网络深度的同时, 减少了梯度消失的可能, 因此, 通过深度残差网络模型以ImageNet图像集为源域进行迁移学习分类, 使得分类准确率为89.9 %, AUC (Area under curve)为0.946. Shen等[12]提出了一种具有多级裁剪结构的CNN模型, 该模型可以获取不同尺度的图像特征, 从而加强模型的分类效果, 该模型的准确率为87.1 %, AUC为0.93.
通过对已有方法对比发现, 分类准确率有明显的提高, 但是分类效果还不是很高. 一方面是由于模型过于简单, 另一方面, 没有根据目标数据进行有针对性的调整, 所以模型仍有更大的改进空间.
由于CT图像使用不同的扫描以及重建方法, 会产生一些不需要的杂质和噪点, 比如像结节一样的球状结构, 这些干扰信息与感兴趣区域之间存在某种相似性. 如果不去除噪声, 后面对特征提取的质量将受到严重影响, 从而影响模型的准确性. 本文实验分析发现高斯滤波器的去噪效果比均值滤波等的效果更好, 而且高斯滤波器对边缘信息的保留能力也更佳. 除此之外, 为了加快模型收敛, 将图像像素归一化或标准化, 在本文中, 对去噪之后的图像, 将像素的值归一化为0到255的整数. 处理后的图像采用残差神经网络为基础构建模型, 具体模型将在实验的图像模型部分给出.
2. 实验
模型结构如图1所示, 整个模型的主要由三部分构成, 分别是文本部分、图像部分和多层感知器(Multilayer perceptron, MLP), 文本部分输入的是电子病历的文本信息(影像医生给出的CT描述信息), 图像部分输入的是影像检查的CT图像, 多层感知器输入的是其他检查结果. 将文本部分的输出、图像部分的输出和多层感知器的输出拼接起来, 然后经过全连接层, 最后输出结果. 模型的损失函数是交叉熵:
$$ L = -\frac{1}{n}\sum\limits[y \ln(a) + (1-y) \ln(1 - a)] $$ (1) 其中,
$ a $ 是真实值,$ y $ 是预测值.2.1 文本模型
在文本方面, 以Bi-LSTM和Multi-head attention为核心对文本建模, 模型的输入层为词向量加位置向量, 同时在模型的输入层后面引入Multi-head attention. 最后将多个特征进行拼接和融合, 使模型进一步提高特征表达能力.
2.1.1 Word Embedding
本文使用词粒度的词向量. 考虑到文本语料相对比较少, 训练出来的词向量语义不够丰富, 而腾讯预训练词向量大约超过800万中文词汇数据, 与其他公开的预训练词向量相比, 具有比较好的覆盖性和新鲜度, 因此本文使用腾讯预训练向量.
由于病例中的词语所在的位置不同而代表不同的语义, 在词向量基础上, 加入位置向量, 能够使模型区别出不同位置的单词. 因此, 模型的输入也会将位置向量(Position embedding)作为辅助词向量输入. 在语言序列中, 相对位置至关重要, 而Position embedding本身是绝对值位置的信息, 因此, 本文将Position embedding定义为如下:
$$ \begin{split} & {\boldsymbol{PE}}_{2 i}(p) = \sin \left(\frac{p} {10\;000^{2 i / d_{pos}}} \right)\\ &{\boldsymbol{PE}}_{2 i+1}(p) = \cos \left(\frac{p} {10\;000^{2 i / d_{pos}}}\right) \end{split}$$ (2) ${\boldsymbol{{{P}}E}}$ 代表Position embedding,$ p $ 代表词的位置,$ d_{pos} $ 代表维度, 公式将词位置信息使用三角函数映射到$ d_{pos} $ 维度上.2.1.2 Multi-head Attention
Multi-head attention本质是进行多次Self-attention计算, 它可以使模型从不同表征子空间获取更多层面的特征, 从而使模型能够捕获句子更多的上下文信息.
Self-attention本质是一种信息编码方式, 类似于CNN中的卷积, Self-attention的定义如下所示:
$$\begin{array}{l} {\rm{Attention}}({\boldsymbol{Q}},{\boldsymbol{K}},{\boldsymbol{V}}) =\\ \qquad {\mathop{\rm softmax}\nolimits} \left( {\left[ {\begin{array}{*{20}{c}} {{v_1}}\\ {{v_2}}\\ \vdots \\ {{v_n}} \end{array}} \right]\left[ {v_1^{\rm{T}},v_2^{\rm{T}}, \cdots ,v_n^{\rm{T}}} \right]} \right)\left[ {\begin{array}{*{20}{c}} {{v_1}}\\ {{v_2}}\\ \vdots \\ {{v_n}} \end{array}} \right] =\\\qquad {\mathop{\rm softmax}\nolimits} ({\boldsymbol{Q}}{{\boldsymbol{K}}^{\rm{T}}}){\boldsymbol{V}} \end{array}\;\;\qquad$$ (3) $ {\boldsymbol{Q}} $ 是Query, 代表Query向量,$ {\boldsymbol{K}} $ 是Key, 代表Key向量,$ {\boldsymbol{V}} $ 是Value, 代表Value向量.$ W_{q} $ 矩阵,$ W_{k} $ 矩阵和$ W_{v} $ 矩阵将输入的词向量映射成$ {\boldsymbol{Q}} $ ,$ {\boldsymbol{K}} $ ,$ {\boldsymbol{V}} $ , 然后按照公式进行加权求和, 对文本信息进行编码.将Self-attention执行k次, 然后将结果拼接起来, 就得到了Multi-head attention.
2.1.3 Bi-LSTM
词向量经过Multi-head attention的时候, 由于Self-attention是对输入信息的上下文的向量进行计算编码信息, 没有考虑到输入信息的词序, 所以, 在模型的输入层加入了Position embedding, 除此之外, 还在Multi-head attention的后面加入了Bi-LSTM. LSTM (Long short-term memory)[13]是为了缓解RNN的梯度消失而提出的, LSTM单元有三个门, 分别是遗忘门
${\boldsymbol{f}}_{t}$ , 输入门${\boldsymbol{i}}_{t}$ 和输出门${\boldsymbol{o}}_{t} $ [14]. 假设在$ t $ 时刻, 输入为${\boldsymbol{x}}_{t}$ , 而$ t-1 $ (上一时刻)的隐藏层的输出为${\boldsymbol{h}}_{t-1}$ , 其中${\boldsymbol{C}}_{t-1}$ 为$ t-1 $ (上一时刻)的细胞状态值, 则在$ t $ 时LSTM的各个状态值:$$ \begin{split} {\boldsymbol{f}}_{t} =\;& \sigma\left({\boldsymbol{W}}_{f} \times\left[{\boldsymbol{h}}_{t-1}, {\boldsymbol{x}}_{t}\right]+{\boldsymbol{b}}_{f}\right) \\ {\boldsymbol{i}}_{t} =\; & \sigma\left({\boldsymbol{W}}_{i} \times\left[{\boldsymbol{h}}_{t-1}, {\boldsymbol{x}}_{t}\right]+{\boldsymbol{b}}_{i}\right) \\ \tilde{{\boldsymbol{C}}}_{t} =\; & \tanh \left({\boldsymbol{W}}_{C} \times\left[{\boldsymbol{h}}_{t-1}, {\boldsymbol{x}}_{t}\right]+{\boldsymbol{b}}_{C}\right) \\ {\boldsymbol{C}}_{t} =\;& {\boldsymbol{f}}_{t} \times {\boldsymbol{C}}_{t-1}+{\boldsymbol{i}}_{t} \times \tilde{{\boldsymbol{C}}}_{t} \\ {\boldsymbol{o}}_{t} =\; & \sigma\left({\boldsymbol{W}}_{o} \times\left[{\boldsymbol{h}}_{t-1}, {\boldsymbol{x}}_{t}\right]+{\boldsymbol{b}}_{o}\right) \\ {\boldsymbol{h}}_{t} =\;& {\boldsymbol{o}}_{t} \times \tanh \left({\boldsymbol{C}}_{t}\right) \end{split} $$ (4) 通过以上计算, 最终得到
$ t $ 时刻LSTM隐层状态的输出值. 由于LSTM对句子只是从前向后单向建模, 无法进行从后向前的编码信息. 因此, 本文使用Bi-LSTM (双向LSTM), 可以更好地捕捉双向的语义信息.2.1.4 Soft Attention
Soft attention即传统的Attention mechanism, 通过保留Bi-LSTM编码器对输入序列的中间输出结果, 然后计算每个中间结果与其他结果的点积, 最后加权求和.
$$ \begin{split} {\boldsymbol{M}} =\; &\tanh ({\boldsymbol{H}})\\ {\boldsymbol{\alpha}} =\;&{\mathop{\rm softmax}\nolimits} \left( {{{\boldsymbol{w}}^{\rm{T}}}{\boldsymbol{M}}} \right)\\ {\boldsymbol{r}} =\; &{\boldsymbol{H}}{{\boldsymbol{\alpha}} ^{\rm{T}}} \end{split}$$ (5) ${\boldsymbol{ H}}$ 是Bi-LSTM隐藏层的输出结果,${\boldsymbol{ w}}$ 是需要学习的参数. 第二个Attention机制的实现是通过计算每个中间结果与其他结果的点积, 其中中间结果是通过保留Bi-LSTM编码器对输入序列的中间输出的结果, 最后再进行加权求和. 这一层的Attention能够观察到序列中的每个词与输入序列中一些词的对齐关系. 本文使用的是乘法注意力机制, 其中使用高度优化的矩阵乘法实现乘法注意力机制, 那么整体计算成本和单次注意力机制的计算成本并不会相差很大, 同时又提升了模型的特征表达能力.2.2 多层感知机(Multilayer Perceptron, MLP)
模型的第三部分是多层感知器(MLP), MLP主要包含输入层、隐藏层和输出层. 实验验证, 隐藏层不能过多, 一方面, 层数越多, 参数越多, 容易过拟合, 另一方面, 到了一定的层数, 增加更深的隐藏层, 分类效果也不会提升太多, 反而有时会下降. 因此, MLP部分设置三个隐藏层, 具体参数如表2所示.
表 2 MLP参数设置Table 2 The parameter of MLPName 节点个数 激活函数 Hidden1 65 Sigmoid Hidden2 131 Sigmoid Hidden3 263 Sigmoid 2.3 图像模型
本文的图像卷积部分在ResNet-50结构基础上, 基于ImageNet数据集预训练, 然后微调构建的模型. 模型的结构如图2所示, ResNet中有2个基本的block,一个是Identity block, 输入和输出的dimension是一样的, 所以可以串联多个; 另一个是ConvBlock, 输入和输出的Dimension是不一样的, 所以不能连续串联, 它的作用是为了改变特征向量的Dimension.
图像中包含足够的区分信息是卷积神经网络能够学习不同肺癌特征的重要条件[15]. 图像的大小会影响网络区分不同特征的能力, 太小会使一些不明显的特征提取不到, 太大会受计算机内存的限制, 因此必须选择大小合适的图像尺寸, 由于本文使用的是ResNet-50 (Residual neural network)网络, 输入的图像尺寸需要调整为
$ 224 \times 224 $ .2.4 实验设置
实验中所用的计算机硬件配置为Centos系统, CPU为Intel(R) Xeon(R) CPU E5-2630, GPU为NVIDIA Tesla M4显卡, 深度学习框架为Keras 2.2.4, 后端为Tensorflow 1.13.
在本论文中, 主要有两个实验, 第一个是分别测试Multi-head attention, Bi-LSTM和Soft attention层在文本深度模型的效果, 第二个是测试文本深度模型、图像深度模型、MLP和文本图像混合模型.
为了验证模型的优点和比较模型的表现能力, 在第二个实验中, 主要实现了以下几个模型: 一个基线模型为ImageNet预训练的VGG-19 (Visual geometry group), 三个单模态模型为图像深度模型 (Img-net)、多层感知器(MLP)和文本深度模型 (Text-net), 以及多模态模型Img+Text, Img+MLP和MLP+Text. Text-net网络去掉下面的图像卷积部分, 添加一个全连接层, 损失函数为交叉熵的输出层. Img-net网络去掉上面的文本深度模型, 添加全连接层之后加上代价函数为交叉熵的输出层. MLP是一个多层感知机网络, 只使用检查结果进行预测. TI-net网络是文本图像混合模型, 输入为图像、文本和其他数值, 数据经过各自的模型之后, 拼接起来, 经过一个全连接层之后输出. 为了减少模型之间的扰动, 对于单模型Text-net, Img-Net和MLP三个网络分别用各自的输入进行预训练, 而对于多模态模型, 使用预训练的单模型的网络权重作为初始化, 再对多模态模型进行微调.
实验数据共有3 785个样本. 本文主要研究的是一个二分类问题, 即判断病人是否患有肺癌, 与一般分类问题不同, 疾病诊断分类问题的数据集往往存在不均衡问题, 因此需要对不均衡的样本进行处理. 由于本文的数据量比较大, 因此, 使用采样的方法来平衡数据集, 以1:2的比例对全量数据进行采样, 数据的比例分布如表3所示.
表 3 正负样本比例Table 3 Positive and negative sample ratio正样本 1 262 负样本 2 523 为了验证模型的效果, 将原始数据按照8:2的比例切分出训练集和验证集, 并将训练集在3个模型上进行训练, 然后在验证集上评价模型. 防止模型结果的偶然性, 在训练模型的时候, 采用k-fold交叉验证的形式来训练模型, 实验结果显示k取值为7的时候效果比较好一些. 训练集和验证集中, 文本的最大长度设置为80, 词向量的维度为200, 优化器为Adam, 初始学习率为0.01, 衰减因子为0.0001, 训练轮次为2 000次, 为了防止过拟合, 使用EarlyStopping来提前停止训练, 评价指标采用准确率, 精确率和召回率.
2.5 实验结果
实验1的结果如表4所示, 主要用来测试Multi-head attention, Bi-LSTM和Soft attention层的效果, Text-net网络使用了所有的层, Text-net1去掉了Multi-head attention层, Text-net2去掉了Bi-LSTM层, Text-net3去掉了Soft attention层, 从表中结果可以看出, Text-net模型比其他三个模型都要好. 对比Text-net、Text-net1和Text-net2可以看出, 加入Multi-head attention准确率提升了7 %, 加入Bi-LSTM准确率提升了3 %, 所以加入Multi-head attention层比Bi-LSTM层效果更好. 对比Text-net和Text-net3, 加入Soft-attention层后, 模型准确率提升了4 %, 这是因为Bi-LSTM层只对文本进行序列建模, 缺乏层次信息, 后面加入Soft-attention, 可以将Bi-LSTM编码后的信息, 进行层次信息建模.
表 4 实验1的结果Table 4 The result of experiment 1Model name Train (%) Test (%) Accuracy Precision Recall Accuracy Precision Recall Text-net 83.12 ± 0.02 80.10 ± 0.05 81.12 ± 0.02 81.21 ± 0.01 79.82 ± 0.03 80.15 ± 0.01 Text-net1 76.87 ± 0.02 75.29 ± 0.01 75.11 ± 0.03 74.91 ± 0.02 73.41 ± 0.02 74.07 ± 0.03 Text-net2 80.49 ± 0.03 78.16 ± 0.04 78.82 ± 0.03 78.43 ± 0.02 77.15 ± 0.01 78.59 ± 0.02 Text-net3 79.73 ± 0.02 77.19 ± 0.02 76.92 ± 0.01 78.19 ± 0.02 76.79 ± 0.03 75.57 ± 0.02 实验2的结果如表5所示, 从表5可以看出, 基线模型VGG-19的准确率为92.53 %, 而Img-Net (ResNet-50)的准确率为93.85 %, 从图像深度卷积方面来看, 显然ResNet-50模型的效果更好. 从单模态模型与多模态模型方面来说, 对比Img-net、Img+Text、Img+MLP和TI-net模型, 可以看出, 增加CT检验信息准确率提升了1 %, 增加检验结果准确率提升了2 %, 同时增加CT检验信息和检验结果, 准确率提升了3.2 %, 精确率提升了4 %, 召回率提升了4 %. 从实验结果上可以看出, 基于多模态数据的模型效果优于单模型的效果, 并且对比单模型的结果可以看出, Img-net效果远比Text-net和MLP的效果好, 这说明, CT影像仍是肺癌诊断的主要信息, 而检查描述和检验结果作为补充信息加入到模型中, 可以很好地提升模型的精确度.
表 5 实验2的结果Table 5 The result of experiment 2Model Name Train (%) Test (%) Accuracy Precision Recall Accuracy Precision Recall TI-Net 97.08 ± 0.03 95.69 ± 0.01 94.37 ± 0.02 96.90 ± 0.04 95.17 ± 0.03 93.71 ± 0.01 Img+MLP 95.15 ± 0.03 93.90 ± 0.02 93.17 ± 0.03 94.76 ± 0.02 92.89 ± 0.03 91.78 ± 0.01 Img+Text 94.71 ± 0.02 92.13 ± 0.03 91.26 ± 0.04 93.17 ± 0.04 90.88 ± 0.03 89.99 ± 0.03 MLP+Text 89.88 ± 0.04 87.67 ± 0.01 86.92 ± 0.02 87.78 ± 0.03 84.23 ± 0.03 84.57 ± 0.04 Img-Net 93.85 ± 0.03 91.84 ± 0.02 90.83 ± 0.03 92.67 ± 0.02 89.77 ± 0.03 88.93 ± 0.01 VGG-19 92.53 ± 0.02 89.16 ± 0.03 88.57 ± 0.01 90.94 ± 0.02 87.10 ± 0.03 87.04 ± 0.02 MLP 86.75 ± 0.03 85.21 ± 0.02 85.12 ± 0.03 84.86 ± 0.02 82.37 ± 0.03 81.59 ± 0.01 Text-Net 83.12 ± 0.04 80.10 ± 0.05 81.12 ± 0.02 81.21 ± 0.03 79.82 ± 0.03 80.15 ± 0.02 3. 结论
本文提出了一种基于文本和图像的肺疾病分类算法, 详细介绍了本文提出的文本图像混合深度模型, 从基于深度学习的肺癌图像分类出发, 引入了CT影像描述信息和电子病历的检验项目, 并使用Multi-head attention以及Bi-LSTM对文本建模, 提取文本信息. 实验结果证明, 将文本信息和检验信息引入到模型后, 与传统单纯的图像模型相比, 本文提出的算法具有更好的识别效果和更强的泛化能力.
-
表 1 所提视频特征及其参数描述
Table 1 Video features and description of their parameters
信息描述 特征 特征名称 参数值描述 空域信息及其感知 特征 1 图像局部对比度 对比度平均值 对比度最大值 特征 2 亮度色度视觉感知 亮度色度感知平均值 亮度色度感知最大值 特征 3 图像模糊度 模糊度平均值 模糊度最大值 特征 4 图像灰度梯度分布及其视觉感知 (内容复杂性视觉感知) 结合 HVS 的灰度梯度期望平均值 结合 HVS 的灰度梯度期望值的最大值 每次中断时前 3 帧的结合 HVS 的灰度梯度期望平均值 时域信息及其感知 特征 5 运动信息及其感知 结合 MCSFst 的运动矢量平均值 结合 MCSFst 的运动矢量最大值 特征 6 场景切换 复杂性变化对比感知平均值 复杂性变化对比感知最大值 编解码 特征 7 码率 比特率 传输时延 特征 8 初始时延 初始中断 (缓冲) 时延时长 特征 9 中间中断时延 中间单次中断 (缓冲) 时延时长 特征 10 平均中断时长 多次中断平均中断时长 特征 11 中断频率 单位时间中断次数 表 2 计算的4个相关性参数值
Table 2 Calculated results of four correlation parameters
样本数据库 PLCC SROCC RMSE OR LIVEour (80 % 训练、20 % 测试) 0.9886 0.9842 3.0905 0.0437 VIPSLour (80 % 训练、20 % 测试) 0.9842 0.97899 3.4389 0.04463 表 3 计算的4个相关性参数值
Table 3 Calculated results of four correlation parameters
样本说明 (100 %训练, 20 % 测试) PLCC SROCC RMSE OR LIVEour 训练和 VIPSLour 测试 0.9053 0.8443 7.7874 0.0940 VIPSLour 训练和 LIVEour 测试 0.8893 0.8582 8.5138 0.1125 表 4 计算的4个相关性参数值
Table 4 Calculated results of four correlation parameters
样本说明 PLCC SROCC RMSE OR LIVEour 中 90 % 训练和 10 % 测试 0.9897 0.9819 2.8792 0.03375 LIVEour 中 70 % 训练和 30 % 测试 0.9775 0.9753 4.6518 0.07064 LIVEour 中 50 % 训练和 50 % 测试 0.9663 0.9587 5.5681 0.07566 LIVEour 中 30 % 训练和 70 % 测试 0.9504 0.9456 6.3464 0.08892 VIPSLour 中 90 % 训练和 10 % 测试 0.9847 0.9715 3.4695 0.04362 VIPSLour 中 70 % 训练和 30 % 测试 0.9751 0.9694 4.3601 0.05401 VIPSLour 中 50 % 训练和 50 % 测试 0.9668 0.9648 5.1316 0.06715 VIPSLour 中 30 % 训练和 70 % 测试 0.9471 0.9434 6.3954 0.07859 表 5 计算的4个相关性参数值
Table 5 Calculated results of four correlation parameters
样本 (训练、测试) 比例说明 PLCC SROCC RMSE OR LIVEour 80 % 和 VIPSL 20 % 0.8876 0.8588 8.4442 0.1116 LIVEour 50 % 和 VIPSL 50 % 0.8735 0.8066 8.4322 0.0970 VIPSLour 80 % 和 LIVE 20 % 0.8780 0.8486 9.3577 0.1267 VIPSLour 50 % 和 LIVE 50 % 0.8507 0.8403 10.7100 0.1449 表 6 所提BP-VQA模型与3种NR-VQA模型的精度对比
Table 6 Accuracy comparison between the proposed BP-VQA model and three existing NR-VQA models
数据库 Metric LIVE database LIVEour BP-VQA VIPSLour BP-VQA NVSM C-VQA BRVPVC PLCC 0.732 0.7927 0.8547 0.9663 0.9668 SROCC 0.703 0.772 0.826 0.9587 0.9648 -
[1] Vega M T, Perra C, Turck F D, Liotta A. A review of predictive quality of experience management in video streaming services. IEEE Transactions on Broadcasting, 2018, 64(2): 432–445 doi: 10.1109/TBC.2018.2822869 [2] James N, Pablo S G, Jose M A C, Wang Q. 5G-QoE: QoE modelling for Ultra-HD video streaming in 5G networks. IEEE Transactions on Broadcasting, 2018, 64(2): 621-634 doi: 10.1109/TBC.2018.2816786 [3] Demóstenes Z R, Renata L R, Eduardo A C, Julia A, Graca B. Video quality assessment in video streaming services considering user preference for video content. IEEE Transactions on Consumer Electronics, 2014, 60(3): 436-444 doi: 10.1109/TCE.2014.6937328 [4] 南栋, 毕笃彦, 马时平, 凡遵林, 何林远. 基于分类学习的去雾后图像质量评价算法. 自动化学报, 2016, 42(2): 270-278Nan D, Bi D Y, Ma S P, Fan Z L, He L Y. A quality assessment method with classified-learning for dehazed images. Acta Automatica Sinica, 2016, 42(2): 270-278 [5] 高新波. 视觉信息质量评价方法. 西安: 西安电子科技大学出版社, 2011.72−85Gao Xin-Bo. Quality Assessment Methods for Visual Imformation. Xi'an: Xi'an Electronic Science & Technology University Press, 2011.72−85 [6] 冯欣, 杨丹, 张凌. 基于视觉注意力变化的网络丢包视频质量评估. 自动化学报, 2011, 37(11): 1322-1331Feng X, Yang D, Zhang L. Saliency Variation Based Quality Assessment for Packet-loss-impaired Videos. Acta Automatica Sinica, 2011, 37(11): 1322-1331 [7] Chandler D M, Hemami S S. VSNR: A wavelet-based visual signal-to-noise ratio for natural images. IEEE Transactions on Image Processing, 2007, 16(9): 2284-2298 doi: 10.1109/TIP.2007.901820 [8] Wang Z, Bovik A C, Sheikh H R, Simoncelli E P. Image quality assessment: from error visibility to structural similarity. IEEE Transactions on Image Processing, 2004, 13(4): 600-612 doi: 10.1109/TIP.2003.819861 [9] Pinson M H, Wolf S. New standardized method for objectively measuring video quality. IEEE Transactions on Broadcasting, 2004, 50 (3): 312-322 doi: 10.1109/TBC.2004.834028 [10] Vu P V, Vu C T, Chandler D M. A spatiotemporal most-apparent-distortion model for video quality assessment. In: Proceedings of the 2011 IEEE International Conference on Image Processing (ICIP). Brussels, Belgium: IEEE, 2011. 2505–2508 [11] Seshadrinathan K, Bovik A C. Motion tuned spatio-temporal quality assessment of natural videos. IEEE Transactions on Image Processing, 2010, 19(2): 335-350 doi: 10.1109/TIP.2009.2034992 [12] Uzair M, Dony R D. No-Reference transmission distortion modelling for H. 264/AVC-coded video. IEEE Transactions on Signal and Information Processing over Networks, 2015, 1(3): 209-221 doi: 10.1109/TSIPN.2015.2476695 [13] Menor D P A, Mello C A B, Zanchettin C. Objective video quality assessment based on neural networks. Procedia Computer Science, 2016, 96(1): 1551-1559 [14] Jacob S, Søren F, Korhonen J. No-reference video quality assessment using codec analysis. IEEE Transactions on Circuits & Systems for Video Technology, 2015, 25(10): 1637-1650 [15] Xu J, Ye P, Liu Y, Doermann D. No-reference video quality assessment via feature learning. In: Proceedings of the 2014 IEEE International Conference on Image Processing (ICIP). Paris, France: IEEE, 2014. 491–495 [16] Lin X, Ma H, Luo L, Chen Y. No–reference video quality assessment in the compressed domain. IEEE Transactions on Consumer Electronics, 2012, 58(2): 505–512 doi: 10.1109/TCE.2012.6227454 [17] Zhu K, Li C, Asari V, Saupe D. No-reference video quality assessment based on artifact measurement and statistical analysis. IEEE Transactions on Circuits and Systems for Video Technology, 2015, 25(4): 533-546 doi: 10.1109/TCSVT.2014.2363737 [18] Saad M A, Bovik A C, Charrier C. Blind prediction of natural video quality. IEEE Transactions on Image Processing, 2014, 23(3): 1352-1365 doi: 10.1109/TIP.2014.2299154 [19] Galea C, Farrugia R A. A no-reference video quality metric using a natural video statistical model. In: Proceedings of the 2015 International Conference on Computer as a Tool (EUROCON). Salamanca, Spain: IEEE, 2015. 1–6 [20] Li X, Guo Q, Lu X. Spatiotemporal statistics for video quality assessment. IEEE Transactions on Image Processing, 2016, 25(7): 3329–3342 doi: 10.1109/TIP.2016.2568752 [21] Wang C, Su L, Zhang W. COME for no-reference video quality assessment. In: Proceedings of the 2018 IEEE Conference on Multimedia Information Processing and Retrieval (MIPR). Miami, FL, USA: IEEE, 2018. 232–237 [22] Song J, Yang F, Zhou Y, Gao S. Parametric planning model for video quality evaluation of IPTV services combining channel and video characteristics. IEEE Transactions Multimedia, 2017, 19(5): 1015–1029 doi: 10.1109/TMM.2016.2638621 [23] Nadenau M. Integration of human color vision models into high quality image compression [Ph. D. dissertation], École Polytechnique Fédérale de Lausanne, Switzerland, 2000 [24] Barten P. Evaluation of subjective image quality with the square-root integral method. Journal of the Optical Society of America A, 1990, 7 (10): 2024-2031 doi: 10.1364/JOSAA.7.002024 [25] 王鸿南, 钟文, 汪静, 夏德深. 图像清晰度评价方法研究. 中国图象图形学报, 2018, 9(7): 828-831Wang H N, Zhong W, Wang J, Xia D S. Research of measurement for digital image definition. Journal of Image and Graphics, 2018, 9(7): 828-831 [26] Kelly D H. Motion and vision II Stabilized spatio-temporal threshold surface. Journal of the Optical Society of America, 1979, 69(10): 1340-1349 doi: 10.1364/JOSA.69.001340 [27] Sheikh H R., Wang Z, Bovik A C. LIVE image and video quality assessment database [Online], available: http://live.ece.utexas.edu/research/quality, May 20, 2018 [28] Gao X B, Li J, Deng C. VIPSL image & video database [Online], available: http://see.xidian.edu.cn/vipsl/index.html, June 5, 2018 [29] 唐贤伦, 杜一铭, 刘雨微, 李佳歆, 马艺玮. 基于条件深度卷积生成对抗网络的图像识别方法. 自动化学报, 2018, 44(5): 855-864Tang X L, Du Y M, Liu Yw, Li J X, Ma Y W. Image recognition with conditional deep convolutional generative adversarial networks. Acta Automatica Sinica, 2018, 44(5): 855-864 [30] Yao J C, Liu G Z. Bitrate-based no-reference video quality assessment combining the visual perception of video contents. IEEE Transactions on Broadcasting, 2019, 65(3): 546-557 doi: 10.1109/TBC.2018.2878360 [31] Zhu K, Li C, Asari V, Saupe D. No-reference video quality assessment based on artifact measurement and statistical analysis. IEEE Transactions on Circuits and Systems for Video Technology, 2015, 25(4): 533-546 [32] Li X, Guo Q, Lu X. Spatiotemporal statistics for video quality assessment. IEEE Transactions on Image Processing, 2016, 25(7): 3329–3342 [33] Blu T, Cham WK, Ngan KN. IVP video quality database [Online] , available: http://ivp.ee.cuhk.edu.hk/, July 12, 2018 [34] Brandão T, Roque L, Queluz M P. IST–Tech. University of Lisbon subjective video database [Online], available: http://amalia.img.lx.it.pt/~tgsb/H264_test/, July 15, 2018 -