2.845

2023影响因子

(CJCR)

  • 中文核心
  • EI
  • 中国科技核心
  • Scopus
  • CSCD
  • 英国科学文摘

留言板

尊敬的读者、作者、审稿人, 关于本刊的投稿、审稿、编辑和出版的任何问题, 您可以本页添加留言。我们将尽快给您答复。谢谢您的支持!

姓名
邮箱
手机号码
标题
留言内容
验证码

基于文本与图像的肺疾病研究与预测

吕晴 赵奎 曹吉龙 魏景峰

吕晴, 赵奎, 曹吉龙, 魏景峰. 基于文本与图像的肺疾病研究与预测. 自动化学报, 2022, 48(2): 531−538 doi: 10.16383/j.aas.c190645
引用本文: 吕晴, 赵奎, 曹吉龙, 魏景峰. 基于文本与图像的肺疾病研究与预测. 自动化学报, 2022, 48(2): 531−538 doi: 10.16383/j.aas.c190645
Lv Qing, Zhao Kui, Cao Ji-Long, Wei Jing-Feng. Research and prediction of lung diseases based on text and images. Acta Automatica Sinica, 2022, 48(2): 531−538 doi: 10.16383/j.aas.c190645
Citation: Lv Qing, Zhao Kui, Cao Ji-Long, Wei Jing-Feng. Research and prediction of lung diseases based on text and images. Acta Automatica Sinica, 2022, 48(2): 531−538 doi: 10.16383/j.aas.c190645

基于文本与图像的肺疾病研究与预测

doi: 10.16383/j.aas.c190645
基金项目: 国家水体污染控制与治理科技重大专项(2012ZX07505004)资助
详细信息
    作者简介:

    吕晴:中国科学院沈阳计算技术研究所硕士研究生. 2017年获得曲阜师范大学信息科学与工程专业学士学位. 主要研究方向为医学图像处理.E-mail: lvqing17@mails.ucas.ac.cn

    赵奎:中国科学院沈阳计算技术研究所研究员. 2017年获得中国科学院大学硕士学位. 主要研究方向为人工智能, 大数据, 物联网. 本文通信作者. E-mail: zhaokui@sict.ac.cn

    曹吉龙:中国医科大学附属第四医院信息中心主任. 2013年获得东北大学硕士学位. 主要研究方向为医疗信息化, 医疗健康物联网, 医疗信息安全.E-mail: jlcao@cmu.edu.cn

    魏景峰:辽宁省医疗器械检验检测院高级工程师. 2011年获得中国医科大学生物医学工程专业硕士学位. 主要研究方向为源医疗器械检验, 电磁兼容检测, 检测实验室质量体系管理.E-mail: 13898154351@163.com

Research and Prediction of Lung Diseases Based on Text and Images

Funds: Supported by National Science and Technology Major Project of Water Pollution Control and Treatment (2012ZX07505004)
More Information
    Author Bio:

    LV Qing Master student at Shenyang Institute of Computing Technology, Chinese Academy of Sciences. She received her bachelor degree in information science and engineering from Qufu Normal University in 2017. Her main research interest is medical image processing

    ZHAO Kui Professor at Shenyang Institute of Computing Technology, Chinese Academy of Sciences. He received his master degree from University of Chinese Academy of Sciences in 2017. His research interest covers artificial intelligence, big data, and the internet of things. Corresponding author of this paper

    CAO Ji-Long Director at the Information Center, the Fourth Affiliated Hospital of China Medical University. He received his master degree from Northeastern University in 2013. His research interest covers hospital information, health internet of things, and medical information security

    WEI Jing-Feng Senior engineer at Liaoning Medical Device Testi Institute. He received his master degree in biomedical engineering from China Medical University in 2011. His research interest covers medical electrical equipment test, electromagnetic compatibility test, and quality management of testing laboratories

  • 摘要: 通过对目前现有的肺癌检测技术研究, 发现大部分研究人员主要针对肺癌(Computed tomography, CT)影像进行研究, 忽略了电子病历所隐藏的肺癌信息, 本文提出一种基于图像与文本相结合的肺癌分类方法, 从现有的基于深度学习的肺癌图像分类出发, 引入了电子病历信息, 使用Multi-head attention以及(Bi-directional long short-term memory, Bi-LSTM)对文本建模. 实验结果证明, 将电子病历信息引入到图像分类模型之后, 对模型的性能有进一步的提升. 相对仅使用电子病历进行预测, 准确率提升了大约14 %, 精确率大约提升了15 %, 召回率提升了14 %. 相对仅使用肺癌CT影像来进行预测, 准确率提升了3.2 %, 精确率提升了4 %, 召回率提升了4 %.
  • 模态是指人接受信息的特定方式, 由于多媒体数据往往是多种信息的传递媒介, 多模态学习已逐渐发展为多媒体内容分析和理解的主要手段. 在医学领域, 也有研究者应用多模态学习. 针对Alzheimer病, 韩坤等[1]提出结合磁共振图像(Magnetic resonance imaging, MRI)和正电子发射型计算机断层显像(Positron emission computed tomography, PET)图像模态的特征信息相融合的方法, 实验结果表明该方法在准确率上取得了较好的成绩. 为了解决传统模态医学图像缺陷, 张淑丽等[2]提出了自由变形法对多模态的医学图像进行融合. 然而大多数研究人员主要融合多模态的医学图像, 没有加入电子病历等文本模态的数据. 调查发现, 肺癌是世界发病率和死亡率最高的疾病之一[3]. 病人在进行肺疾病诊断时, 需要CT检查, 影像科医生对CT影像进行检查描述, 但在实际的诊断和治疗过程中, 常常是由主治医生根据检查描述以及CT影像进行进一步的判断. 这一过场不仅增加了主治医生的工作量, 也导致了医疗资源的不合理应用.

    基于此, 本文在影像CT基础上, 融入影像医生对CT影像描述的文本信息, 以及一些其他检验结果(比如癌胚抗原测定、鳞状上皮细胞癌抗原测定等), 构建深度学习模型对肺疾病进行预测, 将影像医生给出的CT影像和检查描述以及其他检验结果输入到模型中, 对疾病进行判别并给出得病概率, 患病概率大的病人则交由主治医生更进一步地诊断和治疗, 以减轻主治医生的工作量, 提高工作效率.

    本文收集的电子病历数据, 主要分为三部分: 检查描述、CT影像和检验结果.

    对检查描述研究发现, 虽出自不同医生之手, 但是对医学名词写法相同, 只是在电子病历输入的时候, 存在错别字、同音异字等问题. 如“双肺实质未见明显异常密度, 双肺门不大, 纵膈内未见明确肿大淋巴结 ··· 肺癌不除外纵隔淋巴结增大, 肝脏内见斑片状高密度影, 门静脉周围间隙增宽.” 数据中除了含有少见的医学专有名词“纵隔淋巴结”、“斑片状高密度影”外, 还有错别字“隔”. 本文使用预定义词库的方法, 解决医学常见缩略语的分词问题, 然后使用Multi-head attention与Bi-LSTM对文本进行编码, 减少同音异字或者语法错误带来的文本理解上的问题.

    CT影像数据是通过成像设备进行采集的, 但是由于成像设备参数、外界环境的干扰, 会导致采集的CT图像数据有差异, 这些问题都会影响模型的准确率. 本文使用去噪和归一化等图像处理技术对CT图像进行处理.

    其他检验结果主要是痰液细胞学、胸水检查、血常规检查和肿瘤标记物筛查等. 痰液与胸水细胞学检查, 主要是判断痰液与胸水中是否存在肿瘤细胞; 血常规检查包括白细胞、红细胞和血小板以及细胞酸碱性等; 肺癌筛选的肿瘤标记物主要有癌胚抗原(Carcinoembryonic antigen, CEA)、癌抗原CA125 (Cancer antigen 125, CA125)、细胞角蛋白19片段(Cytokeratin fragment 19, CYFRA21-1)等.

    考虑到数据由文本数据和图像数据两部分组成, 因此分别对两部分数据进行处理.

    1.1.1   检查描述数据预处理

    深度学习出现后, 基于神经网络的词嵌入模型成为了主流, GloVe[4]使用词共现矩阵学习更广泛的共现概率. CoVe[5]通过神经翻译的编码器向词嵌入中添加含有上下文背景的表征向量, 令模型学习上下文背景化的语义. BERT (Bidirectional encoder representation from transformers)使用多层Transformer[6]编码器学习词汇前后的语义依赖关系, 并通过遮罩语言模型(Masked language model, MLM)解决了模型的输入在多层Transformer 结构中可以看到自己的“镜像问题”. ERNIE[7]提出了知识融合与对话语言模型的概念, 针对中文通用领域的自然语言处理任务对BERT进行了优化.

    本文使用jieba分词, 考虑医学短文本中特有的专有名词、缩写语多的特点, 在分词过程中加入了医学词库, 医学词库的建立一方面是通过网络爬取医学专业词汇, 另一方面通过影像科医生总结出常见的肺部CT描述词汇. 文本数据中有大量的词虽然出现频率很高, 却对分类预测没有帮助, 比如在“检查描述”中常出现“无”、“可”、“检查”这类词在实际训练中不能体现不同病历差异性的作用, 更加重了学习器的负担, 一般称其为“停用词”. 因此在分词的时候, 需要将这些停用词去掉. 分词之后的文本数据还需向量化, 本论文使用(Word to vector, word2vec) 模型来训练词向量, 并在模型中加入位置词向量与Multi-head attention来更好地表征文本语义.

    1.1.2   检验结果数据预处理

    检验结果主要是痰液细胞学、胸水检查、血常规检查和肿瘤标记物筛查等, 检验项目如表1所示, 电子病历中的检查结果会给出参考范围、检查名称、状态和结果值, 由于不同检查项目的量纲不同, 所以结果值有很大的差异, 因此, 本文使用状态值来作模型的输入, 将正常的状态映射为0, 非正常状态(高或低)映射为1, 然后输入到模型里面.

    表 1  检验项目
    Table 1  Examine items
    参考范围检验名称状态结果值
    血常规检查0 ~ 0.1嗜碱性粒细胞正常0.01
    0.05 ~ 0.5嗜酸性粒细胞正常0.07
    0 ~ 1嗜碱性粒细胞比率正常0.20 %
    110 ~ 160血红蛋白正常128 g/L
    100 ~ 300血小板正常$13510{\hat 9}/{\rm{L}}$
    3.5 ~ 5.5红细胞正常4.25
    37 ~ 50红细胞分布宽度正常43.90 %
    4 ~ 10白细胞正常$6.1810{\hat 9}/{\rm{L}}$
    86 ~ 100红细胞平均体积正常88.2 fL
    痰液检查无肿瘤细胞痰液细胞正常无肿瘤细胞
    肿瘤标记物5 μg/mlCEA (Carcinoembryonic antigen)正常2.31
    30 U/mlCA125 (Cancer antigen 125)正常13.70 U/ml
    8.20 U/mlCA72-4 (Cancer antigen 72-4)正常1.34 U/ml
    16.3 ng/mlNSE (Neuron-specific enolase)正常15.18 ng/ml
    1.5 ng/mlSCC (Squamous cell carcinoma)正常0.8 ng/ml
    2.0 ng/mlCYFRA21-1 (Cytokeratin fragment 19)7.31 ng/ml
    胸水检验0.38 ~ 2.1甘油三脂正常0.74 mmol/L
    0.8 ~ 1.95高密度脂蛋白正常1.31 mmol/L
    3.8 ~ 6.1葡萄糖10.11 mmol/L
    2 ~ 4低密度脂蛋白正常2.02 mmol/L
    109 ~ 271乳酸脱氢酶正常205.2 U/L
    0 ~ 6.8直接胆红素正常3.49 μmol/L
    3.6 ~ 5.9总胆固醇3.54 mmol/L
    20 ~ 45球蛋白正常31.7 g/L
    下载: 导出CSV 
    | 显示表格

    在计算机辅助诊断领域中, 主要针对肺部CT影像进行肺癌良恶性的诊断. Sun等[8]使用了单层的CNN (Convolutional neural networks)和SDAE (Stacked denoised autoencoder) (3个DAE (DialAnExchange))以及DBN (Deep belief nets)(4层RBM (Restricted Boltzmann machine))解决了肺节点的良恶性分类问题. Xiao等[9]增加了一个卷积层, 使用CNN (2个卷积层、2个池化层、2个全连接层)和DBN (2层RBM)实现了肺节点的良恶性分类, 其效果有明显的提高. Cheng等[10]提出将肺节点兴趣区的多个参数与肺节点兴趣区一起输入到SDAE模型, 仅使用肺节点中间切片的Single模型与使用所有肺节点切片的All模型进行对比, 实验结果表明All模型相比Single模型, 在准确率上大约有11 %的提升, 而AUC大约有5 %的提升. Nibali等[11]将深度残差网络模型与迁移学习应用到肺癌分类中, 由于深度残差模型, 在加深网络深度的同时, 减少了梯度消失的可能, 因此, 通过深度残差网络模型以ImageNet图像集为源域进行迁移学习分类, 使得分类准确率为89.9 %, AUC (Area under curve)为0.946. Shen等[12]提出了一种具有多级裁剪结构的CNN模型, 该模型可以获取不同尺度的图像特征, 从而加强模型的分类效果, 该模型的准确率为87.1 %, AUC为0.93.

    通过对已有方法对比发现, 分类准确率有明显的提高, 但是分类效果还不是很高. 一方面是由于模型过于简单, 另一方面, 没有根据目标数据进行有针对性的调整, 所以模型仍有更大的改进空间.

    由于CT图像使用不同的扫描以及重建方法, 会产生一些不需要的杂质和噪点, 比如像结节一样的球状结构, 这些干扰信息与感兴趣区域之间存在某种相似性. 如果不去除噪声, 后面对特征提取的质量将受到严重影响, 从而影响模型的准确性. 本文实验分析发现高斯滤波器的去噪效果比均值滤波等的效果更好, 而且高斯滤波器对边缘信息的保留能力也更佳. 除此之外, 为了加快模型收敛, 将图像像素归一化或标准化, 在本文中, 对去噪之后的图像, 将像素的值归一化为0到255的整数. 处理后的图像采用残差神经网络为基础构建模型, 具体模型将在实验的图像模型部分给出.

    模型结构如图1所示, 整个模型的主要由三部分构成, 分别是文本部分、图像部分和多层感知器(Multilayer perceptron, MLP), 文本部分输入的是电子病历的文本信息(影像医生给出的CT描述信息), 图像部分输入的是影像检查的CT图像, 多层感知器输入的是其他检查结果. 将文本部分的输出、图像部分的输出和多层感知器的输出拼接起来, 然后经过全连接层, 最后输出结果. 模型的损失函数是交叉熵:

    图 1  模型结构图
    Fig. 1  Model structure
    $$ L = -\frac{1}{n}\sum\limits[y \ln(a) + (1-y) \ln(1 - a)] $$ (1)

    其中, $ a $是真实值, $ y $是预测值.

    在文本方面, 以Bi-LSTM和Multi-head attention为核心对文本建模, 模型的输入层为词向量加位置向量, 同时在模型的输入层后面引入Multi-head attention. 最后将多个特征进行拼接和融合, 使模型进一步提高特征表达能力.

    2.1.1   Word Embedding

    本文使用词粒度的词向量. 考虑到文本语料相对比较少, 训练出来的词向量语义不够丰富, 而腾讯预训练词向量大约超过800万中文词汇数据, 与其他公开的预训练词向量相比, 具有比较好的覆盖性和新鲜度, 因此本文使用腾讯预训练向量.

    由于病例中的词语所在的位置不同而代表不同的语义, 在词向量基础上, 加入位置向量, 能够使模型区别出不同位置的单词. 因此, 模型的输入也会将位置向量(Position embedding)作为辅助词向量输入. 在语言序列中, 相对位置至关重要, 而Position embedding本身是绝对值位置的信息, 因此, 本文将Position embedding定义为如下:

    $$ \begin{split} & {\boldsymbol{PE}}_{2 i}(p) = \sin \left(\frac{p} {10\;000^{2 i / d_{pos}}} \right)\\ &{\boldsymbol{PE}}_{2 i+1}(p) = \cos \left(\frac{p} {10\;000^{2 i / d_{pos}}}\right) \end{split}$$ (2)

    ${\boldsymbol{{{P}}E}}$代表Position embedding, $ p $代表词的位置, $ d_{pos} $代表维度, 公式将词位置信息使用三角函数映射到$ d_{pos} $维度上.

    2.1.2   Multi-head Attention

    Multi-head attention本质是进行多次Self-attention计算, 它可以使模型从不同表征子空间获取更多层面的特征, 从而使模型能够捕获句子更多的上下文信息.

    Self-attention本质是一种信息编码方式, 类似于CNN中的卷积, Self-attention的定义如下所示:

    $$\begin{array}{l} {\rm{Attention}}({\boldsymbol{Q}},{\boldsymbol{K}},{\boldsymbol{V}}) =\\ \qquad {\mathop{\rm softmax}\nolimits} \left( {\left[ {\begin{array}{*{20}{c}} {{v_1}}\\ {{v_2}}\\ \vdots \\ {{v_n}} \end{array}} \right]\left[ {v_1^{\rm{T}},v_2^{\rm{T}}, \cdots ,v_n^{\rm{T}}} \right]} \right)\left[ {\begin{array}{*{20}{c}} {{v_1}}\\ {{v_2}}\\ \vdots \\ {{v_n}} \end{array}} \right] =\\\qquad {\mathop{\rm softmax}\nolimits} ({\boldsymbol{Q}}{{\boldsymbol{K}}^{\rm{T}}}){\boldsymbol{V}} \end{array}\;\;\qquad$$ (3)

    $ {\boldsymbol{Q}} $是Query, 代表Query向量, $ {\boldsymbol{K}} $是Key, 代表Key向量, $ {\boldsymbol{V}} $是Value, 代表Value向量. $ W_{q} $矩阵, $ W_{k} $矩阵和$ W_{v} $矩阵将输入的词向量映射成$ {\boldsymbol{Q}} $, $ {\boldsymbol{K}} $, $ {\boldsymbol{V}} $, 然后按照公式进行加权求和, 对文本信息进行编码.

    将Self-attention执行k次, 然后将结果拼接起来, 就得到了Multi-head attention.

    2.1.3   Bi-LSTM

    词向量经过Multi-head attention的时候, 由于Self-attention是对输入信息的上下文的向量进行计算编码信息, 没有考虑到输入信息的词序, 所以, 在模型的输入层加入了Position embedding, 除此之外, 还在Multi-head attention的后面加入了Bi-LSTM. LSTM (Long short-term memory)[13]是为了缓解RNN的梯度消失而提出的, LSTM单元有三个门, 分别是遗忘门${\boldsymbol{f}}_{t}$, 输入门${\boldsymbol{i}}_{t}$和输出门${\boldsymbol{o}}_{t} $[14]. 假设在$ t $时刻, 输入为${\boldsymbol{x}}_{t}$, 而$ t-1 $(上一时刻)的隐藏层的输出为${\boldsymbol{h}}_{t-1}$, 其中${\boldsymbol{C}}_{t-1}$$ t-1 $(上一时刻)的细胞状态值, 则在$ t $时LSTM的各个状态值:

    $$ \begin{split} {\boldsymbol{f}}_{t} =\;& \sigma\left({\boldsymbol{W}}_{f} \times\left[{\boldsymbol{h}}_{t-1}, {\boldsymbol{x}}_{t}\right]+{\boldsymbol{b}}_{f}\right) \\ {\boldsymbol{i}}_{t} =\; & \sigma\left({\boldsymbol{W}}_{i} \times\left[{\boldsymbol{h}}_{t-1}, {\boldsymbol{x}}_{t}\right]+{\boldsymbol{b}}_{i}\right) \\ \tilde{{\boldsymbol{C}}}_{t} =\; & \tanh \left({\boldsymbol{W}}_{C} \times\left[{\boldsymbol{h}}_{t-1}, {\boldsymbol{x}}_{t}\right]+{\boldsymbol{b}}_{C}\right) \\ {\boldsymbol{C}}_{t} =\;& {\boldsymbol{f}}_{t} \times {\boldsymbol{C}}_{t-1}+{\boldsymbol{i}}_{t} \times \tilde{{\boldsymbol{C}}}_{t} \\ {\boldsymbol{o}}_{t} =\; & \sigma\left({\boldsymbol{W}}_{o} \times\left[{\boldsymbol{h}}_{t-1}, {\boldsymbol{x}}_{t}\right]+{\boldsymbol{b}}_{o}\right) \\ {\boldsymbol{h}}_{t} =\;& {\boldsymbol{o}}_{t} \times \tanh \left({\boldsymbol{C}}_{t}\right) \end{split} $$ (4)

    通过以上计算, 最终得到$ t $时刻LSTM隐层状态的输出值. 由于LSTM对句子只是从前向后单向建模, 无法进行从后向前的编码信息. 因此, 本文使用Bi-LSTM (双向LSTM), 可以更好地捕捉双向的语义信息.

    2.1.4   Soft Attention

    Soft attention即传统的Attention mechanism, 通过保留Bi-LSTM编码器对输入序列的中间输出结果, 然后计算每个中间结果与其他结果的点积, 最后加权求和.

    $$ \begin{split} {\boldsymbol{M}} =\; &\tanh ({\boldsymbol{H}})\\ {\boldsymbol{\alpha}} =\;&{\mathop{\rm softmax}\nolimits} \left( {{{\boldsymbol{w}}^{\rm{T}}}{\boldsymbol{M}}} \right)\\ {\boldsymbol{r}} =\; &{\boldsymbol{H}}{{\boldsymbol{\alpha}} ^{\rm{T}}} \end{split}$$ (5)

    ${\boldsymbol{ H}}$是Bi-LSTM隐藏层的输出结果, ${\boldsymbol{ w}}$是需要学习的参数. 第二个Attention机制的实现是通过计算每个中间结果与其他结果的点积, 其中中间结果是通过保留Bi-LSTM编码器对输入序列的中间输出的结果, 最后再进行加权求和. 这一层的Attention能够观察到序列中的每个词与输入序列中一些词的对齐关系. 本文使用的是乘法注意力机制, 其中使用高度优化的矩阵乘法实现乘法注意力机制, 那么整体计算成本和单次注意力机制的计算成本并不会相差很大, 同时又提升了模型的特征表达能力.

    模型的第三部分是多层感知器(MLP), MLP主要包含输入层、隐藏层和输出层. 实验验证, 隐藏层不能过多, 一方面, 层数越多, 参数越多, 容易过拟合, 另一方面, 到了一定的层数, 增加更深的隐藏层, 分类效果也不会提升太多, 反而有时会下降. 因此, MLP部分设置三个隐藏层, 具体参数如表2所示.

    表 2  MLP参数设置
    Table 2  The parameter of MLP
    Name节点个数激活函数
    Hidden165Sigmoid
    Hidden2131Sigmoid
    Hidden3263Sigmoid
    下载: 导出CSV 
    | 显示表格

    本文的图像卷积部分在ResNet-50结构基础上, 基于ImageNet数据集预训练, 然后微调构建的模型. 模型的结构如图2所示, ResNet中有2个基本的block,一个是Identity block, 输入和输出的dimension是一样的, 所以可以串联多个; 另一个是ConvBlock, 输入和输出的Dimension是不一样的, 所以不能连续串联, 它的作用是为了改变特征向量的Dimension.

    图 2  图像模型结构图
    Fig. 2  Image model structure

    图像中包含足够的区分信息是卷积神经网络能够学习不同肺癌特征的重要条件[15]. 图像的大小会影响网络区分不同特征的能力, 太小会使一些不明显的特征提取不到, 太大会受计算机内存的限制, 因此必须选择大小合适的图像尺寸, 由于本文使用的是ResNet-50 (Residual neural network)网络, 输入的图像尺寸需要调整为$ 224 \times 224 $.

    实验中所用的计算机硬件配置为Centos系统, CPU为Intel(R) Xeon(R) CPU E5-2630, GPU为NVIDIA Tesla M4显卡, 深度学习框架为Keras 2.2.4, 后端为Tensorflow 1.13.

    在本论文中, 主要有两个实验, 第一个是分别测试Multi-head attention, Bi-LSTM和Soft attention层在文本深度模型的效果, 第二个是测试文本深度模型、图像深度模型、MLP和文本图像混合模型.

    为了验证模型的优点和比较模型的表现能力, 在第二个实验中, 主要实现了以下几个模型: 一个基线模型为ImageNet预训练的VGG-19 (Visual geometry group), 三个单模态模型为图像深度模型 (Img-net)、多层感知器(MLP)和文本深度模型 (Text-net), 以及多模态模型Img+Text, Img+MLP和MLP+Text. Text-net网络去掉下面的图像卷积部分, 添加一个全连接层, 损失函数为交叉熵的输出层. Img-net网络去掉上面的文本深度模型, 添加全连接层之后加上代价函数为交叉熵的输出层. MLP是一个多层感知机网络, 只使用检查结果进行预测. TI-net网络是文本图像混合模型, 输入为图像、文本和其他数值, 数据经过各自的模型之后, 拼接起来, 经过一个全连接层之后输出. 为了减少模型之间的扰动, 对于单模型Text-net, Img-Net和MLP三个网络分别用各自的输入进行预训练, 而对于多模态模型, 使用预训练的单模型的网络权重作为初始化, 再对多模态模型进行微调.

    实验数据共有3 785个样本. 本文主要研究的是一个二分类问题, 即判断病人是否患有肺癌, 与一般分类问题不同, 疾病诊断分类问题的数据集往往存在不均衡问题, 因此需要对不均衡的样本进行处理. 由于本文的数据量比较大, 因此, 使用采样的方法来平衡数据集, 以1:2的比例对全量数据进行采样, 数据的比例分布如表3所示.

    表 3  正负样本比例
    Table 3  Positive and negative sample ratio
    正样本1 262
    负样本2 523
    下载: 导出CSV 
    | 显示表格

    为了验证模型的效果, 将原始数据按照8:2的比例切分出训练集和验证集, 并将训练集在3个模型上进行训练, 然后在验证集上评价模型. 防止模型结果的偶然性, 在训练模型的时候, 采用k-fold交叉验证的形式来训练模型, 实验结果显示k取值为7的时候效果比较好一些. 训练集和验证集中, 文本的最大长度设置为80, 词向量的维度为200, 优化器为Adam, 初始学习率为0.01, 衰减因子为0.0001, 训练轮次为2 000次, 为了防止过拟合, 使用EarlyStopping来提前停止训练, 评价指标采用准确率, 精确率和召回率.

    实验1的结果如表4所示, 主要用来测试Multi-head attention, Bi-LSTM和Soft attention层的效果, Text-net网络使用了所有的层, Text-net1去掉了Multi-head attention层, Text-net2去掉了Bi-LSTM层, Text-net3去掉了Soft attention层, 从表中结果可以看出, Text-net模型比其他三个模型都要好. 对比Text-net、Text-net1和Text-net2可以看出, 加入Multi-head attention准确率提升了7 %, 加入Bi-LSTM准确率提升了3 %, 所以加入Multi-head attention层比Bi-LSTM层效果更好. 对比Text-net和Text-net3, 加入Soft-attention层后, 模型准确率提升了4 %, 这是因为Bi-LSTM层只对文本进行序列建模, 缺乏层次信息, 后面加入Soft-attention, 可以将Bi-LSTM编码后的信息, 进行层次信息建模.

    表 4  实验1的结果
    Table 4  The result of experiment 1
    Model nameTrain (%)Test (%)
    AccuracyPrecisionRecallAccuracyPrecisionRecall
    Text-net83.12 ± 0.0280.10 ± 0.0581.12 ± 0.0281.21 ± 0.0179.82 ± 0.0380.15 ± 0.01
    Text-net176.87 ± 0.0275.29 ± 0.0175.11 ± 0.0374.91 ± 0.0273.41 ± 0.0274.07 ± 0.03
    Text-net280.49 ± 0.0378.16 ± 0.0478.82 ± 0.0378.43 ± 0.0277.15 ± 0.0178.59 ± 0.02
    Text-net379.73 ± 0.0277.19 ± 0.0276.92 ± 0.0178.19 ± 0.0276.79 ± 0.0375.57 ± 0.02
    下载: 导出CSV 
    | 显示表格

    实验2的结果如表5所示, 从表5可以看出, 基线模型VGG-19的准确率为92.53 %, 而Img-Net (ResNet-50)的准确率为93.85 %, 从图像深度卷积方面来看, 显然ResNet-50模型的效果更好. 从单模态模型与多模态模型方面来说, 对比Img-net、Img+Text、Img+MLP和TI-net模型, 可以看出, 增加CT检验信息准确率提升了1 %, 增加检验结果准确率提升了2 %, 同时增加CT检验信息和检验结果, 准确率提升了3.2 %, 精确率提升了4 %, 召回率提升了4 %. 从实验结果上可以看出, 基于多模态数据的模型效果优于单模型的效果, 并且对比单模型的结果可以看出, Img-net效果远比Text-net和MLP的效果好, 这说明, CT影像仍是肺癌诊断的主要信息, 而检查描述和检验结果作为补充信息加入到模型中, 可以很好地提升模型的精确度.

    表 5  实验2的结果
    Table 5  The result of experiment 2
    Model NameTrain (%)Test (%)
    AccuracyPrecisionRecallAccuracyPrecisionRecall
    TI-Net97.08 ± 0.0395.69 ± 0.0194.37 ± 0.0296.90 ± 0.0495.17 ± 0.0393.71 ± 0.01
    Img+MLP95.15 ± 0.0393.90 ± 0.0293.17 ± 0.0394.76 ± 0.0292.89 ± 0.0391.78 ± 0.01
    Img+Text94.71 ± 0.0292.13 ± 0.0391.26 ± 0.0493.17 ± 0.0490.88 ± 0.0389.99 ± 0.03
    MLP+Text89.88 ± 0.0487.67 ± 0.0186.92 ± 0.0287.78 ± 0.0384.23 ± 0.0384.57 ± 0.04
    Img-Net93.85 ± 0.0391.84 ± 0.0290.83 ± 0.0392.67 ± 0.0289.77 ± 0.0388.93 ± 0.01
    VGG-1992.53 ± 0.0289.16 ± 0.0388.57 ± 0.0190.94 ± 0.0287.10 ± 0.0387.04 ± 0.02
    MLP86.75 ± 0.0385.21 ± 0.0285.12 ± 0.0384.86 ± 0.0282.37 ± 0.0381.59 ± 0.01
    Text-Net83.12 ± 0.0480.10 ± 0.0581.12 ± 0.0281.21 ± 0.0379.82 ± 0.0380.15 ± 0.02
    下载: 导出CSV 
    | 显示表格

    本文提出了一种基于文本和图像的肺疾病分类算法, 详细介绍了本文提出的文本图像混合深度模型, 从基于深度学习的肺癌图像分类出发, 引入了CT影像描述信息和电子病历的检验项目, 并使用Multi-head attention以及Bi-LSTM对文本建模, 提取文本信息. 实验结果证明, 将文本信息和检验信息引入到模型后, 与传统单纯的图像模型相比, 本文提出的算法具有更好的识别效果和更强的泛化能力.

  • 图  1  模型结构图

    Fig.  1  Model structure

    图  2  图像模型结构图

    Fig.  2  Image model structure

    表  1  检验项目

    Table  1  Examine items

    参考范围检验名称状态结果值
    血常规检查0 ~ 0.1嗜碱性粒细胞正常0.01
    0.05 ~ 0.5嗜酸性粒细胞正常0.07
    0 ~ 1嗜碱性粒细胞比率正常0.20 %
    110 ~ 160血红蛋白正常128 g/L
    100 ~ 300血小板正常$13510{\hat 9}/{\rm{L}}$
    3.5 ~ 5.5红细胞正常4.25
    37 ~ 50红细胞分布宽度正常43.90 %
    4 ~ 10白细胞正常$6.1810{\hat 9}/{\rm{L}}$
    86 ~ 100红细胞平均体积正常88.2 fL
    痰液检查无肿瘤细胞痰液细胞正常无肿瘤细胞
    肿瘤标记物5 μg/mlCEA (Carcinoembryonic antigen)正常2.31
    30 U/mlCA125 (Cancer antigen 125)正常13.70 U/ml
    8.20 U/mlCA72-4 (Cancer antigen 72-4)正常1.34 U/ml
    16.3 ng/mlNSE (Neuron-specific enolase)正常15.18 ng/ml
    1.5 ng/mlSCC (Squamous cell carcinoma)正常0.8 ng/ml
    2.0 ng/mlCYFRA21-1 (Cytokeratin fragment 19)7.31 ng/ml
    胸水检验0.38 ~ 2.1甘油三脂正常0.74 mmol/L
    0.8 ~ 1.95高密度脂蛋白正常1.31 mmol/L
    3.8 ~ 6.1葡萄糖10.11 mmol/L
    2 ~ 4低密度脂蛋白正常2.02 mmol/L
    109 ~ 271乳酸脱氢酶正常205.2 U/L
    0 ~ 6.8直接胆红素正常3.49 μmol/L
    3.6 ~ 5.9总胆固醇3.54 mmol/L
    20 ~ 45球蛋白正常31.7 g/L
    下载: 导出CSV

    表  2  MLP参数设置

    Table  2  The parameter of MLP

    Name节点个数激活函数
    Hidden165Sigmoid
    Hidden2131Sigmoid
    Hidden3263Sigmoid
    下载: 导出CSV

    表  3  正负样本比例

    Table  3  Positive and negative sample ratio

    正样本1 262
    负样本2 523
    下载: 导出CSV

    表  4  实验1的结果

    Table  4  The result of experiment 1

    Model nameTrain (%)Test (%)
    AccuracyPrecisionRecallAccuracyPrecisionRecall
    Text-net83.12 ± 0.0280.10 ± 0.0581.12 ± 0.0281.21 ± 0.0179.82 ± 0.0380.15 ± 0.01
    Text-net176.87 ± 0.0275.29 ± 0.0175.11 ± 0.0374.91 ± 0.0273.41 ± 0.0274.07 ± 0.03
    Text-net280.49 ± 0.0378.16 ± 0.0478.82 ± 0.0378.43 ± 0.0277.15 ± 0.0178.59 ± 0.02
    Text-net379.73 ± 0.0277.19 ± 0.0276.92 ± 0.0178.19 ± 0.0276.79 ± 0.0375.57 ± 0.02
    下载: 导出CSV

    表  5  实验2的结果

    Table  5  The result of experiment 2

    Model NameTrain (%)Test (%)
    AccuracyPrecisionRecallAccuracyPrecisionRecall
    TI-Net97.08 ± 0.0395.69 ± 0.0194.37 ± 0.0296.90 ± 0.0495.17 ± 0.0393.71 ± 0.01
    Img+MLP95.15 ± 0.0393.90 ± 0.0293.17 ± 0.0394.76 ± 0.0292.89 ± 0.0391.78 ± 0.01
    Img+Text94.71 ± 0.0292.13 ± 0.0391.26 ± 0.0493.17 ± 0.0490.88 ± 0.0389.99 ± 0.03
    MLP+Text89.88 ± 0.0487.67 ± 0.0186.92 ± 0.0287.78 ± 0.0384.23 ± 0.0384.57 ± 0.04
    Img-Net93.85 ± 0.0391.84 ± 0.0290.83 ± 0.0392.67 ± 0.0289.77 ± 0.0388.93 ± 0.01
    VGG-1992.53 ± 0.0289.16 ± 0.0388.57 ± 0.0190.94 ± 0.0287.10 ± 0.0387.04 ± 0.02
    MLP86.75 ± 0.0385.21 ± 0.0285.12 ± 0.0384.86 ± 0.0282.37 ± 0.0381.59 ± 0.01
    Text-Net83.12 ± 0.0480.10 ± 0.0581.12 ± 0.0281.21 ± 0.0379.82 ± 0.0380.15 ± 0.02
    下载: 导出CSV
  • [1] 韩坤, 潘海为, 张伟, 边晓菲, 陈春伶, 何舒宁. 基于多模态医学图像的Alzheimer病分类方法. 清华大学学报(自然科学版), 2020. 1-9

    Han Kun, Pan Hai-Wei, Zhang Wei, Bian Xiao-Fei, Chen Chun-Ling, He Shu-Ning. Alzheimer's disease classification method based on multimodal medical images. Journal of Tsinghua University (Natural Science), 2020. 1-9
    [2] 张淑丽, 李靖宇, 穆传斌, 刘雅楠, 孟欣, 杨滇. 多模态医学图像的自由变形法融合策略. 电脑编程技巧与维护, 2019, 8: 139-140+155 doi: 10.3969/j.issn.1006-4052.2019.08.050

    Zhang Shu-Li, Li Jing-Yu, Mu Chuan-Bin, Liu Yanan, Meng Xin, Yang Dian. Free-form fusion method for multi-modal medical images. Computer programming skills and maintenance, 2019, 8: 139-140+155 doi: 10.3969/j.issn.1006-4052.2019.08.050
    [3] 田娟秀, 刘国才, 谷珊珊, 鞠忠建, 刘劲光, 顾冬冬. 医学图像分析深度学习方法研究与挑战. 自动化学报, 2018, 44(3): 401-424

    Tian Juan-Xiu, Liu Guo-Cai, Gu Shan-Shan, Ju Zhong-Jian, Liu Jin-Guang, Gu Dong-Dong. Deep learning in medical image analysis and its challenges. ACTA AUTOMATICA SINICA, 2018, 44(3): 401-424.
    [4] Pennington J, Socher R, Manning C. Glove: Global vectors for word representation. In: Proceedings of the 2014 conference on Empirical Methods in Natural Language Processing (EMNLP). 2014. 1532−1543
    [5] McCann B, Bradbury J, Xiong C, et al. Learned in translation: Contextualized word vectors. Advances in Neural Information Processing Systems. 2017. 6294-6305
    [6] Vaswani A, Shazeer N, Parmar N, et al. Attention is all you need. Advances in neural information processing systems. 2017. 5998-6008
    [7] Sun Y, Wang S, Li Y, et al. ERNIE: Enhanced representation through knowledge integration. arXiv preprint arXiv: 1904.09223, 2019
    [8] Sun W, Zheng B, Qian W. Computer aided lung cancer diagnosis with deep learning algorithms. SPIE Medical Imaging, 2016
    [9] Xiao Huan-Hui, Yuan Cheng-Lang, Feng Shi-Ting. Research progress of computer aided diagnosis in cancer based on deep learning. International Journal of Medical Radiology, 2019, 42(1), 22-25
    [10] Cheng JZ, Ni D, Chou YH, et al. Computer -aided diagnosis with deep learning architecture: applications to breast lesions in US images and pulmonary nodules in CT scans. Scientific Reports, 2016, 6: 24454 doi: 10.1038/srep24454
    [11] Nibali A, He Z, Wollersheim D. Pulmonary nodule classification with deep residual networks. Int J Comput Assist Radiol Surg, 2017, 12: 1799-1808 doi: 10.1007/s11548-017-1605-6
    [12] Shen W, Zhou M, Yang F, et al. Multi-crop convolutional neural networks for lung nodule malignancy suspiciousness classification. Pattern Recognition, 2017, 61: 663-673 doi: 10.1016/j.patcog.2016.05.029
    [13] HOCHREITER S, SCHMIDHUBER J. Long Short-Term Memory. Neural Computation, 1997, 9(8): 1735-1780 doi: 10.1162/neco.1997.9.8.1735
    [14] 陈斌, 周勇, 刘兵. 基于卷积长短期记忆网络的事件触发词抽取方法. 计算机工程, 2019, 45(01): 153-158

    Chen Bin, Zhou Yong, Liu Bing. Event-triggered word extraction method based on convolutional long-term and short-term memory networks. Computer Engineering, 2019, 45(01): 153-158
    [15] Litjens G., Sánchez C., Timofeeva, et al. Deep learning as a tool for increased accuracy and efficiency of histopathological diagnosis. Sci Rep, 2016, 6: 2628.
  • 期刊类型引用(4)

    1. 杨静,王晓,王雨桐,刘忠民,李小双,王飞跃. 平行智能与CPSS:三十年发展的回顾与展望. 自动化学报. 2023(03): 614-634 . 本站查看
    2. 赵奎,闫玉芳,曹吉龙,高延军. 融合规范化判断的双向循环神经网络诊疗预测模型. 小型微型计算机系统. 2022(06): 1278-1284 . 百度学术
    3. 赵奎,杜昕娉,高延军,马慧敏. 融合文字与标签的电子病历命名实体识别. 计算机系统应用. 2022(10): 375-381 . 百度学术
    4. 高华睿,郝龙,王明明,包绍伦,康乐. 基于Att-Bi-LSTM的高速公路短时交通流预测研究. 武汉理工大学学报. 2020(09): 59-64 . 百度学术

    其他类型引用(5)

  • 加载中
图(2) / 表(5)
计量
  • 文章访问数:  978
  • HTML全文浏览量:  351
  • PDF下载量:  278
  • 被引次数: 9
出版历程
  • 收稿日期:  2019-09-09
  • 录用日期:  2020-01-28
  • 网络出版日期:  2021-12-23
  • 刊出日期:  2022-02-18

目录

/

返回文章
返回