Short-text Sentiment Enhanced Achievement Prediction Method for Online Learners
-
摘要: 当前利用短文本情感信息进行在线学习成绩预测的研究存在以下问题: 1)当前情感分类模型无法有效适应在线学习社区的短文本特征, 分类效果较差; 2)利用短文本情感信息定量预测在线学习成绩的研究在准确性上还有较大的提升空间. 针对以上问题, 本文提出了一种短文本情感增强的成绩预测方法. 首先, 从单词和句子层面建模短文本语义, 并提出基于学习者特征的注意力机制以识别不同学习者的语言表达特点, 得到情感概率分布向量; 其次, 将情感信息与统计、学习行为信息相融合, 并基于长短时记忆网络建模学习者的学习状态; 最后, 基于学习状态预测学习者成绩. 在三种不同类别课程组成的真实数据集上进行了实验, 结果表明本文方法能有效对学习社区短文本进行情感分类, 且能够提升在线学习者成绩预测的准确性. 同时, 结合实例分析说明了情感信息、学习状态与成绩之间的关联.Abstract: Research of online learning achievement prediction based on short text sentiment information has the following problems: 1) Current sentiment classification model cannot effectively adapt to short text features of online learning community, and classification effect is poor; 2) Prediction accuracy of online learning achievements using short text sentiment information has a lot of room for improvement. In view of above problems, this paper proposes a short text sentiment enhanced achievement prediction method. Firstly, short text semantics are modeled from the word and sentence level, and attention mechanism based on learner characteristics is proposed to identify the expression characteristics of different learners. Secondly, sentiment information is fused with statistics and learning behavior information, and use long-short term memory network to model learning state of learner. Finally, learner's grade is predicted based on learning state. Experiments were carried out on real data set composed of three types courses. The results show that our method can effectively classify short texts of the learning community and improve the accuracy of online learners' achievement predictions. At the same time, combined with case analysis, relationship between emotional information, learning status and achievement is explained.
-
在线开放课程为世界各地的学习者提供了学习先进课程的机会, 同时还为教学管理者收集了各类数据以分析在线学习者的相关行为, 即所谓的学习分析[1]. 面对大规模的学习用户及其所产生的数据, 如何对在线学习者的学业成绩进行预测, 依据预测结果实施学业预警, 并为教学决策提供依据, 是在线教育需要解决的一个重要问题[2-9].
当前针对在线学习者成绩预测的研究主要是利用学习者客观的统计数据和学习行为数据, 对相关研究文献进行归纳后, 本文将这些研究分为三个类别: 1)基于概率的成绩预测研究; 2)基于传统机器学习的成绩预测研究; 3)基于深度学习的成绩预测研究. 下面对这些研究工作进行阐述.
第一, 基于概率的成绩预测研究包括知识追踪(Knowledge tracing)和认知诊断(Cognitive diagnosis), 两者都是使用学习者过去的学习表现数据, 利用概率模型刻画学习者并预测其成绩. 其中, 知识追踪方法有贝叶斯知识追踪(Bayes knowledge tracing, BKT)[10]和深度知识追踪(Deep knowledge tracing, DKT)[11]两类. 此外, 还有学者提出了基于动态记忆网络的方法, 该方法学习知识点之间的关系和学习者对具体知识点的掌握情况, 从而对该学习者的学习表现进行预测[12]. 认知诊断模型分为连续型和离散型两类, 其中连续模型的典型例子为潜在特质理论(Item response theory, IRT)[13], 而离散模型的典型例子为DINA (Deterministic inputs, noisy and gate model)[14]. 此外, 还有学者提出了一种通用的认知诊断框架, 能够实现对主观题和客观题的认知建模, 增强了学习者成绩预测的精度[15].
第二, 基于传统机器学习的方法利用统计理论、聚类、分类、图理论和矩阵因子化等技术预测学习者成绩. Anderson等[16]对学习者的参与类型进行分类, 并研究了学习者的参与度及其成绩之间的关联. Ramesh等[17]提出用于抽象学习者参与类型的潜在表征模型, 以预测辍学率及学习者成绩; Bayer等[18]利用学习者丰富的社交网络数据预测其辍学率和学校课程的错误选择; 矩阵因子化(Matrix factorization, MF)近年来也常被应用于教育领域的成绩预测, Sweeney等[19]利用矩阵因子化等推荐系统的常见方法进行成绩预测研究; Ren等[20]考虑了相关课程和时间因素的影响, 提出了一种时序课程影响的矩阵分解算法以预测学习者成绩; Tang等[21]利用动态图理论预测学习者行为(包括学习成绩), 并取得了好的效果.
第三, 基于深度学习(Deep learning)的成绩预测研究也越来越受到关注. 深度知识追踪(DKT)技术利用递归神经网络模拟学习者练习过程, 以预测其未来表现. 在此基础上, 有多个工作探索了深度模型的层数、特征等因素对最终预测成绩结果的影响[22-24]; Su等[25]结合文本语义信息提出了一种基于测验文本的神经网络方法来预测学习者的测验成绩; Feng等[26]提出了一种基于特征交互的神经网络框架, 通过学习不同类型特征之间的关联来预测学习者能否完成在线课程的学习.
从上述所阐述的内容, 可以发现这些研究忽视了学习者的短文本数据, 而这些数据保留了可用作学习者成绩预测的大量信息, 这为我们的研究提供了新视角.
除研究视角选择之外, 我们还发现短文本数据中的情感因素会对学习者的成绩预测造成影响. 对此, Wen等[27]提出利用论坛中的短文本数据计算学习者的情感比率, 并研究了情感比率与学习者辍学行为之间的关系. 其研究结果表明: 积极的情感倾向预示着较低的辍学率; Tucker等[28]发现论坛短文本数据中蕴含的情感分数与学习者的测验表现和作业投入有较强的相关性; Chaplot等[29]利用情感分析工具计算情感特征, 并与其他多个特征结合训练神经网络模型, 结果表明情感特征能够提升成绩预测的精度. 以上研究均显示有效地利用情感信息将提高成绩预测的准确性.
上述利用情感信息进行成绩预测的研究还存在着如下问题: 1)多数研究工作采用传统方法或是直接迁移其他领域(如商品评论分析)的情感分析方法来处理论坛中的短文本数据, 但这种做法不适应针对学习社区短文本数据的处理: Wen等[27]在研究中发现不同课程的短文本数据有不同语言表达特征, 如在文科性质的课程中, 部分被判定为带有消极情绪的短文本所含有的消极词汇与其评论的客观事实相关, 与学习者情感无关; Wen等[27]还发现不同学习者的表达特征也影响着情感识别的效果, 如存在着某些学习者习惯性使用消极词汇的情况, 所以不能仅依靠词汇的极性判断其情感极性. 这些问题的存在意味着, 如何设计能够有效适应学习社区短文本特征的情感识别模型是一个有待研究的关键问题. 2)当前研究多是定性地说明情感因素的作用(如Wen等[27]和Tucker等[28]的工作), 而部分结合短文本情感信息定量预测学习者成绩的工作所取得的效果也有待进一步提高(如文献[29]的工作). 因此, 结合短文本情感因素, 构建情感增强的成绩预测模型, 以有效地定量预测学习者成绩, 这是本文有待研究的又一个关键问题.
针对上述问题1), 本文在分析在线学习社区短文本数据所具有的特征的基础上, 考虑利用最新的自然语言处理方法[30-34]构建情感分类模型加以解决. 由于在线学习社区的短文本数据通常由多个短句构成, 这些短句具有一般短文本数据所共有的特点, 如表达随意、语病多等. 所以本文的具体思路是: 为了有效地刻画短文本的情感, 本文首先利用短文本数据训练得到词的语义表示, 随后采用分层处理的策略处理这些短文本数据. 在这些分层中, 第1层从词表示中聚合得到句子的语义表示, 而第2层从句子表示聚合得到短文本的语义表示. 在每一层中, 选择广泛用于建模文本语义的双向长短期记忆(Bi-directional long short-term memory, BiLSTM)网络模型作为每一层的处理结构. 同时, 利用注意力机制处理每一层BiLSTM的输出, 以识别出对情绪分类贡献较大的情感词汇和包含情绪表达的句子. 其次, 在线学习社区中, 不同的课程和学习者具有不同的情感表达特征, 这会对情感分类任务产生重要影响. 为此, 本文改进了传统注意力机制, 在注意力权重的计算过程中引入了学习者特征向量, 以实现学习不同学习者情感表达特点的目的. 同时, 在不同课程上, 训练不同的情感分类模型, 以适应课程层面的情感表达特点.
针对上述问题2), 本文考虑到深度知识追踪模(DKT)是一种基于循环神经网络的方法, 在时序上可有效地建模学习者的学习状态, 且由于DKT基于深度学习框架, 这可与短文本的情感表示有效结合, 所以本文选择DKT作为成绩预测模型的扩展基础. 此外, 本文还注意到人口统计数据和学习行为数据对学习者成绩预测的影响, 故将这两者与短文本数据表示相融合, 以得到完整的学习者特征表示. 在此基础上, 利用一种改进的长短期记忆(Long short-term memory, LSTM)循环神经网络建模学习状态, 以此为基础预测学习者的成绩.
本文的贡献主要在于: 1)利用分层模型建模短文本语义, 并改进传统注意力机制以识别不同学习者的语言表达特征; 2)设计了情感增强的学习者特征融合方法, 并利用LSTM网络从时序上建模学习状态, 预测学习成绩.
1. 问题描述
设
$ {n} $ 为在线学习者的个数,$ {V} $ 是在线学习者的集合, 有$ \left|{V}\right| = {n} $ . 设一门在线课程包含$ {T} $ 个知识点, 并按照在线教学的时间顺序进行安排. 具体定义如下.定义1. 在线学习成绩.设
$ {y}\in[0,1]^{{n}} $ 为所有学习者的课程成绩, 将学习者成绩映射到[0, 1]的区间.例如,
$ {y}({i}) = 0.95 $ 为学习者$ {i} $ 的在线学习成绩, 表示学习者$ {i} $ 的期末成绩为百分制的95分.定义2. 学习状态. 设
${z}^{t}({i}) = [{Z}_{i,t,0},{Z}_{i,t,1},\cdots, $ ${Z}_{i,t,m-1}]^{\rm{T}} $ 表示学习者$ {i} $ 在知识点$ {t} $ 上的学习状态. 其中,$ {Z}_{i,t,j}\in [0,1] $ ,$ {m} $ 为学习状态向量的维度, 将所有学习者的学习状态存储在$ {Z}\in[0,1]^{n \times T \times m} $ 中.$ {z}^{t}({i}) $ 中的每一个维度代表学习者在课程对应能力维度的掌握情况, 数值高代表其掌握较好, 数值低代表其掌握较差. 利用学习者在线学习产生的多种数据, 使用特定模型可以刻画其学习状态, 并利用此状态预测学习成绩.例如,
$ {z}^{t}({i}) = [0.3 , 0.5 , \cdots, 0.2]^{\rm{T}}\in [0,1]^{24} $ 为学习者$ {i} $ 在知识点$ {t} $ 上的学习状态. 其维度为24维, 每个维度对应的元素数值越高表示对应能力维度掌握情况越好, 如数值为0.5的维度比数值为0.3的维度掌握情况要好.定义3. 在线学习特征. 设
${X}\in {\bf{R}}^{n \times T \times d}$ 表示在不同知识点下的所有在线学习特征.$ {x}_{t}({i}) = [{X}_{i,t,0} , $ ${X}_{i,t,1} , \cdots, {X}_{i,t,d-1}]^{\rm{T}}$ 表示学习者$ {i} $ 在知识点$ {t} $ 上的特征, 其中,$ {d} $ 为学习者特征向量的维度.$ {x}^{t}({i}) $ 由学习者的人口统计、学习行为和短文本情感这三类特征向量融合生成.$ {{{{f}}_{{g^t}(i)}}} $ 表示学习者$ {i} $ 在知识点$ {t} $ 上的人口统计特征;$ {{{{f}}_{{b^t}(i)}}} $ 表示学习者$ {i} $ 在知识点$ {t} $ 上的学习行为特征;${{{sentiment}}_{{st^t}(i)}}$ 表示学习者$ {i} $ 在知识点$ {t} $ 上的短文本情感特征.例如,
$ {{{x}}^t} (i) = {[{{{sentimen}}{{{t}}_{{st^t}(i)}};{{{f}}_{{g^t}(i)}};{{{f}}_{{b^t}(i)}}}]} $ 为学习者$ {i} $ 在知识点$ {t} $ 上的在线学习特征, 符号“;”表示行序拼接.${{{sentiment}}_{{st^t}(i)}}$ 通过情感分类模型获取,$ {{{{f}}_{{g^t}(i)}}} $ 和$ {{{{f}}_{{b^t}(i)}}} $ 通过日志数据计算得到.基于上述定义, 本文要解决的基于短文本情感增强的在线学习者成绩预测问题定义如下.
定义4. 基于短文本情感增强的在线学习者成绩预测问题.
输入. 所有学习者的特征表征
$ {{X}} $ ;输出. 所有学习者的在线学习者成绩表征
$ {{y}} $ .其中, 输入
$ {{X}} $ 包含学习者$ {i} $ 在知识点$ {t} $ 的短文本信息$ {ST^t}({i}) $ 、人口统计信息$ {g^t} (i) $ 和学习行为信息$ {b^t}(i) $ , 并可由此得到的学习者特征向量$ {{{x}}^t}(i) $ ; 输出预测成绩的过程即利用$ {{X}} $ 获取学习者的学习状态表征$ {{Z}} $ , 并通过$ {{Z}} $ 预测学习者的在线学习者成绩表征$ {{y}} $ .针对定义4中的问题, 本文基于自然语言处理方法和深度学习理论, 设计了一种基于短文本情感增强的在线学习成绩预测方法, 具体如图1所示.
该预测方法框架中的核心工作为: 1)在研究在线学习社区短文本特征的基础上, 提出一种在线学习社区短文本情感分类模型, 以获取到短文本情感分布向量
$ {{{sentiment}}_{{st^t}(i)}} $ ; 2)从学习者的基础信息中获取到人口统计特征向量$ {{{{f}}_{{g^t}(i)}}} $ , 同时, 从其学习行为数据中获取到学习行为特征向量$ {{{{f}}_{{b^t}(i)}}} $ ; 3)将短文本情感分布向量$ {{{sentiment}}_{{st^t}(i)}} $ 、人口统计特征向量$ {{{{f}}_{{g^t}(i)}}} $ 和学习行为特征向量$ {{{{f}}_{{b^t}(i)}}} $ 相融合, 获取情感增强的在线学习者特征$ {{{x}}^t} (i) $ , 这可更加完整地刻画出学习者的特征; 4)针对每个时间步, 本文将不同知识点的在线学习特征$ {{{x}}^t} (i) $ 作为LSTM模型的输入, 该模型可产生学习者在不同时刻的学习状态$ {{{z}}^t} (i) $ ; 5)基于学习者的最终学习状态$ {{{z}}^T} (i) $ 预测学习者的在线学习成绩$ {{y}} (i) $ . 其中, 步骤1)将在第2.1节中描述, 步骤$2)\sim 5) $ 将在第2.2节描述.2. 情感增强的在线学习者成绩预测
2.1 在线学习社区短文本情感分类模型
针对现存情感分类模型无法有效适应在线学习社区短文本的特征, 且分类效果较差的问题, 本文设计一种在线社区短文本情感分类模型, 如图2所示. 基于文献[33]的工作, 本文首先利用短文本数据训练得到词的语义表示, 随后采用分层处理的策略处理这些短文本数据. 在这些分层中, 第一层为句子向量表示层, 从词表示聚合得到句子向量表示, 而第二层为短文本向量表示层, 从句子表示聚合得到短文本的语义表示. 在这些层次中, 使用BiLSTM作为每一层的语义建模结构, 利用注意力机制识别出对情绪分类贡献较大的情感词汇和包含情绪表达的句子. 同时, 本文改进了传统注意力机制, 即在注意力权重的计算过程中引入了学习者特征向量, 以实现学习不同学习者情感表达特点的目的. 下面具体描述该模型.
2.1.1 模型输入
首先描述该短文本情感分类模型的输入. 设每个学习者
$ {i} $ 在知识点$ {t} $ 上发表的短文本数据为$ {{ {st}}^t}( i ) = $ $ \{ {{s_1}, \cdots ,{s_p}} \}, $ 其中,${{ s}_j} = \{ {{w_{j1}},\cdots ,{w_{jLj}}}\}$ 表示短文本中的一个句子,$ {w_{{j^ * }}} $ 表示句子$ {j} $ 中单词,$ L_j $ 表示句子$ {j} $ 的长度.利用课程短文本数据训练词嵌入模型[34], 并利用此模型得到每个句子的词向量表示
${{{s}}_j} = \{ {{w}_{j1}},\cdots ,$ ${{w}_{jLj}}\}$ .2.1.2 句子向量表示层
针对句子向量表示层, 将每个句子
$ {{{s}}_j} $ 中的词向量使用BiLSTM模型进行处理, 由此得到句子$ {s}_j $ 中每个单词在建模后的语义表示$ {{{h}}_{jq}} $ ,$ {q} \in [ {1,{L_j}}] $ . 同时, 从学习者的角度看, 由于并非所有词都能平等地反映出学习者的情绪或重要性. 为了解决这个问题, 本文使用结合学习者特征向量的注意力机制来提取句子中不同词对学习者的重要性, 并通过加权的方式聚集得到句子的向量表示$ {s}_j $ , 具体计算过程为$$ {{{s}}_j} = \sum\limits_{q = 1}^{{L_j}} {{\alpha _{jq}}{{{h}}_{jq}}} $$ (1) 其中,
$ {\alpha_{jq}} $ 是句子$ {j} $ 中单词$ {q} $ 对于学习者$ {i} $ 的重要性权重;$ {{{h}}_{jq}} $ 是BiLSTM层$ {q} $ 时刻的隐藏状态.$ {\alpha _{jq}} $ 利用式(2)计算, 其涉及的得分函数r利用式(3)计算.$$ {a_{jq}} = \frac{{\exp \left(r\left({{{h}}_{jq}},{{l}}\right)\right)}}{{\sum\limits_{{{o}} = 1}^{{L_j}} {\exp \left(r\left({{{h}}_{jo}},{{l}}\right)\right)} }} $$ (2) $$ r\left({{{h}}_{jq}},{{l}}\right) = {{v}}_w^{\rm{T}}\tanh \left({{{W}}_{wh}}{{{h}}_{jq}} + {{{W}}_{wu}}{{l}} + {{{b}}_w}\right) $$ (3) 其中, r为得分函数,
$ {{{v}}_w} $ 是计算单词重要性得分的向量;$ {{l}} $ 是学习者$ {i} $ 的特征向量;$ {{{W}}_{wh}} $ 和$ {{{W}}_{wu}} $ 是单词层面的权值矩阵;$ {{{b}}_w} $ 是单词层面的偏置向量.2.1.3 短文本向量表示层
针对短文本向量表示层, 将每个句子向量
$ {{{s}}_j} $ 使用BiLSTM层进行处理, 可得到各个句子建模后的语义表示$ {{{k}}_q} $ ,$ q \in [ {1,p} ] $ , 以用于计算短文本的向量表示. 同理, 短文本中的不同句子向量表示$ {{\bf{s}}_j} $ 对学习者的重要性也是不同的. 所以, 在句子层面利用结合学习者特征向量的注意力机制以得到不同句子的重要性, 然后通过加权的方式得到所有句子的聚合表示. 同时, 为了让最终的短文本向量表示的维度不要过大, 以造成对情感分类的影响, 本文对聚合得到的短文本向量再施加一个线性变换和sigmod函数, 以得到最终的短文本向量表示$ {{{st}}^t}( i ) $ . 具体为$$ {\beta _q} = \frac{{\exp \left(r\left({{{k}}_q},{{l}}\right)\right)}}{{\sum\limits_{{{o}} = 1}^p {\exp \left(r\left({{{k}}_o},{{l}}\right)\right)} }} \qquad\qquad\qquad\quad$$ (4) $$ r\left({{{k}}_q},{{l}}\right) = {{v}}_s^{\rm{T}}{\rm{tanh}}\left({{{W}}_{sh}}{{{k}}_q} + {{{W}}_{su}}{{l}} + {{{b}}_s}\right) $$ (5) $$ {{{st}}^t}(i) = {\rm{sigmod}}\left({{{W}}^0}\left(\sum\limits_{q = 1}^p {{\beta _q}{{{k}}_q}} \right) + {{{b}}^0}\right) $$ (6) 其中, 式(4)用于计算不同句子的重要性权重,
$ {\beta_q} $ 是不同句子对于学习者$ {i} $ 的重要性. 式(5)用于计算不同句子的重要性得分, r为得分函数;$ {{{k}}_q} $ 是BiLSTM层$ {q} $ 时刻的隐藏状态;$ {{{v}}_s} $ 是计算句子重要性得分的向量;$ {{l}} $ 是学习者$ {i} $ 的特征向量;$ {{{W}}_{sh}} $ 和$ {{{W}}_{su}} $ 是句子层面的权值矩阵;$ {{{b}}_s} $ 是句子层面的偏置向量. 式(6)用于计算最终的短文本向量表示;$ {{{W}}^0} $ 是文档层面的权值矩阵;$ {{{b}}^0} $ 是文档层面的偏置向量.2.1.4 模型输出
在获取到短文本的向量表示
$ {{{ st}}^t}(i) $ 之后, 需输出基于此得到的该短文本属于不同情感类别的概率, 并定义其损失函数, 具体为$$ {{{ sentiment}}_{s{t^t}(i)}} = {{p}}= {\rm{softmax}}\left({{{W}}^1}{{{st}}^{_t}}(i) + {{{b}}^1}\right) \qquad$$ (7) $$ loss = - \sum\limits_{S{T^t}(i) \in TD} {\sum\limits_{c = 1}^C {{{p}}^r_c\left(S{T^t}(i)\right) \times \ln \left({{{p}}_c}\left({{{st}}^t}(i)\right)\right)} } $$ (8) 其中,
$ {C} $ 为本文设置的情感类别个数, 具体在实验中介绍;$ {{p}}\in{[{0,1}]^C} $ 是表示在$ {C} $ 个不同情感类别的概率分布的向量;$ {{{W}}^1} $ 是线性变换的权重矩阵;$ {{{b}}^1} $ 是线性变换的偏置向量; 通过softmax函数可得到$ {{{ st}}^t}(i) $ 在$ {C} $ 个不同情感类别上的分布概率;$ {TD} $ 表示训练集;$ {{{p}}^r} $ 是$ {st^t}( i) $ 真实的情感类别向量, 该向量只有在短文本属于的情感类别对应的位置的值为1, 其余值为0.2.2 学习状态建模与成绩预测
针对当前利用短文本情感信息预测学习者的成绩的研究存在准确性不高的问题, 本文基于DKT设计了短文本情感增强的成绩预测模型. 此模型分为三层, 第1层为学习者特征构建, 将短文本情感向量
$ {{{sentiment}}_{{st^t}(i)}} $ 与人口统计向量$ {{{{f}}_{{g^t}(i)}}} $ 和学习行为向量$ {{{{f}}_{{b^t}(i)}}} $ 相融合, 得到情感增强的学习者特征向量$ {{{x}}^t}( i) $ . 第2层为学习状态建模, 利用改进的循环神经网络LSTM建模学习状态$ {{{z}}^t}(i) $ . 第3层为成绩预测, 基于期末时刻的学习状态向量${{{z}}^{{\rm{T}}}}( i)$ 预测学习者的成绩$ {{y}}(i) $ . 具体方法如图3所示.2.2.1 学习特征构建
要建模学习者的学习状态, 首先要获得学习者特征的完整表示. 本文在2.1节中可得到短文本情感特征向量
$ {{{sentiment}}_{{st^t}(i)}} $ , 同时, 基于学习者的基础数据和学习行为数据可以得到学习者的人口统计特征向量$ {{{{f}}_{{g^t}(i)}}} $ 和学习行为特征向量$ {{{{f}}_{{b^t}(i)}}} $ . 通过多源特征融合函数fuse可得到学习者的完整特征表示$ {{{x}}^t}( i ) $ , 具体做法为$$ {{{x}}^t}(i) = fuse\left({{{sentiment}}_{{st^t}(i)}},{{{{f}}_{{g^t}(i)}}},{{{{f}}_{{b^t}(i)}}}\right) $$ (9) 其中,
$ {{{{f}}_{{g^t}(i)}}} $ 和$ {{{{f}}_{{b^t}(i)}}} $ 分别为学习者$ {i} $ 在知识点$ {t} $ 的人口统计特征向量和学习行为特征向量. 本文利用了文献[21]中提及的人口统计特征和学习行为特征构建$ {{{{f}}_{{g^t}(i)}}} $ 和$ {{{{f}}_{{b^t}(i)}}} $ , 其中,$ {{{{f}}_{{g^t}(i)}}} $ 主要由年龄、性别和教育水平等8 个与人口统计相关的特征构成,$ {{{{f}}_{{b^t}(i)}}} $ 主要由投入在观看视频上的时间、在论坛中的发言次数和回复次数等16 个与学习行为相关的特征构成. fuse函数可以有多种选择形式, 本文采用向量拼接进行融合, 即$ {{x}^t}( i ) = [ {{{sentiment}}_{{st^t}(i)}};{{{{f}}_{{g^t}(i)}}};$ ${{{{f}}_{{b^t}(i)}}} ] $ , 其中, 符号“ ; ”表示向量按行序拼接.2.2.2 学习状态建模
因为学习是一个连续的过程, 所以仅有每个独立时间步的特征表示是不够的. 学习过程中某一时间步的学习状态不仅与当前时间步的行为相关, 且受之前的学习状态与表现的影响, 所以需要有效地建模学习者在不同时刻的学习状态并刻画这些状态之间的影响. 基于此, 本文提出采用可有效处理时间序列问题的LSTM模型来建模学习者在不同时间步的学习状态.
LSTM能很好模拟学习者的学习过程, 首先, 在特定时间步
$ {t} $ , 存在学习者前一时间步的实际学习状态$ {{{z}}^{t - 1}}(i) $ 和当前时间步的学习特征$ {{ x}^t}(i) $ , 在没有其他因素影响时, 通过式(10)可以计算当前时间步学习者的隐含学习状态$ {{{c}}^{'t}}(i) $ .$$ {{c}}{'^t}(i) = \tanh \left({{{W}}_c}\left[{{{z}}^{t - 1}}(i);{{{x}}^t}(i)\right] + {{{b}}_c}\right) $$ (10) 其中,
$ {{{W}}_c} $ 是权值矩阵;$ {{{b}}_c} $ 是偏置向量; 其次, 考虑学习过程的记忆和遗忘因素, 通过计算输入门$ {{{i}}^t}(i) $ 和遗忘门$ {{{f}}^t}(i) $ 更新当前时间步学习者的隐含学习状态$ {{{c}}^t}(i) $ , 具体更新如式$(11)\sim (13) $ 所示.$$ {{{f}}^t}(i) = \sigma \left({{{W}}_f}\left[{{{z}}^{t - 1}}(i);{{{x}}^t}(i)\right] + {{{b}}_f}\right) $$ (11) $$ {{{i}}^t}(i) = \sigma \left({{{W}}_i}\left[{{{z}}^{t - 1}}(i);{{{x}}^t}(i)\right] + {{{b}}_i}\right) $$ (12) $$ {{{c}}^t}(i) = {{{f}}^t}(i) \circ {{{c}}^{t - 1}}(i) + {{{i}}^t}(i) \circ {{c}}{'^t}(i) $$ (13) 其中,
$ {{{W}}_ * } $ 是权值矩阵;$ {{{b}}_ * } $ 是偏置向量;$ \circ $ 表示向量对应元素相乘操作; 遗忘门控制从上个时间步的隐含学习状态中遗忘的内容, 输入门控制从当前隐含状态中记忆的内容, 二者共同作用达到对当前隐含学习状态进行更新的目的. 最后, 考虑学习者隐含学习状态并不能完全展现出来(如受到紧张等因素影响), 通过计算输出门$ {{{o}}^t}( i) $ 得到当前时间步学习者的实际学习状态, 具体为$$ {{{o}}^t}(i) = \sigma \left({{{W}}_o}\left[{{{z}}^{t - 1}}(i);{{{x}}^t}(i)\right] + {{{b}}_o}\right) $$ (14) $$ {{{z}}^t}(i) = {{{o}}^t}(i) \circ \tanh ({{{c}}^t}(i)) \qquad\qquad $$ (15) 其中,
$ {{{W}}_o} $ 是权值矩阵;$ {{{b}}_o} $ 是偏置向量; 输出门控制隐含学习状态转化成实际学习状态的内容.2.2.3 学习成绩预测
通过学习状态建模, 可以得到学习者在不同知识点对应时间步的实际学习状态. 基于最后时刻学习者的学习状态向量
$ {{{z}}^{T}}( i ) $ 便可以预测学习者的课程成绩, 即可利用一个单层的MLP预测其课程成绩, 具体预测方法为$$ grade(i) = sigmod\left({{{W}}^2}{{{z}}^{ T}}(i) + {{b}^2}\right) $$ (16) 其中,
$ {grade}(i) $ 表示所预测得到的第$ {i} $ 个学习者的课程成绩,$ {{{W}}^2} $ 是线性变换的权重向量,$ {{b}^2} $ 是偏置. 最后, 成绩预测模型的损失函数为$$ loss = -\sum\limits_{i \in Course} {\left(grade(i) - grade^r(i)\right)^2} $$ (17) 其中,
$ {grade^r}(i) $ 是学习者真实的课程成绩.3. 实验
本文选择在真实的MOOC学习数据集上进行实验, 以验证本文方法的有效性. 实验分两部分进行说明, 第1部分说明短文本情感分类模型在学习社区文本数据上的有效性, 第2部分说明成绩预测的实验结果及分析.
3.1 数据集
本文收集了学堂在线上国内某知名大学MOOC平台上的学习行为数据集. 该数据集包括了2013年秋季学期和2014年春季学期的11 门完整的在线课程相关数据. 这些课程可分为3 类: 工科(如计算机科学与电子工程)、理科(如物理)和文科及其他(如历史和体育); 每门课程都设有论坛, 学习者可针对不同知识点的教学内容发布问题或回复他人提出的问题, 因此该数据集为本文提供了研究所需的短文本数据. 除此之外, 该数据集还包含了与学习者相关的人口统计学信息, 以及多种类型的学习者活动信息(如观看视频、完成作业、下载资源等). 表1
$\sim $ 4描述了该数据集的相关统计数据, 主要包含课程的类别和数目、每类课程的平均人数和知识点上的平均发帖数、每类课程的情感类别分布情况和文章所使用的人口统计特征与学习行为特征.表 1 不同类别课程的数量Table 1 Number of different types of courses课程类别 课程 合计课程数量数量 (门) 工科 计算机科学, 电子工程 5 理科 物理 2 文科及其他 历史,体育 4 表 4 模型部分使用的特征Table 4 Part features used in the model特征类别 特征个数 部分特征 统计特征 8+ 性别、年龄、教育层次、相关先行课成绩等 学习行为特征 16+ 发帖次数、被回帖次数、观看教学视频时间、知识点测验成绩等 表 2 不同类别课程的人数及发帖数量Table 2 Number of people and post in different type courses课程类别 平均学习者人数 (人) 每个知识点下的发/回帖数量 (个) 工科 2 326 3 200 理科 2 681 1 520 文科及其他 2 170 1 060 表 3 不同类别课程的情感类别分布Table 3 Distribution of sentiment categories in different type courses课程类别 情感类别分布 (约简为整数), 积极/消极/疑惑/正常情绪 (%) 工科 16/14/37/33 理科 21/19/27/33 文科及其他 29/12/22/37 由于收集到的短文本数据缺乏情感类别信息, 因此需要对其类别进行标注. 文献[27-29]和文献[35]均将学习社区文本数据分为积极、消极和一般这样的三个情感类别来进行成绩预测的分析和研究. 本文在此基础上将情感中的一般类别细分为“疑惑”和“正常情绪”, 最终将学习社区短文本的情感类别确定为积极、消极、疑惑和正常情绪四类.
为了充分验证本文短文本模型的有效性, 采用人工标注短文本的情感类别. 具体做法为: 1)由5 个教育数据挖掘方向的研究生独立标注短文本情感类别, 此标注的FLeiss Kappa指标为0.782; 2)如果短文本被4人以上标注为某一类别, 可将此短文本确定为此类别; 3)无法通过步骤2标注类别的短文本通过5人讨论确认其类别.
3.2 短文本情感分类模型的实验结果
本文在实验中选择了最佳超参数设置, 由于篇幅限制而省去针对短文本情感分类模型的超参数选择过程.
3.2.1 实验设置
收集每门课程中的学习者在知识点的论坛版块中已发表的短文本数据, 以形成每门课程独立的短文本数据集. 通过随机分割, 本文将课程中的80%短文本数据用于做训练, 将10%短文本数据用于做验证, 将剩余10%的短文本数据用于做测试. 使用准确性(Accuracy, ACC)指标评价模型在情感分类模型上的整体表现, 并用均方根误差(Root mean square error, RMSE)指标评价预测的情感标签和真实情感标签上的分离程度. 两个测评指标的计算为
$$ { Accuracy_{{\rm{sentiment}}}} = \frac{T}{N} \qquad\qquad\quad $$ (18) $$ RMS{E_{{\rm{sentiment}}}} = \sqrt {\frac{{\sum\limits_{o = 1}^N {({s_o} - {{s^r}_o})^2} }}{N}} $$ (19) 其中, T表示短文本情感预测正确的个数;
$ {N} $ 为测试中的短文本的总个数;$ {s^r_o} $ 是$ {o} $ 对应短文本的真实情感标签;$ {s_o} $ 是预测的情感标签.在超参数设置上, 利用Glove方法在课程短文本数据集上训练200 维度的词向量; 设置学习者的特征向量为200 维, 使用标准正态分布U(0.01, 0.01)进行初始化; 将BiLSTM模型的隐藏节点个数设置为100, 即其可输出200 维向量; 将短文本表示向量的维度设置为50; 设每个短文本最多含有40 个句子, 且每个句子的长度不超过 50 个单词; 采用Adam方法优化整体模型的参数, 并设置初始化学习率为0.005.
3.2.2 实验设置
基于第3.2.1节的设置, 本文在课程短文本数据集上进行了训练和测试, 并选择如下方法加以对比, 下面是对所选择方法的概述: 1) Trigram: 提取短文本中的unigrams, bigrams和trigrams 等特征训练支持向量机(Support vector machine, SVM)分类器用于短文本的情感分类[36]; 2) TextFeature: 提取短文本中的word/character n-gram、sentiment lexicon、cluster type等特征训练SVM分类器用于短文本的情感分类[36]; 3) SSWE: 学习短文本中的情绪特化词向量表示, 并将每个句子单词的词向量使用max/min/average pooling等池化操作处理之后作为短文本的表示, 训练一个SVM分类器用于短文本的情感分类[37]; 4) RNTN + RNN: 利用递归神经张量网络(Recursive neural tenser network, RNTN)获取句子表示, 然后将其输入递归神经网络(Recurrent neural network, RNN), 最后对RNN的每个时间步的隐向量进行平均后得到短文本表示, 训练情感分类模型[38]; 5) Paragraph vector: 利用Distributed memory model of paragraph vectors学习短文本表示, 再使用隐藏层和softmax函数得到情感分类的结果[39]; 6) DMGRNN: 使用CNN (Convolutional neural network)/LSTM得到句子的表示, 然后利用双向GRU (Gated recurrent unit)得到短文本表示, 训练情感分类模型[40]; 7) HAN: 使用层次BiLSTM和注意力机制学习句子和短文本表示, 再使用隐藏层和softmax函数得到情感分类的结果[41]. 具体对比结果如表5
$\sim $ 7所示.表 5 工程类课程的情感分类结果Table 5 Sentiment classification results of engineering courses方法 ACC RMSE Trigram 0.373 1.754 TextFeature 0.415 1.789 SSWE 0.353 1.976 RNN + RNN 0.432 1.673 Paragraph Vector 0.379 1.834 DMGRNN 0.506 1.394 HAN 0.532 1.281 本文方法 0.573 1.185 表 7 文科及其他类课程的情感分类结果Table 7 Sentiment classification results of no-science courses方法 ACC RMSE Trigram 0.549 0.814 TextFeature 0.562 0.811 SSWE 0.568 0.864 RNN + RNN 0.585 0.806 Paragraph Vector 0.578 0.772 DMGRNN 0.650 0.685 HAN 0.677 0.633 本文方法 0.706 0.584 表 6 理科类课程的情感分类结果Table 6 Sentiment classification results of science courses方法 ACC RMSE Trigram 0.543 0.822 TextFeature 0.556 0.850 SSWE 0.550 0.851 RNN + RNN 0.580 0.786 Paragraph Vector 0.556 0.821 DMGRNN 0.644 0.696 HAN 0.674 0.652 本文方法 0.693 0.628 对比结果说明如下:
1)由于Trigram方法和TextFeature方法仅基于短文本的语言特征, 故在这三类数据集上都呈现出较差的结果. 这说明了学习社区短文本数据具有缺乏语法规范、含有大量语病等特点, 这对基于语言特征的方法影响较大. 此外, 采用深度学习的方法也并不都表现良好, 前三类深度学习方法的表现甚至还不如传统方法, 这说明短文本情感分类问题的困难性.
2) DMGRNN方法和HAN方法的效果明显较好. 这两者共同的改进是应用了层次结构, 这说明分别从单词层面和句子层面分层处理短文本能够有效地捕捉其中的情绪特征. 使用了注意力机制的HAN方法与DMGRNN方法相比, 前者的效果较好, 这说明了使用注意力机制发现与情绪相关的单词和句子对结果有显著的影响.
3)本文所提出的短文本表示模型在6 个指标都取得了最好的效果. 这是因为除了使用层次BiLSTM机制和注意力机制之外, 本文的模型方法还在建模的过程中把学习者向量结合进来, 具体表现为在计算注意力机制的权重时利用了学习者特征向量. 由于考虑到个体学习者在表达情绪上的习惯是不同的, 相似的词语或者句子可能由于其表达者的不同而蕴含的情绪完全相反, 本文的情感分类模型可很好地学习到这一点.
4)实验显示针对工科课程短文本数据进行分类的效果, 明显低于其他两类的课程, 其中突出的一个表现是将积极或消极情感误分类为正常情绪类别. 对此原因, 本文的分析是: a)工科类课程的短文本数据的表达更加随意, 如: 表达无语法规范, 常含有未登录词汇, 混杂有公式或符号等问题. 通过对一门计算机课程、一门物理课程和一门体育课程进行是否存在明显语法问题(影响语义理解)的标注发现: 计算机课程存在明显语法问题短文本的比例达到16.34%, 另外两门课程分别为8.87%和5.56%, 工科类课程存在明显的随意性. 这种随意性会影响模型对语义的理解, 此问题可以通过文本纠错和修复方法缓解, 使得情感分类模型受输入噪声的影响降低. b)工科类课程积极类情感或消极类情感的表达常与具体问题的描述相交错, 这使得模型易产生混淆. 解决此问题的途径是改进模型结构, 在分层提取情绪特征的基础上引入句子间的逻辑信息以辅助模型理解短文本语义.
3.3 在线学习者成绩预测实验结果
3.3.1 实验设置
为了去除参与论坛讨论频率过低的学习者对预测模型的影响, 每门课程中只选取发表短文本数量处于前80%的学习者作为成绩预测实验的对象. 学习状态表征向量的维度
$ {m} $ 设置为24, 该超参数的选择过程将在第3.3.2节介绍. 本文将百分制的分数换算到[0, 1]区间, 并在11 门课程上进行了成绩预测实验. 每门课程使用80%的学习者数据用于做训练, 使用20%的数据用于做测试. 训练时, 每次将其中128 个学习者作为一批并进行模型训练, 当训练1 000 次迭代后, 预测模型会趋于稳定. 本文采用标准准确性(Accuracy)和均方根误差(RMSE)作为测评指标, 具体计算为$$ { Accuracy_{\rm{grade}}} = \frac{{{T_{[ -a, + b]}}}}{N} $$ (20) 其中,
$ {T_{[ -a, + b]}} $ 表示预测分数和学习者真实成绩的差距在该区间范围之内的学习者个数, 实验中a和b都选取为0.03,$ {N} $ 为测试集中的所有学习者个数.$$ { RMSE_{\rm{grade}}} = \sqrt {\frac{{\sum\limits_{o = 1}^N {{{({g_o} - g^r_o)}^2}} }}{N}} $$ (21) 其中,
$ {g_o} $ 表示学习者预测的成绩,$g^r_o$ 表示学习者真实的成绩.3.3.2 实验结果
基于第3.3.1节的设置, 在课程学习者数据集上进行了训练和测试. 由于本文所用数据集不满足认知诊断方法和知识追踪方法的要求, 故选取多种传统机器学习方法作为对比方法. FM[19]是一种基于矩阵分解的方法, 近年来广泛应用于成绩预测, 所以选择其作为对比方法. 同时, 由于LadFG[21]方法被证明优于大多的基于深度学习方法, 所以本文也将该方法作对比方法. 同时, 为了在所列出的表中比较方便,将本文的方法命名为SEAP (Short-text sentiment enhanced achievement prediction method for online learners).
下面是所选对比方法的概述: 1)由于传统机器学习本质上是一种基于特征的方法, 首先介绍本文使用的特征: 针对每个学习者, 提取其对应第2.2节中的人口统计特征
$ {{{{f}}_{{g^t}(i)}}} $ 、不同知识点下的学习行为特征的均值Mean$( {{{{f}}_{{b^t}(i)}}} ),\;{t}= 0,\cdots,{T} $ 和整个学习过程中的短文本数据被预测为不同情感类别的占比sentiment$ ({i} ). $ 利用以上特征训练不同的机器学习模型, 具体为MR−、MR+、MLP−、MLP+、XGBoost−和XGBoost+. 其中, MR为多变量回归模型, MLP为仅有一个隐层的神经网络, XGBoost是一种基于决策树的集成模型, 负号表示模型中不使用情感因素, 正号表示模型中使用情感因素. 2) FM[19]: 构造学习者−课程矩阵, 将学习者在对应课程的成绩作为矩阵元素. 利用矩阵因子化的方法得到学习者和课程的特征向量, 基于特征向量预测学习者的成绩. 3) LadFG[21]: 利用学习者的人口统计数据、学习行为数据构建动态图模型, 基于学习者整个过程的学习状态预测学习者成绩. 具体比较结果如表8$\sim $ 10所示.表 8 工科类课程的成绩预测结果Table 8 Achievements prediction results of engineering courses方法 Accuracy RMSE MR− 0.566 0.479 MR+ 0.590 0.452 MLP− 0.583 0.464 MLP+ 0.603 0.437 XGBoost− 0.679 0.335 XGBoost+ 0.697 0.284 FM 0.674 0.326 LadFG 0.818 0.226 SEAP 0.874 0.095 表 10 文科及其他类课程的成绩预测结果Table 10 Achievements prediction results of no-science courses方法 Accuracy RMSE MR− 0.648 0.409 MR+ 0.664 0.336 MLP− 0.652 0.340 MLP+ 0.688 0.307 XGBoost− 0.701 0.281 XGBoost+ 0.743 0.269 FM 0.726 0.222 LadFG 0.874 0.154 SEAP 0.924 0.051 表 9 理科类课程的成绩预测结果Table 9 Achievements prediction results of science courses方法 Accuracy RMSE MR− 0.598 0.430 MR+ 0.612 0.419 MLP− 0.618 0.408 MLP+ 0.643 0.372 XGBoost− 0.689 0.295 XGBoost+ 0.709 0.278 FM 0.687 0.295 LadFG 0.803 0.203 SEAP 0.902 0.084 对比结果说明如下: 在表8
$\sim $ 10中, 与比其他方法相比, 本文方法与LadFG方法具有较好的效果. FM方法仅利用学习者的成绩数据, 无法很好地刻画学习者整体的学习行为. MR−、MLP−和XGBoost−方法仅考虑到了不变的人口统计学特征和整个课程学习行为的平均数值, 不能很好地反映学习者在整个学习过程中学习状态的变化. MR+、MLP+ 和XGBoost+ 在前三种方法的基础上增加了情感因素, 效果上取得了一定的提升, 说明情感因素对于成绩预测重要作用. 本文方法与LadFG方法都在时序上考虑学习者的多种特征, 能够学习其在不同时刻的学习状态变化, 均取得了较好的效果, 说明了本文使用LSTM进行时序化建模的有效性. 同时, 本文方法使用了短文本情感因素, 既利用到了学习者的客观信息(如人口统计信息和行为信息), 又学习了学习者的主观因素, 从而更细致地刻画出学习者的学习状态变化.除了进行方法效果的对比实验外, 本文还比较了3类特征在本文模型中的贡献, 相关实验结果如图4所示.
如图4所示, 若三类课程在减少相应的特征之后, 则表现出了相同的变化趋势: 若减少人口统计信息, 对预测效果的影响最小, 因为这类特征在各学习时刻是基本不变的, 无法反映个体学习的差异; 若减少了学习行为特征对预测的影响是最大的, 因为此类特征是学习者学习状态最重要的体现; 若将短文本情感分类特征移除之后, 预测的效果平均降低了15%, 表明了短文本数据中所包含的情感因素, 对此任务具有重要贡献.
同时, 本文也在11 门课程上进行了不同
$ {m} $ 值下的模型效果比较实验, 图5为在$ {m} $ 不同的情况下的平均表现, 可以看出: 当$ {m} $ 值为24左右的时候, 模型可达到最好的效果; 若增加$ {{m}} $ 的维度, 则出现预测效果不断的降低, 这可能与数据稀疏性有关.3.3.3 实验结果分析
本文对于学习者状态的建模采用LSTM模型, 每个学习者在不同知识点上的学习状态储存在LSTM不同时间步的隐藏状态中. 为了分析学习状态与学习成绩之间的关联, 以验证学习状态建模的重要意义, 本文选取计算机课程的一门课程为例: 在测试集上计算不同成绩等级的学习者在最后一个知识点对应LSTM时间步所隐含状态的均值向量, 结果如图6所示.
图6中浅色部分表示相关维度数值较低, 深色部分表示相关维度数值较高. 可以看出: 1)成绩在[0, 60]之间的学习者在各个维度的学习状态的得分值都偏低, 说明此类学习者对各个知识点的掌握情况都比较差. 2)成绩在[60, 90]之间的学习者在
$ {m} $ 3,$ {m} $ 8,$ {m} $ 16,$ {m} $ 17和$ {m} $ 22这些维度的得分值较高, 并随着成绩的提升, 相关维度的值也呈现上升趋势; 通过追踪这些维度变化时发现, 该成绩段的相关维度都是在课程进行到后期时开始增加的, 因此可推测其代表属于课程中较难知识点的学习状态. 这也从另一个侧面验证了对课程中的难点掌握较好的学习者能取得更好的学业成绩. 3)成绩处于[90, 100]学习者在所有维度都取得了较高的得分值, 这印证此类学习者对各个知识点的掌握均较好, 因此其成绩也是最好的一类.从以上实验可以说明学习状态与学习成绩之间的重要关联. 同时, 为了说明情感因素与学习状态之间的关联, 本文选取同样一门计算机课程中的两个相邻的知识点(时间步), 记作
$ {t} $ 1和$ {t} $ 2, 统计积极情感属于不同概率区间的学习者的学习状态变化. 由于涉及的学习状态维度较多, 本文关注上一个实验中与成绩高度相关的$ {m} $ 3,$ {m} $ 8,$ {m} $ 16,$ {m} $ 17和$ {m} $ 22, 具体如图7所示.如图7所示, 本文依据
$ {t} 2$ 时刻学习者在积极情感上的预测概率, 将学习者划分到(0.9, 1], (0.7, 0.9], (0.5, 7], (0, 0.5]四个区间, 并统计各个区间内的学习者在$ {m} $ 3,$ {m} $ 8,$ {m} $ 16,$ {m} $ 17和$ {m} $ 22五个学习状态维度上学习状态呈现正向变化(对应学习状态维度$ {t}2 $ 时刻的数值大于$ {t} 1$ 时刻的数值)的学习者占区间总学习者的比率. 从结果上可以看出, 当概率处于[0.5,1]区间时, 积极情感占主导地位, 通常表明学习者的学习状态呈现正向变化. 此时学习者学习情绪积极, 学习对应知识点较为顺利, 也愿意投入到学习活动中(可能表现为积极参加讨论和观看视频). 同时, 有部分学习者表现出较高的积极情绪, 却呈现负向变化, 原因可能是其在另外两类特征上表现不佳, 如知识点测验分数较低或是先行课程成绩较差. 当概率处于[0, 0.5]区间时, 消极、疑惑或是正常情绪三类情感占主导地位, 大部分的学习者的学习状态呈现负向变化. 此时学习者学习情绪不够积极, 学习对应知识点有一些困难. 但是, 在情绪不高时部分学习者的学习状态依然呈现正向变化, 可能的原因是这部分学习者希望通过提问来加强对知识点的理解或是其习惯表达消极情绪, 但在知识点的学习上同样投入较多的时间.3.3.4 相关工作对比
1)在短文本情感分类层面上, 本文将文献[33]中的模型应用于在线学习者的情感分析, 本文方法与其主要区别为: a)二者的应用领域不同, 文献[33]针对电商平台评论数据, 本文模型针对在线学习社区短文本数据; b)二者分类的情绪类别不同, 本文模型识别积极、消极、疑惑和正常情绪四种学习社区常见的情感类别; c)二者均采用层次化处理方法, 但是本文模型利用学习者特征改进注意力机制, 并在不同课程上独立进行训练; 文献[33]采用与用户、商品相关的特征和多任务学习等方式改进模型.
2)在利用短文本情感信息进行成绩预测层面上, 文献[27]和[28]仅是从定性的角度说明情绪与成绩之间的关系, 而本文与文献[29]从定量角度利用情绪信息预测学习者的成绩, 本文与文献[29]的主要区别为: a)文献[29]使用通用的情感分类模型提取情感信息, 本文设计了针对在线学习社区的短文的情绪分类模型, 本文方法能够更好地提取情绪信息; b)文献[29]使用传统人工神经网络处理包含情绪特征在内的学习者特征预测成绩, 本文则设计了多种特征的融合方法, 并采用长短时记忆网络建模从时序上处理学习特征, 从而预测学习者成绩.
3)在成绩预测的层面上, 本文是基于深度学习的成绩预测方法, 与当前此领域的方法主要的区别在于: a)设计了针对在线学习社区的短文本情感分类模型, 提取情感信息并将其与其他特征相融合; b)区别于传统DKT结构, 本文仅利用RNN网络的最后一个时间步的隐含状态进行成绩预测; c)本文设计了实例分析, 说明情感、学习状态与成绩之间的关联.
4. 总结与展望
本文提出了一种短文本情感增强的在线学习者成绩预测方法. 首先, 基于在线学习社区短文本的特征设计了情感分类模型, 基于此模型得到短文本的情感特征向量; 其次, 将短文情感信息、学习行为信息和统计信息相融合, 并利用LSTM建模学习者的学习状态; 最后, 基于学习状态预测学习者的成绩. 通过在真实数据集上的实验验证了本文提出的短文本分类模型在在线学习社区的文本上有很好的情感分类效果, 利用短文本情感信息能有效提升在线学习成绩预测的精度. 同时, 本文的方法还有一定的提升空间, 具体表现在: 1)继续探索更佳的短文本情感分类模型, 使得短文本情感信息更好地应用于成绩预测任务; 2)本文的方法本质上是一种基于深度学习的方法, 其可解释性较差, 可以将认知诊断和知识追踪结合进本文的框架, 增强在线行为预测的可理解性. 这些方向将在未来的工作中进行研究.
-
表 1 不同类别课程的数量
Table 1 Number of different types of courses
课程类别 课程 合计课程数量数量 (门) 工科 计算机科学, 电子工程 5 理科 物理 2 文科及其他 历史,体育 4 表 4 模型部分使用的特征
Table 4 Part features used in the model
特征类别 特征个数 部分特征 统计特征 8+ 性别、年龄、教育层次、相关先行课成绩等 学习行为特征 16+ 发帖次数、被回帖次数、观看教学视频时间、知识点测验成绩等 表 2 不同类别课程的人数及发帖数量
Table 2 Number of people and post in different type courses
课程类别 平均学习者人数 (人) 每个知识点下的发/回帖数量 (个) 工科 2 326 3 200 理科 2 681 1 520 文科及其他 2 170 1 060 表 3 不同类别课程的情感类别分布
Table 3 Distribution of sentiment categories in different type courses
课程类别 情感类别分布 (约简为整数), 积极/消极/疑惑/正常情绪 (%) 工科 16/14/37/33 理科 21/19/27/33 文科及其他 29/12/22/37 表 5 工程类课程的情感分类结果
Table 5 Sentiment classification results of engineering courses
方法 ACC RMSE Trigram 0.373 1.754 TextFeature 0.415 1.789 SSWE 0.353 1.976 RNN + RNN 0.432 1.673 Paragraph Vector 0.379 1.834 DMGRNN 0.506 1.394 HAN 0.532 1.281 本文方法 0.573 1.185 表 7 文科及其他类课程的情感分类结果
Table 7 Sentiment classification results of no-science courses
方法 ACC RMSE Trigram 0.549 0.814 TextFeature 0.562 0.811 SSWE 0.568 0.864 RNN + RNN 0.585 0.806 Paragraph Vector 0.578 0.772 DMGRNN 0.650 0.685 HAN 0.677 0.633 本文方法 0.706 0.584 表 6 理科类课程的情感分类结果
Table 6 Sentiment classification results of science courses
方法 ACC RMSE Trigram 0.543 0.822 TextFeature 0.556 0.850 SSWE 0.550 0.851 RNN + RNN 0.580 0.786 Paragraph Vector 0.556 0.821 DMGRNN 0.644 0.696 HAN 0.674 0.652 本文方法 0.693 0.628 表 8 工科类课程的成绩预测结果
Table 8 Achievements prediction results of engineering courses
方法 Accuracy RMSE MR− 0.566 0.479 MR+ 0.590 0.452 MLP− 0.583 0.464 MLP+ 0.603 0.437 XGBoost− 0.679 0.335 XGBoost+ 0.697 0.284 FM 0.674 0.326 LadFG 0.818 0.226 SEAP 0.874 0.095 表 10 文科及其他类课程的成绩预测结果
Table 10 Achievements prediction results of no-science courses
方法 Accuracy RMSE MR− 0.648 0.409 MR+ 0.664 0.336 MLP− 0.652 0.340 MLP+ 0.688 0.307 XGBoost− 0.701 0.281 XGBoost+ 0.743 0.269 FM 0.726 0.222 LadFG 0.874 0.154 SEAP 0.924 0.051 表 9 理科类课程的成绩预测结果
Table 9 Achievements prediction results of science courses
方法 Accuracy RMSE MR− 0.598 0.430 MR+ 0.612 0.419 MLP− 0.618 0.408 MLP+ 0.643 0.372 XGBoost− 0.689 0.295 XGBoost+ 0.709 0.278 FM 0.687 0.295 LadFG 0.803 0.203 SEAP 0.902 0.084 -
[1] Seaton D T, Bergner Y, Chuang I, Mitros P, Pritchard D E. Who does what in a massive open online course? Communications of the ACM, 2014, 44(4): 58−65 [2] Kizilcec R F, Piech C, Schneider E. Deconstructing disengagement: Analyzing learner subpopulations in massive open online courses. In: Proceedings of the 3rd International Conference on Learning Analytics and Knowledge. Leuven, Belgium: ACM, 2013. 170−179 [3] Fujita H. Neural-fuzzy with representative sets for prediction of student performance. Applied Intelligence, 2019, 49(1): 172−187 doi: 10.1007/s10489-018-1262-7 [4] Guay F, Bureau J S. Motivation at school: Difierentiation between and within school subjects matters in the prediction of academic achievement. Contemporary Educational Psychology, 2018, 54(1): 42−54 [5] Bergold S, Steinmayr R. Personality and intelligence interact in the prediction of academic achievement. Journal of Intelligence, 2018, 6(2): 27−27 doi: 10.3390/jintelligence6020027 [6] Gardner J, Brooks C. Student success prediction in MOOCs. User Modeling and User-Adapted Interaction, 2018, 28(2): 127−203 doi: 10.1007/s11257-018-9203-z [7] Fujita H. Neural-fuzzy with representative sets for prediction of student performance. Applied Intelligence, 2019, 49(1): 172−187 doi: 10.1007/s10489-018-1262-7 [8] Dalipi F, Imran A S, Kastrati Z. MOOC dropout prediction using machine learning techniques: Review and research challenges. In: Proceedings of the 2018 Global Engineering Education Conference. Albuquerque, USA: IEEE, 2018. 1007−1014 [9] Conijn R, Van den Beemt A, Cuijpers P. Predicting student performance in a blended MOOC. Journal of Computer Assisted Learning, 2018, 34(5): 612−628 [10] Corbett A T, Anderson J R. Knowledge tracing: Modeling the acquisition of procedural knowledge. User Modeling and User-Adapted Interaction, 1994, 4(4): 235−278 [11] Piech C, Bassen J, Huang J, Ganguli S, Sahami M, Guibas L, Sohl-Dickstein J. Deep knowledge tracing. Computer Science, 2015, 3(3): 19−23 [12] Zhang J N, Shi X J, King I, Yeung D Y. Dynamic key-value memory network for knowledge tracing. In: Proceedings of the 26th International Conference on World Wide Web Conferences, Perth, Western Australia: ACM, 2017. 765−774 [13] Embretson S E, Reise S P. Item response theory for psychologists. Quality of Life Research, 2004, 13(3): 715−716 doi: 10.1023/B:QURE.0000021503.45367.f2 [14] Torre J D L. DINA model and parameter estimation: A didactic. Journal of Educational and Behavioral Statistics, 2009, 34(1): 115−130 [15] Liu Q, Wu R Z, Chen E H, Xu G D, Su Y, Chen Z G, Hu G P. Fuzzy cognitive diagnosis for modelling examinee performance. ACM Transactions on Intelligent Systems and Technology, 2018, 9(4): 1−26 [16] Anderson A, Huttenlocher D, Kleinberg J, Leskovec J. Engaging with massive online courses. In: Proceedings of the 23rd International Conference on World Wide Web. New York, USA: ACM, 2014. 687−698 [17] Ramesh A, Goldwasser D, Huang B, Daumé H, Getoor L. Learning latent engagement patterns of students in online courses. In: Proceedings of the 28th AAAI Conference on Artiflcial Intelligence. Québec, Canada: AAAI, 2014.1272−1278 [18] Bayer J, Bydžovská H, Géryk J, Obšívač T, Popelínský L. Predicting drop-out from social behaviour students. In: Proceedings of the 4th International Conference on Educational Data Mining. Eindhoven, Netherlands: IEDM 2012. 103−109 [19] Sweeney M, Rangwala H, Lester J, Johri A. Next-term student performance prediction: A recommender systems approach. In: Proceedings of the 8th International Conference on Educational Data Mining. Madrid, Spain: IEDM. 2016. 7−7 [20] Ren Z, Xia N, Rangwala H. Grade prediction with temporal course-wise influence. arXiv:1709.05433, 2017. [21] Qiu J Z, Tang J, Liu T X, Gong J, Zhang C H, Zhang Q, Xue Y F. Modeling and predicting learning behavior in MOOCs. In: Proceedings of the 2016 ACM International Conference on Web Search and Data Mining. San Francisco, USA: ACM, 2016. 93−102 [22] Yang H, Cheung L P. Implicit heterogeneous features embedding in deep knowledge tracing. Cognitive Computation, 2018, 10(1): 3−14 doi: 10.1007/s12559-017-9522-0 [23] Zhang L, Xiong X L, Zhao S Y, Botelho A F, Heffernan N T. Incorporating rich features into deep knowledge tracing. In: Proceedings of the 4th ACM Conference on Learning Scale. Cambridge, USA: ACM, 2017. 169−172 [24] Huang Y. Deeper knowledge tracing by modeling skill application context for better personalized learning. In: Proceedings of the 2016 Conference on User Modeling Adaptation and Personalization. Halifax, Canada: ACM, 2016. 325−328 [25] Su Y, Liu Q W, Liu Q, Huang Z Y, Yin Y, Chen E H, Ding C, Wei S, Hu G P. Exercise-enhanced sequential modeling for student performance prediction. In: Proceedings of the 32nd AAAI Conference on Artiflcial Intelligence. New Orleans, USA: AAAI, 2018. 2435−2443 [26] Feng W Z, Tang J, Liu T X. Understanding dropouts in MOOCs. In: Proceedings of the 32nd AAAI Conference on Artiflcial Intelligence, Hawaii, USA: AAAI, 2019. [27] Wen M M, Yang D Y, Rosé C P. Sentiment analysis in MOOC discussion forums: What does it tell us? In: Proceedings of the 6th International Conference on Educational Data Mining. London, UK: IEDM, 2014. 130−138 [28] Tucker C, Pursel B K, Divinsky A. Mining studentgenerated textual data in MOOCs and quantifying their effects on student performance and learning outcomes. The ASEE Computers in Education Journal, 2014, 5(4): 84−84 [29] Chaplot D S, Rhim E, Kim J. Predicting student attrition in MOOCs using sentiment analysis and neural networks. In: Proceedings of the 2015 Workshops at the 17th International Conference on Artiflcial Intelligence in Education. Madrid, Spain: CEUR-WS.org, 2015. 7−12 [30] 冯冲, 康丽琪, 石戈, 黄河燕. 融合对抗学习的因果关系抽取. 自动化学报, 2018, 44(5): 811−818Feng Chong, Kang Li-Qi, Shi Ge, Huang He-Yan. Causality extraction with GAN. Acta Automatica Sinica, 2018, 44(5): 811−818 [31] 郝洺, 徐博, 殷绪成, 王方圆. 基于n-gram频率的语种识别改进方法. 自动化学报, 2018, 44(3): 453−460Hao Ming, Xu Bo, Yin Xu-Cheng, Wang Fang-Yuan. Improve language identiflflcation method by means of n-gram frequency. Acta Automatica Sinica, 2018, 44(3): 453−460 [32] 侯丽微, 胡珀, 曹雯琳. 主题关键词信息融合的中文生成式自动摘要研究. 自动化学报, 2019, 45(3): 530−539Hou Li-Wei, Hu Po, Cao Wen-Lin. Automatic Chinese abstractive summarization with topical keywords fusion. Acta Automatica Sinica, 2019, 45(3): 530−539 [33] Wu Z, Dai X Y, Yin C Y, Huang S J, Chen J J. Improving review representations with user attention and product attention for sentiment classiflcation. In: Proceedings of the 32nd AAAI Conference on Artiflcial Intelligence. New Orleans, USA: AAAI, 2018. 5989−5996 [34] Pennington J, Socher R, Manning C. Glove: Global vectors for word representation. In: Proceedings of the 2014 Conference on Empirical Methods in Natural Language Processing. Doha, Qatar: ACL, 2014: 1532−1543 [35] Ramesh A, Kumar S H, Foulds J, Getoor L. Weakly supervised models of aspect-sentiment for online course discussion forums. In: Proceedings of the 53rd Annual Meeting of the Association for Computational Linguistics and the 7th International Joint Conference on Natural Language Processing. Beijing, China: ACL, 2015. 74−83 [36] Fan R E, Chang K W, Hsieh C J, Wang X R, Lin C J. LIBLINEAR: A library for large linear classiflcation. Journal of Machine Learning Research, 2008, 9(9): 1871−1874 [37] Kiritchenko S, Zhu X D, Mohammad S M. Sentiment analysis of short informal text. Journal of Artiflcial Intelligence Research, 2014, 50(1): 723−762 [38] Socher R, Perelygin A, Wu J Y, Chuang J, Manning C D, Ng A, Potts C. Recursive deep models for semantic compositionality over a sentiment treebank. In: Proceedings of the 2013 Conference on Empirical Methods in Natural Language Processing. Seattle, USA: ACL, 2013. 1631−1642 [39] Le Q V, Mikolov T. Distributed representations of sentences and documents. In: Proceedings of the 2013 Conference on Empirical Methods in Natural Language Processing. Seattle, USA: ACL. 2013: 1631−1642 [40] Tang D Y, Qin B, Liu T. Document modeling with gated recurrent neural network for sentiment classiflcation. In: Proceedings of the 2015 Conference on Empirical Methods in Natural Language Processing. Lisbon, Portuga: ACL. 2015: 1422−1432 [41] Yang Z C, Yang D Y, Dyer C, He X D, Smola A, Hovy E. Hierarchical attention networks for document classiflcation. In: Proceedings of the 2016 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies. San Diego, USA: ACL, 2016: 1480−1489 期刊类型引用(15)
1. 吕慧,单鹏飞,冯萌萌. 基于Transformer模型的学生成绩预测方法. 辽东学院学报(自然科学版). 2024(03): 221-228 . 百度学术
2. 唐茜. 基于教育数据挖掘的学生画像构建与学情预测分析研究. 现代信息科技. 2023(04): 193-198 . 百度学术
3. 韩开旭,袁淑芳. 基于混合机器学习模型的短文本语义相似性度量算法. 吉林大学学报(理学版). 2023(04): 909-914 . 百度学术
4. 罗文劼,肖梓良. 结合图卷积的在线编程系统成绩预测模型. 计算机工程与设计. 2023(09): 2769-2776 . 百度学术
5. 徐艳华,周荣亚. 基于大数据神经网络算法的学生成绩分析与预测模型仿真. 电子设计工程. 2022(11): 108-112 . 百度学术
6. 党佳俊,张宏烈,慕钢,李诚,张晓琳. 面向学生成绩预测的组合优化算法. 高师理科学刊. 2022(05): 40-46 . 百度学术
7. 赵艺璇. 在线学习者学习状态评测方法:述评与展望. 黑龙江生态工程职业学院学报. 2022(04): 117-123 . 百度学术
8. 徐琦,刘兴红,余亚烽,陈雪,张涵. 在线教育环境下基于学习者画像的成绩预测研究. 考试研究. 2022(05): 89-99 . 百度学术
9. 李菲,曹阳,顾问. 基于秩相关性分析的学生在线学习效果预测方法. 信息技术与信息化. 2022(09): 99-102 . 百度学术
10. 李菲,曹阳,顾问. 学生在线学习行为分类融合方法的研究与应用. 电脑与电信. 2022(08): 27-31 . 百度学术
11. 陈妍,罗雪琴,梁伟,谢永芳. 基于情感信息融合注意力机制的抑郁症识别. 智能科学与技术学报. 2022(04): 600-609 . 百度学术
12. 况姗芸,郑美秋,钟玲,卢昀. 在线学业情绪:类型与测量. 教育信息技术. 2022(11): 3-9+30 . 百度学术
13. 纪南巡,孙晓燕,李祯其. 多源异构用户生成内容的融合向量化表示学习. 计算机科学. 2021(10): 51-58 . 百度学术
14. 靳现凯,宋威. 基于DNN的大学生学业成绩预测方法研究——以北京市某高校电子信息类专业为例. 北方工业大学学报. 2021(05): 134-140 . 百度学术
15. 曹洪江,谢金. 基于LSTM的学习成绩预测及其影响因素方法研究. 北京邮电大学学报(社会科学版). 2020(06): 90-100 . 百度学术
其他类型引用(11)
-