叶俊民 罗达雄 陈曙

叶俊民, 罗达雄, 陈曙. 基于短文本情感增强的在线学习者成绩预测方法. 自动化学报, 2020, 46(9): 1927−1940 doi: 10.16383/j.aas.c190008
Ye Jun-Min, Luo Da-Xiong, Chen Shu. Short-text sentiment enhanced achievement prediction method for online learners. Acta Automatica Sinica, 2020, 46(9): 1927−1940 doi: 10.16383/j.aas.c190008
基金项目: 国家社会科学基金一般项目 (17BTQ061)资助

    叶俊民:华中师范大学计算机学院教授. 主要研究方向为学习分析和教育数据挖掘.E-mail: jmye@mail.ccnu.edu.cn

    罗达雄:华中师范大学计算机学院硕士研究生. 主要研究方向为自然语言处理和教育数据挖掘. 本文通信作者.E-mail: 18140663659@163.com

    陈曙:华中师范大学计算机学院讲师. 主要研究方向为软件工程和学习分析.E-mail: chenshu@mail.ccnu.edu.cn

Short-text Sentiment Enhanced Achievement Prediction Method for Online Learners

Funds: Supported by National Social Science Fund General Project of China (17BTQ061)
  • 摘要: 当前利用短文本情感信息进行在线学习成绩预测的研究存在以下问题: 1)当前情感分类模型无法有效适应在线学习社区的短文本特征, 分类效果较差; 2)利用短文本情感信息定量预测在线学习成绩的研究在准确性上还有较大的提升空间. 针对以上问题, 本文提出了一种短文本情感增强的成绩预测方法. 首先, 从单词和句子层面建模短文本语义, 并提出基于学习者特征的注意力机制以识别不同学习者的语言表达特点, 得到情感概率分布向量; 其次, 将情感信息与统计、学习行为信息相融合, 并基于长短时记忆网络建模学习者的学习状态; 最后, 基于学习状态预测学习者成绩. 在三种不同类别课程组成的真实数据集上进行了实验, 结果表明本文方法能有效对学习社区短文本进行情感分类, 且能够提升在线学习者成绩预测的准确性. 同时, 结合实例分析说明了情感信息、学习状态与成绩之间的关联.
  • 图  1  基于短文本情感增强的在线学习行为预测方法框架

    Fig.  1  Short-text sentiment enhanced achievement prediction method for online learners framework

    图  2  在线学习社区短文本表示模型

    Fig.  2  Sentiment classification model for online learning community short text

    图  3  学习状态建模与成绩预测过程

    Fig.  3  Learning state modeling and achievement prediction process framework

    图  4  不同特征对任务的贡献

    Fig.  4  Contribution of different features for tasks

    图  5  不同的m对任务的影响

    Fig.  5  Contribution of different m for tasks

    图  6  学习状态与成绩的关系

    Fig.  6  Relationship between learning status and achievement

    图  7  学习状态呈现正向变化的学习者占区间总学习者的比率(积极情感)

    Fig.  7  The ratio of learners who have a positive change in learning status to the total learner in the interval (positive emotions)

    表  1  不同类别课程的数量

    Table  1  Number of different types of courses

    课程类别 课程 合计课程数量数量 (门)
    工科 计算机科学, 电子工程 5
    理科 物理 2
    文科及其他 历史,体育 4
    下载: 导出CSV

    表  4  模型部分使用的特征

    Table  4  Part features used in the model

    特征类别 特征个数 部分特征
    统计特征 8+ 性别、年龄、教育层次、相关先行课成绩等
    学习行为特征 16+ 发帖次数、被回帖次数、观看教学视频时间、知识点测验成绩等
    下载: 导出CSV

    表  2  不同类别课程的人数及发帖数量

    Table  2  Number of people and post in different type courses

    课程类别 平均学习者人数 (人) 每个知识点下的发/回帖数量 (个)
    工科 2 326 3 200
    理科 2 681 1 520
    文科及其他 2 170 1 060
    下载: 导出CSV

    表  3  不同类别课程的情感类别分布

    Table  3  Distribution of sentiment categories in different type courses

    课程类别 情感类别分布 (约简为整数), 积极/消极/疑惑/正常情绪 (%)
    工科 16/14/37/33
    理科 21/19/27/33
    文科及其他 29/12/22/37
    下载: 导出CSV

    表  5  工程类课程的情感分类结果

    Table  5  Sentiment classification results of engineering courses

    方法 ACC RMSE
    Trigram 0.373 1.754
    TextFeature 0.415 1.789
    SSWE 0.353 1.976
    RNN + RNN 0.432 1.673
    Paragraph Vector 0.379 1.834
    DMGRNN 0.506 1.394
    HAN 0.532 1.281
    本文方法 0.573 1.185
    下载: 导出CSV

    表  7  文科及其他类课程的情感分类结果

    Table  7  Sentiment classification results of no-science courses

    方法 ACC RMSE
    Trigram 0.549 0.814
    TextFeature 0.562 0.811
    SSWE 0.568 0.864
    RNN + RNN 0.585 0.806
    Paragraph Vector 0.578 0.772
    DMGRNN 0.650 0.685
    HAN 0.677 0.633
    本文方法 0.706 0.584
    下载: 导出CSV

    表  6  理科类课程的情感分类结果

    Table  6  Sentiment classification results of science courses

    方法 ACC RMSE
    Trigram 0.543 0.822
    TextFeature 0.556 0.850
    SSWE 0.550 0.851
    RNN + RNN 0.580 0.786
    Paragraph Vector 0.556 0.821
    DMGRNN 0.644 0.696
    HAN 0.674 0.652
    本文方法 0.693 0.628
    下载: 导出CSV

    表  8  工科类课程的成绩预测结果

    Table  8  Achievements prediction results of engineering courses

    方法 Accuracy RMSE
    MR− 0.566 0.479
    MR+ 0.590 0.452
    MLP− 0.583 0.464
    MLP+ 0.603 0.437
    XGBoost− 0.679 0.335
    XGBoost+ 0.697 0.284
    FM 0.674 0.326
    LadFG 0.818 0.226
    SEAP 0.874 0.095
    下载: 导出CSV

    表  10  文科及其他类课程的成绩预测结果

    Table  10  Achievements prediction results of no-science courses

    方法 Accuracy RMSE
    MR− 0.648 0.409
    MR+ 0.664 0.336
    MLP− 0.652 0.340
    MLP+ 0.688 0.307
    XGBoost− 0.701 0.281
    XGBoost+ 0.743 0.269
    FM 0.726 0.222
    LadFG 0.874 0.154
    SEAP 0.924 0.051
    下载: 导出CSV

    表  9  理科类课程的成绩预测结果

    Table  9  Achievements prediction results of science courses

    方法 Accuracy RMSE
    MR− 0.598 0.430
    MR+ 0.612 0.419
    MLP− 0.618 0.408
    MLP+ 0.643 0.372
    XGBoost− 0.689 0.295
    XGBoost+ 0.709 0.278
    FM 0.687 0.295
    LadFG 0.803 0.203
    SEAP 0.902 0.084
    下载: 导出CSV
图(7) / 表(10)
