基于自注意力机制的学生退课行为可解释预测方法

专利详情

标题基于自注意力机制的学生退课行为可解释预测方法

[标]当前申请(专利权)人南开大学

申请日2022年3月17日

申请号CN202210278551.9

公开(公告)日2024年8月20日

公开(公告)号CN114626618B

专利类型授权发明

发明人温延龙 | 张博健 | 袁晓洁

受理局中国

当前申请人(专利权)地址300071 天津市南开区卫津路94号 (天津,天津,南开区)

IPC分类号G06Q10/04 | G06Q50/20 | G06F16/2458 | G06F18/2415 | G06N3/0499

国民经济行业分类号I6550

代理机构合肥晨创知识产权代理事务所(普通合伙)

代理人康培培

摘要

本发明属于人工智能技术领域，具体涉及一种基于自注意力机制并利用学生的在线学习行为信息和自然统计信息进行的学生退课行为可解释预测方法。相比于其他学生退课行为预测方法，本发明关注到人工智能产品的可解释性。在数据处理阶段，本发明基于对大型真实数据集的统计分析，提出了一个可拓展的跨平台特征工程策略，提取与退课行为相关的有效信息，减少无关信息的输入。在预测阶段，本发明利用自注意力机制在特征和时间两个维度上对于序列进行编码，捕捉多种特征之间的相互影响与时间阶段之间的相互依赖，从而得到最终的预测结果。此外，可以根据注意力权重的分布对预测结果进行解释，即权重越大的特征或时间阶段对于该学生的退课行为影响越大。

1.基于自注意力机制的学生退课行为可解释预测方法，其特征在于，包括以下步骤，
步骤1、从数据集中提取有效数据
根据对数据集的数据的统计分析结果，利用一种跨平台的特征工程的方法，从数据集中提取三类有效信息：点击流信息、自然统计信息与时间统计信息；
步骤2、按照时序定义对学生退课行为进行标注
按照时序定义，将学生的学习活动构造为时间序列，并对于序列进行标注；
步骤3、得到二维自注意力网络预测模型
将由步骤1、步骤2得到的数据作为训练集，输入二维自注意力机制网络模型，使用二分类交叉熵和反向传播算法更新模型参数，从而优化模型，使其具有预测学生退课概率的能力；
所述步骤3具体包括：
步骤3.1、特征抽象，将步骤1和步骤2得到的数据进行处理，得到了维度统一的包含学生活动特征和其他统计特征的向量Xc；
步骤3.2、挖掘多特征之间的内在联系，在特征维度上使用自注意力机制挖掘多种特征之间的内在联系，使用多头自注意力机制进行计算：

其中，Qc、Kc、Vc由Xc与一组经过随机初始化的权重矩阵相乘得到，fmulti表示多头自注意力机制层进行的连接和计算操作；
步骤3.3、捕捉时间阶段之间的相互依赖，首先，将上一步骤得到的Xf变换维度，重塑为其中N表示时间阶段的个数，使用位置编码来记录顺序，具体来讲，通过一个嵌入层将一个稠密向量P∈RN转化为位置编码之后将Xt与其对位相加，得到之后，将序列输入多头自注意力机制层中，得到：

其中，Qt、Kt、Vt由Xf与一组经过随机初始化的权重矩阵相乘得到，fmulti表示多头自注意力机制层进行的连接和计算操作，由此，得到了时间和特征维度上都被编码的序列数据
步骤3.4、将上个步骤得到的向量输入一个两层的多层感知器，得到学生退出课程的概率，即其中表示学生s退出课程c的概率，MLP表示多层感知器的计算；
步骤4、对学生退课行为进行预测
将需要进行预测的学生的相关数据和对应标签输入步骤3训练后的二维自注意力网络预测模型，根据模型给出的学生退课概率来判断其是否会退出课程，并根据两个维度上注意力权重的分布对于预测结果进行解释。
2.如权利要求1所述的基于自注意力机制的学生退课行为可解释预测方法，其特征在于，所述步骤1中特征选择的方法是：对于点击流数据，从原始日志数据中提取特征，转换成one-hot向量，然后合并这些one-hot向量；对于自然统计信息，将其转化为互信息；对于时间统计信息，如果数据集直接提供则直接使用，如果数据集没有直接提供，则根据日志数据中的时间戳，构造描述学生学习进度的特征。
3.如权利要求2所述的基于自注意力机制的学生退课行为可解释预测方法，其特征在于，所述互信息，使用互信息来刻画自然统计信息特征在不同课程中对于退课行为的差异化影响；如课程c中学生的自然统计信息记为Dc＝[Dc,1,Dc,2,…,Dc,N]，N表示自然统计信息的种类数量，退课行为的统计记为Yc，则互信息为I(Dc；Yc)＝H(Yc)-H(Dc|Yc)＝H(Dc)+H(Yc)-H(Dc,Yc)，其中，H(Dc)为信息熵，H(Yc|Dc)为Yc的条件熵。
4.如权利要求2所述的基于自注意力机制的学生退课行为可解释预测方法，其特征在于，所述构造描述学生学习进度的特征，通过提取学生实际观看视频时间与视频的总时长以反应学生们时间投入程度，或将学生的学习时长除以整个课程时长来表示学生的学习进度百分比。
5.如权利要求1所述的基于自注意力机制的学生退课行为可解释预测方法，其特征在于，所述步骤2中标注序列的具体方法为：以一周为一个时间阶段构造时间序列，在学生的学习过程中，根据学生下一个时间阶段的学习表现为当前时间阶段标注退课行为标签：如学生下一时间阶段仍有学习行为，则当前阶段标记为未退课，反之则标记为退课。
6.如权利要求1或5所述的基于自注意力机制的学生退课行为可解释预测方法，其特征在于，所述二分类交叉熵损失函数来优化公式表示为：

其中yn表示退课标签，代表着事实上该学生s在课程c中是否处于退课状态，若该学生处于退课状态则yn为1，否则为0；利用该损失函数配合Adam优化器，经过多轮迭代，逐渐优化二维自注意力网络模型，使得其可以对于学生的退课行为进行预测。
7.如权利要求1所述的基于自注意力机制的学生退课行为可解释预测方法，其特征在于，所述步骤4中判断学生是否会退出课程的具体方法是：根据模型得到的学生退出课程的概率，如该概率大于0.5，则判断该学生会退出这门课程；如该概率小于0.5，则判断该学生不会退出这门课程。
8.如权利要求1所述的基于自注意力机制的学生退课行为可解释预测方法，其特征在于，所述步骤4中对预测结果进行解释的具体方法是：输出模型在两个维度上的注意力权重分布，在特征维度上，注意力图中注意力权重越大的特征对于学生退课行为的影响越大；在时间维度上，注意力图中注意力权重越大的时间阶段对于学生退课行为的影响越大。

技术领域
[0001]本发明属于人工智能技术领域，具体涉及一种根据学生的在线学习行为信息和自然统计信息进行基于自注意力机制的学生退课行为可解释预测方法。
背景技术
[0002]随着互联网的蓬勃发展和大数据时代的到来，教育信息化进入了一个全新阶段。慕课(Massive Open Online Course,MOOC)作为教育信息化最典型的服务形式之一，近年来发展十分迅速，在全世界范围内得到了越来越多的关注。截止到2020年，全世界范围内的MOOC平台已经为接近2亿名学生提供了超过16000门由950余所大学提供的课程。然而，在线教育学生的高退课率是在线教育发展面临的关键问题之一。相关调查显示，在线教育的课程完成率仅为5％左右。如此严重的退课行为给在线教育的工作人员造成了极大的困扰。因此，为了缓解这一现象，挽留更多学生，对于高退课风险学生进行早期识别并进行干预至关重要。
[0003]学生退课行为预测是一个多学科交叉问题。在计算机科学领域，这一问题被视为教育类数据挖掘问题，往往通过对学生退课行为进行建模，使用算法进行识别的方式来解决。对于在线教育平台而言，预测结果的准确性和可解释性都十分重要。对预测结果的解释不仅建立了教育机构对于预测结果的理解和信任，而且为对高退课风险学生采取的干预措施提供依据。然而，虽然现有的研究尝试使用了各种机器学习方法来提高预测的准确性，但是预测方法的可解释性往往被忽略。这导致现有方法难以真正有效地帮助干预高退课风险学生。这意味着在线教育平台亟需一种准确且可解释的预测方法。
[0004]然而，学生退课行为可解释预测方法的研究面对着两方面的挑战：1.一方面，现有研究大多局限于将学生退课行为视为时序无关事件或者短期事件，忽视了在线教育自由且开放的特点，从根本上缺乏可解释性。此外，就预测算法选取而言，自2015年以来，研究人员们过度依赖于使用循环神经网络(Recurrent Neural Networks,RNNs)来解决退课行为预测问题。然而，循环神经网络极其变种模型虽然重视了时序因素对于退课行为的影响，但是其仍然忽视了在线学习灵活且开放的特点。由于其本身的迭代结构，循环神经网络难以捕捉序列中不同时间阶段之间的相互依赖。2.另一方面，可用于学生退课行为研究的数据集十分繁杂，若直接作为输入，则会导致大量无效信息输入模型；影响学生退课的因素十分多样，导致模型难以解释预测结果。目前在线教育平台的数量众多，这使得可用于研究学生退课的数据集记录数据的内容与格式各不相同。除了记录学生学习活动的信息外，如学生自然统计信息和课程基本信息等其他信息是否与退课行为相关仍然不得而知。也就是说，目前缺少一种能够处理不同平台数据，且能区分出不同信息对于退课行为的影响程度的方法。
[0005]综上所述，基于自注意力机制的学生退课行为可解释预测方法是一项创新的研究问题，具有重要的研究意义和应用价值。
发明内容
[0006]本发明的目的是提出一个可解释的、准确的学生退课行为预测方法，以解决现有方法忽略的可解释性问题，并提高现有方法的预测表现。本发明提出了一种基于自注意力机制的学生退课行为可解释预测方法。首先，从数据集中利用一种跨平台的特征工程方法提取出与退课行为相关的有效信息，并将其处理为时间序列数据，在按照时序定义标注退课行为标签后，基于自注意力机制，挖掘特征之间的内在联系并在时间维度上捕捉时间阶段之间的相互依赖以做出预测。使用输出的学生退课的概率与退课行为标签计算二分类交叉熵，通过反向传播算法，优化模型，使得模型给出的结果更为准确。此外，可以根据注意力权重的分布对预测结果进行解释。
[0007]为实现上述目的，本发明采用如下技术方案：
[0008]基于自注意力机制的学生退课行为可解释预测方法，包括以下步骤，
[0009]步骤1、从数据集中提取有效数据
[0010]根据对数据集的数据的统计分析结果，利用一种跨平台的特征工程的方法，从数据集中提取三类有效信息：点击流信息、自然统计信息与时间统计信息；
[0011]步骤2、按照时序定义对学生退课行为进行标注
[0012]按照时序定义，将学生的学习活动构造为时间序列，并对于序列进行标注；
[0013]步骤3、得到二维自注意力网络预测模型
[0014]将由步骤1、步骤2得到的数据作为训练集，输入二维自注意力机制网络模型，使用二分类交叉熵和反向传播算法更新模型参数，从而优化模型，使其具有预测学生退课概率的能力；
[0015]步骤4、对学生退课行为进行预测
[0016]将需要进行预测的学生的相关数据和对应标签输入步骤3训练后的二维自注意力网络预测模型，根据模型给出的退课概率来判断学生是否会退出课程，并根据两个维度上注意力权重的分布对于预测结果进行解释。
[0017]本技术方案进一步的优化，所述步骤1中特征工程的方法是：对于点击流数据，从原始日志数据中提取特征，转换成one-hot向量，然后合并这些one-hot向量；对于自然统计信息，将其转化为互信息；对于时间统计信息，如果数据集直接提供则直接使用，如果数据集没有直接提供，则根据日志数据中的时间戳，构造描述学生学习时长的特征。
[0018]本技术方案更进一步的优化，所述互信息，使用互信息来刻画如性别、年龄、受教育程度等自然统计信息特征在不同课程中对于退课行为的差异化影响。如课程c中学生的自然统计信息记为Dc＝[Dc，1，Dc，2，...，Dc，N]，N表示自然统计信息的种类数量，退课行为的统计记为Yc，则互信息为I(Dc；Yc)＝H(Yc)-H(Dc|Yc)＝H(Dc)+H(Yc)-H(Dc，Yc)。其中，H(Dc)为信息熵，H(Yc|Dc)为Yc的条件熵。
[0019]本技术方案更进一步的优化，所述构造描述学生学习进度的特征，可以通过提取学生实际观看视频时间与视频的总时长以反应学生们时间投入程度，也可以将学生的学习时长除以整个课程时长来表示学生的学习进度百分比。
[0020]本技术方案进一步的优化，所述步骤2中标注序列的具体方法为：以一周为一个时间阶段构造时间序列，在学生的学习过程中，根据学生下一个时间阶段的学习表现为当前时间阶段标注退课行为标签：如学生下一时间阶段仍有学习行为，则当前阶段标记为未退课，反之则标记为退课。
[0021]本技术方案进一步的优化，所述步骤3具体包括：
[0022]步骤3.1、特征抽象，将步骤1和步骤2得到的数据进行处理，得到了维度统一的包含学生活动特征和其他统计特征的向量Xc；
[0023]步骤3.2、挖掘多特征之间的内在联系，在特征维度上使用自注意力机制挖掘多种特征之间的内在联系，使用多头自注意力机制进行计算：
[0024]
[0025]其中，Qc、Kc、Vc由Xc一组经过随机初始化的权重矩阵相乘得到，fmulti表示多头注意力机制进行的连接和计算等操作；
[0026]步骤3.3、捕捉时间阶段之间的相互依赖，首先，将上一步骤得到的Xf变换维度，重塑为其中N表示时间阶段的个数，使用位置编码来记录顺序，具体来讲，通过一个嵌入层将一个稠密向量P∈RN转化为位置编码之后将Xt与其对位相加，得到之后，与上一步骤类似，将序列输入多头自注意力机制层中，得到：
[0027]
[0028]其中，Qt、Kt、Vt由Xf与一组经过随机初始化的权重矩阵相乘得到，fmulti表示多头注意力机制进行的连接和计算等操作。由此，得到了时间和特征维度上都被编码的序列数据
[0029]步骤3.4、将上个步骤得到的向量输入一个两层的多层感知器，得到该学生退出课程的概率，即其中表示学生s退出课程c的概率，MLP表示多层感知器。
[0030]本技术方案进一步的优化，所述二分类交叉熵损失函数来优化公式表示为：
[0031]
[0032]其中yn表示退课标签，代表着事实上该学生在课程c中是否处于退课状态，若该学生处于退课状态则yn为1，否则为0。利用该损失函数配合Adam优化器，经过多轮迭代，逐渐优化二维自注意力网络模型，使得其可以对于学生的退课行为进行预测。
[0033]本技术方案进一步的优化，所述步骤4中判断学生是否会退出课程的具体方法是：根据模型得到的学生退出课程的概率，如该概率大于0.5，则判断该学生会退出这门课程；如该概率小于0.5，则判断该学生不会退出这门课程。
[0034]本技术方案进一步的优化，所述步骤4中对预测结果进行解释的具体方法是：输出模型在两个维度上的注意力权重分布，在特征维度上，注意力图中注意力权重越大的特征对于学生退课行为的影响越大；在时间维度上，注意力图中注意力权重越大的时间阶段对于学生退课行为的影响越大。
[0035]本发明区别于现有技术的是，本发明不仅关注预测的准确性，而且注重整个预测流程的可解释性，从数据处理到最终预测每一个环节都有着较高的透明度，并且开创性地使用注意力权重的分布来构建对于预测结果的解释。具体地，在数据层面上，本发明基于对于三个代表性数据集的统计分析，提出了一种跨平台的特征工程方法。本发明在保留数据的原有信息的前提下，提高了与退课行为之间的相关性。此外，本发明总结了被广泛使用的三个时序定义，提出了一个更为实用的退课行为定义并以此对于学生的学习行为进行建模和标注。为了得到最终的预测结果，本发明开创性地使用自注意力机制在特征和时间两个维度上对于重要的特征和时间阶段进行识别。本发明有效地提高了以往学生退课行为预测方法的预测表现，并且为预测结果提供了对应的解释。这不仅使得预测结果更为可信，而且可以更好地帮助到在线教育平台以对高退课风险学生进行个性化干预。
附图说明
[0036]图1为基于自注意力机制的学生退课行为可解释预测方法的流程图；
[0037]图2为对于学生退课行为预测问题的定义示意图；
[0038]图3为在不同课程中不同性别的学生的退课率；
[0039]图4为学习进度不同的学生的退课率；
[0040]图5为二维自注意力网络模型结构示意图；
[0041]图6为本发明提出的方法与其他方法的预测结果对比示意图；
[0042]图7为二维自注意力网络模型中时间维度与特征维度上的注意力热力图。
具体实施方式
[0043]为详细说明技术方案的技术内容、构造特征、所实现目的及效果，以下结合具体实施例并配合附图详予说明。
[0044]请参阅图1所示，为基于自注意力机制的学生退课行为可解释预测方法的流程图。本发明优选一实施例，该实施例具体实施过程分为4个步骤，其中第3步是模型训练时的步骤，第4步是获取预测结果和对应的解释的步骤。
[0045]本发明解决学生退课行为预测研究问题。虽然在计算机科学领域，解决这一问题都通过从数据集中提取数据、构造特征，并使用机器学习方法进行预测的方式，但是不同的方法对该问题的定义不同。图2为对于学生退课行为预测问题的定义示意图。该定义注重学生学习过程的时序性，将学生的学习过程分成多个时间阶段，每个时间阶段都有对应的标记退课行为的标签。如图2所示，时间轴下方的每个标注矩形表示学生学习活动的一个阶段，每个阶段对应着一个退课行为标签。这个标签取决于学生在下一个时间阶段的学习表现。如果学生在下一个时间阶段没有学习活动，则将其视为退出了课程。图中的垂直于时间轴的虚线表示在这一进行预测的时间点，退课行为预测要做的就是根据已知的信息(图中虚线之前的活动序列)，对其是否会退出课程进行预测(预测图中标签yp的值)。这种定义更为实用且有更高的可解释性，可以在学生选课后的任意时间点进行预测。
[0046]本发明提出的基于自注意力机制的学生退课行为可解释预测方法，注重整个算法生命周期的可解释性。在数据处理阶段，基于对于三个代表数据集的统计分析结果，提出了一种跨平台的特征工程方法。构造出与退课行为具有更强相关性的特征，避免无关信息输入模型。在预测阶段，开创性地提出了二维自注意力网络模型来得到预测结果，并使用注意力权重的分布来构造对于预测结果的解释。在实施阶段，本方法采用了KDD 15竞赛数据集和AAAI 19使用的数据集。在划分数据集时，将两个数据集中80％的数据作为训练集，即已知的学生学习情况。随机选取20％的数据作为测试集，即需要进行预测的学生学习情况。
[0047]第1步、从数据集中提取有效数据
[0048]在具体实施过程中，首先需要从数据集中提取有效数据，包括点击流数据、自然统计信息和时间统计信息。对于点击流数据，该实施例从日志数据中提取特征，并将其转换成one-hot向量，然后合并一个时间阶段内的one-hot向量。为了迎合大多数人的习惯，该实施例以一周为一个时间阶段。对于自然统计信息数据，首先对于该课程的退课行为进行统计，在此基础上计算每个自然统计信息特征与退课行为的互信息，将其作为输入的一部分。对于时间统计信息，利用课程开设的起止时间和点击流日志内的时间戳构造一系列描述学生时间投入的特征，以此反映学生的学习投入。经过此步骤，得到了与退课行为具有较强相关性的数据作为模型输入。
[0049]步骤1.1、对代表数据集进行统计分析；
[0050]本发明选取了用于退课行为预测的三个有代表性的数据集进行统计分析，从而发掘真正有助于预测的有效信息。选取的三个数据集为KDD 15竞赛数据集、AAAI 19使用的数据集和Biendata 20竞赛使用的数据集。点击流数据是学生学习活动最为直接的表现形式，绝大多数的现有研究都基于点击流数据进行预测，因此其与退课行为有着绝对的相关性。然而，AAAI 19数据集中提供的自然统计信息则不同。为了得到一个具有一般性的规律，如图3所示，以性别因素为例，选取该数据集中选课人数大于1000的课程，再从其中随机选择5门课程，分别统计每门课程中不同性别的学生的退课比例。统计分析的结果显示，有的课程中男性学生更容易退学，而有的课程中女性学生更容易退学，由此可知性别因素在不同课程中对于退课行为的影响不同。若要将此类信息作为模型输入，则需要进行进一步的处理。Biendata 20竞赛使用的数据集为参赛者提供了一系列时间相关的特征来进行预测。这证明时间统计信息与退课行为之间存在着相关性。本方法统计了AAAI19和KDDCup 15两个数据集中时间投入不同的学生的退课率，如图4所示，可发现学习进度越多，退课率越低。因此，时间统计信息在退课行为预测中值得被利用。
[0051]步骤1.2、跨平台的特征工程方法；
[0052]对于点击流数据，本方法使用从原始数据中提取特征，转换成one-hot向量，然后合并这些one-hot向量来进行处理。对于自然统计信息，本方法使用互信息来刻画性别一类的自然统计信息在不同课程中对于退课行为的差异化影响。课程c中学生的统计记为Dc＝[Dc，1，Dc，2，...，Dc，N]，N表示自然统计信息的种类数量，退课行为的统计记为Yc。互信息表示为I(Dc；Yc)＝H(Yc)-H(Dc|Yc)＝H(Dc)+H(Yc)-H(Dc，Yc)。其中H(Dc)为信息熵，H(Yc|Dc)为Yc的条件熵。某自然统计信息特征Dc，n的互信息的值越接近于1，这个特征就越重要。这样，特征的原有信息得以保留，而且其与退课行为之间的相关性被量化。对于时间统计信息，本方法利用课程开设的起止时间和日志数据中的时间戳来构造一些特征，以此表示学生的学习进度和时间投入。比如通过提取学生实际观看视频时间与视频的总时长以反应学生们时间投入程度，也可以将学生的学习时长除以整个课程时长来表示学生的学习进度百分比。
[0053]第2步、按照时序定义对学生退课行为进行标注
[0054]得到的输入中，点击流数据为序列数据。根据该实施例采用的时序定义，每个时间阶段都应有退课行为标签来标注学生是否退出了课程。退课行为标签标注步骤如下：
[0055]1.对于学习过程中最后的时间阶段，使用学生退课行为的最终结果进行标注；
[0056]2.若标注的时间阶段并不是最后的时间阶段，则以该阶段的下一个时间阶段是否仍存在学习活动为准。若下一个时间阶段内学生仍有学习活动，则标注为没有退课；反之，则标注为已经退课；
[0057]3.重复上述步骤，直到所有序列中所有的时间阶段都有对应的退课行为标签；
[0058]以上为输入模型前的数据处理步骤，每次输入数据进入模型前，都进行上述步骤。
[0059]步骤2.1、采用的时序定义；
[0060]本发明提出了一个更为实用的退课行为定义。以一周为一个时间阶段，将学生的学习过程分成多个时间阶段。对于每个时间阶段内的数据，都使用步骤1.2中介绍的特征工程方法进行数据处理。由此得到时间序列数据。做出预测的时间阶段为tp，退课标签取决于如学生s在课程c的下一个时间阶段tp+1没有学习活动，则将其视为在当前阶段退课；如有学习活动，则视为没有退课。此外，如果时间阶段tp是该课程最后的时间阶段，那么就以这名学生最终是否退出课程为依据。
[0061]步骤2.2、按照时序定义进行序列标注；
[0062]序列数据由时间阶段划分，对于时间阶段内的数据，按照定义赋予退课行为标签。若被视为退课，则退课标签为1；反之，则为0。
[0063]训练时：
[0064]第3步、得到二维自注意力网络预测模型
[0065]图5展示了二维自注意力网络模型的整体架构。如图5所示，二维自注意力网络模型会将在特征和时间维度上编码后的序列输入全连接神经网络层，得到学生退出课程的概率。使用标注的学生退课行为标签，按照二分类交叉熵损失函数计算得到Loss，用Adam优化器和反向传播算法更新模型内的参数，从而达到调整模型的效果。
[0066]该训练过程将进行多轮，具体轮数将根据数据集的不同而做调整，以本次实践为例，KDD 15竞赛数据集训练了15轮，AAAI 19数据集训练了20轮。调整应当参照数据集的大小、以及训练过程中Loss的收敛速度。
[0067]为了对退课行为进行可解释预测，本方法使用了一个二维注意力网络模型。该模型在特征和时间两个维度上使用自注意力机制以挖掘多特征之间的内在联系、捕捉时间阶段之间的相互依赖，从而对序列进行编码，以获得准确的预测结果。
[0068]步骤3.1、特征抽象；
[0069]模型中的第一个步骤为特征抽象。完成步骤1和步骤2后，得到了模型的输入。其中，表示学习活动的特征的数量与表示其他统计特征的数量不同，两类向量的维数不同，所以需要两个向量嵌入到一个维数统一的向量空间。因此，通过一个嵌入层将学习活动向量映射为一个稠密向量E(s,c)。之后，使用一个一维卷积层从中进一步提取特征，得到其中We、be为权重和偏置项，σ为激活函数。通过类似的方式，将时间无关的统计信息U(s,c)(自然统计信息和时间统计信息)映射为维度相同的稠密向量。之后，将两者对应拼接。这样，得到了维度统一的包含学生活动特征和其他统计特征的向量Xc。
[0070]步骤3.2、挖掘多特征之间的内在联系；
[0071]为了区分不同特征对于学生退课的影响程度，本方法在特征维度上使用自注意力机制挖掘多特征之间的内在联系。这样做的好处主要有以下两点：(1)不需要指定将任何特征视为外部信息，平等地对待每一种特征，根据特征之间的相互关系来计算。(2)注意力权重的分配可以明显地展示出模型更关注于哪些特征，对于预测结果在特征层面上给出解释。
[0072]本方法使用多头自注意力机制进行计算：
[0073]
[0074]其中，Qc、Kc、Vc由Xc一组经过随机初始化的权重矩阵相乘得到。fmulti表示多头注意力机制层进行的连接和计算等操作。由此，经过该步骤，模型学习到了特征之间的内在联系，从而可以识别特征的重要性。
[0075]步骤3.3、捕捉时间阶段之间的相互依赖；
[0076]经过上一个步骤，每个时间阶段的序列数据在特征维度上都已经被自注意力机制编码，更重要的特征被赋予了更大的权重。此步骤即在时间维度上进行类似的操作，得到不同时间阶段的重要性。首先，将上一步骤得到的Xf变换维度，重塑为其中N表示时间阶段的个数。这一操作的目的在于在时间维度上使用自注意力机制。不同于上一步骤的是，特征没有先后顺序，而不同的时间阶段之间存在顺序。因此，本方法使用位置编码来记录顺序。具体来讲，通过一个嵌入层将一个稠密向量P∈RN转化为位置编码之后将Xt与其对位相加，得到之后，与上一步骤类似，将序列输入多头自注意力机制层中，得到：
[0077]
[0078]其中，Qt、Kt、Vt由Xf与一组经过随机初始化的权重矩阵相乘得到，fmulti表示多头注意力机制层进行的连接和计算等操作。由此，得到了时间和特征维度上都被编码的序列数据
[0079]步骤3.4、优化模型；
[0080]将上个步骤得到的向量输入一个两层的多层感知器，得到该学生退出课程的概率，即其中表示学生s退出课程c的概率，MLP表示多层感知器。之后使用二分类交叉熵损失函数来优化模型。
[0081]二分类交叉熵损失函数公式化表示为：
[0082]
[0083]其中yn表示步骤2.2对序列标注的对应标签，代表着事实上该学生是否处于退课状态。利用该损失函数配合Adam优化器，经过多轮迭代，逐渐优化二维自注意力网络模型，使得其可以对于学生的退课行为进行预测。
[0084]训练后：
[0085]第4步、对学生退课行为进行预测并给出对应解释
[0086]完成以上步骤后即可得到一个可以用于退课行为预测的模型。将需要进行预测的学生的相关数据输入模型后，即可得到退课行为预测的结果和对应的解释。
[0087]步骤4.1、获取退课行为预测结果；
[0088]在二维自注意网络模型具备对于学生退课行为进行预测的能力后，模型可以对于学生的退课行为给出一个退课概率，若此概率大于0.5，则可判断其将退出课程；若此概率小于0.5，则可判断其不会退出课程。
[0089]步骤4.2、获取预测结果的对应解释；
[0090]模型在进行一次预测时，都会对于输入的序列进行一次注意力权重的计算。获取特征维度上的注意力权重，形成注意力热力图。注意力权重越大的特征对于退课行为的影响越大。与之类似地，在时间维度上获取注意力权重形成注意力热力图，权重越大的时间阶段对于退课行为的影响越大。总之，对于每个预测结果，本方法都可以结合现实意义提供相应的解释。
[0091]在KDD 15竞赛数据集和AAAI 19数据集上验证了本发明提出的基于自注意力机制的学生退课行为可解释预测方法。实验采用了三个评估指标：
[0092]准确度(ACC)：度量正确预测了的学生退课行为的占比：
[0093]
[0094]上式中，一个时间阶段的退课行为标签为yi，而模型给出的预测结果为若两者相同，则记为一个正样本；若两者不同，则记为一个负样本。
[0095]接收者操作特征曲线下面积(AUC)：评价预测方法对于退课行为和非退课行为的识别能力：
[0096]
[0097]上式中，代表第i条样本的序号，M,N分别代表正样本和负样本的个数，insi∈positiveclass表示属于正样本的序号。
[0098]F1分数(F1)：从主观和客观两个角度综合分析模型的查准率：
[0099]
[0100]其中：
[0101]
[0102]
[0103]上式中，TP指的是预测为退课且预测正确的例子数，FP指的是预测为非退课且预测正确的例子数，FN指的是预测为非退课且预测错误的例子数。
[0104]图6展示了KDD 15数据集和AAAI 19这两个数据集上本方法的预测表现以及和其它当前存在方法的对比。实验效果显示，本发明提出的方法相比于以往效果最好的方法CFIN分别在ACC、AUC和F1三个指标上取得了0.4％、0.5％，0.3％的提升，这意味着数以万计的学生的退课行为可以被正确地预测。以上对比结果充分说明了本发明提出的方法在学生退课行为预测任务上取得了优秀的效果。
[0105]此外，本发明提出的方法还可以对于预测结果进行解释。图7展示了在进行某次预测时，在时间和特征维度上的注意力热力图。注意力热力图是注意力权重分布的可视化表示。如图所示，灰度越高的矩形块上的注意力权重越高，所表示的影响因素对于退课行为的影响越大。如图7(a)所示，时序热力图中第四周的注意力权重更高，这说明该学生在该课程中第四周的学习活动对于该学生退课行为的影响更大。如图(b)所示，学生的任务活动特征的灰度更高，注意力权重更高，因此对于该学生而言，任务活动相比于其他因素更为重要。该实例说明了本发明所提出的方法不仅可以进行预测，而且可以根据注意力权重构造预测结果的解释。
[0106]需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下，由语句“包括……”或“包含……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的要素。此外，在本文中，“大于”、“小于”、“超过”等理解为不包括本数；“以上”、“以下”、“以内”等理解为包括本数。
[0107]尽管已经对上述各实施例进行了描述，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例做出另外的变更和修改，所以以上所述仅为本发明的实施例，并非因此限制本发明的专利保护范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围之内。

知识产权成果展示

专利详情

摘要