《Deep Knowledge Tracing》2015 NIPS论文翻译

849 阅读22分钟

开启掘金成长之旅!这是我参与「掘金日新计划 · 12 月更文挑战」的第6天,点击查看活动详情

深度知识追踪 Deep Knowledge Tracing

摘要

在计算机支持的教育中,知识跟踪是一个众所周知的问题。在计算机支持的教育中,机器对学生与课程互动时的知识进行建模。虽然有效地对学生的知识进行建模会产生很高的教育影响,但这项任务存在许多内在的挑战。在这篇文章中,我们探索使用递归神经网络(RNN)来模拟学生的学习。与以前的方法相比,RNN模型家族具有重要的优势,因为它们不需要对人类领域知识进行显式编码,并且可以捕获更复杂的学生知识表示。使用神经网络可以显著提高对一系列知识跟踪数据集的预测性能。此外,学习的模型可以用于智能课程设计,并允许直接解释和发现学生任务中的结构。这些结果为知识追踪提出了一条很有前途的新研究路线,并为RNN提供了一个示范性的应用任务。

1 介绍

计算机辅助教育承诺开放获取世界级的教育,并降低日益增长的学习成本。我们可以通过在Khan Academy、Coursera和EdX等流行的教育平台上构建大规模学生跟踪数据模型来开发这一承诺。

知识追踪是对学生的知识进行建模的任务,这样我们就可以准确地预测学生在未来的互动中将如何表现。这项任务的改进意味着可以根据学生的个人需求向他们建议资源,并可以跳过或推迟模型预测太容易或太难的知识点/题目。人工调整的智能辅导系统试图定制内容,已经显示出令人振奋的。一对一的人类辅导可以为普通学生带来大约两个标准差的学习收益,而机器学习解决方案可以免费为世界上的任何人提供高质量的个性化教学的这些好处。由于人类学习的基础是人脑和人类知识的复杂性,所以知识追踪问题本质上是困难的。因此,使用丰富的模型似乎是合适的。然而,以前的教育工作大多依赖于具有受限函数形式的一阶马尔可夫模型。

在本文中,我们提出了一种称为深度知识跟踪(DKT)的公式,其中我们将灵活的递归神经网络在时间上“深度”应用到知识跟踪任务中。这一系列模型使用大型人工神经元向量来表示潜在的知识状态及其时间动态,并允许从数据中学习学生知识的潜在变量表示,而不是硬编码。这项工作的主要贡献是:

1.一种将学生互动编码为递归神经网络输入的新方法。

2.在知识跟踪基准上,AUC比之前最好的结果提高了25%。

3.证明我们的知识追踪模型不需要专家注释。

4.发现练习影响并生成改进的练习课程。

1.png 知识追踪的任务可以形式化为:通过观察学生在特定的学习任务中采取的交互​...​,预测他们下一次交互的值​ 。在知识追踪普遍的实例中,交互采用​= { ​}元组的形式, 它结合了判断练习是否被回答的标签​和练习是否回答正确的标签​。 在进行预测时,模型会被提供正在回答的练习的标签​,并且必须预测学生是否会正确地完成练习​。图1显示了学习8年级数学的单个学生的跟踪知识的可视化。该学生首先正确回答了两个平方根问题,然后回答错误一个求x截距的问题。在接下来的47次互动中,该学生完成了一系列的x-截取、y-截取和作图练习题。每次学生回答练习时,我们都可以预测她是否会在下一次互动中正确回答每种类型的练习。在可视化中,我们只显示随着时间的推移对相关练习类型子集的预测。在大多数以前的模型工作中,练习标签表示人类专家分配给练习的单个“概念”。我们的模型可以利用但不需要这种专家注释。我们证明了在没有注释的情况下,该模型可以自主学习内容子结构。

2 相关工作

教育学、心理学、神经科学和认知科学等不同领域都为建模和预测人类如何学习的任务提供了信息。从社会科学的角度来看,学习被认为受到复杂宏观层面互动的影响,包括情感、动机甚至社会身份。目前的挑战在微观层面上进一步暴露。学习本质上是人类认知的反映,是一个高度复杂的过程。认知科学领域中两个特别相关的主题是,人类思维及其学习过程是递归的,并由类比驱动。

知识追踪问题最初被提出,并在智能教学社区中得到了大量研究。面对上述挑战,我们的主要目标是建立一个模型,该模型可能无法捕捉所有的认知过程,但仍然是有用的。

2.1 贝叶斯知识追踪

贝叶斯知识追踪(BKT)是建立学生学习时间模型的最流行的方法。BKT将学习者的潜在知识状态建模为一组二进制变量,每个变量代表对单个概念的理解或不理解 。当学习者正确或错误地回答给定概念的练习时,隐马尔可夫模型(HMM)被用来更新这些二进制变量中的每一个的概率。最初的模型公式假设,一旦学会了一项技能,它就永远不会被忘记。这个模型最近的扩展包括猜测和滑动估计的情境化,估计个体学习者的先验知识,以及估计问题难度。

无论有没有这样的扩展,知识追踪都会遇到几个困难。首先,用二进制表示学生是否理解可能是不切实际的。其次,隐藏变量的含义及其在练习中的映射可能是模糊的,很少满足模型对每个练习只有一个概念的期望。已经研究开发了几种技术来创建和完善概念类别和概念-练习的映射。目前的黄金标准,认知任务分析是一个艰难而迭代的过程,在这个过程中,领域专家要求学习者在解决问题的同时谈论他们的思维过程。最后,用于建模转换的二元响应数据对可以建模的练习类型施加了限制。

2.2其他动态概率模型

部分可观测马尔可夫决策过程(POMDP)已被用来模拟学习者随着时间的推移的行为,在学习者沿着开放路径到达解的情况下。虽然POMDP提供了一个非常灵活的框架,但它们需要探索指数级大的状态空间目前的实现也被限制在离散状态空间,对于潜在变量具有硬编码的含义。这使得它们在实践中变得难以处理或僵化,尽管它们有可能克服这两个限制。

来自绩效因素分析(PFA)框架和学习因素分析(LFA)框架的简单模型显示出与BKT相当的预测能力。为了获得比单独使用任何一个模型更好的预测结果,已经使用了各种集成方法来结合BKT和PFA。AdaBoost、随机森林、线性回归、Logistic回归和前馈神经网络支持的模型组合都显示出单独提供比BKT和PFA更好的结果。但由于它们所依赖的学习者模型,这些集成技术面临着同样的限制,包括对准确的概念标签的要求。

最近的工作探索了将项目响应理论 (IRT) 模型与切换非线性卡尔曼滤波器以及知识跟踪相结合。尽管这些方法很有前景,但目前它们在功能形式上都比我们这里介绍的方法更受限制并且更昂贵(由于潜在变量的推断)。

2.3递归神经网络

递归神经网络是一类灵活的动态模型,随着时间的推移将人工神经元连接起来。信息的传播是递归的,因为隐藏的神经元根据系统的输入和之前的激活进行进化 。与教育中出现的隐马尔可夫模型(也是动态的)不同,RNN具有高维、连续的潜在状态表示。 RNN的更丰富表示的一个显著优势是它们能够在更晚的时间点将来自输入的信息用于预测。对于长期短期记忆(LSTM)网络--一种流行的RNN类型--尤其如此。

对于具有大量训练数据的几个时间序列任务,例如语音转文本、翻译和图像字幕,递归神经网络是竞争性的或最先进的。这些结果表明,如果我们将任务描述为时态神经网络的一个新应用,我们可以更成功地追踪学生的知识。

3.深度知识追踪

我们认为,人类的学习受到许多不同属性的支配--材料、背景、呈现的时间进程和涉及的个人--其中许多属性很难量化,只依靠第一原则为练习分配属性或构建图形模型。在这里,我们将应用两种不同类型的RNN-一个带有S型单位的普通RNN模型和一个长短期记忆(LSTM)模型-来根据学生过去的活动来预测学生对练习的反应。

3.1模型

传统的递经网络(RNN)将一组的输入向量...向量映射到一组输出向量...。这是通过计算一系列隐藏状态...可被视为过去观测的相关信息的连续编码,对未来的预测有用。 有关色彩插图,请参见图 2。这些变量使用由方程定义的简单网络进行关联:

ht=tanh(Whxxt+Whhht+bh) h_t = tanh(W_{hx}x_t + W_{hh}h_t+b_h)
yt=δ(Wyhht+by) y_t =\delta (W_{yh}h_t+b_y)

2.png

其中,tanh和Sigmoid函数σ(·)都是按元素应用的。该模型由输入权重矩阵、循环权重矩阵 ​、初始状态 ​ 和输出权重矩阵 ​ 来参数化。隐藏单元和输出单位的偏差由 ​ 和​ 给出。

长短期记忆(LSTM)网络是RNN的一种更复杂的变体,通常被证明是更强大的。在LSTM中,隐藏单元保留它们的值,直到通过“忘记门”的动作明确清除为止。因此,它们更自然地在许多时间步长内保持信息,这被认为使它们更容易训练。此外,隐藏单元使用乘法交互进行更新,因此它们可以对相同数量的隐藏单元执行更复杂的转换。LSTM的更新公式比RNN复杂得多,可以在附录A中找到。

3.2 输入和输出时间序列

为了训练关于学生交互的RNN或LSTM,有必要将这些交互转换成固定长度的输入向量xtx_t的序列。根据这些交互的性质,我们使用两种方法来完成此操作: 对于具有少量 M 特殊的练习的数据集,我们将xtx_t设置为学生交互元组hth_t= {qtq_t, ata_t} 的 one-hot 编码,表示回答了哪个练习以及是否正确回答了练习的组合,所以xtx_t∈ {0, 1 }^{2M} 。我们发现,对qtq_tata_t有单独的表示会降低性能。 对于大的特征空间,one-hot编码可能很快变得不切实际的大。因此,对于具有大量独特练习的数据集,我们改为为每个输入元组分配一个随机向量nq,an_{q,a}∼N(0,I),其中nq,an_{q,a}RNR_N,并且N<M。然后我们将每个输入向量XtX_t 设置为相应的随机向量xt=nqt,atx_t = n_{q_t,a_t}。这种one-hot编码的高维向量的随机低维表示是从压缩传感得到的灵感。压缩检测认为d维的k-稀疏信号可以从k log d个随机线性投影(取决于放缩比例和加法常数)中精确恢复。由于 one-hot 编码是 1-稀疏信号,可以通过将学生交互元组分配给长度为 log 2M 的固定随机高斯输入向量来精确编码。虽然目前的论文只涉及one-hot向量,但这种技术可以很容易地扩展到在固定长度的向量中捕捉更复杂的学生交互的方面。 输出yty_t 是长度等于问题数量的向量,其中每个条目表示学生正确回答该特定问题的预测概率。因此,可以从yty_t 中对应于qt+1q_{t+1}的条目中读取at+1a_{t+1}的预测。

3.3 优化

训练目标是在该模型下观察到的学生反应序列的负对数似然。设δ(qt+1q_{t+1})是练习题在t+1时间的回答的one-hot编码,设ι\iota是二进制交叉熵。给定预测的损失为ι(YTδ(qt+1)\iota(Y^Tδ(q_{t+1}),单个学生的损失为:

L=ι(yTδ(qt+1),at+1) L = \sum \iota(y^T \delta(q_{t+1}),a_{t+1})

使用小批量的随机梯度下降来最小化这个目标。为了防止训练过程中的过度拟合,在计算输出数yty_t​时,不使用​,但在计算下一个隐藏状态ht+1h_{t+1}​时仍然应用。我们通过截断范数高于阈值的梯度长度来防止梯度在时间中反向传播时‘爆炸’。对于本文中的所有模型,我们始终使用200的隐藏维度和100的小批量(mini-batch)大小。为了促进DKT的研究,我们发布了我们的代码和相关预处理数据.

4 教育应用

知识溯源的培训目标是根据学生过去的活动来预测他们未来的表现。这是直接有用的--例如,如果学生的能力经过持续的评估,就不再需要正式测试。如第6节中的实验所述,DKT模型还可以推动许多其他改进。

4.1改进课程

我们的模型最大的潜在影响之一是选择最佳的学习项目顺序来推送给学生。给定一个具有估计隐藏知识状态的学生,我们可以查询我们的RNN来计算如果我们给他们布置一个特定的练习,他们的预期知识状态会是什么。例如,在图1中,在学生回答了50个练习后,我们可以测试下一个可能的练习,我们可以向她展示,并计算出她在做出选择时的预期知识状态。对于这个学生来说,预计最优的下一个问题是重温y-截距的求解。

我们使用经过训练的DKT模型测试教育文献中的两个经典课程规则:混合来自不同主题的练习,以及阻止学生回答同一类型的一系列练习 。由于选择下一练习的整个序列以最大限度地提高预测精度可以表述为马尔可夫决策问题,因此我们也可以评估使用期望最大算法(见附录)选择最佳问题序列的好处。

4.2 发现习题关系

DKT模型还可以应用于发现数据中的潜在结构或概念的任务,这是一项通常由人类专家执行的任务。我们通过为每对定向练习 i 和 j 分配一个影响ji,jj_{i,j}来解决这个问题,

Ji,j=y(ji)ky(jk)J_{i,j} =\frac{ y(j|i) }{\sum_ky(j|k)}

其中y(j|i)是RNN在第二个时间步分配给练习j的正确概率,假设学生在第一个时间步正确回答了练习 i 。我们表明,这种由RNN捕获的依赖性的特征恢复了与练习相关的先决条件。

5 数据集

我们在三个数据集上测试了预测学生表现的能力:模拟数据、可汗学院数据和助教基准数据集。在每个数据集上,对于非模拟数据,我们使用5次交叉验证来评估我们的结果,并且在所有情况下都从训练数据中学习超参数。我们将深度知识跟踪的结果与标准的BKT进行了比较,并在可能的情况下与BKT的优化变体进行了比较。此外,我们将我们的结果与通过简单计算学生在特定练习中答对的边际概率所做的预测进行比较。 3.png 模拟数据:我们模拟虚拟学生学习虚拟概念,并测试我们在这种受控环境下预测反应的能力。对于这个实验的每一次运行,我们生成2000名学生,他们回答从k∈1...5个概念中抽取的50个练习。仅针对此数据集,所有学生回答相同顺序的50个练习。每个学生对每个概念都有一个潜在的知识状态“技能”,每个练习都有一个单一的概念和一个难点。如果学生具有概念技能α,那么学生正确回答难度为β的练习的概率可以通过使用经典项目反应理论建模得到:(,)​,其中c是随机猜测的概率(设为0.25)。 随着时间的推移,学生通过增加与他们回答的练习题相对应的概念技能进行 "学习"。为了了解不同的模型如何纳入无标签的数据,我们不向模型提供隐藏的概念标签(相反,输入的只是练习指数和练习是否被正确回答)。我们在另外两千名模拟测试学生身上评估了预测性能。对于每个数字的概念,我们用不同的随机生成的数据重复实验20次,以评估准确性的平均值和标准误差。 可汗学院数据:我们使用了可汗学院八年级共同核心课程中匿名学生题目交互的样本。该数据集包括47,495名学生完成的140万个练习序列,涉及69种不同的锻炼类型。它不包含任何个人信息。只有从事这篇论文的研究人员才有权访问这个匿名数据集,并且它的使用受一项协议的约束,该协议旨在根据可汗学院的隐私通知保护学生隐私。Khan Academy提供了一个特别相关的学习数据来源,因为学生经常与该网站进行长时间的互动和各种内容的互动,而且学生在他们研究的主题和他们阅读材料的轨迹上往往是自我指导的。

基准数据集: 为了了解我们的模型与其他模型相比有何不同,我们在Assistments 2009-2010“Skills Builder”公共基准数据集上评估了模型。Assistments 是一个在线辅导平台,可以同时教授和评估学生的小学数学。据我们所知,它是最大的公开可用的知识追踪数据集。

6 结果

在所有三个数据集上,深度知识追踪都大大优于以前的方法。

在可汗数据集上,使用LSTM神经网络模型得到的AUC为0.85,这比标准BKT的性能(AUC=0.68)有了显著的改善,特别是与BKT在边缘基线(AUC=0.63)上提供的小幅改善相比。参见表1和图3(B)。在Assistments数据集上,DKT比之前最好的报告结果(AUC分别为0.86和0.69)增加了25%。我们在AUC中报告的收益与边际基线(0.24)相比,是迄今为止在数据集上实现的最大收益(0.07)的三倍多。

来自合成数据集的预测结果为深度知识追踪的能力提供了有趣的证明。 LSTM 和 RNN 模型在预测学生的反应方面做得很好,因为它完全了解所有模型参数(并且只需要适应潜在的学生知识变量)。参见图3(A)。为了获得与oracle相同的准确性,模型必须模拟包含以下功能的功能: 潜在概念,每次练习的难度, 学生知识的先验分布和每次练习之后概念技能的掌握度和熟练度。相比之下,BKT的预测随着隐藏概念数量的增加而大幅下降,因为它没有学习未标记概念的机制。

4.png

我们测试了我们从Assistment数据集中智能地选择五个概念子集的练习的能力。 对于每种课程方法,我们使用我们的DKT模型来模拟学生如何回答问题,并评估学生在30次练习后了解程度。我们重复了500次学生模拟,并测量了学生未来答对问题的平均预测概率。 在Assistment上下文中,阻塞策略比混合策略具有显着优势。参见图3(C)。虽然阻断策略的表现与一个求解最大期望值的练习题的表现相当(MDP-1),如果我们在选择下一个问题时更深入地展望未来,我们会提出这样的课程,让学生在解决更少的问题后拥有更高的预测知识(MDP-8)。

在合成数据集的预测结果的准确性表明使用DKT模型有可能提取出被评估数据集之间的潜在结构关系。我们的模型对合成数据集的条件影响图显示了五个潜在概念的完美聚类(见图 4),我们的模型对合成数据集的条件影响图显示了五个潜在概念的完美聚类(参见图 4),使用等式 4 中的影响函数设置有向边。

一个有趣的观察是,来自同一概念的一些练习题在同一时间相距很远。例如,在节点号描述序列的合成数据集中,合成数据集中的第五个练习来自隐藏的概念1,尽管直到第22个问题时,才提出了来自同一概念的另一个问题, 我们能够了解到两者之间存在着很强的条件依赖性。 我们使用相同的技术分析了Khan数据集。 由此产生的图表令人信服地阐明了8年级公共核心中的概念是如何相互关联的(见图4。节点编号描述了练习标签)。 我们将分析限制在有序的练习对{A,B}中,使得在A出现之后,B在序列的其余部分中出现的时间超过1%)。为了确定由此产生的条件关系是否是数据中明显潜在趋势的产物,我们将我们的结果与两个基线测量值进行了比较:(1) 学生在刚回答 A 的情况下回答 B 的转移概率;(2) 数据集中(不使用 DKT 模型)在学生早先正确回答 A 的情况下正确回答 B 的概率。两种基线方法都生成了不一致的图表,如附录所示。虽然我们发现的许多关系对于教育专家来说可能并不令人惊讶,但他们的发现肯定了 DKT 网络学习了一个连贯的模型。

5.png

7 讨论

在本文中,我们将 RNN 应用于教育中的知识追踪问题,在 Assistments 基准和 Khan 数据集上显示出优于先前最先进性能的改进。我们的新模型的两个特别有趣的新特性是(1)不需要专家注释(可以自己学习概念模式);(2) 它可以对任何可以向量化的学生输入进行操作。与简单的隐马尔可夫方法相比,RNN 的一个缺点是它们需要大量的训练数据,因此非常适合在线教育环境,但不适用于小型课堂环境。

RNN在知识追踪中的应用为未来的研究提供了许多方向。进一步的调查可以将其他特征作为输入(例如花费的时间),探索其他教育影响(例如提示生成,辍学预测),并验证教育文献中提出的假设(例如间隔重复,模拟学生如何忘记)。因为 DKT 采用向量输入,所以应该可以跟踪更复杂的学习活动的知识。一个特别有趣的扩展是在学生解决开放式编程任务时跟踪他们的知识。使用最近开发的程序向量化方法 ,我们希望能够在学生学习编程时智能地模拟学生的知识。

在与Khan Academy的持续合作中,我们计划在一个对照实验中测试DKT对课程规划的有效性,通过在网站上提出练习。

论文地址:proceedings.neurips.cc/paper/2015/…