开启掘金成长之旅！这是我参与「掘金日新计划 · 12 月更文挑战」的第7天，点击查看活动详情

How Deep is Knowledge Tracing

摘要

在理论认知科学中，在高度结构化的模型和高度复杂的通用模型之间存在着紧张关系，前者的参数具有直接的心理解释，而后者的参数和表示很难解释。前者通常能提供更多的认知洞察力，但后者的表现往往更好。这种紧张关系最近在教育数据挖掘领域浮出水面。在教育数据挖掘领域，一种深度学习方法通过一系列练习来预测学生的表现，这种方法被称为深度知识跟踪(DKT)，与该领域的支柱贝叶斯知识跟踪(BKT)相比，显示出惊人的性能优势。在本文中，我们试图通过考虑DKT可以利用但BKT无法利用的数据中统计规律性的来源来理解DKT优势的基础。我们假设BKT未能利用的四种规律性形式：新近效应、情境化的试验序列、技能间的相似性和能力的个体差异。我们证明，当BKT被扩展到允许它在建模统计规则方面具有更大的灵活性时——使用之前在文献中提出的扩展——BKT实现了与DKT没有区别的性能水平。我们认为，虽然DKT是一个强大的、有用的、通用的学生学习建模框架，但它的收益并不来自于发现新的表征--深度学习的基本优势。为了回答我们标题中提出的问题，知识追踪可能是一个不需要“深度”的领域；像BKT这样的浅层模型也可以表现得同样好，并为我们提供更大的可解释性和解释力。

1. 引言

在过去的40年里，机器学习和认知科学经历了许多范式转变，但很少有像最近对深度学习的兴趣激增那样戏剧性的[16]。虽然深度学习只不过是1990年左右流行的神经网络技术的更新换代，但由于比1990年更快的计算资源和更大的数据集，深度学习已经取得了一些显著的成果。深度学习是语音识别、语言处理和图像分类中最先进的系统的基础[16，26]。深度学习还负责为图像制作字幕[29]、创建合成图像[9]、玩视频游戏[19]甚至围棋[27]的系统。

深度学习中的深度是指模型输入和输出之间的多个层次的表征转换。例如，图像分类模型可以将像素值作为输入，并产生图像中的对象的标签作为输出。在输入和输出之间是一系列表示转换，这些表示转换依次构造了高阶特征——这些特征对光照条件和图像中物体的位置不太敏感，而对物体的身份及其定性关系更敏感。深度学习发现的特征表现出复杂性和微妙性，使它们难以分析和理解（例如，[31]）。此外，没有任何人类工程师能够像深度学习发现的解决方案那样彻底和准确地提出解决方案。深度学习模型基本上是非参数的，因为解释网络中的单个权重和单个单元激活几乎是不可能的。这种不透明度与参数模型（例如线性回归）形成鲜明对比，其中每个系数对手头的问题和输入特征都有清晰的解释。

在一个接一个的领域，深度学习取得了超过传统方法的成果。深度学习丢弃手工制作的特征，而支持表示学习，并且深度学习通常忽略领域知识和结构，而支持海量数据集和对模型的一般架构约束(例如，具有空间局部性的模型来处理图像，以及具有局部时间约束的模型来处理时间序列)。

深度学习将不可避免地应用于学生学习数据[22]。这一领域传统上一直是教育数据挖掘社区的职权范围，其中贝叶斯知识跟踪(BKT)是主要的计算方法[3]。对学生数据建模的深度学习方法被称为深度知识跟踪或DKT，当它出现在2015年12月的神经信息处理系统会议上时，引起了轰动，包括媒体询问(N.Heffernan，个人社区)和博客圈中对工作的描述(例如，[7])。皮耶希等人[22] 报告了在两个真实世界数据集（Assistments，可汗学院）和一个合成数据集上使用 DKT 比 BKT 的预测性能有显着改进，该数据集是在不针对 DKT 或 BKT 的假设下生成的。据报道，DKT 在 AUC（一种预测质量的衡量标准）方面比之前在 Assistments 基准上的最佳结果增加了 25%。

在本文中，我们探讨了 DKT 的成功。这种探索的一种方法可能是对 DKT 进行试验，删除模型的组件或修改输入数据以确定哪些模型组件和数据特征对 DKT 的性能至关重要。我们采用另一种方法，首先提出关于 DKT 能够利用但 BKT 不能利用的数据中的信号的假设。鉴于这些假设，我们建议对 BKT 进行扩展，为其提供额外的灵活性，并且我们评估增强的 BKT 是否可以达到与 DKT 相当的结果。这个过程不仅可以更好地理解 BKT 和 DKT 的不同之处，还可以帮助我们理解数据源中的结构和统计规律。

1.1 学生学习建模

我们关注的领域是电子辅导系统，它采用认知模型来跟踪和评估学生的知识。关于学生知道什么和不知道什么的概念允许辅导系统动态调整其反馈和指导，以优化学习的深度和效率。

最终，学习的衡量标准是学生能够应用所学技能的程度。因此，学生建模通常被表述为时间序列预测：给定学生之前尝试过的一系列练习以及学生在每个练习中的成功或失败，预测学生在新练习中的表现。形式上，数据由一组二进制随机变量组成，指示学生 s 是否在练习 t 上产生正确的响应，{ $X_{st}$ }。数据还包括练习标签{ $Y_{st}$ }，它表征了练习。辅助数据也被纳入模型，包括学生对提示的利用、响应时间和特定练习的特征以及学生对相关练习的特定历史[2, 30]。尽管此类数据改进了预测，但该领域的大部分研究都集中在主要衡量标准上——反馈结果是否正确——而明智的研究策略是根据原始数据确定最佳模型，然后确定如何合并辅助数据。

练习标签可能会索引特定练习，例如 3 + 4 与 2 + 6，或者它可能提供更一般的练习特征，例如单个数字加法。在后一种情况下，练习按获得解决方案必须应用的技能进行分组。虽然我们将在本文中使用术语skill，但其他人将skill称为knowledge component，并且 DKT 的作者也使用术语concept。无论如何，就我们的工作而言，重要的区别在于，一个标签表示特定的练习，另一个标签则表示进行练习所需的一般技能。我们将这两种类型的标签分别称为练习索引（exercise indexed）和技能索引（skill indexed）。

1.2 知识追踪

BKT模拟特定技能的表现，即在一系列练习中的表现，这些练习都利用了相同的技能。为每个技能创建单独的BKT实例化，并将学生的原始试验序列解析为特定于技能的子序列，这些子序列保留技能内练习的相对顺序，但丢弃不同技能之间的练习顺序关系。对于给定的技能σ，使用来自每个学生的数据{ $X_{st}|Y_{st}=σ$ }来训练BKT，其中保留了相对的试用顺序。因为对我们来说，区分技能中的绝对试验指数和相对试验指数是很重要的，所以我们用t表示前者，用i表示后者。

BKT基于要么全有要么全无的人类学习的理论[1]，该理论假设学生在需要某种技能 $K_{si}$ 第i个练习之后的知识状态是二进制的：如果技能已经掌握，则为1，否则为0。BKT被形式化为一个隐马尔科夫模型，从试验1 ... i，{ $X_{s1},X_{s2},...,X_{sI}$ 的观察反应序列中推断出能 $K_{si}$ BKT通常由四个参数指定：P( $K_{s0}$ =1)，学生在解决第一个习题之前已经掌握该技能的概率；P( $K_{s,i+1}=1|K_{si}=0$ )，从非掌握状态到掌握状态的转换概率；P $X_{si}=1|K_{si}=0$ )，在掌握技能之前正确猜测答案的概率；以及P( $X_{si}=0|K_{si}=1$ )，由于在掌握技能后出现失误而导致回答错误的概率。。由于BKT通常用于短时间间隔的建模实践，因此该模型假设没有遗忘，即K不能从1过渡到0。

BKT 是一种高度约束的结构化模型。它假设学生的知识状态是二元的，预测需要给定技能的练习的表现仅取决于学生的二元知识状态，并且与每个练习相关的技能是预先知道的。如果正确，这些假设允许模型做出强有力的推论。如果不正确，它们会限制模型的性能。确定模型假设是否正确的唯一方法是构建一个做出不同假设的替代模型，并确定该替代模型是否优于 BKT。 DKT 正是这种替代模型，其强大的性能引导我们审视 BKT 的局限性。然而，首先，我们简要描述 DKT。

DKT不是为每种技能构建单独的模型，而是联合建模所有技能。模型的输入是练习-表现对的完整序列，{ $(X_{s1},Y_{s1})...(X_{st},Y_{st})...(X_{sT},Y_{sT})$ }，一次呈现一个试验。如图 1 所示，DKT 是一个循环神经网络，它以 ( $(X_{st},Y_{st})$ ) 作为输入并为每个可能的练习标签预测 $X_{s,t+1}$ 。该模型根据测试练习 ( $Y_{s,t+1}$ ) 的实际与预测的 $Y_{s,t+1}$ 之间的匹配进行训练和评估。除了分别表示当前试验和下一次试验的输入层和输出层之外，网络还具有具有完全循环连接的隐藏层(即，每个隐藏单元连接回所有其他隐藏单元)。因此，隐藏层用于保留输入历史的相关方面，可以充分利用这些输入历史的相关方面来预测未来表现结果。网络的隐藏状态可以理解为体现了学生的知识状态。Piech等人[22]使用了一种特殊类型的隐藏单元，称为LSTM（长短期记忆）[10]，这很有趣，因为这些隐藏单元的行为非常类似于BKT潜在知识状态。简单地解释一下LSTM，每个隐藏单元的作用就像一个存储单元，可以容纳一些信息。输入中的事件或其他隐藏单位的状态会触发该单位的开启或关闭，但当没有特定触发时，该单位保留其状态，非常类似于BKT中的潜在状态是粘性的-一旦学习了一项技能，它就保持学习状态。DKT有200个LSTM隐藏单元--这是[22]中报告的模拟中使用的数量--和50个技能，DKT大约有250,000个自由参数(连接强度)。将这个数字与BKT中包含50种不同技能所需的200个免费参数进行对比。

figure 1.png

DKT的灵活性提高了数千倍，是一个非常通用的体系结构。可以在具有特定的受限连接强度集的DKT中实现类似于BKT的动态。然而，DKT显然有能力对BKT范围之外的学习动态进行编码。这种能力使DKT能够发现BKT遗漏的数据中的结构。

1.3 BKT在哪里有不足之处？

在这一部分中，我们描述了我们推测在学生表现数据中存在的四个规律。DKT足够灵活，有可能发现这些规律，但更受约束的BKT模型根本不是为了利用这些规律而精心设计的。在接下来的章节中，我们建议扩展BKT的方法来利用这些规律性，并进行模拟研究以确定增强的BKT是否达到与DKT相当的性能

1.3.1 近因效应

人类行为是由近因驱动的。例如，当个体重复执行选择任务时，可以通过最近刺激的指数衰减平均值来预测响应延迟[12]。直观地说，人们可能期望在学生表现中观察到近因效应。例如，考虑一个学生的时变参与度。如果参与度相对于解决练习的速度变化很慢，就会在不同时间段的表现上产生关联。如果一名学生在上次测试中表现不佳，因为他们分心了，那么他很可能在当前测试中表现不佳。我们使用Assistments数据集对新近情况进行了简单评估(稍后将描述该数据集的细节)。与[5]类似，我们建立了一个自回归模型，该模型将当前试验的性能预测为过去试验性能的指数加权平均，衰减半衰期约为5步。我们发现，这个单参数模型比经典的BKT模型对Assistments数据的拟合更可靠。（我们没有展示这个模拟的细节，因为我们将在下一节中评估这个想法的一个更严格的变体。我们在这里的目标是让读者相信，新近加权预测的概念可能有一些价值。）

与更远的事件相比，循环神经网络更容易受到序列中最近事件的影响[20]。因此，DKT 非常适合利用最近的性能进行预测。相比之下，基于 BKT 的生成模型假设，一旦学习了一项技能，性能将保持强劲，并且时间 t 的失误与 t + 1 的失误无关

1.3.2 情境化试验序列

关于练习多种技能的心理学文献表明，练习的顺序影响学习和保持(例如，[24，25])。例如，给定技能 A 和 B 各三个练习，以交错的顺序 $A_1-B_1-A_2-B_2-A_3-B_3$ 呈现练习相对于以块状顺序呈现练习 $A_1-A_2-A_3-B_1–B_2–B_3$ 产生更好的性能。（这种情况下的性能可以基于立即或延迟测试。）

因为DKT是按照学生接受练习的顺序来反馈整个练习序列的，所以它可以潜在地推断出练习顺序对学习的影响。相比之下，因为经典的BKT将练习按技能分开，只保留技能中练习的相对顺序，所以BKT的训练顺序是相同的，不管试验顺序是分块的还是交错的。

1.3.3 技能间相似性

呈现给学生的每个练习都有一个关联的标签。在 BKT 的典型应用中，以及 Piech 等人报告的三个模拟中的两个。 [22]——标签表示解决问题所需的技能。任何两个这样的技能，和，它们的相关程度可能会有所不同。相关性越强，人们就越期望在挖掘这两种技能的练习中表现出更高的相关性，这两种技能同时学习的可能性就越大。

DKT具有编码技能间相似性的能力。如果每个隐藏单元表示特定技能的学生知识状态，则隐藏到隐藏的连接可以重叠程度。在极端情况下，如果两种技能高度相似，则可以通过单个隐藏的知识状态来建模。相比之下，经典的BKT将每个技能视为独立的建模问题，因此无法发现或利用技能间的相似性。

正如 Piech 等人所证明的那样，DKT 具有额外的优势，即它可以适应没有技能标签的情况。如果每个标签只是简单地索引一个特定的练习，DKT 可以发现练习之间的相互依赖，就像它发现技能之间的相互依赖一样。相比之下，BKT 要求对练习标签进行技能索引。

1.3.4 个人能力差异

学生的能力各不相同，这反映在试验和技能的平均准确率上的个体差异。个体差异可能会以一种预测性的方式使用：无论解决练习所需的技能如何，学生在序列中早期试验的准确性可能会预测后来的试验的准确性。我们使用Assistments数据集对这一假设进行了简单的验证。在这个数据集中，学生一次学习一项技能，然后继续学习下一项技能。对于所有学生和n∈{1，...，N−1}，我们计算了关于前n项技能的所有试验的平均精度与关于技能n+1的所有试验的平均精度之间的相关性，其中N是学生学习的技能的数量。我们得到了0.39的相关系数：无论涉及到什么技能，在早期学习的技能上表现良好的学生往往在后来的技能上表现得更好。

DKT提供了学生的完整试验序列。它可以使用学生在试验t之前的平均准确度来预测试验t+1。由于BKT将每个技能与其他技能分开建模，因此它不具备估计学生平均准确度或总体能力所需的上下文信息。

2. 扩展BKT

在前一节中，我们描述了数据中似乎存在的四种规律，我们推测DKT可以利用这些规律，但经典的BKT模型不能利用它们。在本节中，我们将描述BKT的三种扩展，使BKT与DKT在这些规律方面保持一致。

2.1 遗忘

为了更好地捕捉新近效应，可以扩展BKT以允许忘记技能。遗忘对应于拟合BKT参数F≡P( $K_{s，i+1}=0|K_{si}=1$ )，即从知道状态转换到不知道一项技能的概率。在标准BKT中，F=0。

别忘了，一旦 BKT 推断出学生已经学会了，即使是长期表现不佳的试验也无法改变推断的知识状态。然而，随着遗忘，知识状态可以向任一方向转变，这使得模型对最近的试验更加敏感：一次不成功的试验表明不知道该技能，不管在运行之前是什么。遗忘对 BKT 来说并不是一个新概念，事实上，它被包含在作为二元知识状态概念基础的原始心理学理论中 [1]。然而，它通常没有被纳入 BKT。当它被包含在 BKT [23] 中时，其动机是模拟从一天到下一天的遗忘，而不是在更短的时间范围内发生遗忘。

结合遗忘不仅可以使BKT对最近的事件敏感，还可以使试验序列情境化。为了进行解释，考虑一个练习序列，如 $A_1-A_2-B_1-A_3-B_2-B_3-A_4$ ，其中标签是技能A和技能B的实例。普通BKT丢弃了给定技能两次练习之间的绝对试验次数，但通过遗忘，我们可以计算干预试验次数，并将每个试验视为遗忘发生的独立机会。因此， $A_1$ 和 $A_2$ 之间的遗忘概率为F，但 $A_2$ 和 $A_3$ 之间的遗忘几率为 $1− (1 − F)^2$ , $A_3$ 和 $A_4$ 之间为 $1− (1 − F)^3$ 。利用遗忘，BKT可以很容易地纳入一些关于绝对试验序列的信息，因此比经典的BKT更有可能对练习序列中的穿插试验敏感。

2.2 技能发现

为了对技能之间的交互进行建模，可以假设每个技能对其他技能的学习都有一定程度的影响，这与 DKT 中隐藏单元之间的连接不同。为了让 BKT 允许技能之间的这种交互，独立的 BKT 模型需要相互连接，使用诸如阶乘隐马尔可夫模型 [6] 之类的架构。作为这种有点复杂的方法的替代方案，我们探索了一种更简单的方案，其中不同的练习标签可以折叠在一起形成一个单一的技能。例如，考虑一个练习序列，如 $A_1-B_1-A_2-C_1-B_2-C_2-C_3$ 。如果技能A和B是高度相似或重叠的，以至于学习一个可以预测学习另一个，那么更明智的做法是将A和B归入一个技能序列，并在A和B的试验中训练一个BKT实例。无论练习标签是技能指数还是练习指数，都可以使用这种方法。（Piech 等人 [22] 用于激励 DKT 的数据集之一具有练习索引标签）。

我们最近提出了一种推理程序，自动发现准确建模给定数据集所需的认知技能[18]。（在 [8] 中独立提出了一个相关程序。）该方法将 BKT 与搜索练习标签的分区的技术结合起来，以同时（1）确定正确回答每个练习所需的技能，以及（2）为 a学生每项技能的动态知识状态。形式上，该技术将每个练习标签分配给一项潜在技能，以便学生对一系列相同技能练习的预期准确性根据 BKT 的练习单调提高。我们的技术并没有丢弃专家确定的技能，而是在基于专家提供的技能和加权的中餐厅流程 [11] 的运动技能分配上结合了非参数先验。

在上图中，我们的技术将A和B分组为一种技能，将C分组为另一种技能。这个过程就像技能(或练习)一样崩溃，产生了更符合BKT数据的结果。因此，该过程执行一种技能发现。

2.3 结合潜在的学生能力

为了解释学生能力的个体差异，我们对BKT[14，13]进行了扩展，使得失误和猜测的概率由从数据中推断的潜在能力参数来调节，这与项目反应理论[4]的精神非常相似。正如我们在[14]中所做的那样，我们假设能力较强的学生有较低的失误和较高的猜测概率。当模型呈现给新学生时，最初使用的是能力的后验预测分布，但随着观察到新学生的反应，学生能力的不确定性减少，对学生产生更好的预测。

3. 模拟

3.1 数据集

Piech等人[22]研究了三个数据集。其中一组数据来自可汗学院，尚未公开。尽管我们提出了要求，并且DKT论文的一位共同作者提出了请求，但我们未能获得汗学院数据科学团队的许可，无法使用数据集。我们调查了Piech等人的其他两个数据集，如下所示。

Assistments是一个智能辅导系统，对学生进行年级数学的教学和评估。2009-2010年的 "技能建设者 "数据集是一个大型的、标准的基准数据集，可以在网上搜索assistment-2009-2010-data。我们使用了Piech等人提供的训练/测试分割，并且按照Piech等人的做法，我们放弃了所有只有一次试验数据的学生。

SYNTHETIC是由Piech等人创建的合成数据集。对学习虚拟技能的虚拟学生进行建模。训练和测试集分别由2000名虚拟学生组成，他们从5项技能中抽取50个练习，进行相同的序列。假设试验t中的练习具有以 $$ 为特征的难度，并且需要指定的技能。练习由练习的标识而不是基础技能 $σ_t$ 标记。学生的能力（表示为）根据漂移扩散过程随时间变化，通常随着练习而增加。试验 t 的响应正确性是一个伯努利平局，概率由猜测校正的项目响应理论指定，难度和能力参数为和。该数据集对 BKT 具有挑战性，因为没有提供技能分配，必须从数据中推断出来。如果没有技能分配，BKT 必须与与单个技能相关的所有练习或与其自身技能相关的每个练习一起使用。这些假设中的任何一个都会错过数据中的重要结构。 Synthetic 是一个有趣的数据集，因为底层生成模型既不是 DKT 或 BKT 的完美匹配（即使我们已经描述了增强）。生成性模型假设知识状态不断变化，这一假设似乎是现实的。

我们在模拟中加入了两个额外的数据集。SPANISH是182名中学生的数据集，他们在15周的学期中练习了409个西班牙语练习(翻译和应用动词词缀等简单技能)，总共进行了578,726次练习[17]。STATICS来自一门大学级别的工程静力学课程，有189,297个试验和333名学生和1,223个练习[28]，可从PSLC DataShop网站[15]获得。

3.2 方法

我们评估了BKT的五个变种，每个变种都合并了上一节中描述的扩展的不同子集：对应于经典模型的基本版本和DKT在[22]中评估所依据的模型，我们将简称为BKT；包含遗忘的版本（BKT+F），包含技能发现的版本（BKT+S），包含潜在能力的版本（BKT+A），以及包含所有三个扩展的版本（BKT+FSA） .我们还使用 LSTM 循环单元构建了自己的 DKT 实现。（Piech 等人将 LSTM 版本描述为性能更好，但只发布了标准递归神经网络版本的代码。）我们验证了我们的实验产生的结果与[22]中关于ASSISTMENTS和SYNTHETIC的描述的结果相当。然后，我们还在SPANISH和STATICS上运行了模型。

对于ASSISTMENTS、SPANISH和STATICS，我们使用了单一的训练/测试拆分。ASSISTMENTS训练/测试拆分与 Piech 等人使用的相同。对于 Synthetic，我们使用了 Piech 等人提供的 20 个模拟集。和 20 次模拟的平均结果

在每个领域的测试数据集上对每个模型进行评估，并使用可识别性分数、ROC曲线下的面积或AUC来量化模型的性能。AUC的范围从0.5到1.0，前者反映的是没有能力区分正确和不正确的回答，后者反映的是完美的辨别能力。AUC的计算方法是：在所有技能范围内获得每个试验的测试集预测，然后使用完整的预测集形成ROC曲线。尽管Piech等人[22]没有描述他们用于计算DKT AUC的程序，但他们提供的代码实现了我们描述的程序，而不是明显的替代程序，其中ROC曲线是基于每项技能计算的，然后平均以获得总体AUC。

3.3 结果

图2显示了我们在四个数据集上对BKT的五个变体进行比较的结果。我们从左到右遍历数据集。

在辅助方面，经典的BKT获得了0.73的AUC，好于Piech等人报道的BKT的0.67。我们不确定为什么分数不匹配，尽管0.67接近我们获得的AUC分数，如果我们将所有练习视为与单一技能相关，或者如果我们基于每个技能计算AUC然后再计算平均值。BKT+F获得0.83的AUC，没有Piech等人报告的DKT的0.86值好。考察了BKT的各种增强，AUC通过纳入遗忘和纳入潜在的学生能力而得到提高。我们发现有点令人费解的是，BKT+FSA中体现的两种增强的组合并不比BKT+F或BKT+A更好，因为这两种增强利用了数据的不同属性：学生的能力有助于预测从一种技能到下一种技能的转移，而遗忘有助于在一种技能中进行预测。

figure 2.png

总结BKT和DKT的比较，在[22]中报告的性能差异的31.6%似乎是由于在计算BKT的AUC时使用了有偏见的程序。如果扩大BKT以允许遗忘，那么报告的另外50.6%的性能差异就消失了。如果我们允许技能发现算法与索引单个练习的练习标签一起操作，而不是使用索引与每个练习相关联的技能的标签来操作，我们可以进一步改进BKT。使用练习指数标签，BKT+S和BKT+FSA都获得了0.90的AUC，超过了DKT。然而，考虑到DKT执行技能发现的能力，如果它在被允许利用练习索引标签时也获得了类似水平的性能，我们也不会感到惊讶。

转向SYNTHETIC，经典BKT获得的AUC为0.62，再次显著优于Piech等人报告的0.54。在我们的模拟中，我们将每个练习视为具有不同的技能标签，因此BKT只学习特定练习的平均性能水平。（因为练习是以固定顺序呈现的，所以练习身份和试验编号混淆。因为随着试验在合成数据中的推进，性能趋于改善，BKT能够学习这种关系。）在这里，Piech等人可能将所有练习视为与单一技能相关，或者他们使用了有偏见的程序计算AUC，这两种解释均与报告的AUC 0.54一致。

关于 BKT 的增强，添加学生能力 (BKT+A) 改进了对 Synthetic 的预测，这是可以理解的，因为生成过程模拟了能力随时间缓慢变化的学生。添加遗忘（BKT+F）并没有帮助，这与假设知识水平平均随着实践而增加的生成过程一致；学生模拟中没有系统性遗忘。该模拟的关键是技能归纳：BKT+S 和 BKT+FSA 的 AUC 为 0.80，优于 [22] 中报道的 DKT 的 0.75。

在 Statics 上，每个 BKT 扩展都比经典 BKT 有所改进，尽管改进的幅度很小。完整模型 BKT+FSA 获得了 0.75 的 AUC，我们的 DKT 实现获得了几乎相同的 AUC 0.76。在SPANISH上，BKT 扩展获得的好处很少。完整模型 BKT+FSA 获得了 0.846 的 AUC，DKT 获得了几乎相同的 AUC 0.836。这两组结果表明，至少对于某些数据集，经典 BKT 没有明显的缺陷。但是，我们注意到，如果考虑使用由练习而不是技能索引的练习标签的算法，则可以提高 BKT 模型的准确性。例如，使用 Statics，使用练习索引标签执行技能发现，[17] 获得 0.81 的 AUC，比我们在这里报告的基于技能索引标签的 BKT+S 得分 0.73 好得多。

总而言之，增强的BKT在四个数据集上的平均表现似乎与DKT一样好。增强型BKT在SYNTHETIC数据集方面比DKT高20.0%(0.05 AUC单位)，在SPANISH上高3.0%(0.01 AUC单位)。增强的BKT在ASSISTMENTS方面比DKT低8.3%(0.03 AUC单位)，在STATICS方面比DKT低3.5%(0.01 AUC单位)。这些百分比是基于衡量的AUC的差异，这考虑到0.5 AUC 表示没有区分性这一事实。

4.讨论

我们在本文中的目标是调查深度知识跟踪相对于贝叶斯知识跟踪令人印象深刻的预测优势的基础。我们在[22]中发现了一些证据，表明不同的程序可能被用来评估DKT和BKT，导致了对BKT的偏见。当我们重复[22]中报告的BKT模拟时，我们获得了显著更好的性能：Assistments上的AUC为0.73比0.67，而SYNTHETIC上的AUC为0.62对比0.54。

然而，即使消除了偏差，DKT也比BKT获得了真正的性能提升。为了理解这些收益的基础，我们假设了数据中的各种形式的规律性，而BKT无法利用这些规律性。我们提出了对BKT的增强，以允许它利用这些规则，我们发现，在测试的四个数据集上，扩展的BKT获得了与DKT没有区别的平均性能水平。我们探索的增强并不是新的；它们以前已经在文献中提出和评估过。它们包括遗忘[23]、潜在的学生能力[14、13、21]和技能诱导[17、8]。

我们观察到，对BKT的不同增强对于不同的数据集很重要。对于Assistments来说，纳入遗忘是关键；遗忘可以让BKT捕捉到最近的影响。对于SYNTHETIC来说，结合技能发现产生了巨大的收益，当练习-技能图谱未知时，人们会预料到这一点。对于Statics来说，纳入潜在的学生能力相对来说是最有益的；这些能力使模型能够梳理出学生的能力和练习或技能的内在难度。在这三项增强中，遗忘和学生能力的实现在计算上并不昂贵，而技能发现则为推理增加了额外的计算复杂性。

当考虑到我们为使BKT与DKT平起平坐而投入的努力时，DKT的优雅是显而易见的。DKT不要求其创建者分析领域并确定数据中的结构来源。相比之下，我们增强BKT的方法需要一些领域的专业知识，需要对BKT的限制进行深思熟虑的分析，以及针对每个限制的独特解决方案。DKT是一种通用的递归神经网络模型[10]，它没有专门用于模拟学习和遗忘、发现技能或推断学生能力的结构。这种灵活性使DKT在各种数据集上具有健壮性，而几乎不需要对域进行事先分析。虽然训练循环网络是计算密集型的，但有工具可以利用图形处理单元(GPU)的并行处理能力，这意味着DKT可以扩展到大型数据集。经典的BKT适合起来并不昂贵，尽管我们评估的变体--特别是结合了技能发现的模型--需要计算密集型MCMC方法，在并行化方面有一系列不同的问题。

DKT的优势是有代价的：可解释性。DKT是一个包含数万个几乎无法解释的参数的海量神经网络模型。虽然DKT的创建者不必预先投入太多时间来分析他们的领域，但他们确实必须投入实际的努力来理解模型实际学到了什么。我们建议的BKT扩展实现了与DKT类似的预测性能，同时仍可解释：模型参数(健忘率、学生能力等)。在心理上是有意义的。当技能发现被纳入BKT时，结果很明显：将练习划分为技能。从DKT中读出这样的划分是具有挑战性的，并且只是DKT中知识的近似表示。

最后，我们回到论文标题中提出的问题：知识追踪有多深？深度学习指的是发现表征。我们的结果表明，表征发现并不是DKT成功的核心。我们基于这样一个事实：我们对BKT的增强使其在不需要任何种类的子符号表示发现的情况下达到了DKT的性能水平。表示发现在图像或语音分类等感知领域中显然是关键的。但教育和学生学习的领域是高层次和抽象的。模型的输入和输出元素具有心理学意义。学习者的相关心理状态具有一定的心理基础。练习和技能的特征可以--至少在一定程度上--象征性地表达出来。

我们没有将DKT的成功归因于表示发现，而是将DKT的成功归因于它在直接捕获输入和输出中存在的统计规律方面的灵活性和一般性。只要有足够的数据来约束模型，DKT就比经典的BKT更强大。BKT出现在一个更简单的时代，在这个时代，数据和计算资源是宝贵的。DKT揭示了大数据时代放松这些约束的价值。但尽管深度学习广受欢迎，但有许多方法可以放松约束，构建更强大的模型，而不是创建一个黑匣子预测设备，该设备包含大量相互关联的连接和参数，几乎无法解释。

5. 致谢

本研究得到了NSF拨款SES-1461535、SBE-0542013和SMA-1041755的支持。

6.参考资料

论文地址：arxiv.org/pdf/1604.02…

《How Deep is Knowledge Tracing》2016 论文翻译