2024-09-16 ,由Enuma, Inc. 和韩国大学创建ES-KT-24,多模态知识追踪(KT)数据集。包括教育游戏视频、合成生成的问题文本和详细的游戏日志。涵盖数学、英语、印度尼西亚语和马来西亚语科目。用于智能辅导系统中,特别是在教育游戏环境中。
一、目前遇到问题和挑战:
1、多模态数据的缺乏:
- 传统的 KT 数据集通常只包含文本或数值序列,缺乏游戏环境中的多模态数据(如视频、音频)。
2、游戏化学习数据的稀缺:
- 教育游戏作为学习工具越来越受欢迎,但基于游戏的学习环境中的知识追踪( KT) 数据集非常有限。
3、学习模式的复杂性:
- 教育游戏提供了比传统学习材料更复杂的互动和结果,需要更高级的模型来理解和预测学生的学习过程。
数据集地址:ES-KT-24|教育技术数据集|学习分析数据集
二、我们来看一下ES-KT-24数据集:
ES-KT-24 由一个多模态数据集组成,包括游戏视频、合成问题文本、知识概念 (KC) 文本和从教育游戏环境中收集的游戏日志。
该数据集涵盖四个主要学科:印度尼西亚语、马来西亚语 、数学 和英语。每个科目进一步分为反映不同教育重点的特定类别。这些特定类别被用作知识概念 (KC)。
数据集包括 28 个不同的 KC 和 182 个独特的内容问题,允许对不同的学习维度进行丰富的分析。
数据集包括游戏视频、合成问题文本、知识概念 (KC) 文本和从教育游戏环境中收集的游戏日志。
教育游戏数据的处理和转换流程,用于生成知识追踪(Knowledge Tracing, KT)
1、游戏玩耍与录制:
首先,研究人员手动玩教育游戏,并对游戏过程进行屏幕录制。
2、预处理:
录制的视频需要进行预处理,以便进一步分析。
3、文本转换:
使用 OpenAI GPT-4o(一个视频到文本的转换工具,由 OpenAI 在 2024 年提供)来处理视频中的视觉内容。
使用 Whisper(一个语音到文本的转换工具,由 Radford et al. 在 2023 年提供)来转录游戏中的音频。
4、生成合成文本数据:
将预处理后的视频转换为文本数据,包括问题文本(Question Texts)和知识点文本(KC Texts)。
5、问题序列和知识点序列:
将文本数据转换为问题序列(Question Sequences)和知识点序列(KC Sequences),这些序列是知识追踪任务所需的结构化数据。
6、探索性数据分析(EDA): 对学生的问题解决历史和游戏日志进行探索性数据分析,以了解数据特征和模式。
7、知识追踪序列数据: 将数据转换为适合知识追踪任务的序列数据。
8、数据集发布: 最后,将文本数据和序列数据作为配对数据集发布,供研究者使用。
三、展望一下ES-KT-24数据集的应用:
以前设计教育游戏,那可真是个慢工出细活的过程。设计师得先有个点子,比如“咱们做个教乘法的游戏吧!”然后,他们得围坐一起,头脑风暴,想出各种关卡和问题。这就像是在白纸上画画,一切都得从零开始。
开发团队拿到设计图,就得开始敲代码,把设计师的想法变成屏幕上能玩的东西。这又是一个大工程。然后测试团队得玩,找bug,看哪里不够好。如果测试团队说“这儿太难了,小孩搞不定”,设计师就得回去改,开发团队再跟着改代码,这来来回回的,费时费力。
有了通过这个ES-KT-24数据集训练的智能系统,
咱们就像是有了一本“游戏设计百科全书”。系统里头有成千上万个游戏的视频、文本,就像是有了一大堆成功案例可以参考。
设计师只需要给这台机器说:“嘿,给我设计个教乘法的游戏。”机器就开始工作了,它从数据集里找灵感,用那些视频啊,文本啊,学习怎么把乘法教得又好玩又好懂。
没多久,机器就吐出一套全新的游戏设计。这游戏不是人设计的,是机器根据数据集里成千上万个成功的例子自己生成的。然后咱们把这游戏放到模拟器里,让孩子们玩。
孩子们玩得开心,机器就在后台偷偷学习:哪个关卡孩子玩得最多,哪个问题孩子答得最好。然后机器就自动调整,比如“这个乘法问题太简单了,我得弄难点儿”,或者“这个游戏音乐太吵了,我得舒缓一些”。
有了这个智能系统,咱们就像是开了挂,游戏设计变得又快又好,孩子们也能更快地玩上新游戏,学习效果更好。
知识小科普:
什么是知识追踪 (KT) ?
知识追踪是一项基本任务,目的在根据学生与学习材料的互动情况,对学生随时间推移的知识状态进行建模。
这些交互通常包括查看问题、尝试解决方案和在在线学习系统中选择答案。KT 模型的目标是使用这些序列来预测学生未来在看不见的项目上的表现。多年来,已经开发了各种 KT 模型,从贝叶斯知识追踪 (BKT)等传统方法到最近的基于深度学习的方法,如深度知识追踪 (DKT)。