教育领域 出题 的两个大成本
关于这个问题,其实目前很多教育教辅行业都在进行探索,因为对于每一本教材或者教辅资料来说,主要有两个重要的成本: 第一个就是出题:这是个很大的成本,他们要么雇佣专职教师甚至是聘请特级教师帮忙出题,要么是从一些拥有海量题库的站点去买题。 第二个就是审题:这些企业拿到花费高额成本换来的试题后,还需要内部有专门的审核人员去对试题做审核,甚至做试题标注,打上对应的知识点或者难度等级等等标签。
大模型的下一步一定是像人类一样学会使用工具
现在有了大模型后,这些传统教育企业也开始活跃了,他们希望大模型能在出题方面帮助他们节约大量的成本。但对于这个捷径,我的结论是 “目前不太可行”。 因为这是一个系统化的工程,而大模型目前更多是聚焦在对人类语言的学习上,它可以通过整个网络的现有资料,学会人类在各个领域的知识,并且甚至达到和人类一样的对话水准。但你别忘了,人类在语言不成体系的远古时期,也可以用一些像现在动物的交流方式来完成协作,人类最伟大的进步还是学会了使用工具。
单靠大模型出题可能没戏
所以你要让模型帮助你出题,出高质量的试题,像物理、数学、化学等学科都有大量的带图题,这些试题的生成可不是一个语言模型能完成的,甚至也不是现在所谓的多模态模型能完成的,它需要专业的绘图能力。也就是说模型在完全理解你的出题意图之后,也得有趁手的工具才能帮你完成一道试题的制作。
我们现在自己去使用作图工具绘出复杂的图形都不见得容易,更何况让模型来使用这种复杂工具。而且单单使用作图工具也不见得就能完成一道试题图像的绘制,可能需要很多复杂工具,包括数学公式的解析,化学符号的表示等等。
所以这是一项非常大的系统性工程,绝不是单靠大模型这个利器就能实现的。
从准确度来分析,可能没戏
假设我们的模型已经能完成一些带图题的生成。现在我的问题是如何来审核这些题目是否达标。毕竟教育是个相当严肃的事情,对准确度的要求绝对是100%的。
试想一下我们如果让模型24小时不间断地进行出题,一年能生成多少道试题..... 如果准确度非常高那还好,假设准确度能达到70%,那就意味着有30%的题目需要审核人员进行剔除。 一方面是24小时不间断出题的算力成本较高,另一方面题目审核成本也会变得非常高。
所以在出题领域,3-5年内大模型充其量可能都只是个辅助工具而已。
从试题量
如果模型的出题准确率能达到95%以上,那意味着 作业帮当前宣称的19亿题库..... 在模型面前基本上就没什么价值了... 所以 头部教培教辅行业 会因此焦虑么?
......
上面是我的一些想法,大家有什么不同意见或者更好的想法,可以一起探讨一下