摘要:
针对当前大模型的高幻觉率和高质量真实数据面临枯竭的现状,参照人类教育路径:小学至大学、基础到复杂,构想了训练大模型的方法。各省市的中小学教材是最基础、最准确的高质量真实文本,同时也有大量的考题来测试学习结果。在学习完高中阶段的通识知识后,可首先训练大模型学习逻辑学、版本学、考据学,让大模型理解逻辑判断、同一个书目不同版本的优劣和正误。接着,可以将各专业学科的优质书目(教授推荐书目、出版社推荐书目、年度好书、优质品牌书目、豆瓣高分书目等)输入给大模型。最后,再将真实世界的数据抛给大模型去理解。
我不是AI领域的从业者,也没有相关学习经验,我从自己对AI的使用过程中和近三周对AI领域的了解中产生了一个参照人类教育过程进行大模型训练的想法。
正文:
2月2日参加了中国人工智能产业发展联盟(AIIA)安全治理委员会召开的AIIA安全治理委员会年度会议,听到了各位专家学者分享的技术进展、产业实践与前沿洞察。其中提到当前大语言模型的幻觉率(包括忠实性幻觉和事实性幻觉)均处于较高的水位,达到10%以上。忠实性幻觉为模型生成的内容与用户指令或输入的上下文不一致,事实性幻觉为模型生成的内容与真实世界的客观事实不符。智源研究院于1月8日发布的2026十大AI技术趋势提到高质量真实数据在2026年面临枯竭风险,合成数据正在成为战略性替代方案。
我不是相关从业者,我从2026年1月起开始集中关注AI领域的发展现状,近几个月在对不同大模型的使用中也确实体会到了目前存在的种种问题,同时也产生了一个构想,针对现有的问题,是否可以通过像人类学习一样训练AI来改善。
从一个中国学生的教育路径来看,对应到大模型的训练,可以分层进行预训练,比如语文最先输入偏旁部首和拼音(结合多模态),然后是新华字典,成语词典、近义词反义词词典等,再参考各省市小学教学计划,从低年级到高年级层层输入简短段落、简单诗歌到较长篇的文字。同时也可以输入语音和图像。同理,英语可以先输入音标、语法、英汉词典,从小段落到长段落的课文。用考试题目去测试训练结果,当然考试题目不是唯一的标准。每科达成训练目标后,继续再跟进初高中课程,达成基础教育的有序训练。小学到高中,各省市都有最准确的教材,这是最适于给大模型进行预训练的高质量真实数据。
完成这些训练后可以首先输入相当于大学学习的逻辑学、版本学、考据学等相关知识,让大模型理解逻辑判断、同一个书目不同版本的优劣和正误。人类世界的文本,即便是最好的出版社出版的书目,也会有错别字、考据错误、引用错误等问题,而人类之所以可以发现,是因为人类经过了上述基础训练。训练方案可以从教学计划得来,数据可以从标准教材得来,评估可以从教学目标和历年题目得来。相当于大学阶段的其他的各学科书目,教材及经典书目(出版社推荐书目、大学课堂推荐书目、年度好书、优质品牌书目、豆瓣高分书目等等等)可尝试从各大出版社、图书馆、电子阅读平台得来。最后,再把真实世界存在的复杂、无序、混乱、简陋、错误输入给大模型。
我们知道,真实人类的用语也会有错误和省略、记忆会有差错和确实、情绪会有激动和失望,尤其现在人类的用语很多是由网络用语产生,这些用语对于人类的小孩儿都已经产生不好的影响,大模型在最初的训练阶段更应该将这些用语隔绝在外,基础训练既是认知积累也是设定原则。不同的产业对AI应用有不同的设想,大脑的建设应是共同的目标,对于能灵活指导小学生功课的AI,对于能照顾人的机器人,为了人类能放心地把孩子和被照顾者交给这些人工智能,我认为我的以上设想是有参考价值的。以上设想仅是框架。
2026年2月4日初稿
补充:
我在三周前开始集中关注人工智能领域,看了一些关于术语的解释、行业现状及趋势,但还不足以用术语来直接写出文章,上面的文章里一定有些专业上的错误,想写这篇是源于一个想法,最初想用我自己学习的方式来一步步教它学习,首先投入各学科最好的教材,让它知道最基本的正确,知道各学科的推理逻辑,在掌握基本逻辑之后,让它可以自己通过推理判断数据的质量,自行剔除劣质材料,继续通过优质材料继续增强。
举个例子,法学的思维培养过程之一是首先学习法理和法条(规则),然后阅读每年全国各地发布的典型案例和优秀裁判文书(优质数据),但是量不够大,而裁判文书的优劣不能仅以审级来论,这时大模型可依据学习到的规则和优质数据判断海量的裁判文书中哪些是更符合规则的,从而避免因审级较低遗漏优质裁判文书,也避免盲目相信高审级的文书全部都是高质量。
而历史学文本中记录着千万年的丰富世界,每一个时代每一个国家和地区都有着不同的特色,广阔的历史世界一定对大模型的认知有超强的丰富作用。同样历史学文本也有优劣之分,评价标准比起法学更加复杂。可以说历史学文本的优劣涉及对文字的审美、涉及开放的态度。
2026年2月7日
Garo