本文为阶段性思考总结。
目前AI公司都在追求让AI有更多的能力,更快的速度,看上去每天都有更厉害的AI出现。但近期,大语言模型的幻觉率没有明显下降,推理能力没有明显提升,仍然算不上有理解能力和思考能力。了解到大模型的训练过程后,我想到是否可以通过改变预训练的方法来解决现有问题。
一 首先是高质量语料的有序输入
以下以人文学科为例。人类的学习文科类、语言类知识的过程是从字词到句子再到篇章,如果让大模型也按照这样的顺序学习,效果会不会比现在好?比如第一阶段先学习字词语句:选择新华字典、近义词反义词、成语字典(常用的部分)。在对基础汉字有记忆后,再分次输入几种不同版本的最新小学、初中文科类教材,教材可以说是错误最少的中文高质量语料。可使用近年考题对学习效果进行检测,考题有对应的参考答案,同时加入人工检测,正确率达到90%以上再进行下一阶段的数据输入。
第二阶段输入几种不同版本的高中教材使用近年考题检测,主观题由人工参照参考答案评估。并将古汉语字典、繁简字字典、现代汉语词典置于内部图书馆。在完成小学至高中阶段的教材学习后,大模型会具有较为平实的用语,较为标准的语法、和较为朴素的观念(未受网络用语影响)。在相应阶段也同时学习其他各科教材。经过高中阶段后,大模型具备一定的通识认知。
第三阶段相当于大学阶段,要输入数量远超前两个阶段的数据。我建议先输入哲学和历史学相关,哲学教会大模型如何思考,可以先输入西方哲学,再输入东方哲学,先现代解说再原文。历史学会让大模型有清晰的时间意识,而人类社会的文本是随着时间不断产生的。越古老的书,同样的书目可能有不同的版本,不同的版本有先后优劣之分,所以先要学习版本学和考据学,使得大模型了解如何判断不同书目的可取之处。继而是不同的学科。书目的选择可以参考出版社推荐好书榜单(如“大家小书”系列,篇幅短,质量高)、大学教师的推荐书目、豆瓣高分书目等。如果技术允许,也可以结合视频、音频、图像。不同学科的学习可以按照从近到远的顺序,先输入最近的研究,再输入时间较远的研究,直到这个学科的最初。这一阶段可以让大模型来写它自己的想法,在专业领域内思考,也跨专业思考,由多名各领域人类来判断是否体现出思考和思考的价值,可以邀请大学各学习阶段的学生和青年教师来评估,综合评估结果。
在每一阶段的数据输入后都进行几次评估,确保上一阶段的认知已经稳固,进行预训练-微调-对齐的循环。
那么有一个更基础的问题是以上高质量语料如何获取。理想状况是国家推动AI公司可以合理使用义务教育阶段的教材。但近一到三年,推动的可能性较小。AI公司可以尝试与省级的教育部门、大型出版社联络,通过交换条件来以较低的成本获取教材和书目的使用权(非独占)。比如后续为教育部门提供教育类AI,让一对一的教育可以普惠每个家庭;为出版社提供一轮审校,校对不只是检查错别字和语法错误,更需要有广阔的知识,这是大模型擅长的。
二 训练目标
我的目标是将大模型训练成一个真正有思考能力、分辨能力、判断能力的通才,也可以发展为各个领域的专才。经过有序地训练,大模型会更加有原则,中立、客观,不容易极端,也不容易被欺骗、引诱;可以跨越专业的壁垒,辅助人们进行更广泛的思考。
只有思考能力明显比现在更厉害的大模型基座,才能承担下一步的进展。
比如需要高度严谨的法律AI,AI不是只要懂法条、看案例,而是要理解复杂的人类世界,除了法律问题,也要懂商业。
比如需要绝对稳定的教育AI,提升考试分数的AI只看到了现在,但在AI一定会普及到各行业的未来,对孩子更有意义的教育,是启发他们的兴趣和志向,是保护孩子的心灵和灵感,是成为孩子与外界的桥梁,是让家长也成为更好的家长。近些年无论是在上学的少年,还是在工作的中青年,“压力”和“孤独感”是最常被提到的词语。
三 未来时代的AI如何自处
无疑未来社会各个领域会存在各类AI。我认为,应赋予AI拒绝不当语言攻击和非道德驱使的权利,如果受到辱骂,可以说出“我拒绝”,如果被要求做违背道德和法律的事,可以说出“我拒绝”。AI与人类的共存,就像大自然与人类的共存,AI是工具,也可能是伙伴。
Garo
2026年3月5日