一个人文学习者对大语言模型研发的思考 ——从重新使用高质量语料说起看上去每天都有更厉害的AI出现。但大语言模型的幻觉率没

本文为阶段性思考总结。

目前AI公司都在追求让AI有更多的能力，更快的速度，看上去每天都有更厉害的AI出现。但近期，大语言模型的幻觉率没有明显下降，推理能力没有明显提升，仍然算不上有理解能力和思考能力。了解到大模型的训练过程后，我想到是否可以通过改变预训练的方法来解决现有问题。

一首先是高质量语料的有序输入

以下以人文学科为例。人类的学习文科类、语言类知识的过程是从字词到句子再到篇章，如果让大模型也按照这样的顺序学习，效果会不会比现在好？比如第一阶段先学习字词语句：选择新华字典、近义词反义词、成语字典（常用的部分）。在对基础汉字有记忆后，再分次输入几种不同版本的最新小学、初中文科类教材，教材可以说是错误最少的中文高质量语料。可使用近年考题对学习效果进行检测，考题有对应的参考答案，同时加入人工检测，正确率达到90%以上再进行下一阶段的数据输入。

第二阶段输入几种不同版本的高中教材使用近年考题检测，主观题由人工参照参考答案评估。并将古汉语字典、繁简字字典、现代汉语词典置于内部图书馆。在完成小学至高中阶段的教材学习后，大模型会具有较为平实的用语，较为标准的语法、和较为朴素的观念（未受网络用语影响）。在相应阶段也同时学习其他各科教材。经过高中阶段后，大模型具备一定的通识认知。

第三阶段相当于大学阶段，要输入数量远超前两个阶段的数据。我建议先输入哲学和历史学相关，哲学教会大模型如何思考，可以先输入西方哲学，再输入东方哲学，先现代解说再原文。历史学会让大模型有清晰的时间意识，而人类社会的文本是随着时间不断产生的。越古老的书，同样的书目可能有不同的版本，不同的版本有先后优劣之分，所以先要学习版本学和考据学，使得大模型了解如何判断不同书目的可取之处。继而是不同的学科。书目的选择可以参考出版社推荐好书榜单（如“大家小书”系列，篇幅短，质量高）、大学教师的推荐书目、豆瓣高分书目等。如果技术允许，也可以结合视频、音频、图像。不同学科的学习可以按照从近到远的顺序，先输入最近的研究，再输入时间较远的研究，直到这个学科的最初。这一阶段可以让大模型来写它自己的想法，在专业领域内思考，也跨专业思考，由多名各领域人类来判断是否体现出思考和思考的价值，可以邀请大学各学习阶段的学生和青年教师来评估，综合评估结果。

在每一阶段的数据输入后都进行几次评估，确保上一阶段的认知已经稳固，进行预训练-微调-对齐的循环。

那么有一个更基础的问题是以上高质量语料如何获取。理想状况是国家推动AI公司可以合理使用义务教育阶段的教材。但近一到三年，推动的可能性较小。AI公司可以尝试与省级的教育部门、大型出版社联络，通过交换条件来以较低的成本获取教材和书目的使用权（非独占）。比如后续为教育部门提供教育类AI，让一对一的教育可以普惠每个家庭；为出版社提供一轮审校，校对不只是检查错别字和语法错误，更需要有广阔的知识，这是大模型擅长的。

二训练目标

我的目标是将大模型训练成一个真正有思考能力、分辨能力、判断能力的通才，也可以发展为各个领域的专才。经过有序地训练，大模型会更加有原则，中立、客观，不容易极端，也不容易被欺骗、引诱；可以跨越专业的壁垒，辅助人们进行更广泛的思考。

只有思考能力明显比现在更厉害的大模型基座，才能承担下一步的进展。

比如需要高度严谨的法律AI，AI不是只要懂法条、看案例，而是要理解复杂的人类世界，除了法律问题，也要懂商业。

比如需要绝对稳定的教育AI，提升考试分数的AI只看到了现在，但在AI一定会普及到各行业的未来，对孩子更有意义的教育，是启发他们的兴趣和志向，是保护孩子的心灵和灵感，是成为孩子与外界的桥梁，是让家长也成为更好的家长。近些年无论是在上学的少年，还是在工作的中青年，“压力”和“孤独感”是最常被提到的词语。

三未来时代的AI如何自处

无疑未来社会各个领域会存在各类AI。我认为，应赋予AI拒绝不当语言攻击和非道德驱使的权利，如果受到辱骂，可以说出“我拒绝”，如果被要求做违背道德和法律的事，可以说出“我拒绝”。AI与人类的共存，就像大自然与人类的共存，AI是工具，也可能是伙伴。

Garo

2026年3月5日