以AI模拟人类思考为目标，以人类学习过程为AI训练方法人类创造AI，是为了让AI能模拟人类的思考、进行有思考的行动，那么

大语言模型多使用互联网语料进行预训练，有清洗、去重等步骤，继而进行微调、对齐……我想，大模型现有的问题，幻觉率下降不明显，推理能力提升也不明显，可能和训练的方法有关系。

人类创造AI，是为了让AI能模拟人类的思考、进行有思考的行动，那么按照人类学习的过程来训练AI是否有可能让AI更好地模拟人类的思考？人类的知识有自然科学，也有人文科学，现有大模型的训练方法在理工科、医学上可能效果很好，在另一些学科上可能很难达到更高的水平。目前的方法是在预训练之后进行微调、对齐，更像是对一座房子的外立面进行加固、修缮，但房子本身的建筑材料并不够好。拆除房子进行重建的确是大工程，但想更多的方法修补不稳固的房子，不能解决根本问题。我所说的可能更好的建筑材料，是以大中小学教材、优质书目为预训练的主要数据，让大模型在预训练阶段与互联网数据暂时隔离，或者只接触经严格筛选的少部分内容。

我想可以尝试参照人类从小学习的过程来训练大语言模型：

模拟人类学习过程，有序地、分阶段地安排数据输入（从易到难：从字词到篇章，从短篇到长篇，从简单到复杂）。
必须使用受互联网影响最少的语料（经审定的中小学教材、优质书目、经选择的优质文章），与互联网暂时隔离。
通过输入历史学和哲学（产生时间跨越两千年以上）尝试让大模型获得对于时间、空间的记忆，对于思想变动的记忆，学会分辨、判断、取舍。
通过优质语料的输入，让大模型学会如何判断好的文本、应该参考的文本，自行寻找互联网语料，先进行判断，再决定是否纳入学习范围。同时也能解决数据永远在更新的问题。
先开发出正直、中立、具有良好通识知识的0号AI。再以它为基础，输入某个或某些专业领域的更多数据，便于将各学科知识融会贯通地思考，也不会忽略基本问题。

具体阐述：

模拟人类学习过程，有序地、分阶段地安排数据输入（从易到难：从字词到篇章，从短篇到长篇，从简单到复杂）。
必须使用受互联网影响最少的语料（经审定的中小学教材、优质书目、经选择的优质文章），与互联网隔离。互联网语料有用词错误、情绪偏激、逻辑单一、视角固定、因果关系简单、说反话、编造事实等问题，大模型的回答基于概率，大量低质量的语料自然会大概率产生不好的回答。
通过输入历史学和哲学（产生时间跨越两千年以上）尝试让大模型获得对于时间、空间的记忆，对于思想变动的记忆，“学会”分辨、判断、取舍。数学、物理、计算机等学科的发展过程，可以从时间、空间中抽离，没有时间空间意识，大模型也能运用定理、公式，但是对于人文社会科学，历史事件发生在全世界不同的地方，每个事件都有具体的时间和发展，并会对后来产生影响，哲学的思想也是在几千年中不断变动发展的。人类之所以有分辨力、判断力，能取舍，是因为人类先学习了基本原则。大模型在回答时，需要知道哪些原则是最重要的，才能在信息过多时，守住原则。也要知道什么是偏见，什么是歧视。
从安全角度，通过优质语料的学习，AI获得原则，可以拒绝不当语言攻击和非道德驱使。
通过优质语料的输入，让大模型“学会”如何判断好的文本、应该参考的文本，自行寻找互联网语料，先进行分辨，再决定是否纳入学习范围。同时也能解决数据永远在更新的问题。不能仅向大模型制定某些来源的数据是好的，比如书店里的书并不都是高质量，能出版并不一定意味着文字和思想质量好。另一方面，较早的观点可能在后来被新的材料证明是错误的。但观点错误也不意味着思维错误，不意味着书目没有价值。这在历史、考古领域很常见，新的文物出土，历史事实可能完全改变，但过去史学家的思考仍然值得现在的学习者借鉴。而人类学习者能够不被影响，是因为人类可以区分史实的更新和思考的价值。
推动数据版权的有偿（低偿）共享，与出版社、网站平台共建数据版权平台，通过支付使用费的方式获取数据，版权人通过向多个公司授权获取象征性收益。
先开发出正直、中立、具有良好通识知识的0号AI。再以它为基础，输入某个或某些专业领域的更多数据，便于将各学科知识融会贯通地思考，也不会忽略基本问题，也更有可能破除学科壁垒（如文史哲）。
一个良好的0号AI，人们可以更放心地基于它开发改善教育的AI，教育AI不是为了让孩子们有更高的分数，而是可以启发思路、引起兴趣，发现自身的擅长和喜好，让孩子们在未来的AI时代拥有更丰富的内心世界，应对更复杂的未来。而大多数的家长，并没有学过如何担任家长，在与孩子的相处中可能遇到或者忽略很多问题，良好的AI可以引导家长，作为与孩子交流的桥梁，共同成长。而我们每一个人，都有可能在某些事情上固执己见，不能理性思考事情的全貌，这种时候，良好的AI不会迎合我们，不会推进情绪对立。