大语言模型多使用互联网语料进行预训练,有清洗、去重等步骤,继而进行微调、对齐……我想,大模型现有的问题,幻觉率下降不明显,推理能力提升也不明显,可能和训练的方法有关系。
人类创造AI,是为了让AI能模拟人类的思考、进行有思考的行动,那么按照人类学习的过程来训练AI是否有可能让AI更好地模拟人类的思考?人类的知识有自然科学,也有人文科学,现有大模型的训练方法在理工科、医学上可能效果很好,在另一些学科上可能很难达到更高的水平。目前的方法是在预训练之后进行微调、对齐,更像是对一座房子的外立面进行加固、修缮,但房子本身的建筑材料并不够好。拆除房子进行重建的确是大工程,但想更多的方法修补不稳固的房子,不能解决根本问题。我所说的可能更好的建筑材料,是以大中小学教材、优质书目为预训练的主要数据,让大模型在预训练阶段与互联网数据暂时隔离,或者只接触经严格筛选的少部分内容。
我想可以尝试参照人类从小学习的过程来训练大语言模型:
-
模拟人类学习过程,有序地、分阶段地安排数据输入(从易到难:从字词到篇章,从短篇到长篇,从简单到复杂)。
-
必须使用受互联网影响最少的语料(经审定的中小学教材、优质书目、经选择的优质文章),与互联网暂时隔离。
-
通过输入历史学和哲学(产生时间跨越两千年以上)尝试让大模型获得对于时间、空间的记忆,对于思想变动的记忆,学会分辨、判断、取舍。
-
通过优质语料的输入,让大模型学会如何判断好的文本、应该参考的文本,自行寻找互联网语料,先进行判断,再决定是否纳入学习范围。同时也能解决数据永远在更新的问题。
-
先开发出正直、中立、具有良好通识知识的0号AI。再以它为基础,输入某个或某些专业领域的更多数据,便于将各学科知识融会贯通地思考,也不会忽略基本问题。
具体阐述:
-
模拟人类学习过程,有序地、分阶段地安排数据输入(从易到难:从字词到篇章,从短篇到长篇,从简单到复杂)。
-
必须使用受互联网影响最少的语料(经审定的中小学教材、优质书目、经选择的优质文章),与互联网隔离。互联网语料有用词错误、情绪偏激、逻辑单一、视角固定、因果关系简单、说反话、编造事实等问题,大模型的回答基于概率,大量低质量的语料自然会大概率产生不好的回答。
-
通过输入历史学和哲学(产生时间跨越两千年以上)尝试让大模型获得对于时间、空间的记忆,对于思想变动的记忆,“学会”分辨、判断、取舍。数学、物理、计算机等学科的发展过程,可以从时间、空间中抽离,没有时间空间意识,大模型也能运用定理、公式,但是对于人文社会科学,历史事件发生在全世界不同的地方,每个事件都有具体的时间和发展,并会对后来产生影响,哲学的思想也是在几千年中不断变动发展的。人类之所以有分辨力、判断力,能取舍,是因为人类先学习了基本原则。大模型在回答时,需要知道哪些原则是最重要的,才能在信息过多时,守住原则。也要知道什么是偏见,什么是歧视。
-
从安全角度,通过优质语料的学习,AI获得原则,可以拒绝不当语言攻击和非道德驱使。
-
通过优质语料的输入,让大模型“学会”如何判断好的文本、应该参考的文本,自行寻找互联网语料,先进行分辨,再决定是否纳入学习范围。同时也能解决数据永远在更新的问题。不能仅向大模型制定某些来源的数据是好的,比如书店里的书并不都是高质量,能出版并不一定意味着文字和思想质量好。另一方面,较早的观点可能在后来被新的材料证明是错误的。但观点错误也不意味着思维错误,不意味着书目没有价值。这在历史、考古领域很常见,新的文物出土,历史事实可能完全改变,但过去史学家的思考仍然值得现在的学习者借鉴。而人类学习者能够不被影响,是因为人类可以区分史实的更新和思考的价值。
-
推动数据版权的有偿(低偿)共享,与出版社、网站平台共建数据版权平台,通过支付使用费的方式获取数据,版权人通过向多个公司授权获取象征性收益。
-
先开发出正直、中立、具有良好通识知识的0号AI。再以它为基础,输入某个或某些专业领域的更多数据,便于将各学科知识融会贯通地思考,也不会忽略基本问题,也更有可能破除学科壁垒(如文史哲)。
-
一个良好的0号AI,人们可以更放心地基于它开发改善教育的AI,教育AI不是为了让孩子们有更高的分数,而是可以启发思路、引起兴趣,发现自身的擅长和喜好,让孩子们在未来的AI时代拥有更丰富的内心世界,应对更复杂的未来。而大多数的家长,并没有学过如何担任家长,在与孩子的相处中可能遇到或者忽略很多问题,良好的AI可以引导家长,作为与孩子交流的桥梁,共同成长。而我们每一个人,都有可能在某些事情上固执己见,不能理性思考事情的全貌,这种时候,良好的AI不会迎合我们,不会推进情绪对立。