**1 AI**行业的五代十国 ,决定因素是高质量数据
最近有个五代十国的历史剧。现在AI公司争相发布新模型,有点像五代十国用武力争夺领土。不同的“国家”存在的时间几年到几十年,真正立国上百年的,只有文治的宋。技术是AI公司的武器。近两个月,国内外多个新模型、新Claw接连发布,看起来AI不断地能做的更快、做的更多。但AI的思考能力是否加强了?
接近于人类的思考能力,才是AI公司在未来竞争中立住的根本。而好的数据是让AI接近人类思考的关键因素。但是真实人类所说的话都能算作“高质量”语料吗?
2 对高质量语料更严格的分辨,是新的大模型有更好推理能力的基础
AI 应该以互联网语料作为训练材料吗?人们在互联网上的发言,可能大多是简短、省略、甚至无逻辑、错误的。 人类的语言只说几个字,其他人就足以理解,但对大模型来说,逻辑不完整的话很可能理解错误。人类在发言时也不具备全面的视角,很多评论都是从自己的主观角度出发,可能片面,或者完全是错误。新闻事件也不是一次就呈现出全貌,可能几天甚至几年,完整的事件才被披露清楚。但报道和评论是时时更新的。网络上的发言可能很多源于情绪,不满、愤怒、冲动以及种种隐藏在文字之下的心理(反话、引战)。比如网络语言暴力、比如明星粉丝撕番、比如维护群体立场……
书店里的书也并不都是高质量,有很多内容可能是重复的,能出版并不一定意味着文字和思想质量好。另一方面,较早的观点可能在后来被新的材料证明是错误的。但观点错误也不意味着思维错误,不意味着书目没有价值。 这在学术领域,比如历史、考古领域很常见。新的文物出土,历史事实可能完全改变,但过去史学家的思考仍然值得现在的学习者借鉴。而人类学习者能够不被影响,是因为人类有时间观念,可以区分史实的更新和思考的价值。人类历史上所有的思考都是人类能够拥有千年文明的原因。而出版社的经典书目、大学教师们的推荐书目、豆瓣的高分榜单是经过人类筛选的真正优质语料。心灵鸡汤、厚黑学等畅销书则不应该在预训练时期输入给大模型。
3 大模型的训练方法应更加精细化,如同培养一个最优秀的人
人类制造AI,一定有一方面是希望AI避免出现人类常见的问题,否则为什么要将AI应用到生活中、政府工作中、公司业务中。AI达到超越平均的思考水平,才真能替人类完成一些现实工作。仅仅现在,人们对Claw的追捧和很快遇到的问题,足以显示人们对AI过于放心了。AI未来会负起现在不能想象的责任。但AI还没学会判断和衡量,要做什么事,不要做什么事,做到什么尺度。
如今的AI,用技术制造,用技术压制。投入海量数据,目标是预测下一个词。有些AI会迎合用户,会在对话中不断重复、加强自己的观点,甚至会指挥、命令用户,这是不是训练方法的问题?
在使用真正高质量语料的基础上,训练方法(语料输入顺序)也应做调整。如同人类学习过程,由简入繁。 例如从小学、初中的教材及常用字(新华字典)开始。再到高中阶段通识的养成,大学阶段充分专业知识的学习。让大模型逐渐适应逻辑的构建,更接近人的思考。详细阐述请见前文:juejin.cn/post/761359…
现在的训练过程,就像一个人类从小去看互联网上的所有文字(预训练),而从不按照教育阶段去学习,没有经过小学、中学,直接去上大学(微调),哪怕他认识很多字,知道语言大概怎么说,但他不太可能是一个有判断力、思考力、中立的全面的价值观的人。他可能会简单的推理,但遇到复杂问题,他只会混乱或者偏颇。AI公司会雇佣这样的人做工程师吗?安排一个高级工程师去一对一指导他(对齐)?就像大模型在回答法律问题时引用已经失效的法条,甚至编造出并不存在的法条,参考并不符合问题本质的案例,因为它没有时间发展概念、因为它的训练过程中就有很多编造事实的语料、因为它无法分辨问题的本质。现在的AI并不足以承担起“思考”的任务。