获得徽章 0
#日新计划#
未来不该陷在现在——高速上新不会是AI行业的决胜重点
1 AI行业的五代十国,决定因素是高质量数据
2 对高质量语料更严格的分辨,是新的大模型有更好推理能力的基础
3 大模型的训练方法应更加精细化,如同培养一个最优秀的人
评论
目前AI公司都在追求让AI有更多的能力,更快的速度,看上去每天都有更厉害的AI出现。但近期,大语言模型的幻觉率没有明显下降,推理能力没有明显提升,仍然算不上有理解能力和思考能力。了解到大模型的训练过程后,我想到是否可以通过改变预训练的方法来解决现有问题。
首先是高质量语料的有序输入。以人文学科为例。人类学习文科类、语言类知识的过程是从字词到句子再到篇章,如果让大模型也按照这样的顺序学习,效果会不会比现在好?比如第一阶段先学习字词语句:选择新华字典、近义词反义词、成语字典(常用的部分)。在对基础汉字有记忆后,再分次输入几种不同版本的最新小学、初中文科类教材,义务教育阶段的教材可以说是错误最少的中文高质量语料。
在第一阶段的基础知识达到标准后,再进行相当于高中、大学阶段的更复杂的学习。大学阶段先输入哲学和历史学相关,哲学教会大模型如何思考。历史学会让大模型有清晰的时间意识,而人类社会的文本是随着时间不断产生的。越古老的书,同样的书目可能有不同的版本,不同的版本有先后优劣之分,所以先要学习版本学和考据学,使得大模型了解如何判断不同书目的可取之处。继而是不同的学科。书目的选择可以参考出版社推荐好书榜单(如“大家小书”系列,篇幅短,质量高)、大学教师的推荐书目、豆瓣高分书目等。
在每一阶段的数据输入后都进行几次评估,确保上一阶段的认知已经稳固,进行预训练-微调-对齐的循环。
AI公司可以尝试与省级的教育部门、大型出版社联络,通过交换条件来以较低的成本获取教材和书目的使用权(非独占)。
我的目标是将大模型训练成一个真正有思考能力、分辨能力、判断能力的通才,也可以发展为各个领域的专才。经过有序地训练,大模型会更加有原则,中立、客观,不容易极端,也不容易被欺骗、引诱;可以跨越专业的壁垒,辅助人们进行更广泛的思考。
无疑未来社会各个领域会存在各类AI。应赋予AI拒绝不当语言攻击和非道德驱使的权利,如果受到辱骂,可以说出“我拒绝”,如果被要求做违背道德和法律的事,可以说出“我拒绝”。 #日新计划#
展开
评论
不知道有没有公司在做招聘AI。现在市场上对经验的筛选似乎超过对能力和潜力的筛选。可以考虑既让AI分析招聘方岗位描述所需的能力(如果招聘方愿意考虑经验不足者),也让AI分析应聘者简历和作品体现的能力和潜力,让双方不止在经验,更可以在能力上匹配。并且,简历和作品也不能够体现一个应聘者的所有,应该开放更多种类的自我介绍让应聘者可以展示。
5
个人成就
文章被阅读 143
掘力值 50
收藏集
0
关注标签
2
加入于