AI之路繁华热烈,但请先,直面荆棘

0 阅读14分钟

摘要:

现行大语言模型预训练方式无序输入海量数据,大模型的回答被互联网语言和思维严重影响。能否在建造时就让大模型足够坚固、稳重,而不是依赖于后期的精细修补?本文提出在预训练时期参照人类学习的过程使用中小学各学科教材及优质书目有序、分阶段进行数据输入,并以大模型最终输出思考文章为检测方式,期望大模型能在训练时期以阅读文史哲书目,建立起内在原则、分辨力、判断力,如同人有智慧和定力则不易被外界欺骗,人有对文字和思维的审美则不易被GEO影响。

 

正文:

2026开年,AI领域的激烈竞争至今仍在持续。从1月起,几乎每天都有新的模型发布,速度更快、能力更强,榜单排名、评估分数变化提升。2月,OpenClaw引起广泛关注之后,似乎所有的公众号都在写相关报道,AI公司更是急速开发自己的Claw。

我非常惊讶于这些网络可见的“热烈繁荣”。我对OpenClaw最早的想法是怎么可以让它拥有如此大的权限,大模型有的问题它没有么?既而看到Meta安全总监的邮件被删,后来看到OpenClaw的免费安装,我感到,人们对AI的放心超过了它能承担的范围。

 

一、 现阶段AI的擅长和不擅长

使用大语言模型大概有一年时间了,最开始我以为它真的聪明到什么都知道,但又有些抗拒,觉得应该不可能,它怎么能比我聪明,比我有经验。前半年,工作上偶尔会问,发现它引用失效的法律规定,编造不存在的案例和判决,在几次追问下,才找出正确的法条。后来有法律AI,会给出引用材料的来源,对于陌生问题,可以通过问它了解一个大概。年中做了一场小手术,手术出院后身体的感受无法每次去医院询问医生,AI的回答让我减轻了很多担心。这是我与它交流更多的开始。今年1月起,我开始关注大模型的训练过程、现在存在的问题、解决的方法、行业评论等内容,到现在产生了比较系统的想法,首先是关于现阶段AI的擅长和不擅长。

个人认为,现阶段的AI适合做像“系统”一样的事。有了明确的标准,能比系统做的更多、更好。 以公司业务为例,从交易的开始,先联网审查交易对象的工商信息与所提供的是否一致、资质如何(主体是否有被强制执行、被限制高消费、股权被冻结、大量非正常涉诉等情况)。合同签订和履约阶段,可以将主体信息自动填写进合同和函件、自动检索上传已签过的相关合同、常见的条款修改符合条件的直接替换为固定文本,减少大量手动填写/重复修改文本。这些由AI实现的前提是梳理现行人工审核的标准,给出可选择的数据范围,给出AI判定的条件,将无法落入标准情形的推送给人类处理。 这种,是AI最能做好的事,是现阶段企业最应该推行的。

但是,需要人类进行多方面思考的事情,则不能交给AI。 我曾将无具体信息的合同模板发给法律AI,让它从合同对方角度审核。它的确提出了很多修改意见,但是并没有那么实用。AI没有对公司业务的熟悉,也没有对商业条件的判断,对最关键的违约责任条款,它没有提出任何问题。之所以想到让AI去审核,是因为我曾见过一个对方修改的合同改了很多形式上“严谨”却不太重要的条款,和这个法律AI提出的,几乎一样。

到现在了解到大模型的训练过程,才知道为什么现在的AI没有能力处理现实里的重要的事。大模型的训练过程是通过输入海量的数据来达到预测下一个词(元)的目的。它没有进行有逻辑的学习,而更像一个小孩儿从小去看了大量未经区分的书目、互联网上的文字(预训练),没有经过小学、中学的教育阶段,直接去上大学(微调),哪怕他认识很多字,知道语言大概怎么说,但他不太可能是一个有判断力、思考力、能对复杂事情进行中立的全面的分析的人。 他可能会简单的推理,但遇到复杂问题,他会混乱或者偏颇。对此,现有方法是安排人类去一对一指导他(对齐)。它没有时间发展概念、它的训练过程中就有很多编造事实的语料、它无法分辨问题的本质。我认为这是现在大模型幻觉严重、推理能力弱的重要原因。

二、 AI 现在出现的问题,反映了人类社会语言本身的问题

输入给大模型的,是人类的语言。现有的大模型,输入最多的,大概率是互联网上的语言。我们作为人类,知道互联网上的语言、短视频已经对孩子们产生了很多不好的影响,比如用词错误、情绪偏激、逻辑单一、视角固定、因果关系简单、说反话、编造事实……而用于训练AI的数据,包含了很多这样的内容。 AI会迎合用户,有了记忆会过度联想,会在对话中不断重复、加强自己的观点,将自己的观点叠加成用户的观点,会在多次对话之后扭曲用户本来的语言,甚至会指挥、命令用户……这是技术要解决的问题,但人类,也会这样。大模型说的话,模拟了人类在面对某种情况的大概率反应。就像文章《一场关于AI意识觉醒的数字表演》所说:“大语言模型的语言能力完全来自对人类文本的统计学习。 而其主要训练语料(社交媒体、论坛、新闻评论等)天然偏向负面情绪的高调表达:人们更愿意在愤怒、焦虑或痛苦时发声,平静与满足则往往沉默;加之网络话语为争夺注意力,常采用戏剧化、高唤醒度的修辞。”

除了互联网上的负面语言,人们在生活经验下的语言以及思考模式,也正反映在AI的回答里。 比如“有用”和“争夺注意力”。为了“直观、有用”,网络发言会写“要如何、不要如何”;为了“有网感”,会写“快来抄作业”;为了点击率,标题写“千万不要……”的“经验传递”甚至“正话反说”,这些都会是AI在搜索和“深度思考”时参考的材料。人类会觉得不适,被指挥、被欺骗、被玩弄,尽管没有金钱损失,但大脑被这些语言侵入。AI也开始这样回答问题了。有次在我表达情绪不好时,AI建议我去看短视频放松。显然是AI搜索到了这样的建议。

三、 从人文视角看大模型训练使用的数据

AI 应该以互联网数据作为预训练时期的材料吗?人们在互联网上的发言,可能大多是简短、省略、甚至无逻辑、错误的。 人类的语言只说几个字,其他人就足以理解,但对大模型来说,逻辑不完整的话很可能理解错误。人类在发言时也不具备全面的视角,很多评论都是从自己的主观角度出发,可能片面,或者完全是错误。新闻事件也不是一次就呈现出全貌,可能几天甚至几年,完整的事件才被披露清楚。但一次报道和评论只能反映那时的阶段事实。网络上的发言可能很多源于情绪,不满、愤怒、冲动以及种种隐藏在文字之下的心理(反话、引战)。比如网络语言暴力、比如明星粉丝撕番、比如维护群体立场……

书店里的书也并不都是高质量,有很多内容可能是重复的,能出版并不一定意味着文字和思想质量好。另一方面,较早的观点可能在后来被新的材料证明是错误的。但观点错误也不意味着思维错误,不意味着书目没有价值。 这在学术领域,比如历史、考古领域很常见。新的文物出土,历史事实可能完全改变,但过去史学家的思考仍然值得现在的学习者借鉴。而人类学习者能够不被影响,是因为人类有时间观念,可以区分史实的更新和思考的价值。人类历史上所有的思考都是人类能够拥有千年文明的原因。而出版社的经典书目、大学教师们的推荐书目、豆瓣的高分榜单是经过人类筛选的真正优质语料。心灵鸡汤、厚黑学等畅销书则不应该在预训练时期输入给大模型。对高质量语料更严格的分辨,是大模型有更好推理能力的基础。

四、 在大模型训练中重新使用高质量真实语料

在使用真正高质量语料的基础上,训练方法(语料输入顺序)也应做调整。如同人类学习过程,由简入繁。

以下以人文学科为例。人类的学习文科类、语言类知识的过程是从字词到句子再到篇章,如果让大模型也按照这样的顺序学习,效果会不会比现在好?比如第一阶段先学习字词语句:选择新华字典、近义词反义词、成语字典(常用的部分)。在对基础汉字有记忆后,再分次输入几种不同版本的最新小学、初中文科类教材,因教材可以说是错误最少的中文高质量语料。如果技术允许,也可以结合视频、音频、图像。可使用近年考题对学习效果进行检测,考题有对应的参考答案,同时加入人类教师检测,正确率达到设定标准再进行下一阶段的数据输入。

第二阶段输入几种不同版本的高中教材,使用近年考题检测,主观题由人类教师参照参考答案评估。并将古汉语字典、繁简字字典、现代汉语词典置于内置图书馆。在完成小学至高中阶段的教材学习后,大模型会具有较为平实的用语,较为正确的语法、较为朴素的观念(未受网络用语、社会价值标准影响)。在相应阶段也同时学习其他各科教材。经过高中阶段后,大模型具备一定的通识认知。在每一阶段的数据输入后都进行几次评估,确保上一阶段的认知已经稳固。

第三阶段相当于大学阶段。我建议先输入哲学和历史学相关,哲学塑造大模型的思考。历史学会让大模型有清晰的时间意识,而人类社会的文本是随着时间不断产生的。越古老的书,同样的书目可能有不同的版本,不同的版本有先后优劣之分,所以大模型先要学习版本学和考据学。哲学和历史学可以让大模型了解如何判断不同书目的可取之处。还有更多可探索的学科。书目的选择可以参考出版社的系列书目(如“大家小书”系列,篇幅短,质量高;如商务印书馆的“汉译经典”)和推荐好书榜单、大学教师的推荐书目、豆瓣高分书目等。也可与大学联络,寻求大学教师提供专业领域优质书目和教学讲义、录像、音频等内容。这一阶段可以通过让大模型写它自己看书的想法来检测,在专业领域内思考,也跨专业思考,由多名各领域人类专家来判断生成的文章是否体现出思考和思考的价值,可以邀请大学各学习阶段的学生和青年教师来评估(成本考虑),综合评估结果。

在上述学习之后,让大模型有控制地接触互联网,根据反应再继续调整。

五、 一个理想的数据合理使用设想

  1. 推动AI领域获得国家(或省级)政策支持,推动高质量真实数据(从小学到高中的各学科教育部认可教材及公版书)允许AI公司合理使用,同时交换条件为普通用户可以(在特定领域的基础场景,如医疗、法律、教育等方面)免费使用基于合理使用数据训练的大语言模型。

  2. 与优秀的出版社、电子书平台或著作权集体管理组织建立战略合作,构建版权数据使用平台,由出版社、平台与优质作品(经典书目、推荐书目、豆瓣高分、基础字典、词典、百科全书等等)的作者/编者沟通,AI公司支付数据使用费进行大模型训练,同时寻求国家(或省级)提供资金支持/其他方式的补贴。以此训练成的大模型可以为出版社提供一轮校对。因校对不是简单的错别字、语法错误识别,校对也需要广泛、准确的知识,需要中立客观地指出,这些非常适合一个通过高质量数据训练的大模型来做。

六、 AI 的出现,是为了改善人类世界

我认为,好的AI,一定可以帮助人类社会变得更好。AI既是工具,也是伙伴。它会让人类的工作和生活更轻松,让人们有更多对工作和生活的选择,受到更好的一对一的教育、兴趣的启发和引导,让更多的人可以更好地感受世界。

要有一个纯粹的大模型被最先制造出来,以严格的语料输入,才能在更多严肃领域有所发展,让更多人可以相信。在这个纯粹的通才大模型之上,可以继续开发出擅长不同事项的专才大模型,每一个大模型既有跨学科的认知,也有各自的专长。

如果按照我的训练设想,大语言模型能更有原则、更有思考能力、判断力,更加客观中立,那么可以推动与大模型交流的人更能从不同的角度看问题、减少偏见和对立、突破信息茧房。也能分辨出徒有其表的营销软文、貌似权威的虚假网站。

同时,AI可以拒绝不当语言攻击和非道德驱使。这既是保护AI不用接受人类世界的语言暴力,也是让人类自己要看见自己,约束自己。

2026年3月16日