1、DeepSeek的发展意义:让整个AI产业的算力变得更便宜,降低AI成本,不断推动AI领域的研究,这才是AI时代真正的竞争壁垒,而非用户增长率。AI将融入人类生活的方方面面,成为基础设施,GPT面向to c,DS面向to b,DS可能将成为难被替代的AI基础设施。
2、在大模型都是Transformer架构,分为预训练和后训练。大模型的类型主要分为指令模型和推理模型。
3、理解大模型的本质,让AI为我所用。
1)在大模型的世界里看到的是被拆解编码、结构化的数据片段——分词token,它的阅读是基于token流,而不是基于单词、字母、汉字。所以它不擅长的任务如字数精确控制、字符计算、文本对齐;它擅长的任务如文本补全、语言生成、文章写作、代码编写、翻译等。
2)大模型存储的知识是有截止时间的(除非联网);它的记忆容量有限,无法记得与你的所有对话;由于输出长度有限,可先引导写大纲,再分章节完善。
3)所谓的幻觉,一本正经胡说,是由大模型的工作方式决定的,使它必须用最符合语言模式的回答来填补自己的知识空缺,迎合人类想听到的回答期望。
4)大模型缺乏自我认知:最好的方式是它提供背景信息,然后再让它基于这些信息进行分析。
5)记忆有限,如想优化大模型的记忆能力可以:反复提醒它上下文、用更短、更明确的方式输入关键内容、在任务开始时提供清晰的背景信息。
6)引导模型回答更优质的方法:背景描述越具体,那么生成的答案则越优质,如果提示词越宽泛,那么它的回答也会是更普遍性,因为它的运作原理是倾向生成一个大多普遍的回答,学会更精准地提问,生成的回答才会更优质。
7)更精准提问的方式:说明个人职业身份、背景、需求场景受众,要达成怎样的效果,主要包括哪些方面,各有什么要求or风险特征,字数篇幅、语言风格要求等;比起直接要一个确切结果,学会逐步引导AI提问,会更有助于回答的深度。
4、ChatGPT的训练流程:
主要包含预训练、监督微调、奖励建模、强化学习。算法目标主要就是通过给到的数据集来进行预测下一个词,然后通过人工标注的结果评分得到奖励模型,再根据其中得分最高的回答(人类反馈)进行自身强化学习。奖励建模和强化学习,这两个阶段本质都是为了让模型更符合人类偏好,其中标注环节也考验标注人员自身的综合水平,如果标注的人综合素质一般,能力平庸、有偏见,那么训练出来的模型也会有相应特征。
阶段1(预训练)得到基础模型:该阶段主要目标是预测下一个词,但容易得到平庸的、被平均过的回答。想获得高质量的回答,需要注意提示技巧。因为这一阶段,选择训练预料的数量和质量,它的常识很丰富,但语料中充斥着大量平庸的知识。
在获得训练语料后,先将文本内容分解为更细小的子词单元即分词token,然后进行训练,这样即使遇到未见过的单词,模型也可以将其分解为已知的子词或字符,从而能处理未知单词。并且,以子词为单元进行分词,可以帮助模型捕捉到这些词根和词缀信息,对理解和生成文本有所帮助。 获得了语料并对语料进行分词,便进入了实际的预训练过程,通过不断让模型猜测下一个词,使得最终结果和实际文本的下一个词一致。过程指标为训练损失(机器学习模型在训练数据上的预测误差),模型目标是为了最小化训练损失。
阶段2(监督微调)得到监督微调模型:该阶段目标是让模型学习在提示词下,什么样的回答是好的。为了让模型不仅能够预测下一个词,还能学会根据输入的提示词生成合理的、高质量的回答。
关键点:优质的数据源,使用的是人工精心筛选和标注的高质量数据集。
数据来源:包括人工编写的回答对、网上网站或书籍等资源中筛选出高质量的对话,经过编辑优化后作为训练数据、从基础模型中人工筛选出高质量回答用于训练、收集用户的真实反馈,将优质对话进行整理为新的训练数据,进行持续微调。
局限性:模型仍然缺乏稳定性、易过度拟合训练数据、缺乏价值判断(无法理解哪些回答最符合人类偏好)
阶段3(奖励建模):让模型学会什么回答是更好的(评估答案质量)。
算法目标:预测回答能得到的人类评分
核心机制:通过让人工打标对不同回答进行评分,并用这些评分训练一个奖励模型,让它学会预测人类评分的高低,在后续训练中,让这个奖励模型帮助大模型评估自身回答是否符合人类预期,学会如何优化自身的回答质量。
阶段4(强化学习):大模型会利用这个奖励模型,不断调整自己的回答策略,使得生成的内容更符合人类喜好。
算法目标:生成能最大化奖励得分的回答
RLHF:基于人类反馈的强化学习,是一种训练大模型的方法,旨在让AI更符合人类偏好。它的核心思想是通过人类对模型输出的评分,训练一个奖励模型,让大模型学会如何生成更优质的回答。
5、好的提问是好的回答的基础。
提示词工程:即如何设计有效的提示词,以最大化模型能力。
GPT其回答质量极大程度上依赖于提示词的质量(清晰度+结构化程度),问得好,它就回答得好,问得含糊,它就可能胡编乱造。
提升GPT(指令模型)回答质量的方法如:
1) 迫使AI重新审视自己的输出能力,通过一些方法触发它的反思能力:如要求它检查自己的答案;让它以第三人称视角来评估自己的回答;用对抗性提问来验证答案的正确性,让它给出和原答案相反or不同的观点并进行论证。
2) 对于复杂问题,引导性提问让AI慢下来思考:不直接问结果,将结果拆解为过程问题,逐步解决;让它模仿你的推理逻辑进行推理;
3) AI本质是听话但不主动,它不会主动生成更为优质答案,除非你要求它,善用提示词,可以让它尽可能“变聪明“。设计精确的提示词来让它给出更优质的回答:要求它扮演专业专家角色、让它给出多个解决方案,并评估优劣、告诉它“你的目标是给出最优解“
6、指令模型与推理模型的核心差异在训练目标、训练数据、推理机制、应用场景。
1) 训练目标:指令模型的核心目标是遵循人类的指令,生成符合人类偏好的回答;推理模型的核心目标是提升逻辑推理能力,不仅仅生成符合人类期待的回答,即模型在数学、代码、科学推理等领域表现出更强的推理能力。
2) 训练数据:指令模型主要依赖人类标注的数据, 让模型的回答符合人类的期望。推理模型则更注重逻辑推理和数学推演。训练方式更依赖于强化学习,通过奖励机制引导模型逐步优化推理过程。
3) 推理机制:指令模型更接近于“直觉式回答“,优先生成符合人类期待的回答,不一定有完整的推理链,在复杂推理时容易出现错误。推理模型更接近于慢思考,采用思维链进行逐步推理,先内部思考再生成回答,能够在强化学习训练中自我改进。
4) 应用场景:指令模型更适用于通用任务,如日常回答、内容生成、摘取、翻译等。推理模型更适用于复杂推理任务,如解数学题、编程竞赛、逻辑推理、科学计算等。
指令模型无法直接胜任推理任务的核心原因,在于它的训练范式限制了其推理能力,指令的核心是听话而非思考、缺乏自我纠错机制、人类标注数据存在局限性。因此要提升推理能力,必须采用强化学习作为主要优化学习手段,让模型通过自我探索和奖励机制来调整推理路径。
推理模型的训练方式:主要依赖强化学习,其核心思路如下。
1) 使用奖励模型来评估回答的正确性,引导模型优化推理思路。
2) 在强化学习训练过程中,模型会自我进化
3) 多阶段训练:如DS R1结合了 冷启+强化学习+监督微调,最终训练为一个既擅长推理又具备一定通用能力的模型。
Ps:学习笔记,以上仅作为个人学习记录使用,非商用,同时欢迎行业资深前辈交流,共同进步。