本章内容包括:
- 为什么你可能需要微调语言模型
- 产品经理在微调过程中的角色
- 创建微调数据
- 领域微调、监督微调和指令微调
在前两章中,你学习了提示工程(prompt engineering)和检索增强生成(Retrieval-Augmented Generation,简称 RAG)——这两种在推理阶段为语言模型(LM)提供专业知识的强大技术。然而,如果你的应用需要达到专家级别的语言模型表现,这些技术很快就会遇到瓶颈。提示工程就像在咨询一个拥有扎实通识知识、能聊许多话题但在高度专业或细微领域表现不足的高中毕业生;而 RAG 则好比给这位同学一本百科全书,他们可以给出更专业的回答,但深入挖掘后,你会发现他们在术语、推理和整体理解上仍有缺陷。因此,Alex 观察到用户使用量急剧下降,因为用户对反复调整和完善模型输出感到越来越沮丧。
微调为 Alex 提供了一种强有力的方式来扭转这一趋势,能够交付一致且高质量的结果,且几乎不需要后续编辑。它不是依赖外部提示或检索机制,而是直接将专业知识注入模型的神经网络结构(见图 8.1)。其结果是,模型表现得像一个领域专家——就像一个不仅深刻掌握知识,还熟悉专业术语和整体表达风格的大学毕业生。该模型表现出提示工程和 RAG 临时增强无法达到的深度和精准度。此外,微调还可以用于使模型执行特定任务,如分类和指令执行。
图8.1 微调算法以基础语言模型(LM)和特定的微调数据作为输入;输出是一个新语言模型,该模型已经内化了微调数据中的知识。
本章向你介绍语言模型微调的艺术,内容故意简明扼要。微调引入了许多新的技术挑战,这些最好交由你的工程团队处理。作为产品经理,你的主要职责是明确目标,确保训练数据符合用户需求,并监督微调模型的持续优化与评估。图8.2展示了微调的生命周期。
图8.2 微调生命周期。在这里,产品管理的任务主要涉及任务定义、语言模型选择、微调数据的创建以及评估。
在下一节中,我们将首先聆听 Alex 和 Tom 的一次后续访谈,这次访谈引导 Alex 将微调作为下一步开发方向。随后,我们将探讨产品管理在三种主要微调类型中的工作:领域微调、监督微调和指令微调。虽然这三种场景下的微调在概念上非常相似,但技术实现——包括模型选择、微调数据的创建和评估——可能因具体情况而异。
8.1 发现微调的机会
微调是 AI 开发过程中一项高级且资源密集的步骤。它需要工程技术、基础设施和 GPU 支持,以及大量的实验和优化时间。下面我们来探讨微调最能发挥价值、值得投资的机会和场景。
8.1.1 Alex 的客户访谈
在将 RAG 增强的应用发布给设计合作伙伴一个月后,Alex 进入了新一轮的客户访谈。在与 Tom 的对话中,他逐渐发现了新版本存在的一些问题:
Alex: 嗨,Tom!感谢你抽时间接受采访。我想跟进一下,我们已经把 RAG 系统整合进你的内容创作流程了。效果怎么样?
Tom: 嗨,Alex。确实是一个很大的进步。我们现在能调用内部数据,比如案例研究和客户洞察,节省了时间,也保证内容更贴合受众需求。但随着使用越来越多,也遇到了一些挑战。
Alex: 很高兴它有帮助,能具体说说遇到的挑战吗?
Tom: 主要问题是,虽然 RAG 能检索到正确数据,但模型并没有保留我们行业的细节和风格。感觉每次都要重新来过——重新介绍上下文、语气和产品知识。事实是准确的,但输出往往达不到预期,我们得重写大段内容。
Alex: 明白。RAG 做数据检索挺好,但模型缺乏对你们领域和品牌声音的内在理解。你觉得在更专业的内容上这个问题更明显吗?
Tom: 绝对如此。对于特定行业的 ERP 集成这样的细分话题,AI 就像只抓了表面,很单调。我们花很多时间修改草稿,确保准确并符合我们的表达。
Alex: 好的。为了解决这个问题,我们可以对模型本身做微调。用你们的专有数据——过去内容、风格指南和客户沟通资料——进行训练,可以更好地贴合你们的语气、领域专业知识和产品用语。这样对细分领域帮助会很大。
Tom: 听起来不错。还有一点,我们的编辑流程感觉很笨重。现在我们是把草稿复制到编辑器里修改。如果能直接在你们的应用里编辑,并给模型反馈如何改进,会省很多时间。
Alex: 这是个很好的建议。其实我们也在探索类似的功能:指令微调。它允许模型根据用户反馈和指令动态调整。通过简化编辑流程并建立反馈循环,可以让流程更直观,模型更能响应你们需求。
Tom: 听起来很理想。如果 AI 能从我们的修改中学习并逐渐改进,过程会顺畅很多。我很期待试试。
Alex: 完美。我会优先探索用你们专有数据做传统微调,以及指令微调来优化编辑流程。谢谢你的反馈,给了我们明确的下一步方向。
Tom: 谢谢你,Alex。期待你们的成果!
8.1.2 评估微调作为解决方案
对语言模型(LM)进行微调是对基础设施、算力和运营效率的战略性投资,必须通过提升效率、产品差异化或自动化带来可衡量的业务影响。如果收益合理,投资就值得;否则,提示工程和 RAG 可能是更好的选择。微调适合以下情况:
- 高度专业的领域——当模型需要深入理解预训练模型未充分覆盖的领域专有术语、概念和语气。
- 用户反复挫败感——用户经常需要大量重写或调整模型输出,表明模型与需求不匹配。
- 特定任务需求——如分类、摘要或指令执行,通用模型难以稳定准确完成。
- 可规模化改进——微调解决的问题能惠及大量用户或多种使用场景,值得投入开发。
- 竞争差异化——需要打造独特产品,通过嵌入专业知识和功能,超越通用模型竞争对手。
- 先进的工程团队——团队具备微调、部署和运维开源模型的能力和动力。
案例研究:为可持续发展报告微调 Llama 3
举一个实际案例说明微调的应用。我的公司 Equintel (www.equintel.de) 使用 AI 支持大型企业的可持续发展报告。我们先用了提示工程和 RAG,但用户仍花大量时间调整输出,使其符合正式的环境、社会和治理(ESG)报告语言。于是,我们决定对 Llama 3.2 进行微调,使用大量法规、历史 ESG 报告及相关文件数据集。微调后的模型能够处理复杂的可持续发展话题、行业专用术语和监管要求。结果显著缩短了编辑时间,团队报告比微调前节省了20%到30%的工作量。除了提升价值和满意度,这一步还加强了我们的竞争优势,将前沿大型模型与公司特有的 ESG 数据资产结合。
不适合微调的情况:
- 广泛通用的用例——需要跨多个无关领域的灵活应用,RAG 或提示工程更经济。
- 频繁变动的领域——应用需经常更新以应对新兴话题,维护微调模型代价高昂且不现实。
- 资源有限——微调需要大量算力、专业知识和时间,不适合小型项目或预算紧张。
- 提示或 RAG 已能满足需求——简单调整提示或检索策略即可达到可接受结果,无需复杂微调。
- 短期项目——一次性或短期应用,微调的时间和成本可能得不偿失。
- AI 初学者——刚入门或无专业团队,缺乏微调经验,建议先积累商业模型使用经验,逐步从简单微调做起,培养团队能力。
工程角:微调背后的基础设施及产品经理需知
尽管商业大型语言模型(如 OpenAI、Anthropic 等)通过 API 容易访问,微调则把大量技术责任——模型训练、部署和维护——交给了你的团队。作为产品经理,无需掌握所有技术细节,但理解资源权衡有助于做出更明智决策。
微调需要高性能 GPU(如 NVIDIA A100 或 H100)以高效处理数据。工程师可以给出基础设施成本的初步估算。以下是你决定采用微调时的两个核心考虑:
- 本地部署还是云服务——如果微调是产品路线图的核心且团队先进,投资本地 GPU 可能对长期回报更有利;否则,AWS、Azure、Google Cloud 等云服务提供灵活性,无需前期资本投入。
- 优化 GPU 使用——全天候满负荷运行模型并非总必要。技术如低秩适配(LoRA)或参数高效微调(PEFT)能降低计算成本,同时保证质量提升。
最后,控制微调成本的最佳方式之一是建立高效、精简的机器学习运维(MLOps)流程,帮助你监控改进效果,使迭代平稳高效。
8.2 针对不同目标的语言模型微调
为了应对 Alex 应用中剩余的质量挑战,我们将探索三种强大的微调技术,用以提升和专精语言模型(LM)的性能。这些技术在表8.1中进行了描述。
| 微调技术 | 功能说明 | 解决的问题 |
|---|---|---|
| 领域专属微调 | 训练模型理解行业专用术语、语调和知识 | AI 缺乏对 Tom 领域(如企业资源规划[ERP]集成)及品牌声音的内在理解,导致反复重写。 |
| 监督微调 | 使用标注数据集优化特定任务(如分类) | 应用检索了无关资源,因为 AI 无法根据 Tom 的分类体系对内容分类。 |
| 指令微调 | 教会模型遵循迭代用户指令,动态优化输出 | 用户(如 Tom)无法在应用中直接编辑草稿或反馈以改进输出,工作流程笨拙。 |
如表所示,每种方法解决不同的用户痛点。结合使用,它们帮助你提升 AI 准确性,并强化竞争壁垒。接下来,我们将看到 Alex 与其工程同事 Maria 如何针对每种微调技术选择语言模型、创建数据集和进行评估。
8.2.1 领域专属微调
当需要生成专业内容——无论是金融、医疗还是软件工程——主流语言模型往往产出显得通用且缺乏深度。正如 Alex 在与 Tom 交流时发现的,客户要求内容体现深厚的领域专业,否则会损害其信誉。为满足此需求,Alex 使用领域专属微调,训练模型理解并应用用户领域的术语、概念和语调。为配合业务策略,他首先聚焦于 B2B SaaS(企业对企业的软件即服务),因为大多数客户和设计合作伙伴都集中于此领域。未来,他计划针对其他行业微调更多模型版本。
选择语言模型
选择合适的基础模型对成功至关重要。Alex 和 Maria 采取实用的探索方法:他们不拘泥于单一模型,而是同时测试多个选项,寻找最佳匹配。每个模型都会基于性能、效率和适应性进行评估。由于微调限制,他们只能使用开源模型,商业模型仅限推理,参数不可修改。他们初步筛选了 Llama 3.2、Mistral 和 DeepSeek,这些模型以强大的预训练知识和效率著称。Maria 提出以下关键考虑因素以指导最终决策:
- 模型规模与计算成本——小模型微调成本低但可能缺乏深度,大模型能更好捕捉细节但成本更高。测试不同规模帮助找到最佳平衡点。
- 微调兼容性——Maria 希望每个模型支持如参数高效微调(PEFT)等先进方法,以控制未来迭代的成本。PEFT 只修改少量参数,远比“全量”微调经济。
- 领域覆盖度——评估模型预训练知识与用户目标行业(如工作流自动化、ERP 系统)的相关性。
- 社区支持——优先选择拥有活跃生态系统、便于工具使用和问题排查的模型,以降低后续风险。
通过对多个模型用小数据集进行微调,Maria 和 Alex 快速识别出准确性和效率的最佳组合。这一探索阶段避免了过早过度投入单一模型,确保最终选择最契合技术与业务目标。
构建领域专属数据集
在微调中,“质量胜于数量”——精心策划、干净且具代表性的领域数据集,即便规模不大,也能取得显著效果。Alex 有策略地收集反映客户行业语言、语调和深度的内容。他与设计伙伴 Tom 紧密合作,将其白皮书、案例研究和技术博客纳入数据。Maria 还爬取了大量 B2B SaaS 领域的知名博客。最后,他们补充公开的行业领导力内容,包括行业报告和研究论文。鉴于许多行业内容质量参差,Alex 优先使用可信、权威来源。
原始数据往往杂乱无章,Maria 通过 Python 脚本和数据清洗库去重、统一格式并整理内容。清洗完成后,Alex 手动抽查样本,确保数据准确体现行业语气与技术深度。设计伙伴也进一步验证数据集,确认符合预期。
微调过程
数据集整理完毕后,Maria 专注于调优模型参数。这个技术流程在三种微调任务中非常相似,主要是将数据集输入选定模型,调整内部权重,使其更贴合领域知识。关键环节是超参数调优,比如学习率(模型每步更新权重幅度)和批处理大小(模型每次处理样本数)。超参数调节需平衡欠拟合(学得不够)和过拟合(过度记忆数据)。
领域专属模型评估
在 Maria 微调模型期间,Alex 需制定合理评估方法,选出最佳模型并指导后续优化。传统指标如困惑度(perplexity)不足以衡量领域表现,Alex 设计了自定义基准测试。例如,评估模型对歧义缩写的判别能力(如 CV 可指计算机视觉、简历或心血管),以及对近期行业术语(如 AI 中的 PEFT)的定义和对关键概念(如 ERP 集成优化工作流)的总结能力。
定性反馈同样重要。Alex 要求 Tom 用模型生成一篇关于 AI 驱动工作流优化的博客,比较其语气、准确性和术语与内部写作的差异。模型还在实际项目中进行测试,验证其实用性能。
工程角:灾难性遗忘
灾难性遗忘(catastrophic forgetting,也称灾难性干扰)是指模型在微调时丢失已学知识的现象。由于神经表示重叠,算法在学习新任务时会覆盖旧记忆。
检测灾难性遗忘需在训练新任务的同时评估模型对旧任务的表现,例如官方评测基准。若准确率显著下降,则表明发生遗忘。
是否应默认防范灾难性遗忘,还是只在出现警示时介入,取决于任务性质:
- 主动防范——若微调用于持续学习,需在适应新任务同时保留旧知识,尤其是医疗、法律、合规等高风险领域,应从一开始实施预防措施。
- 被动应对——若微调针对高度专业且独立任务,旧知识不关键,则可先监控,再根据情况采取措施。
防止遗忘的方法包括:
- 复习技术——训练时同时回顾旧数据子集,生成式回放则用模型生成的合成数据替代真实数据。
- 正则化方法——如弹性权重巩固(EWC)和突触智能(SI),惩罚重要权重变动,保护旧任务知识。
- 架构改进——如渐进神经网络或模块化网络,为不同任务分配独立资源,减少相互干扰。
采用这些策略,工程师能平衡新知学习与旧知保留,最大限度降低灾难性遗忘影响。
优化模型
初步结果显示 Llama 3.2 是最佳模型,但仍有提升空间。提升性能的两个主要杠杆是数据和微调算法。例如,模型在工作流自动化术语上的细微差别表现不佳,Alex 增加强调这些差距的示例,确保模型学习更多细节。此迭代方法不断完善领域知识。
工程角:高级微调技术
以下是提升微调准确性和效率的高级技术:
- 记忆微调——帮助模型高效内化大量领域事实,特别适合防止在强调事实准确性的应用中出现幻觉错误。例如,Tom 发现模型常混淆新自动化工具的事实,记忆微调能将这些事实硬编码进模型,大幅降低错误率。
- 参数高效微调(PEFT) ——只修改模型少量权重,节省计算资源并加速微调过程。对 Alex 应用而言,这使他能针对小众分类快速迭代小模型,无需庞大计算基础设施。
- 偏好对齐——使模型输出更贴近人类偏好,尤其适用于会话或指令微调(见 8.2.3 节)。该技术能帮助 Alex 提升用户满意度,确保 AI 生成内容的语调和措辞稳定符合客户预期。
Maria 推荐的两项技术是记忆微调和 PEFT,它们经济高效,减少对计算资源的需求。
领域专属微调将通用内容生成器转变为专门解决方案。通过谨慎选择基础模型、精心策划高质量数据集并迭代优化,Alex 的应用能产出精准、行业契合的内容,极具客户价值。这不仅使 Alex 的产品区别于竞争者,还巩固了其作为专业、高影响力内容创作工具的市场地位。
8.2.2 监督微调
在审查应用性能日志时,Alex 发现了一个他与 Tom 访谈中未提及的重大问题:AI 生成的内容有时依赖于无关的资料来源。Tom 的公司使用结构清晰的分类体系,将内部文档归入诸如“工作流自动化”、“数据集成”和“合规与安全”等明确主题。然而,Alex 应用所用的公共数据源缺乏这样的分类,导致选取内容出现偏题或不匹配。Alex 很幸运在用户发现问题前察觉此缺陷。在 B2B 场景下,内容不相关会迅速破坏你的可信度。
为解决这一问题,Alex 决定实现主题分类。用户可输入生成内容的主题,应用只使用明确标注该主题的文档。Maria 计划使用监督微调完成此任务,使语言模型能执行分类任务。我们在第4章4.2节已介绍过监督学习和分类,这里将展示语言模型如何应用于此类任务。
选择语言模型
Maria 建议本任务采用小型语言模型(SLM)。SLM 适合轻量且特定的任务,如主题分类,优势包括:
- 高效性——SLM 训练更快,资源需求更少,符合 Alex 创业公司预算限制。
- 简洁性——模型小,复杂度低,便于排查和优化微调流程。
- 可扩展性——轻量模型支持多客户扩展,避免过高成本。
Maria 推荐评估几款社区活跃的开源 SLM,确保微调过程中遇到问题能快速解决。最终他们筛选了 DistilBERT、微软的 Phi-2 和 Text-to-Text Transfer Transformer(T5)模型。与领域专属微调类似,他们打算在做最终选择前试验多个模型。
构建带标签的主题分类数据集
监督微调成功关键在于构建高质量且反映客户分类体系的标注数据集。与领域专属微调不同,监督微调需要为每条数据指定对应标签。Alex 和 Maria 合作准备数据集,确保其全面且均衡。Alex 首先收集按 Tom 分类体系归类的内部文档样本,并与 Tom 一起注释更多文档,包括公共资源,赋予相同类别标签。Maria 负责保证数据体现每个类别的语言风格和结构特点。
在审核数据时,Alex 和 Maria 发现某些类别如“合规与安全”样本过多,而“前沿自动化算法”类别样本不足。他们调整数据,增加稀少类别样本,防止模型产生偏见。
最后,Alex 和 Maria 随机抽检数据样本,验证数据质量并复核标签一致性,确保数据干净且代表任务。表8.2展示了他们数据集的示例。
| 输入 | 目标输出 | 文档标题 | 文字摘录 | 标签 |
|---|---|---|---|---|
| “API集成指南” | “详细的工作流集成步骤...” | 工作流自动化 | ||
| “2024合规清单” | “确保遵守数据保护...” | 合规与安全 | ||
| “IT治理十大趋势” | “本文介绍合规领域的热点...” | 合规与安全 | ||
| “自动化中的AI趋势” | “探讨机器学习的最新进展...” | 前沿自动化 |
主题分类模型评估
数据集准备好后,Maria 微调 SLM,训练其识别各类别独有的模式和关键词。小型模型让她高效快速完成训练。两人定义了评估策略,确保模型表现达标,包含:
-
准确率指标——Maria 在测试集上测量分类准确率,设定 90% 为部署门槛。对误分类样本进行回顾,找出典型错误和训练数据漏洞。典型错误包括:
- 标题为“基于AI的欺诈检测方法”的文档误归为“前沿自动化”,正确类别应为“合规与安全”,因“自动化”和“AI”等关键词重叠。
- 标题为“数据管道最佳实践”的文档因提及数据隐私合规,被误分类为“合规与安全”,实际应为“工作流自动化”。
- 关于“机器学习优化ERP”的案例被分类为“工作流自动化”,而非“前沿自动化”,因模型更关注“工作流”频次,忽视了高级机器学习技术。
-
实际相关性测试——Alex 和 Maria 在实际场景中测试模型,如生成“合规与安全”主题内容,确认所用来源与主题匹配。Tom 团队审核输出内容以验证相关性。
-
反馈循环——为持续改进模型,Alex 在应用中集成反馈机制,客户可标记内容依赖错误来源的情况。他修正误分类,Maria 将反馈纳入数据集,不断迭代优化微调模型。
分类模型的扩展与优化
与 Tom 的试点成功,SLM 达到 92% 准确率,大幅提升内容相关性。但 Alex 意识到为每客户微调独立模型不可规模化。Maria 再次采用 PEFT 技术,仅更新模型少量参数,使微调更快、更节能。她因此能训练和维护更多反映客户领域和分类体系的模型。
通过监督微调实现主题分类,Alex 和 Maria 解决了内容来源不相关的关键痛点。他们基于数据驱动的协作方法,交付了一个可扩展的解决方案,提升了像 Tom 这样的客户的应用价值。此举不仅改善了当前效果,也为未来优化和扩展奠定基础。
8.2.3 指令微调
Tom 的一个主要抱怨是无法直接在 Alex 的应用内编辑 AI 生成的草稿。用户只能手动修改内容,限制了应用的交互性和效率。为了解决这个问题,Alex 计划实现一个 AI 编辑功能,允许用户发出具体指令来完善草稿。用户的指令可以是简单的,例如“缩短第二段”,也可以是更细致的,比如“让结论更具可操作性”或“调整语气,使其更正式”。
当 Alex 用领域专属微调模型测试这些指令时,发现模型常常误解或无法有效执行。为了实现这一功能,Alex 采用指令微调,教模型如何处理用户迭代式的修改指令。
选择指令微调的语言模型
Maria 建议继续使用他们已经非常熟悉的 Llama 3.2,这也是他们用于领域专属微调的模型。Llama 3.2 有一些已经过指令微调的变体,比如 Llama 3.2 3B Instruct 和 Llama 3.2 8B Instruct。Maria 希望将其作为不需要领域专属调整的客户的基础模型。但对于像 Tom 这样的客户,已经应用了领域专属微调的,他们决定以领域专属版本作为基础模型,确保指令微调模型保留先前微调获得的行业知识。
构建指令数据集
Alex 和 Maria 创建了一个反映真实编辑场景的数据集,教模型如何遵循迭代指令。他们按以下步骤进行:
-
收集初稿和修改示例。Alex 生成各种内容类型的样本草稿,如白皮书、博客文章和案例研究。随后,他与设计伙伴(如 Tom 的市场团队)合作,记录他们通常如何修改草稿。例如:
- “让语气更正式。”
- “添加真实案例支持论点。”
- “调整结构,先强调关键点。”
-
制作配对示例。Maria 将原始草稿与每条指令对应的修改版本配对,明确向模型展示如何根据用户请求改写内容。Alex 团队生成额外指令及对应编辑,填补数据集空白。此过程比预期耗时更多,Alex 计划未来为此预留充足资源。
-
平衡数据集。Alex 确保数据集包含各种指令,从简单的“缩短这段”到复杂的“合并章节以增强条理”,为模型准备应对多样化用户需求。
表8.3展示了他们指令数据集的样本。
| 输入 | 目标输出 | 指令 | 原文 | 修改后文本 |
|---|---|---|---|---|
| “简化语言,面向更广泛的受众。” | “该工作流编排机制实现了ERP系统的无缝自动化。” | “该系统使得ERP软件中的工作流自动化变得简单易行。” | ||
| “添加示例说明论点。” | “该方案提高了效率。” | “该方案提高了效率。比如,它使我们一个客户的订单处理时间减少了30%。” | ||
| “重组内容,突出关键点。” | “软件包含高级功能。介绍部分概述了用户的关键收益。” | “软件提供了易用性和可扩展性等关键优势。高级功能详见下文。” |
Alex 追踪应用使用数据,定期用新的、意外的指令更新微调数据集,保持其相关性。
指令微调后模型评估
Maria 完成指令数据集微调后,他们通过以下方式评估模型的指令理解和执行能力:
- 人工内容质量审查——Alex 手动检查部分修改内容样本,验证指令执行准确性及内容质量。对反复出现的问题,更新数据集加以解决。
- LLM 作为评判者——Maria 用保留的测试集(原始数据集的20%)评估微调模型。正如第5章5.4.2节所述,他们使用强大的商业大型语言模型审查指令和输出,评分模型遵循提示的程度。
- 用户反馈——应用内反馈机制允许用户点赞、点踩并提供对 AI 表现的定性评论。这些反馈被用来持续优化模型。
优化模型及设置保护措施
指令微调极大提升了应用的交互性和价值,但 Alex 和 Maria 仍专注于持续优化。Maria 试验偏好对齐技术,进一步细化模型,确保其紧贴用户期望。随着时间推移,他们发现模型对各种指令执行过于热衷。虽然应用明确聚焦于生成营销内容,许多用户却提出了离题甚至恶意的请求。有用户要求模型计算商业案例,询问天气预报,甚至反复尝试生成不当内容。为应对这些问题,Maria 实施了保护措施。她首先通过调整系统提示,指示模型只响应内容编辑请求,对于无关查询以礼貌的回复拒绝:
Sorry, I can only help with edits and revisions to your draft. Please reformulate your request.
随后,她将离题的示例加入指令微调数据集中,并配以理想回复,礼貌地拒绝这些请求。
本节介绍的三种微调技术,使 Alex 的应用成为一款动态工具,能够生成准确的领域内容并实现交互式精修。通过构建多样化数据集、实施严格评估方法以及加入保护机制,Alex 和 Maria 确保应用既用户友好又安全,同时灵活适应相关用户需求和请求。
微调可以提升单一大型语言模型的质量。另一种方式是将模型与工具和组件集成,构建模块化系统。下一章将探讨代理式 AI——一种结合语言模型、工具、API 和推理能力的动态目标驱动系统,能够实时生成内容、执行操作并适应环境。
总结
- 利用微调,赋予语言模型领域专属知识、专业任务能力或指令执行能力,超越提示工程和 RAG 的范畴。
- 大多数情况下,微调基于开源模型进行。
- 多维度评估备选模型,考察任务相关性、微调兼容性和计算效率。
- 构建高质量、针对特定任务且反映真实场景的数据集,注重数据的精准性和多样性,而非单纯规模。
- 从可手动构建的小数据集起步,结合真实性能数据、用户反馈和边缘案例,迭代丰富数据集。
- 开发针对具体用例的定制评估指标和基准,如领域专业度、任务准确性和指令遵循度。
- 通过实际应用测试模型,收集用户和利益相关方的可操作反馈以验证模型。
- 训练模型礼貌拒绝离题或恶意请求,并通过调整系统提示增强防护。
- 实施应用内反馈机制,如点赞/点踩和评论,持续收集改进见解。
- 利用记忆微调、参数高效微调(PEFT)和偏好对齐等先进技术,优化性能与可扩展性。