第8章 领域大模型的基础
8.1 领域大模型的背景
(1) 通用大模型的局限性:幻觉生成问题(胡说八道,林黛玉倒拔垂杨柳)、知识时效问题、数据安全问题
(2) 领域大模型的优势:
- 知识优势:融入特定领域的专业知识,解决模型幻觉生成问题
- 效能优势:使用较小参数的领域大模型来完成通用大模型的功能
- 安全优势:采用符合行业标准和法律法规的数据处理策略来确保敏感信息的安全
8.2 领域大模型方案
(1) 3种构建方案
- 检索方案:检索相关信息来辅助大模型的输出。
- 微调方案:在特定任务或数据集上调整预训练模型的参数。
-
- 全参数微调:调整模型中的所有参数
- 参数高效微调:只调整模型中的一部分参数,或额外增加一部分微调参数
- 预训练方案:从头预训练、继续与训练。
(2) 检索增强生成
- 准备阶段将垂直领域的数据转为向量,构建索引并存储入库。应用阶段从向量库中检索相关信息,并添加到提示词中,从而提升大模型的输出质量。\
- 关键技术:向量化(表征模型)、向量数据库
(3) 参数高效微调
- 选择法:选取模型的部分层进行微调
-
- BitFit算法:仅对transformer结构中的所有偏置项进行微调
- 附加法:增加额外的参数或网络层
-
- Adapter Tuning算法:在transformer结构中嵌入适配器模型
- Prefix Tuning算法:在原始输入之前增加一段前缀向量
- 重参数法:利用低秩表征来最小化可训练的参数
-
- LoRA算法(⭐):大模型是过参数化的,因此可以假设模型在任务适配过程中权重的改变量是低秩的。
(4) 模型选型
8.3 领域大模型架构
3个核心模块:
- 需求理解:通过需求澄清、需求改写等技术,将用户的模糊需求转为清晰的表述。
- 需求匹配:通过多路召回、大模型精排等技术,精准地为用户的需求匹配资产表。
- 需求转译:通过检索增强生成、思路拆解等技术,将用户的需求描述转为正确的SQL查询代码。