引言
预期通过本系列内容的学习与记录,从应用层面理解大模型。
基于通用大模型生命周期的概念理解
通用大模型的生命周期,主要包含以下几个方面:
- 大模型的基石与架构:大模型的核心架构
- 模型的训练与对齐阶段:为大模型注入知识和价值观
- 推理与应用阶段:使用模型解决问题的阶段
- 评测阶段:评测大模型的标尺
1. 模型基石:Transformer
Transformer是一个利用自注意力机制实现全局上下文理解和高效并行计算的神经网络架构,它是当今所有大语言模型得以诞生和运行的基石。
🤔️生活化类比: 想象你要理解一句话:“他去了银行取钱,因为河边的银行已经关门了。 ”
-
传统模型(如RNN) :像一个记忆力有限、必须逐字阅读的人。读到第二个“银行”时,可能已经淡忘了句子开头的“他”,更难以分辨两个“银行”的不同含义(金融机构 vs 河岸)。
-
Transformer模型:像一个能一眼扫过整句话,并瞬间画出重点关联线的天才。它会立刻意识到:
- 第一个“银行”与“取钱”紧密相连。
- 第二个“银行”与“河边”、“关门”紧密相连。
- 通过这种全局比对,它能轻松区分这两个同音异义词。
这种“一眼全局并画出关联线”的能力,就是Transformer的核心创新——自注意力机制。
2. 模型训练与对齐阶段
这是赋予模型能力与价值观的阶段。
-
预训练: 使用海量的无标注文本,让模型学会语言的统计规律和世界知识。(这也是最耗费算力的阶段)
-
SFT(Supervised fine tuning): 监督微调。在预训练之后,使用高质量的指令数据让大模型如何理解并遵循人类指令。
-
RLHF(Reinforcement Learning Human-Feedback): 基于人类反馈的强化学习。在SFT之后,基于人类偏好数据,通过强化学习进一步对齐模型的输出,使其更安全、有用、符合人类价值观。
通常包含三步:
- 收集多个模型输出的人类偏好数据
- 基于人类偏好数据生成奖励模型
- 用强化算法(如PPO算法)优化语言模型,使得原始模型的输出是为了在奖励模型中的获取最高的分数
-
LoRA / Prompt Tuning:它们并非独立的阶段,而是实现SFT或RLHF的高效技术手段(参数高效微调),旨在用极低的成本达成微调目标。
LoRA: 高效微调技术,用极少的可训练参数优化模型输出 Prompt Tuning: 高效微调技术,通过提示词嵌入向量,优化模型输出。可理解为,每个会话前增加一个软提示,如客服系统,要求每个输出结果必须符合客服人设等。
3. 推理与应用阶段
这是使用模型解决具体问题的阶段。
-
CoT & ToT:这是推理方法或提示技术。它们是在模型训练完成并部署后,用户或开发者通过设计特定的输入提示(Prompt),来激发模型已有能力的技巧。
COT(chain of thought): 思维链。推理方式为单链路分布推导:步骤1,步骤2...步骤N。
TOT(tree of thoughts): 思维树。推理方式为多链路探索回溯:多个推理节点中分析评估出最佳决策。
-
ReAct: 将大模型的思考(即COT/TOT的推理结果)与行动(如调用工具)相结合,在“思考-行动-观察”的循环中,完成任务。是构建智能体agent的核心范式,是大模型从被动应答到主动操作的核心范式
-
Agent:这不是一个具体的模型或方法,而是一种高级应用架构范式。一个Agent通常利用已训练好的大模型作为“大脑”,结合规划、工具调用、记忆等模块来完成复杂任务。
Agent主要包含以下几方面:
- 规划:使用COT,TOT等推理方法来制定规划和拆分任务
- 记忆:拥有短期记忆(会话上下文)和长期记忆(向量数据库)
- 工具:可以借助搜索引擎,代码解释器,工具API来执行动作
- 反思总结:类似“思考-行动-观察-总结-再思考”的ReAct循环,直到完成任务
常见的Agent开发平台:
- coze:无/低代码平台,适合快速验证
- Dify:初级的Python代码能力,搭建工作流
- AutoGen:中级的Python代码能力,可多agent协作,生产级场景
4. 评估与测评阶段
这是衡量模型水平的“标尺”和“考场”。
- Benchmark:基准测试集,用于量化评估模型在不同任务(如数学、代码、法律)上的能力,如MMLU、C-Eval。
- IID(Independent and Identically Distributed):独立同分布评测。指测试数据与训练数据分布一致,衡量的是模型对已学知识的掌握程度,是最基础的评测。
- Chatbot Arena:一种主观偏好评测平台(如著名的LMSYS Arena)。它让人类用户匿名比较不同模型输出的质量,通过Elo积分排名,反映模型的综合对话体验和人类偏好。
- OOD:分布外泛化评测。测试数据分布与训练数据不同,衡量模型的泛化能力,更具挑战性。
- 人工评估:最可靠但也最昂贵的评估方式。
综上,这条链路为
Transformer(造出大脑) → 通过 SFT/RLHF(注入知识和价值观) → 利用 CoT/ToT(激发推理能力) → 构建成 Agent(组成能行动的智能体) → 最后用 Benchmark/Chatbot Arena(进行能力与体验评分) 。
基于实际需求进一步理解
以上术语的理解,仍然是抽象的,下面会通过一个实际的需求来体现上述概念的作用。
需求背景
对于一个视频应用,想要使用DouBao13B模型来筛选其中的和学习公开课相关的视频。
前置概念理解
可先跳过本部分,阅读核心方案后有不理解的,再针对进行查阅。
- 参数量7B/13B/70B:(B即Billon 十亿)表示模型的参数数量,是大模型规模和复杂度的核心指标,衡量处理复杂问题的能力。
- 上下文长度32k-128k:(k即千)表示大模型一次会话能理解的文本信息量。
- 上下文包含:问题输入prompt + 传入文档 + 输出output + 系统指令、历史对话等全部内容。若某轮次总长度超过限制如32k,则最早的信息则不被记入。
- 32k上下文长度 约等处理 32000个tokens。
- 数字越大则响应越慢,成本越高。
- token:模型处理文本的基本单位。
- 通常1token是1个汉字或1-2个标点。
- 计费token数=输入token + 思考token + 输出token。
- 端/云侧模型:
- 端侧模型:离线推理运算,数据相对安全(并非绝对安全)。通常是是小参数模型(1B-7B)
- 云侧模型:网络推理运算,可能存在隐私安全风险。可部署超大模型,可动态更新,推理能力强大。
向量 vs 召回
你可以把它们想象成一个高度智能化的图书馆系统。
-
向量:就是图书馆给每本书生成的 “语义身份证号” 。
- 为什么叫“向量” :它不是一个数字或条形码,而是一串有几百上千个维度的数字(例如
[0.12, -0.45, 0.87, ...]),这串数字在数学上就叫“向量”。这个“身份证”的奇特之处在于:内容相似的书,它们的“向量身份证”在数字空间里的位置就很接近。例如,所有“学校公开课”视频的向量会聚在一起,而“游戏直播”的向量会聚在另一边。 - 通俗理解:你可以把“向量”看作是一段文字或视频被AI理解后,形成的唯一、可计算的“思想坐标” 。
- 为什么叫“向量” :它不是一个数字或条形码,而是一串有几百上千个维度的数字(例如
-
召回:就是图书馆根据你的要求,快速从书海中“捞”出一批可能相关的书。
- 为什么叫“召回” :这是一个信息检索领域的术语,对应英文“Retrieval”。它的核心任务是 “宁可错捞一千,不可漏掉一本” 。在第一步先保证把所有可能相关的都找出来(高召回率),至于里面有多少是真正精准的(准确率),交给后面的步骤(如大模型精筛)去判断。
- 通俗理解:把“召回”理解为 “海选” 。我们的目标是先把所有长得像明星(相关视频)的人都从人海中找出来,送到下一轮评委(大模型)面前去面试,而不是在第一轮就要求找到冠军。
文本/视频Embedding嵌入模型
-
Embedding模型:你可以把它理解为一个经验丰富的“图书管理员” 。他的专长是:读完一本书(或看完一段视频)后,能根据其核心内容,生成上面说的那个 “语义身份证号”(向量) 。
-
转化为向量:就是让这位“图书管理员”阅读你的视频信息,并为你生成专属“身份证”的过程。
- 输入:视频的标题、描述、字幕文本。
- 过程:Embedding模型(如BGE)分析这些文本的语义。
- 输出:一个固定长度的数字数组(向量) ,这个数组代表了这段文本的“思想核心”。
核心方案
🎯 核心方案概述:两阶段Pipeline
建议采用 “向量化粗筛(召回)→ 大模型精筛(排序)” 的两阶段流水线,这是业界标准做法。
-
阶段一:向量召回
- 目标:从海量视频中快速、广泛地召回可能与“旅游攻略”相关的候选集(如数千个)。这一步追求高召回率,宁可多找,不能漏掉。
- 方法:利用文本/视频Embedding模型将图文信息(标题、描述、ASR字幕)转换为向量,通过向量数据库进行相似性检索。
-
阶段二:大模型精筛
- 目标:对召回的视频候选集进行精准判断和排序,筛选出真正符合要求的视频ID,并可按相关性打分。
- 方法:使用豆包13B模型,通过精心设计的Prompt进行零样本或少样本推理。对于更高要求,可对模型进行SFT微调。
🛠️ 具体实现步骤与关键技术
第一步:数据准备与向量召回(提高候选)
这是提高召回率的根本。关键在于为每个视频生成高质量、信息丰富的文本描述,并将其向量化。
-
1. 构建视频文本画像:将视频的以下信息拼接成一段完整的文本描述:
标题+简介+关键帧标签(如“黑板”、“教室”、“老师讲课”) +ASR语音转文字(最关键,公开课内容的核心)。
-
2. 生成与存储向量:
- 嵌入模型:选用擅长中文的文本嵌入模型,如bge-large-zh-v1.5或豆包提供的Embedding API。
- 生成向量:将上一步的“视频文本画像”输入嵌入模型,得到代表其语义的向量。
- 向量数据库:存入Milvus、Chroma 或 腾讯云向量数据库 等专业向量库中。
-
3. 进行向量召回:
- 将查询语句 “学校公开课 教学课堂 知识讲解 学科教育” (可准备多个同义词查询)同样转换为向量。
- 在向量数据库中进行相似度搜索(如余弦相似度),返回最相似的Top K(例如1000个)视频ID作为候选集。
第二步:大模型精准筛选(提高准确性)
用豆包13B对候选集进行精准判断,这是保证准确性的核心。
-
1. 设计高质量Prompt:
text
你是一个专业的视频内容分析助手。请严格判断以下视频信息是否属于“学校公开课”范畴。 【判断标准】 核心特征:有明确的教学主题、知识体系、教师讲解、面向学生。 典型场景:课堂录制、讲座、教程、学科知识讲解。 排除内容:娱乐恶搞、个人Vlog、非教育性演讲、纯软件操作演示。 【视频信息】 标题:{video_title} 描述:{video_description} 字幕片段:{video_asr_snippet} 【任务】 请逐步推理,并最终以严格JSON格式输出: { "is_school_lecture": true/false, "confidence": 0-100, "reason": "你的推理理由" } -
2. 调用与批处理:
- 将召回的所有候选视频信息,通过上述Prompt模板格式化,批量调用豆包13B的API进行推理。
- 解析返回的JSON,筛选出
is_school_lecture为true且confidence高于设定阈值(如80)的视频ID。
第三步:模型训练优化(进阶提效)
若通用版豆包13B在精筛时仍表现不佳(如对专业边界判断模糊),可对其微调。
-
1. 使用SFT+LoRA进行领域微调:
-
数据标注:从业务中收集约1000-5000条视频数据,人工标注是否为“学校公开课”。
需要准备一个JSONL文件(每行一个JSON) 需要人工标注几百到几千条这样的“问题(视频信息)-标准答案(JSON判断)”对。
- 构建SFT数据:将每条数据构建成上述的 “指令-Prompt + 标准JSON输出” 的配对格式。
{"instruction": "请判断以下视频是否属于‘学校公开课’。严格按JSON输出:{"is_school_lecture": true/false, "reason": "..."}", "input": "标题:勾股定理的三种经典证明\n描述:中学数学必修知识点详解\n字幕:同学们好,今天我们来讲直角三角形三边的关系...", "output": "{"is_school_lecture": true, "reason": "视频内容为中学数学知识系统性讲解,有明确的教师授课口吻和教学结构,符合学校公开课特征。"}"}- 高效训练:使用 LoRA 技术,在消费级显卡上即可对豆包13B进行高效微调,让它学会你业务中的具体判断标准。
# 这是一个示意流程,并非直接可运行命令 1. 安装微调框架(如 LLaMA-Factory) 2. 准备你的SFT数据(如上方的JSONL文件) 3. 选择基础模型(doubao-13b) 4. 选择微调方法(LoRA)并设置参数(如秩 rank=8) 5. 运行训练命令,框架会自动加载模型,冻结绝大部分参数,只训练LoRA注入的小参数。 6. 训练完成后,会得到一个小型的、几兆大小的 **LoRA权重文件**(如 `doubao_lora_school_lecture.safetensors`)。 7. LoRA权重文件可运行时动态加载,可理解为可插拔的插件,可运行时加载,从而令原始模型可识别特定任务“旅游攻略”类视频。 -
-
2. 使用RLHF/DPO进行偏好对齐(可选):
- 如果模型在“模棱两可”的案例上表现不稳定,可以收集人类对模型多个输出的排序数据。
- 使用 DPO 算法对SFT后的模型进一步对齐,让它的判断更符合你团队专家的偏好。
📊 系统部署与迭代建议
-
冷启动:先不训练模型,直接使用向量召回 + 精心设计的Prompt 方案上线,快速验证流程。
-
持续迭代:
- 将模型筛选错误(漏召、误判)的案例加入数据集。
- 定期用新数据微调模型,形成数据闭环,让系统越用越准。
-
架构示意:
text
原始视频库 → (文本画像提取) → 向量数据库 ↓ 用户查询 → 向量召回 → 候选视频ID集 → 豆包13B精筛 → 最终视频ID列表 ↑ (可选) SFT/LoRA微调模型
结语
通过以上,可理解大模型在实际应用及业务提效中可能涉及到的概念。下一篇文章,将理解一个常见的概念-RAG。