一、预训练(Pre-training)
-
它是什么:
- 预训练是指在海量通用文本(如网页、书籍、百科)上,通过自监督学习训练出一个具备语言理解与生成能力的基础大模型。这是所有大模型能力的“地基”
-
应用场景:
- 大模型研发机构(如阿里通义实验室、Meta、Google)
- 拥有超大规模算力集群(数千张 GPU)、高质量语料库和专业 AI 团队
- 对模型底层完全可控有强需求(如涉密、特殊语言、极致安全)
-
需要什么前提条件:
- 超大规模算力(GPU/TPU 集群)
- 高质量、多语言、多领域的海量语料
- 专业 AI 团队(算法、工程、运维)
- 长期投入(训练周期数周至数月)
-
企业&个人建议:
- 绝大多数企业与个人无需也不应自行预训练模型。直接使用开源(如 Qwen、Llama 系列)或商业 API(如 GPT-4、DeepSeek)提供的预训练模型即可满足几乎所有应用场景
二、微调(Fine-tuning)
-
它是什么:
- 在已有预训练模型基础上,使用特定领域或任务的小规模标注数据进行进一步训练,使模型行为更贴合业务需求
-
应用场景:
- 模型需稳定输出特定格式或风格(如财报摘要、法律意见书)
- 任务涉及专业术语或逻辑,通用模型表现不佳(如医疗、金融、工业)
- Prompt 无法可靠控制输出,且错误成本高
- 希望降低推理时上下文长度(相比 RAG 更节省 token)
-
需要什么前提条件:
- 数百至数千条高质量标注数据
- 基础训练能力(云平台或开源工具如 Hugging Face、DeepSpeed)
- 可接受模型更新周期较长(需重新训练部署)
-
企业&个人建议:
- 适合中大型企业或有 AI 工程能力的团队。
- 个人开发者若数据量小、任务简单,优先尝试 Prompt 或 RAG。
三、RAG(Retrieval-Augmented Generation,检索增强生成)
-
它是什么:
- 在模型生成答案前,先从外部知识库(如文档、数据库、Wiki)中检索相关信息,将检索结果作为上下文输入给大模型,从而生成更准确、可溯源的回答。
-
应用场景:
- 知识动态更新(如产品手册、政策法规、新闻)
- 知识量大且分散,无法全部内化到模型中
- 需要答案可解释、可溯源(如客服、合规问答)
- 无法或不愿训练模型(出于成本、合规或技术限制)
-
需要什么前提条件:
- 外部知识库(文档、数据库、API)
- 向量数据库或检索系统(如 Chroma、Milvus、Elasticsearch)
- 基础工程能力(可借助 LangChain、Haystack 等工具链)
- 无需训练模型(仅推理阶段增强)
-
企业&个人建议:
- RAG 是当前企业落地大模型性价比最高、最主流的方案。
- 个人也可通过 LangChain + 向量数据库(如 Chroma、Milvus)快速搭建。
四、Prompt 工程(Prompt Engineering)
-
它是什么:
- 通过精心设计输入提示词(Prompt),引导大模型输出符合预期的结果,无需修改模型本身。
-
应用场景:
- 任务通用、简单、已有成熟范式(如邮件撰写、翻译、代码生成)
- 处于MVP 验证阶段,希望快速试错
- 没有专属数据,或数据极少
- 对输出容错率较高(如创意辅助、内部工具)
-
需要什么前提条件:
- 无需训练模型,无需修改参数
- 基础 Prompt 设计能力(可学习 Few-shot、Chain-of-Thought 等技巧)
- 允许一定错误率(如非关键决策场景)
-
企业&个人建议:
- 80% 的日常 AI 应用可通过优化 Prompt 实现。建议从 Prompt 入手,再逐步升级到 RAG 或微调。