AI大模型原理剖析和实战

AI大模型原理剖析和实战

AI大模型原理剖析和实战

系统性理解 LLM 的相关技术，作为一个概览

等 1 人订阅共4篇文章创建于2025-12-17

AI大模型原理剖析和实战(第四部分：后训练与微调)

后训练（Post-training）则是为了让模型变得“懂规矩、有逻辑、讨人喜欢”（像接受职业培训）。这一部分是目前企业应用最广泛的技术领域，涵盖了从 SFT 到 LoRA 再到 RLHF 的全流程。

3月前
174
1
评论

AI大模型原理剖析和实战(第三部分：大模型预训练流程)

如果说前两部分是“造砖”和“画图纸”，那么这一部分就是真正的“盖摩天大楼”。预训练（Pre-training）是大模型消耗算力最大、耗时最长、技术壁垒最高的阶段。

3月前
134
1
评论

AI大模型原理剖析和实战(第二部分：大模型核心原理与Transformer架构)

NLP 的基石（词向量）出发，深入剖析 Transformer 架构的细节——Tokenizer 分词原理到 BPE 算法实现，手写 Self-Attention、MQA/GQA 以及旋转位置编码

3月前
122
3
评论

AI大模型原理剖析和实战(第一部分：入门导学与DeepSeek初体验)

本部分作为课程的起点，旨在为你建立宏观的AI大模型认知，完成必要的开发环境搭建（Anaconda + PyCharm + 远程服务器），并带领你通过实战快速上手国产之光 DeepSeek 模型

3月前
101
1
评论