Day0 - 缘起

38 阅读1分钟

纸上得来终觉浅

2025年12月的今天,大模型的子弹已经飞了近三年。

作为一名软件工程师,你可能已经刷过无数个 “5分钟入门大语言模型”,“一文读懂大模型基本概念” 之类的文章视频。每次看完教程,照着跑完几个Prompt 或者 Agent 示例,就会有一种大模型应用尽在掌握的错觉。

可一旦想更进一步,把它真正用在生产环境中、持续优化效果时,却总是发现无从下手,只能依靠反复试错,盲目摸索。

归根结底,问题还是出在缺乏对对大模型基础原理的了解。纸上得来终觉浅,实践才能出真知。好在如今各类参考资料已相当丰富,从0开始构建简单大模型的条件与时机都已基本成熟。

从0构建大模型

本专栏将以GPT的核心原理为指导,按照下图的路线图,将从0开始构建自己的模型。

我们将分三个阶段实现目标

  1. LLM构建:包括数据预处理、注意力机制 和 LLM架构
  2. 模型预训练:基于未打标的数据,对 LLM 进行预训练
  3. 模型微调:对预训练后的LLM进行微调,使其能够进行分类和问答任务

image.png

参考资料

github 从零构建大模型项目 github.com/rasbt/LLMs-…

Andrej Karpathy 的从0构建深度学习框架系列
www.youtube.com/playlist?li…