零基础友好指南
很高兴再次见到你。
欢迎回到新一篇内容。
如果你曾尝试学习AI,大概率至少有过一次这样的感受……“这到底在讲什么?”
术语太多。 工具太多。 网上所有人都说得好像理所当然。
学习AI很容易让人感到崩溃。
尤其如果你不是直接从事这一行,几乎像在学一门全新的语言。
但我逐渐意识到一件事:
AI其实并没有那么复杂。
一旦你理解底层原理——特别是大语言模型(LLM)如何工作、现代AI工具如何构建——一切就都通顺了。
在这篇文章里,我会用最简单的方式拆解20个最重要的AI概念。
没有晦涩术语。 不故意复杂化。 只有清晰解释和直观例子,就像我当初希望别人教我的那样。
现在开始 ✌️
基础概念
1. 神经网络(Neural Networks)
神经网络的核心,就是一个由神经元这种微小单元组成的多层连接系统。
你可以把它想象成一条流水线。
数据从输入层进入,穿过多层隐藏层,最终从输出层输出预测结果。
但内部到底发生了什么?
最简单的理解方式:逐层精炼。
同一批输入被反复处理, 每经过一层,模型的理解就更深入一点。
以图像模型为例:
-
浅层识别边缘、纹理等基础特征
-
中层开始识别形状、模式
-
深层可以识别真实物体
就像:像素 → 形状 → 语义。
关键知识点:
神经元之间的每条连接都有一个**权重(weight)。你可以把权重理解为微小的“重要性分数”,**决定一个神经元对另一个神经元的影响程度。
那训练神经网络是什么?
本质就是**不断调整这些权重,**直到模型输出准确结果。
更夸张的是:
现代AI,尤其是大语言模型, 不止几个权重—— 而是数十亿个权重同时工作,把原始输入变成有意义的内容。
2. 迁移学习(Transfer Learning)
从头训练神经网络听起来很酷…… 直到你知道成本有多高。
需要海量数据、超强**算力、**大量时间。
这就是迁移学习的意义——说实话,它彻底改变了AI。
不再从零开始, 而是拿一个**已经在通用任务上训练好的模型,**适配到更具体的任务。
你不是白手起家, 而是在成熟模型的基础上继续搭建。
最通俗的比喻:技能复用。
你已经会骑自行车, 再学摩托车就容易得多,对吗?
因为不是从零开始, 只是把已有知识迁移适配。
迁移学习同理。
预训练模型已经学会数据中的通用规律,因此你针对自己场景微调时,学习更快、成本更低。
重点:
今天绝大多数现代AI都是这么做的。
大公司训练一次巨型基础模型(foundation model),然后开发者们在此基础上适配到具体任务。
这就是为什么你不需要亿级数据和超强算力, 也能做出强大的AI应用。
Transformer 技术栈
3. 分词(Tokenization)
模型要理解文本,必须先把它拆成更小单元。 这个过程叫分词(Tokenization)。
模型不像人类那样读句子, 而是处理叫做**Token(词元)**的最小单位。 Token 就是模型内部的“语言字母表”。
但 Token 不一定是完整单词。
有时是整个词,有时只是词的一部分。 例如 playing 可能被拆成 play + ing。而像 dog 这种常见短词通常保持完整。
你可以在这里体验:platform.openai.com/tokenizer
为什么不直接用完整单词?
一开始可能觉得奇怪,但理由很充分:
语言极其混乱且不断进化。新词不断出现、拼写错误、混合语言、自创变体…… 如果模型要存下所有可能单词,词表会大到无法承受。
分词通过固定的基础构建块解决问题。 模型不用记住每个词,而是学习通用片段与模式。 即使遇到从未见过的词,也能拆成熟悉部分来理解。
所以:AI并不是像人一样阅读文字,而是阅读 Token,再逐步构建意义。
4. 嵌入向量(Embeddings)
文本被拆成 Token 后,下一步是把它们变成模型能处理的东西。
这就是嵌入向量(Embeddings)。
每个 Token 会被转换成一个向量——一串代表语义的数字。 模型不直接处理文字,只处理这些数值表示。
你可以把它理解为一张语义地图。
每个词在高维空间中拥有一个位置。语义相近的词距离近,语义无关的词距离远。
例如:
-
医生和
护士距离很近 -
医生和
山距离很远
即使空间有几百、几千维,依然能精准捕捉关系。 比如:演员 ↔ 女演员 的关系,和 王子 ↔ 公主 是相似的。
关键点: 模型不是靠定义或规则理解语言,而是靠距离与方向——把语义变成几何关系。
5. 注意力机制(Attention)
这里开始进入AI最核心的部分。
一个词的意思**不是固定的,**完全取决于上下文。
比如 apple:
-
可以是水果
-
也可以是苹果公司
只靠 Embedding 不够,因为它是固定表示,无法反映上下文变化。
于是**注意力机制(Attention)**出现了。
注意力让每个词都能看到句子里所有其他词,并决定哪些更重要。 模型不会平等对待所有词,而是自动聚焦最相关的部分。
例如句子:*She bought shares in Apple.*模型会重点关注 shares、``bought,从而知道 Apple 是公司,不是水果。
这带来革命性变化:
模型不再逐词阅读, 而是**一次性看完整个句子,**动态决定关注重点。
注意力机制,是现代AI真正的突破口。
6. Transformer 模型
Token、Embedding、Attention 所有部分汇集在一起, 就是 Transformer。
它是今天几乎所有现代AI的底层架构。
2017年论文《Attention Is All You Need》提出。 核心思想非常简单:不再逐词处理文本,以注意力为核心,让模型同时看到全部内容。
这个转变彻底改变AI。
Transformer 由多层注意力+基础处理块堆叠而成。 信息逐层精炼:
-
浅层:语法、句式结构
-
中层:词语与观点关系
-
深层:复杂推理与长程关联
不是魔法,只是重复精炼。
最大优势:**并行处理。**旧模型必须逐词顺序处理,慢且上下文有限。 Transformer 可同时处理所有 Token,速度快、易扩展,适合GPU大规模训练。
GPT、Claude、Gemini、Llama 全部基于此架构。
整体流程: 文本 → 分词 → 向量 → Transformer多层注意力 → 理解全局关系 这就是你日常使用AI的底层逻辑。
大语言模型(LLM)
7. LLM 大语言模型(Large Language Model)
把前面所有概念连起来,就是大家日常用的大语言模型 LLM。
简单说:LLM = 基于 Transformer,用巨量文本训练而成的模型。
训练数据来自书籍、网站、代码等,动辄数千亿、万亿 Token。
训练目标**出奇简单:**预测下一个 Token。
听起来太简单,却威力巨大。
万亿次重复预测后,模型自动学会: 语言结构、观点关联、逻辑流动…… 最终表现得像“理解”了语言——尽管本质只是超大规模模式学习。
所以它能写代码、答题、翻译、解释复杂内容, 即使从未专门针对这些任务训练。
“Large”指参数量(parameters)—— 模型训练学到的内部数值。 现代模型通常千亿级别。
训练成本极高,需要数百万美元算力。 但换来极强的泛化能力。
你用 ChatGPT、Claude、Gemini 时, 本质是在和一个不断预测下一个词的模型对话。
8. 上下文窗口(Context Window)
每个AI都有一次性“记住”内容的上限, 叫做上下文窗口。
指模型**单次交互能处理的最大 Token 数量,**包括你的输入+模型输出。 简单说:模型的短期工作记忆。
早期模型窗口很小,长对话会丢失前文,大文档必须切割。 现代模型窗口大幅扩大,可处理整本书、长对话、大量代码。
但有代价: 窗口越大 → 内存/算力需求越高 → 速度越慢、成本越高。
还有一个经典问题:**中间丢失效应(lost in the middle)。模型更容易记住开头和结尾,**中间内容容易被忽略。
这就是为什么有时AI会“忘记”你之前说过的内容。
9. 温度系数(Temperature)
语言模型生成文本时,不是直接选下一个词, 而是计算每个候选词的概率,再做选择。
Temperature(温度)就是控制随机性与创造性的参数。
-
低温(接近0):模型极度保守,几乎总选概率最高的词。输出稳定、精准、重复度高,
适合代码、总结、事实类任务。
-
温度升高
:模型开始接受低概率词,输出**多样、自然、有创意,**适合 brainstorm、创作。
-
高温:
极度随机,想象力拉满,但容易逻辑混乱、胡言乱语。
总结:低温 = 准确可靠****高温 = 创意多样
根据任务选择平衡。
10. 幻觉(Hallucination)
认真用AI一定会遇到: 模型回答听起来非常自信、完全正确,但其实是错的。
这就是幻觉。
它可能编造不存在的研究、虚构API、伪造事实,而且语气非常肯定。
为什么会发生?
核心原因:LLM 的目标不是“说真话”,而是生成“最合理的下一段文本”。
它从海量数据学习模式,负责输出流畅自然的内容,不负责验证事实真假。
只要错误内容“看起来合理”,模型就会自信输出。
这是真实场景中最大隐患之一。**不能盲目相信AI输出,**尤其事实、代码、重要决策。
现在很多系统用真实数据 grounding缓解幻觉(例如RAG)。
最终记住: AI非常擅长**“听起来正确”,但必须由人判断“实际上正确”。**
训练与优化
11. 微调(Fine-Tuning)
微调发生在模型已经学会通用语言之后。
不从头训练,而是拿预训练模型,在更小、更专注的数据集上继续训练。 模型已有通用能力,只需引导到特定方向。
比喻:专业化训练。
通用模型什么都能答, 但你想让它精通法律,就用合同、判例、法律文本继续微调。 慢慢它就会输出符合专业领域的回答。
缺点: 微调需要更新**大量参数,**巨型模型需要高端GPU集群,成本高、工程复杂。
优点:高度定制、效果强。
12. RLHF(基于人类反馈的强化学习)
前面只讲了模型如何学语言, 但没解释一件关键事:
为什么现代AI如此有用、礼貌、善解人意?
答案:RLHF。
RLHF 的作用: 把“只会预测下一个词”的模型,变成符合人类偏好的AI。
没有RLHF,模型文本流畅,但**不一定有用、安全、得体。**它只会继续最可能的模式,不管对你有没有帮助。
RLHF 引入人类判断:
-
模型对同一提示生成多个回答
-
人类打分排序:哪个更有用、清晰、安全
-
模型学习人类偏好
模型不是死记答案,而是学会**偏好感:**什么是好回答、如何遵循指令、如何避免有害内容。
这就是现代聊天AI和旧系统的本质区别:不只流畅,而且真正试图帮你。
没有RLHF,模型依然强大, 但会更不可靠、不安全、难实用。
13. LoRA(低秩适配)
微调很强,但有问题: 巨型模型微调要更新数十亿参数,昂贵、难部署。
于是 LoRA(Low-Rank Adaptation) 出现。
思路极轻量:冻结原始模型,只在顶部添加极小的可训练层。
这些额外部分只占总参数的百分之零点几。不是重写整个模型,只是在关键位置加微小调整。
原理: 微调时大部分变化不需要全量更新,可用低维矩阵近似表达。 LoRA 用紧凑方式捕捉这些变化。
意义: 让**微调大众化。**原本需要多卡GPU,现在单卡就能做。 可以保存多个轻量 LoRA 文件,快速切换不同风格/任务。
一句话:LoRA 让你用极低成本获得微调的大部分好处。
14. 量化(Quantization)
模型越大,运行越困难: 占内存、耗算力、要求高端硬件。
量化(Quantization) 就是解决方案。
本质:更高效存储权重,让模型更小、更便宜运行。
全精度模型每个权重用很多比特(float32)。 量化降低比特数(如 float16、int8、int4), 模型体积大幅缩小,内存占用暴跌。
核心思想:牺牲少量精度,保留绝大部分能力。
通常适度量化效果下降极小,但速度/内存提升巨大。
这就是为什么现在普通人能在桌面GPU、笔记本跑大模型: 基本都用量化版本。
一句话:量化把大模型从数据中心带到普通设备。
提示词与推理
15. 提示词工程(Prompt Engineering)
用过AI都知道:你怎么问,比问什么更重要。
这就是提示词工程。
通过**优化输入,**让模型输出更好、更有用的结果。 同样问题,不同问法,结果天差地别。
例如:
-
“解释API” → 宽泛肤浅
-
“用真实例子解释REST API如何做认证” → 精准实用
好提示词不靠复杂,靠清晰。
可以:
-
指定角色(如资深工程师)
-
给出示例
-
拆分成步骤
-
明确格式、语气、长度
提示词工程不是技巧,而是你与模型的交流语言。
模糊提示 → 通用回答 优质提示 → 结构化、准确、可直接使用
16. 思维链(CoT,Chain of Thought)
有时模型答错,不是不会,而是太快得出结论。
思维链就是解决方法。
让模型**分步思考,**而不是直接跳答案。 特别适合逻辑、数学、多步推理任务。
比喻:给模型一张草稿纸。
直接要答案 → 模式匹配,容易错 分步思考 → 逐步推导,正确率大幅提升
例如乘法: 直接算可能错,拆成小步骤再合并就很稳。
更好的结果,往往来自:允许模型慢慢推理,而不是强迫瞬间给出答案。
构建AI系统
17. RAG(检索增强生成)
还记得幻觉吗? RAG 是目前最实用的解决方案之一。
思路非常简单:
不让模型只靠记忆回答,而是实时查询真实可靠信息。
流程:
-
用户提问
-
系统从知识库检索相关文档
-
把文档作为上下文喂给模型
-
模型基于事实生成回答
比喻:模型不再闭卷考试,而是可以开卷查阅资料。
例如客服助手: 回答政策、价格时,不瞎编,直接查最新官方文档,再自然语言解释。
优势:
-
模型负责理解与表达
-
知识库负责事实
信息更新时**不用重新训练模型,**只更新文档即可。
一句话:RAG 让模型从“凭记忆胡说”变成“依据事实回答”。
18. 向量数据库(Vector Database)
RAG 需要快速找到相关信息, 靠传统关键词搜索不够。
解决方案:向量数据库。
它不存原始文本, 而是存Embedding 向量(语义数值表示)。
支持**语义相似度搜索,**而非关键词匹配。
流程:
-
文档切块 → 转 Embedding
-
存入向量库
-
用户问题 → 转 Embedding
-
查找最相近向量 → 返回最相关内容
与传统搜索区别: 关键词搜索:只匹配文字 向量搜索:匹配意图与语义
即使措辞不同,也能找到正确内容。 Pinecone、Weaviate、Qdrant、PostgreSQL+向量插件都支持。
一句话:向量数据库让AI像人一样“理解意思”去搜索,而不是只找文字。
19. AI 智能体(AI Agents)
前面大多只讲生成文本。 但如果模型能主动做事呢?
这就是 AI 智能体。
AI Agent = 具备行动能力的大模型。 不只回答,还能: 调用工具、运行代码、搜索、操作API、多步完成任务。
从 “思考” 升级为 “行动”。
典型Agent循环: 观察现状 → 决策下一步 → 执行 → 观察结果 → 继续迭代 LLM 作为核心决策者。
例如代码修复Agent: 读问题 → 看代码 → 定位Bug → 写修复 → 运行测试 → 修正 → 直到正常
强大但也脆弱: 每一步都可能出错,错误会累积。
构建优秀Agent的关键:**不是更强,而是更可靠。**需要规划、校验、重试、自我修正。
一句话:AI Agent 让大语言模型从聊天工具,变成能在真实世界执行任务的系统。
20. 扩散模型(Diffusion Models)
前面主要讲文本, 那图像怎么生成?
靠 扩散模型——当今主流AI画图技术核心。
思路非常反直觉:
模型先学如何“毁掉图片”,再学如何复原。
训练过程:
-
给真实图片逐步加噪声
-
直到完全变成噪点
-
训练模型**逆向过程:**从噪声一步步去噪,还原原图
生成新图片时: 从纯随机噪声开始, 模型逐步去噪、添加结构、形状、细节, 最终形成完整图像。
“扩散”来自物理:粒子随机扩散(如墨水在水中散开)。 模型学习相反过程:从混乱恢复秩序。
现在已不只用于图像: 视频、音频、3D、分子设计、蛋白质结构预测都在用扩散模型。
一句话:扩散模型让AI从纯粹随机噪声,生成可见、可用的内容。
写在最后
非常感谢你读到这里。
如果这篇文章让你对AI理解更清晰——哪怕只搞懂一个概念,对我来说都很有意义。
-------------------------------------------------------------