学习AI基础概念篇

2025-12-26 52 阅读8分钟

AI 核心概念融合指南

这不仅仅是概念堆砌，这是构建 AI 应用的工程视图。我们将 AI 的黑盒拆解为清晰的四层架构，每一层都对应着具体的前端技术实现。

第一部分：逻辑层 (Logic Layer) —— 大脑与决策

这一层决定了 AI 如何思考、如何行动以及如何扩展知识边界。

0. LLM (Large Language Model)

本质：它是生成器，不是查询机。它在做概率接龙，而非检索真理。这就是为什么它会一本正经地胡说八道（幻觉），因为它并不真正理解真理，只是在预测下一个词。
前端视角：一个输入 Prompt 输出 Text 的超重型异步函数。

1. Function Calling (函数调用)

定义：让 AI 从“聊天机器人”进化为“按按钮的操作员”。
前端映射：Router / Dispatcher + JSON-RPC。
工作流：
1. 你告诉 AI：“我手里有 search_weather(city) 和 send_email(to, body) 这两个函数”。
2. 用户说：“帮我发个邮件给老板”。
3. AI 不执行代码，而是返回一个 JSON 对象：{ "function": "send_email", "args": { "to": "boss", "body": "..." } }。
4. 你的前端代码拿到 JSON，执行真正的 send_email 函数，把结果再喂回给 AI。
核心价值：它连接了 AI 的“大脑”和你业务系统的“手脚”。

2. Agent (智能体)

定义：LLM (大脑) + Tools (手脚) + Loop (运行机制)。
前端映射：服务端运行的 While 循环。
核心循环：
1. Ask: 前端把任务发给 AI。
2. Think: AI 思考，返回一个 JSON，说“我要调用 GoogleSearch 函数”。
3. Act: 代码执行这个函数。
4. Observe: 把函数运行结果（HTML/JSON）喂回给 AI。
5. Loop: 回到第2步，直到 AI 说“我做完了”。
- 观察 -> 思考 -> 行动 -> 观察 的死循环，就是 Agent 的本质。

3. Chain of Thought (CoT, 思维链)

定义：强制模型展示推理过程，减少逻辑跳跃带来的错误。
前端映射：console.log 调试模式 / Verbose Mode。
原理：如果你直接问结果，AI 容易错（就像代码写在一行里容易出 Bug）。如果你强制它“一步步思考（Let's think step by step）”，它会把中间推理过程打印出来。
应用：在 UI 上展示“AI 正在思考...”，并把 CoT 的过程折叠显示，增加用户的信任感。

4. RAG (Retrieval-Augmented Generation, 检索增强) vs. Fine-tuning

Fine-tuning (微调)：
- 映射：修改源码并重新编译 (npm build)。把知识“烧录”进模型的大脑里。
- 缺点：贵、慢、更新麻烦。除非你是行业巨头，否则别碰。
RAG (检索增强)：
- 映射：运行时查阅文档 (Runtime Lookup)。给 AI 开卷考试。
- 场景：AI 的数据只截止到2023年，且不知道你公司的私有 PRD 文档。
- 数据流：User Input -> Vector DB Search -> Get Context -> Construct Prompt (Query + Context) -> LLM -> Response。
- 优势：实时、廉价、数据隐私可控。企业级应用的首选方案。

第二部分：交互层 (Interaction Layer) —— 数据流转与协议

这一层处理 AI 与用户、与前端应用的数据交互方式。

5. Prompt Engineering (提示词工程)

定义：一种特殊的 API 参数封装技术。前端调用 API 传 params，Prompt 就是传给 AI 这个万能 API 的 params。
System Prompt (系统提示词)：
- 映射：全局配置 (Global Config) / constructor()。
- 作用：在会话开始前设定人设与规则。const system_prompt = "你是一个严谨的资深工程师"; 它定义了整个 Session 的基调。
User Prompt：对应具体的 Request Body，即用户的每一次提问。

6. Streaming (流式输出)

定义：降低 TTFB (Time to First Byte)，提升感知性能。
前端映射：Server-Sent Events (SSE) / WebSocket / ReadableStream。
原理：AI 不是一次性把 1000 字吐出来，而是像打字机一样，一个 Token 一个 Token 地吐。
痛点：你需要处理流式解析，不再是简单的 await fetch()，这能极大降低用户的心理等待时间。

7. Generative UI (生成式 UI)

定义：AI 返回的不再是 Markdown 文本，而是可渲染的 UI 组件代码。
前端映射：服务端组件 (RSC) 动态流式传输。
趋势：意图导向编程。用户说“我要看销量趋势”，AI 直接返回一个 <Recharts /> 组件并在前端渲染，而非一段文字描述。

第三部分：配置层 (Configuration Layer) —— 控制随机性

通过参数调整模型的输出风格，平衡“严谨”与“创意”。

8. Temperature (温度)

定义：控制采样概率分布的平滑程度。
前端映射：Math.random() 的熵值 / 随机种子。
数值含义：
- 0：代码模式。绝对理性，每次回答都一样（幂等性）。适合写代码、数据提取。
- > 0.8：创意模式。放飞自我，AI 会尝试那些“概率没那么高”的词，产生新奇结果。适合写小说、头脑风暴。

9. Top-P (Nucleus Sampling)

定义：基于累积概率切断候选词。
映射：候选词的动态“白名单”过滤器。
工程建议：通常 Temperature 和 Top-P 只调一个，不要同时乱动。

第四部分：数据层 (Data Layer) —— 计算单位与语义理解

这是机器理解世界的底层数据结构。

10. Tokens (词元)

定义：模型理解文本的最小单位，Token ≠ Character。
换算：大约 1000 个 Token ≈ 750 个英文单词 ≈ 400-500 个汉字。
前端意义：
- 计费：API 是按 Token 算钱的（输入算钱，输出也算钱）。
- 性能：Token 越多，延迟 (Latency) 越高，首字生成时间 (TTFT) 越慢。
- 验证：输入框限制不能只看 string.length，需估算 Token 数以免爆 API 限制。

11. Context Window (上下文窗口)

定义：AI 的短期记忆容量限制。
前端映射：浏览器的 sessionStorage / LRU Cache (环形缓冲区)。
原理：AI 是无状态的。你每一次发给 AI 的请求，实际上都把之前的聊天历史重新打包发了一遍。
- 用户：你好 -> 服务器
- 用户：我在做前端 -> 服务器（其实发的是：“你好” + “AI回复” + “我在做前端”）
瓶颈：当对话太长，超过了模型的窗口（比如 128k），最早的信息就会被“挤出去”，AI 就失忆了。必须在应用层写代码截断 (Truncate) 历史记录。

12. Embeddings (向量)

定义：将文本转化为高维数学坐标（如 [0.1, -0.5, 0.8, ...] ）。
前端映射：多维数组坐标 / 特征提取。
原理：AI 不认识文字，只认识数字。Embedding 就是把一段话（比如“低趴的轿跑”）变成一组坐标。
神奇之处：意思相近的话，在数学空间里的距离就很近。
核心价值：语义搜索。
- 你搜“低趴”，向量搜索能匹配到“姿态好的车”，因为它们在向量空间靠得近，而不需要关键词完全匹配。

第五部分：架构优化层 (Architecture & Optimization Layer) —— 性能与规模

这一层是区分普通开发者与 AI 架构师的分水岭，涉及成本、速度与质量的权衡。

13. KV Cache (键值缓存)

本质：Transformer 的空间换时间策略。
前端痛点：为什么长文本越聊越慢？
原理：生成第 100 个 Token 时，不需要重新计算前 99 个 Token 的注意力矩阵。我们把中间计算结果（Key 和 Value 矩阵）存起来。
代价：显存占用极大。这就是为什么长上下文 (Long Context) 这么贵。

14. MoE (Mixture of Experts, 混合专家模型)

定义：三个臭皮匠顶个诸葛亮。
映射：微服务架构 / 动态路由。
原理：模型内部不是一个巨大的神经网络，而是包含成百上千个“小专家”网络。对于每个 Token，路由网关只激活其中 2 个专家进行处理。
优势：推理速度极快（只激活部分参数），但知识储备巨大（总参数量极大）。如 GPT-4, Mixtral 8x7B。

15. Speculative Decoding (投机采样)

定义：大小模型配合，预测未来。
前端映射：乐观 UI 更新 (Optimistic UI)。
原理：小模型（运行快但笨）先猜出接下来的 5 个词，大模型（运行慢但聪明）并行验证这 5 个词。如果全对，一次性输出 5 个词；如果错了，回滚修正。
结果：将流式输出速度提升 2-3 倍，这也是为什么有些 API 快得离谱。

16. Evals (评估体系)

定义：AI 应用的单元测试与集成测试。
映射：Jest / Cypress。
痛点：凭感觉调整 Prompt 是工程大忌。
方案：建立数据集，用另一个更强的模型（如 GPT-4）作为裁判 (LLM-as-a-Judge)，给你的模型输出打分。没有 Evals，任何优化都是盲人摸象。

17. GraphRAG (图谱增强检索)

定义：超越向量相似度的逻辑关联检索。
原理：普通的 RAG 只能找到“含有关键词的片段”。GraphRAG 先提取实体构建知识图谱。
场景：问“A公司和B公司有什么资金往来？”，向量搜索可能失效（因为文档没直接提），但图谱能沿着“A -> 子公司C -> 供应商D -> B”的路径找到答案。

总结：前端工程师的进阶路径

不仅仅是调 API：理解数据流，掌握 RAG 拼接逻辑，处理 Context Window 截断，你就是架构师。
交互是瓶颈：聊天框是最烂的 AI 交互。探索 Generative UI，让 AI 生成界面。
意图导向：从“点击触发函数”转变为“识别意图 -> 自动组合函数”。
关注性能细节：理解 Token 成本、KV Cache 对延迟的影响，才能设计出既快又省钱的系统。