学习AI基础概念篇

9 阅读8分钟

AI 核心概念融合指南

这不仅仅是概念堆砌,这是构建 AI 应用的工程视图。我们将 AI 的黑盒拆解为清晰的四层架构,每一层都对应着具体的前端技术实现。

第一部分:逻辑层 (Logic Layer) —— 大脑与决策

这一层决定了 AI 如何思考、如何行动以及如何扩展知识边界。

0. LLM (Large Language Model)

  • 本质:它是生成器,不是查询机。它在做概率接龙,而非检索真理。这就是为什么它会一本正经地胡说八道(幻觉),因为它并不真正理解真理,只是在预测下一个词。
  • 前端视角:一个输入 Prompt 输出 Text 的超重型异步函数。

1. Function Calling (函数调用)

  • 定义:让 AI 从“聊天机器人”进化为“按按钮的操作员”。
  • 前端映射Router / Dispatcher + JSON-RPC
  • 工作流
    1. 你告诉 AI:“我手里有 search_weather(city)send_email(to, body) 这两个函数”。
    2. 用户说:“帮我发个邮件给老板”。
    3. AI 不执行代码,而是返回一个 JSON 对象:{ "function": "send_email", "args": { "to": "boss", "body": "..." } }
    4. 你的前端代码拿到 JSON,执行真正的 send_email 函数,把结果再喂回给 AI。
  • 核心价值:它连接了 AI 的“大脑”和你业务系统的“手脚”。

2. Agent (智能体)

  • 定义:LLM (大脑) + Tools (手脚) + Loop (运行机制)。
  • 前端映射:服务端运行的 While 循环。
  • 核心循环
    1. Ask: 前端把任务发给 AI。
    2. Think: AI 思考,返回一个 JSON,说“我要调用 GoogleSearch 函数”。
    3. Act: 代码执行这个函数。
    4. Observe: 把函数运行结果(HTML/JSON)喂回给 AI。
    5. Loop: 回到第2步,直到 AI 说“我做完了”。
    • 观察 -> 思考 -> 行动 -> 观察 的死循环,就是 Agent 的本质。

3. Chain of Thought (CoT, 思维链)

  • 定义:强制模型展示推理过程,减少逻辑跳跃带来的错误。
  • 前端映射console.log 调试模式 / Verbose Mode
  • 原理:如果你直接问结果,AI 容易错(就像代码写在一行里容易出 Bug)。如果你强制它“一步步思考(Let's think step by step)”,它会把中间推理过程打印出来。
  • 应用:在 UI 上展示“AI 正在思考...”,并把 CoT 的过程折叠显示,增加用户的信任感。

4. RAG (Retrieval-Augmented Generation, 检索增强) vs. Fine-tuning

  • Fine-tuning (微调)
    • 映射:修改源码并重新编译 (npm build)。把知识“烧录”进模型的大脑里。
    • 缺点:贵、慢、更新麻烦。除非你是行业巨头,否则别碰。
  • RAG (检索增强)
    • 映射:运行时查阅文档 (Runtime Lookup)。给 AI 开卷考试
    • 场景:AI 的数据只截止到2023年,且不知道你公司的私有 PRD 文档。
    • 数据流:User Input -> Vector DB Search -> Get Context -> Construct Prompt (Query + Context) -> LLM -> Response。
    • 优势:实时、廉价、数据隐私可控。企业级应用的首选方案。

第二部分:交互层 (Interaction Layer) —— 数据流转与协议

这一层处理 AI 与用户、与前端应用的数据交互方式。

5. Prompt Engineering (提示词工程)

  • 定义:一种特殊的 API 参数封装技术。前端调用 API 传 params,Prompt 就是传给 AI 这个万能 API 的 params
  • System Prompt (系统提示词)
    • 映射:全局配置 (Global Config) / constructor()
    • 作用:在会话开始前设定人设与规则。const system_prompt = "你是一个严谨的资深工程师"; 它定义了整个 Session 的基调。
  • User Prompt:对应具体的 Request Body,即用户的每一次提问。

6. Streaming (流式输出)

  • 定义:降低 TTFB (Time to First Byte),提升感知性能。
  • 前端映射Server-Sent Events (SSE) / WebSocket / ReadableStream
  • 原理:AI 不是一次性把 1000 字吐出来,而是像打字机一样,一个 Token 一个 Token 地吐。
  • 痛点:你需要处理流式解析,不再是简单的 await fetch(),这能极大降低用户的心理等待时间。

7. Generative UI (生成式 UI)

  • 定义:AI 返回的不再是 Markdown 文本,而是可渲染的 UI 组件代码。
  • 前端映射:服务端组件 (RSC) 动态流式传输。
  • 趋势:意图导向编程。用户说“我要看销量趋势”,AI 直接返回一个 <Recharts /> 组件并在前端渲染,而非一段文字描述。

第三部分:配置层 (Configuration Layer) —— 控制随机性

通过参数调整模型的输出风格,平衡“严谨”与“创意”。

8. Temperature (温度)

  • 定义:控制采样概率分布的平滑程度。
  • 前端映射Math.random() 的熵值 / 随机种子。
  • 数值含义
    • 0代码模式。绝对理性,每次回答都一样(幂等性)。适合写代码、数据提取。
    • > 0.8创意模式。放飞自我,AI 会尝试那些“概率没那么高”的词,产生新奇结果。适合写小说、头脑风暴。

9. Top-P (Nucleus Sampling)

  • 定义:基于累积概率切断候选词。
  • 映射:候选词的动态“白名单”过滤器。
  • 工程建议:通常 TemperatureTop-P 只调一个,不要同时乱动。

第四部分:数据层 (Data Layer) —— 计算单位与语义理解

这是机器理解世界的底层数据结构。

10. Tokens (词元)

  • 定义:模型理解文本的最小单位,Token ≠ Character
  • 换算:大约 1000 个 Token ≈ 750 个英文单词 ≈ 400-500 个汉字。
  • 前端意义
    • 计费:API 是按 Token 算钱的(输入算钱,输出也算钱)。
    • 性能:Token 越多,延迟 (Latency) 越高,首字生成时间 (TTFT) 越慢。
    • 验证:输入框限制不能只看 string.length,需估算 Token 数以免爆 API 限制。

11. Context Window (上下文窗口)

  • 定义:AI 的短期记忆容量限制。
  • 前端映射:浏览器的 sessionStorage / LRU Cache (环形缓冲区)。
  • 原理:AI 是无状态的。你每一次发给 AI 的请求,实际上都把之前的聊天历史重新打包发了一遍
    • 用户:你好 -> 服务器
    • 用户:我在做前端 -> 服务器(其实发的是:“你好” + “AI回复” + “我在做前端”)
  • 瓶颈:当对话太长,超过了模型的窗口(比如 128k),最早的信息就会被“挤出去”,AI 就失忆了。必须在应用层写代码截断 (Truncate) 历史记录。

12. Embeddings (向量)

  • 定义:将文本转化为高维数学坐标(如 [0.1, -0.5, 0.8, ...] )。
  • 前端映射:多维数组坐标 / 特征提取。
  • 原理:AI 不认识文字,只认识数字。Embedding 就是把一段话(比如“低趴的轿跑”)变成一组坐标。
  • 神奇之处:意思相近的话,在数学空间里的距离就很近。
  • 核心价值语义搜索
    • 你搜“低趴”,向量搜索能匹配到“姿态好的车”,因为它们在向量空间靠得近,而不需要关键词完全匹配。

第五部分:架构优化层 (Architecture & Optimization Layer) —— 性能与规模

这一层是区分普通开发者与 AI 架构师的分水岭,涉及成本、速度与质量的权衡。

13. KV Cache (键值缓存)

  • 本质:Transformer 的空间换时间策略。
  • 前端痛点:为什么长文本越聊越慢?
  • 原理:生成第 100 个 Token 时,不需要重新计算前 99 个 Token 的注意力矩阵。我们把中间计算结果(Key 和 Value 矩阵)存起来。
  • 代价:显存占用极大。这就是为什么长上下文 (Long Context) 这么贵。

14. MoE (Mixture of Experts, 混合专家模型)

  • 定义:三个臭皮匠顶个诸葛亮。
  • 映射:微服务架构 / 动态路由。
  • 原理:模型内部不是一个巨大的神经网络,而是包含成百上千个“小专家”网络。对于每个 Token,路由网关只激活其中 2 个专家进行处理。
  • 优势:推理速度极快(只激活部分参数),但知识储备巨大(总参数量极大)。如 GPT-4, Mixtral 8x7B。

15. Speculative Decoding (投机采样)

  • 定义:大小模型配合,预测未来。
  • 前端映射:乐观 UI 更新 (Optimistic UI)。
  • 原理:小模型(运行快但笨)先猜出接下来的 5 个词,大模型(运行慢但聪明)并行验证这 5 个词。如果全对,一次性输出 5 个词;如果错了,回滚修正。
  • 结果:将流式输出速度提升 2-3 倍,这也是为什么有些 API 快得离谱。

16. Evals (评估体系)

  • 定义:AI 应用的单元测试与集成测试。
  • 映射:Jest / Cypress。
  • 痛点:凭感觉调整 Prompt 是工程大忌。
  • 方案:建立数据集,用另一个更强的模型(如 GPT-4)作为裁判 (LLM-as-a-Judge),给你的模型输出打分。没有 Evals,任何优化都是盲人摸象。

17. GraphRAG (图谱增强检索)

  • 定义:超越向量相似度的逻辑关联检索。
  • 原理:普通的 RAG 只能找到“含有关键词的片段”。GraphRAG 先提取实体构建知识图谱。
  • 场景:问“A公司和B公司有什么资金往来?”,向量搜索可能失效(因为文档没直接提),但图谱能沿着“A -> 子公司C -> 供应商D -> B”的路径找到答案。

总结:前端工程师的进阶路径

  1. 不仅仅是调 API:理解数据流,掌握 RAG 拼接逻辑,处理 Context Window 截断,你就是架构师。
  2. 交互是瓶颈:聊天框是最烂的 AI 交互。探索 Generative UI,让 AI 生成界面。
  3. 意图导向:从“点击触发函数”转变为“识别意图 -> 自动组合函数”。
  4. 关注性能细节:理解 Token 成本、KV Cache 对延迟的影响,才能设计出既快又省钱的系统。