核心概念短板
| 概念 | 是什么 | 为什么重要 | 学习资源 |
|---|---|---|---|
| 1. MoE(混合专家) | 模型由多个“专家”子网络组成,每次推理只激活部分参数 | 为何模型总参数千亿但激活仅百亿甚至更少——高效与性能的平衡 | MoE 架构 图解 |
| 2. 上下文长度(Context Length) | 模型一次能“记住”和处理的文本量(单位:Token) | 能否处理长文档、长对话、复杂任务流 | 128K、256K、1M Token的实际差异 |
| 3. Agent(智能体) | LLM + 规划 + 工具调用 + 记忆 的系统,能自主完成任务 | “聊天”到“做事”的关键跃迁 | |
| 4. 全模态(Omni-modal) | 模型能同时理解/生成文本、图像、音频、视频 | 物理交互的基础 | |
| 5. 基准(Benchmark) | 评估模型能力的标准化测试集(如ClawEval、SWE-bench) | 判断模型真实水平的衡量依据 | 关键基准的评估逻辑 |
1、MoE
混合专家模型-基于 Transformer 架构的模型
What?
混合专家模型(Mixture of Experts)是一种 基于 Transformer 的架构改进。
它把一个巨大的前馈网络(FFN)拆成多个独立的“专家”子网络,同时增加一个 门控网络(路由) 。
每次推理时,门控网络只激活 少数几个专家(例如 8 个专家中只激活 2 个),而不是整个网络。
形象类比:一个医院里有很多科室(专家),但患者挂号时导诊台(门控网络)只会把患者分到 1–2 个相关科室,而不是让所有医生都来看患者。
Why?
- 效率:总参数量很大(如 3090 亿),但实际激活参数很小(如 150 亿)。训练和推理成本大幅下降。
- 性能:因为总专家池大,模型可以记住更多模式,同时不增加每次计算量。
- 解释力:模型参数表格里“总参 XXXXXX 亿,激活 XX 亿”就是 MoE 的典型标志。
How?
- 稀疏 MoE 层:取代传统 Transformer 中的 FFN 层。
- 门控网络(Gating Network):为每个 Token 计算一个专家权重向量,选出 top‑K 个专家。
- 负载均衡损失:防止所有 Token 都涌向同一个专家,确保专家们“雨露均沾”。
参考:www.uml.org.cn/ai/20250320…
2、上下文长度
What?
上下文长度指模型 单次能处理的最大 Token 数量。
Token 是模型理解文本的最小单位:1 个 Token ≈ 0.75 个英文单词 或 0.5 个中文字。
128K Token ≈ 一本 200 页的书;1M Token ≈ 整部《三体》三部曲。
形象类比:上下文长度就像人的 短期记忆容量。记忆越长,一次能看完的文档、能记住的对话细节就越多。但记忆太长,大脑也会“转不过来”。
Why?
- 长文档处理:能否一次性读完 100 页财报、整个代码仓库,而不需要人工切片。
- 长对话体验:能否记住半小时前聊过的细节,不会“断片”或重复问同样的问题。
- 复杂 Agent 任务:Agent 需要回溯前 10 步的操作结果,再决定下一步。如果上下文不够,就会“忘了自己刚才做了什么”。
How?(为什么难做大)
Transformer 的自注意力计算复杂度是 O(N²) :
- 长度 N 翻倍 → 计算量变为 4 倍。
- 从 4K 到 100K,计算量暴增约 600 倍。
- 同时内存占用也是 O(N²),一张 A100 80G 也存不下 1M Token 的注意力矩阵。
所以 长上下文是硬实力,不是简单堆显存就能解决。Google 的 2M 和小米的 1M 都是经过大量工程优化(如 FlashAttention、稀疏注意力、滑动窗口)才做到的。
学习资源:
- 技术原理:索“FlashAttention 原理”或“Transformer 长上下文优化”。
3、Agent(智能体)
What?
Agent = LLM(大脑) + 规划(拆解目标) + 工具调用(动手) + 记忆(长短期记忆) 。
- 普通 LLM:你问一句,它答一句。
- Agent:你给一个目标(如“帮我订下周三去上海的机票”),它会自己:
① 规划步骤(查航班 → 比价 → 填表 → 付款)
② 调用工具(浏览器、日历、支付接口)
③ 遇到验证码时请求你帮助
④ 完成后告知结果。
形象类比:普通 LLM 像一本百科全书,你翻到哪页它读哪页;Agent 像一个实习生,你交代任务后它会自己想办法完成,只在关键节点问你。
Why?
- 从“对话”到“行动” :2024 年以前大家在比“谁聊天更聪明”;2025 年起比“谁能真正干活”。
- 代表模型:Claude 3.5 Sonnet(计算机使用)、GPT‑5.4(原生电脑操作)、MiMo‑V2‑Pro(旗舰智能体大脑)。
- 代表框架:OpenClaw、AutoGen、CrewAI。
- 你的表格里:MiMo-V2-Flash“专为智能体设计”、Claude Opus 4.6“自主代理”等,都指向 Agent 能力。
How?(ReAct 模式)
最经典的 Agent 设计模式是 ReAct(Reason + Act) ,循环执行:
- Thought:模型思考“当前我需要做什么”。
- Action:调用一个工具,如
search_web(query)。 - Observation:观察工具返回的结果。
- 回到 1,直到任务完成。
学习资源:
- Lilian Weng 的博客《LLM Powered Autonomous Agents》。
4、全模态(Omni‑modal)
What?
全模态模型能 同时理解并生成文本、图像、音频、视频,并且可以在这些模态之间自由转换。
例如:输入一段婴儿哭声的音频 → 输出文字“宝宝可能饿了”;或者输入一张猫的照片 → 输出一段模仿猫叫的语音。
形象类比:传统多模态模型像三个独立的人(一个看、一个听、一个写),互相传纸条;全模态模型像一个人同时用眼睛、耳朵、嘴巴工作,感知和表达是统一的。
Why?
- 接近人类感知:用多通道(视觉、听觉、触觉)同时理解世界的。
- 物理交互的基础:一个机器人如果只能看懂文字,就没办法听指令“把这杯红色的水倒进左边的瓶子”。
- 情感陪伴与教育:既能看表情,又能听语气,还能说话安慰人。
- 代表模型:GPT‑4o(实时音视频交互)、MiMo‑V2‑Omni(全模态 + 原生工具调用)。
How?(简单了解)
传统做法是“缝合怪”:一个图像编码器 + 一个文本模型 + 一个语音合成器,中间用投影层对齐。
真正的全模态是从头训练一个 统一的 Transformer,所有模态的 token(文本、图像 patch、音频帧)进入同一个注意力空间。
好处是:模型可以学到“红色”(文本)和“一张红色玫瑰的照片”(视觉)之间的内在联系。
学习资源:
- “Unified Transformer for Multimodal”或技术报告。
5、基准(Benchmark)
What?
基准是一套 固定的、可复现的测试任务和评分规则,用来公平比较不同模型的能力。
就像高考一样:所有人考同一张卷子,分数高就是能力强。
形象类比:基准是模型界的“体测标准”——跑 100 米用时多少秒,而不是教练说“我觉得他跑得很快”。
Why?
- 防忽悠:厂商说“我们的模型在内部测试中表现优异”——没有基准,无法验证,信息过滤。
- 跟踪趋势:SWE‑bench 榜单,“编程 Agent ”排行。
- 选型依据:要做XX Agent,就去查谁在 AgentBench 上分数高。
How?(几个关键基准)
| 基准 | 测什么 | 例子 |
|---|---|---|
| SWE‑bench | 解决真实 GitHub issue(修 bug、加功能) | “修复 Django 里一个分页报错” |
| ClawEval | 物理/数字世界的精细交互 | “用鼠标把文件拖进文件夹” |
| PinchBench | 触控、捏合等精细操作 | “在地图 App 上双指缩放” |
| AgentBench | 多场景工具调用(操作系统、浏览器、数据库) | “用 SQL 查出销量前三的产品” |
| WebArena | 真实网站任务 | “在购物网站买一个红色 M 码 T 恤” |
如何看懂榜单:
- 绝对分数+ 测试环境是否一致(硬件、推理配置相同)。
- 注意 版本:SWE‑bench 有 Verified 版和 Pro 版,题目难度不同。
学习资源:
- SWE‑bench 官网真实题目(issue 描述 + 期望的补丁)。
- PapersWithCode 的 Leaderboard 板块,排名变化。