AI使用体系——甲AI相关核心概念短板 What?Why?How? 1.MoE 2.上下文 3.Agent 4.全模态

核心概念短板

概念	是什么	为什么重要	学习资源
1. MoE（混合专家）	模型由多个“专家”子网络组成，每次推理只激活部分参数	为何模型总参数千亿但激活仅百亿甚至更少——高效与性能的平衡	MoE 架构图解
2. 上下文长度（Context Length）	模型一次能“记住”和处理的文本量（单位：Token）	能否处理长文档、长对话、复杂任务流	128K、256K、1M Token的实际差异
3. Agent（智能体）	LLM + 规划 + 工具调用 + 记忆的系统，能自主完成任务	“聊天”到“做事”的关键跃迁
4. 全模态（Omni-modal）	模型能同时理解/生成文本、图像、音频、视频	物理交互的基础
5. 基准（Benchmark）	评估模型能力的标准化测试集（如ClawEval、SWE-bench）	判断模型真实水平的衡量依据	关键基准的评估逻辑

1、MoE

混合专家模型-基于 Transformer 架构的模型

What？

混合专家模型（Mixture of Experts）是一种 基于 Transformer 的架构改进。
它把一个巨大的前馈网络（FFN）拆成多个独立的“专家”子网络，同时增加一个 门控网络（路由） 。
每次推理时，门控网络只激活 少数几个专家（例如 8 个专家中只激活 2 个），而不是整个网络。

形象类比：一个医院里有很多科室（专家），但患者挂号时导诊台（门控网络）只会把患者分到 1–2 个相关科室，而不是让所有医生都来看患者。

Why？

效率：总参数量很大（如 3090 亿），但实际激活参数很小（如 150 亿）。训练和推理成本大幅下降。
性能：因为总专家池大，模型可以记住更多模式，同时不增加每次计算量。
解释力：模型参数表格里“总参 XXXXXX 亿，激活 XX 亿”就是 MoE 的典型标志。

How？

稀疏 MoE 层：取代传统 Transformer 中的 FFN 层。
门控网络（Gating Network）：为每个 Token 计算一个专家权重向量，选出 top‑K 个专家。
负载均衡损失：防止所有 Token 都涌向同一个专家，确保专家们“雨露均沾”。

参考：www.uml.org.cn/ai/20250320…

2、上下文长度

What？

上下文长度指模型 单次能处理的最大 Token 数量。
Token 是模型理解文本的最小单位：1 个 Token ≈ 0.75 个英文单词或 0.5 个中文字。
128K Token ≈ 一本 200 页的书；1M Token ≈ 整部《三体》三部曲。

形象类比：上下文长度就像人的 短期记忆容量。记忆越长，一次能看完的文档、能记住的对话细节就越多。但记忆太长，大脑也会“转不过来”。

Why？

长文档处理：能否一次性读完 100 页财报、整个代码仓库，而不需要人工切片。
长对话体验：能否记住半小时前聊过的细节，不会“断片”或重复问同样的问题。
复杂 Agent 任务：Agent 需要回溯前 10 步的操作结果，再决定下一步。如果上下文不够，就会“忘了自己刚才做了什么”。

How？（为什么难做大）

Transformer 的自注意力计算复杂度是 O(N²) ：

长度 N 翻倍 → 计算量变为 4 倍。
从 4K 到 100K，计算量暴增约 600 倍。
同时内存占用也是 O(N²)，一张 A100 80G 也存不下 1M Token 的注意力矩阵。

所以 长上下文是硬实力，不是简单堆显存就能解决。Google 的 2M 和小米的 1M 都是经过大量工程优化（如 FlashAttention、稀疏注意力、滑动窗口）才做到的。

学习资源：

技术原理：索“FlashAttention 原理”或“Transformer 长上下文优化”。

3、Agent（智能体）

What？

Agent = LLM（大脑） + 规划（拆解目标） + 工具调用（动手） + 记忆（长短期记忆） 。

普通 LLM：你问一句，它答一句。
Agent：你给一个目标（如“帮我订下周三去上海的机票”），它会自己：
① 规划步骤（查航班 → 比价 → 填表 → 付款）
② 调用工具（浏览器、日历、支付接口）
③ 遇到验证码时请求你帮助
④ 完成后告知结果。

形象类比：普通 LLM 像一本百科全书，你翻到哪页它读哪页；Agent 像一个实习生，你交代任务后它会自己想办法完成，只在关键节点问你。

Why？

从“对话”到“行动” ：2024 年以前大家在比“谁聊天更聪明”；2025 年起比“谁能真正干活”。
代表模型：Claude 3.5 Sonnet（计算机使用）、GPT‑5.4（原生电脑操作）、MiMo‑V2‑Pro（旗舰智能体大脑）。
代表框架：OpenClaw、AutoGen、CrewAI。
你的表格里：MiMo-V2-Flash“专为智能体设计”、Claude Opus 4.6“自主代理”等，都指向 Agent 能力。

How？（ReAct 模式）

最经典的 Agent 设计模式是 ReAct（Reason + Act） ，循环执行：

Thought：模型思考“当前我需要做什么”。
Action：调用一个工具，如 search_web(query)。
Observation：观察工具返回的结果。
回到 1，直到任务完成。

学习资源：

Lilian Weng 的博客《LLM Powered Autonomous Agents》。

4、全模态（Omni‑modal）

What？

全模态模型能 同时理解并生成文本、图像、音频、视频，并且可以在这些模态之间自由转换。
例如：输入一段婴儿哭声的音频 → 输出文字“宝宝可能饿了”；或者输入一张猫的照片 → 输出一段模仿猫叫的语音。

形象类比：传统多模态模型像三个独立的人（一个看、一个听、一个写），互相传纸条；全模态模型像一个人同时用眼睛、耳朵、嘴巴工作，感知和表达是统一的。

Why？

接近人类感知：用多通道（视觉、听觉、触觉）同时理解世界的。
物理交互的基础：一个机器人如果只能看懂文字，就没办法听指令“把这杯红色的水倒进左边的瓶子”。
情感陪伴与教育：既能看表情，又能听语气，还能说话安慰人。
代表模型：GPT‑4o（实时音视频交互）、MiMo‑V2‑Omni（全模态 + 原生工具调用）。

How？（简单了解）

传统做法是“缝合怪”：一个图像编码器 + 一个文本模型 + 一个语音合成器，中间用投影层对齐。
真正的全模态是从头训练一个 统一的 Transformer，所有模态的 token（文本、图像 patch、音频帧）进入同一个注意力空间。
好处是：模型可以学到“红色”（文本）和“一张红色玫瑰的照片”（视觉）之间的内在联系。

学习资源：

“Unified Transformer for Multimodal”或技术报告。

5、基准（Benchmark）

What？

基准是一套 固定的、可复现的测试任务和评分规则，用来公平比较不同模型的能力。
就像高考一样：所有人考同一张卷子，分数高就是能力强。

形象类比：基准是模型界的“体测标准”——跑 100 米用时多少秒，而不是教练说“我觉得他跑得很快”。

Why？

防忽悠：厂商说“我们的模型在内部测试中表现优异”——没有基准，无法验证，信息过滤。
跟踪趋势：SWE‑bench 榜单，“编程 Agent ”排行。
选型依据：要做XX Agent，就去查谁在 AgentBench 上分数高。

How？（几个关键基准）

基准	测什么	例子
SWE‑bench	解决真实 GitHub issue（修 bug、加功能）	“修复 Django 里一个分页报错”
ClawEval	物理/数字世界的精细交互	“用鼠标把文件拖进文件夹”
PinchBench	触控、捏合等精细操作	“在地图 App 上双指缩放”
AgentBench	多场景工具调用（操作系统、浏览器、数据库）	“用 SQL 查出销量前三的产品”
WebArena	真实网站任务	“在购物网站买一个红色 M 码 T 恤”

如何看懂榜单：

绝对分数+ 测试环境是否一致（硬件、推理配置相同）。
注意版本：SWE‑bench 有 Verified 版和 Pro 版，题目难度不同。

学习资源：

SWE‑bench 官网真实题目（issue 描述 + 期望的补丁）。
PapersWithCode 的 Leaderboard 板块，排名变化。