第3周 Day 1：大模型能力完全地图：从Function Calling到1M上下文，一文全解昨天和朋友聊天，他给我看

昨天和朋友聊天，他给我看豆包 App 的界面：

"你看，豆包能写文案、能画图、能生成视频、还能做音乐。这些按钮背后到底是什么技术？是不是都是模型能力？不同模型的差异又是什么？"

这个问题问得好。很多人用 AI，但不知道：

这些按钮背后用的是同一种技术吗？
不同模型的"能力"到底指什么？
为什么有的模型能画图，有的只能聊天？

这篇文章帮你搞清楚：

大模型有哪些能力类型？每种能力是什么意思？
国产 + 国际模型的能力对比表
豆包、Sora、Suno 这些生成按钮背后的原理

一、大模型能力类型全解

先给个总览，看看大模型到底有多少种能力，但并不是所有模型都有这些能力：

能力类型	简单理解	用在哪？
基础对话（LLM）	AI 能和你聊天	写文案、回答问题
Function Calling	AI 能"动手"调用工具	做 Agent 自动干活
Embedding	把文字变成数字	搜索、推荐、RAG
Structured Output	AI 能按格式输出	返回 JSON 数据
上下文长度	AI 能记住多少内容	处理长文档
流式输出	AI 边想边说	不憋着，体验好
多模态理解	AI 能看图听音	分析截图、听录音
多模态生成	AI 能画图生成视频	图片、视频、音乐
推理能力	AI 能深度思考	数学、逻辑题
代码生成	AI 能写代码	程序员助手

接下来我逐个解释这些能力。

二、能力详解：每种能力是什么意思？

2.1 基础对话能力（LLM）

LLM = Large Language Model（大语言模型）

这是所有模型的"基本功"。AI 能理解你说的话，然后生成回答。

举个例子：

你输入：帮我写一篇端午节促销文案
豆包输出：粽香飘溢，端午安康...（生成的文案）

原理：AI 看了海量文字，学会了"说话"。你给它一段话，它能预测接下来该说什么。

用在哪：写文案、翻译、回答问题、聊天。

2.2 Function Calling（函数调用）

Function Calling = AI 能自动调用函数/工具

这是 Agent 的核心能力。不只是"回答问题"，而是"动手做事"。

没有 Function Calling 的场景：

你：帮我发一条朋友圈，内容是"今天天气真好"
AI：我不能发朋友圈，你可以手动复制这段话去发

有 Function Calling 的场景：

你：帮我发一条朋友圈，内容是"今天天气真好"
AI：好的，我来调用微信接口...
    → AI 自动调用 post_to_wechat("今天天气真好")
    → 朋友圈发出去了

原理：你先定义好"工具箱"（有哪些函数），然后告诉 AI。AI 看到你的需求后，自己判断要不要调用工具、调用哪个工具、参数是什么。

用在哪：做 Agent、自动调用 API、连接外部系统。

2.3 Embedding（向量嵌入）

Embedding = 把文字变成一串数字（向量）

听起来抽象，但其实很好理解。

举个例子：

"猫" → [0.23, 0.45, 0.12, -0.08, ...]  （一串数字）
"狗" → [0.25, 0.44, 0.11, -0.07, ...]  （很像猫的数字）
"汽车" → [0.01, 0.02, 0.88, 0.55, ...] （和猫狗差别很大）

关键点：意思相近的词，数字也相近。

这有什么用？

用途	说明
语义搜索	用户搜"猫"，能找到"猫咪"、"宠物"相关内容
推荐系统	看了"猫的文章"，推荐"宠物护理"
RAG	把你的文档转成向量，找到最相关的内容
聚类分析	自动把相似内容分到一组

原理：AI 把每个词/句子映射到一个高维空间，意思相近的就靠近，意思远的就远离。

用在哪：RAG（让 AI 搜索你的文档）、搜索引擎、推荐系统。

2.4 Structured Output（结构化输出）

Structured Output = AI 能按你要求的格式输出

普通对话是自由文本，但有时候我们需要"格式化数据"。

没有 Structured Output：

你：告诉我北京今天天气
AI：北京今天天气晴朗，气温25度，适合出门散步...
   （一大段文字，你想提取数据要自己处理）

有 Structured Output：

你：告诉我北京今天天气，用 JSON 格式返回
AI：
{
  "city": "北京",
  "weather": "晴",
  "temperature": 25,
  "suggestion": "适合出门"
}
（直接给你 JSON，代码可以直接用）

原理：AI 学会了"按格式说话"，你告诉它要什么格式，它就按格式输出。

用在哪：API 对接、数据提取、程序调用。

2.5 上下文长度

上下文长度 = AI 能一次性"看"多少内容

上下文大小	大概能处理
4K tokens	~3000 字（短文）
32K tokens	~24000 字（长文）
128K tokens	~100000 字（一本书）
200K tokens	~150000 字（厚书）
1M tokens	~750000 字（好几本书）

实际影响：

场景：你要让 AI 总结一篇 50000 字的报告

用 4K 上下文模型 → 报告太长，AI 只能看开头部分
用 128K 上下文模型 → AI 能看完整报告

原理：上下文越长，AI 能"记住"的内容越多，但计算成本也越高。

用在哪：处理长文档、记住对话历史、RAG。

2.6 流式输出

流式输出 = AI 边想边说，不憋到最后

没有流式输出：

你问一个问题 → AI 憋了10秒 → 突然蹦出一大段回答
（等待时你不知道它在干嘛，感觉卡住了）

有流式输出：

你问一个问题 → AI 立刻开始说话 → 字一个个蹦出来 → 10秒后说完
（像 ChatGPT 那样，边生成边显示）

原理：AI 不等全部生成完，而是生成一个字就发给你一个字。

用在哪：聊天界面、用户体验优化。

2.7 多模态理解

多模态理解 = AI 能看图片、听音频、理解视频

能力	说明
Vision	AI 能分析图片内容
Audio	AI 能听懂语音内容
Video	AI 能分析视频画面

举个例子：

你发一张错误截图 → AI：这是 Python 的语法错误，第 3 行少了一个括号
你发一段录音 → AI：这段录音里讲了三个要点：1. xxx, 2. xxx, 3. xxx

原理：AI 不只是训练了文字，还训练了图片/音频数据，学会了"看"和"听"。

用在哪：分析截图、听录音总结、看视频写脚本。

2.8 多模态生成

多模态生成 = AI 能画图、生成视频、制作音乐

这是"创作类"能力，和"理解类"不同。

生成类型	代表模型
文生图	Midjourney、DALL-E、Stable Diffusion、豆包图片
文生视频	Sora、Runway、豆包视频
文生音乐	Suno、Stable Audio、豆包音乐

原理：后面会详细解释。

2.9 推理能力

推理能力 = AI 能深度思考、解决复杂问题

模型	推理能力
GPT-4 / o1	强推理，能做数学题、逻辑题
DeepSeek Thinking	深度推理模式
Claude	推理强，代码能力强

用在哪：数学计算、逻辑推理、复杂决策。

2.10 代码生成

代码生成 = AI 能写代码、改代码、调试

模型	代码能力
Claude	代码最强
GPT-4	代码很强
DeepSeek	代码性价比高
Cursor	专门做代码的 IDE

用在哪：程序员助手、自动写代码、改 Bug。

三、模型能力总览表（国产 + 国际）

3.1 国产模型能力对比

模型	对话	Function Calling	Embedding	Structured Output	上下文	Vision理解	图片生成	视频生成	音乐生成	特点
豆包 2.0 Pro	✅	✅	✅ 128K	✅	256K	✅	✅	✅	✅	多模态全套，原生Agent
豆包 2.0 Lite/Mini	✅	✅	✅	✅	256K	✅	✅	✅	✅	轻量Agent
DeepSeek V3.2	✅	✅ 标准版支持，Speciale版不支持	✅	✅ JSON	1M	❌	❌	❌	❌	性价比最高，超长上下文
GLM-5	✅	✅ Tool Calling	✅	✅	200K	✅	✅	❌	❌	国内FC最稳
GLM-5.1	✅	✅	✅	✅	200K+	✅	✅	❌	❌	8小时持续工作
通义千问 3.6-Plus	✅	✅ Tool Calling	✅	✅	百万	✅ 理解	❌	❌	❌	企业级Agent，多模态理解强
Kimi K2.5	✅	✅ 支持FC	✅	✅	200K	✅	❌	❌	❌	超长上下文读文档
文心大模型5.0	✅	✅	✅	✅	多模态上下文	✅ 全模态	✅	✅ 视频	✅	2.4万亿参数全模态
星火X2	✅	✅	✅	✅	大上下文	✅	✅	❌	✅	293B MoE，国产算力

3.2 国际模型能力对比

模型	对话	Function Calling	Embedding	Structured Output	上下文	Vision理解	图片生成	视频生成	音乐生成	特点
GPT-4o	✅	✅	✅	✅	128K	✅	✅ DALL-E	✅ Sora	✅	全能标杆
Claude 3.5	✅	✅ Tool Use	❌	✅	200K	✅	❌	❌	❌	代码强、长上下文
Gemini Pro	✅	✅	✅	✅	2M	✅	✅	✅	✅	免费、超长上下文
Midjourney	❌	❌	❌	❌	-	❌	✅ 专业绘图	❌	❌	图片生成最强
Sora	❌	❌	❌	❌	-	❌	❌	✅ 专业视频	❌	视频生成最强
Suno	❌	❌	❌	❌	-	❌	❌	❌	✅ 专业音乐	音乐生成最强
Stable Diffusion	❌	❌	❌	❌	-	❌	✅ 开源绘图	❌	❌	开源图片生成
Whisper	❌	❌	❌	❌	-	❌	❌	❌	✅ 语音转文字	语音识别最强

四、生成类能力背后的原理

这部分解释你每天点的那些按钮背后是什么技术。

4.1 文案生成

豆包功能按钮：文案生成

背后用的是：基础对话能力（LLM）

你输入：帮我写一篇端午节促销文案
豆包处理：
    → 理解你的需求（写促销文案、端午节主题）
    → 调用大语言模型生成文字
    → 输出：粽香飘溢，端午安康...

原理：

AI 看了海量文字，学会了语言规律
你给一个提示（端午节促销文案）
AI 预测"接下来该说什么"，生成文字

局限性：只能生成文字，不能自动发朋友圈、不能自动排版。

4.2 图片生成

豆包功能按钮：图片生成

背后用的是：文生图模型（Text-to-Image）

你输入：一只可爱的猫咪在阳光下睡觉
豆包处理：
    → 理解你的描述（猫、可爱、阳光、睡觉）
    → 调用图片生成模型（类似 Stable Diffusion / DALL-E）
    → 输出一张图片

原理（扩散模型）：

简单理解：
    1. AI 先生成一张"全是噪点"的图（看起来像电视雪花）
    2. AI 一步步去掉噪点，每次去掉一点
    3. 去噪过程中，AI"引导"画面往你描述的方向走
    4. 最后噪点全部去掉，画面变成"猫在阳光下睡觉"

代表模型：

模型	特点
Midjourney	专业绘图最强，艺术风格好
DALL-E（OpenAI）	和 GPT 集成方便
Stable Diffusion	开源，可以本地部署，可定制
豆包图片	中文理解好，免费方便
即梦（字节）	字节自研，集成豆包

4.3 视频生成

豆包功能按钮：视频生成

背后用的是：文生视频模型（Text-to-Video）

你输入：一只狗在海边奔跑
豆包处理：
    → 理解你的描述（狗、海边、奔跑）
    → 调用视频生成模型（类似 Sora）
    → 输出一段视频

视频生成比图片生成复杂很多：

图片生成	视频生成
生成 1 张图片	生成几十/几百帧图片
不需要连贯	需要画面连贯流畅
不需要动作	需要处理运动轨迹

原理：

简单理解：
    1. AI 先理解你的描述
    2. AI 生成视频的"开头"和"结尾"画面
    3. AI 在中间生成过渡帧，让画面连贯
    4. 每帧还要保证光影、动作连贯
    5. 最后合成完整视频

代表模型：

模型	特点
Sora（OpenAI）	最强，画面连贯、时长可达1分钟，但尚未公开
Runway	专业视频生成，创意强
豆包视频	中文理解好，方便
通义视频	阿里自研，国内可用
Pika	新兴视频生成工具

4.4 音乐生成

豆包功能按钮：音乐生成

背后用的是：文生音乐模型（Text-to-Music）

你输入：帮我写一首关于春天的歌，风格轻快
豆包处理：
    → 理解你的需求（春天主题、轻快风格）
    → 调用音乐生成模型（类似 Suno）
    → 输出一段音乐 + 可能还有歌词

原理：

简单理解：
    1. AI 先理解你的描述（主题、风格、情绪）
    2. AI 生成音乐的结构（节奏、和弦、旋律）
    3. AI 可能还会生成歌词
    4. AI 合成音频波形，输出音乐文件

代表模型：

模型	特点
Suno	专业音乐生成，能生成带歌词的歌，最强
Stable Audio	开源音频生成
MusicGen（Meta）	Meta 开发，开源
豆包音乐	中文歌词好，方便免费

五、这些生成按钮和 Agent 有什么区别？

很多人会问：豆包能生成文案、图片、视频、音乐，那不就是 Agent 吗？

不是。关键区别在于"主动"vs"被动"。

豆包 App 按钮	Agent
你点按钮 → AI生成	你说话 → AI自己判断要干什么
每次都要你手动触发	AI能自动调用工具
只生成内容	能执行任务（发朋友圈、查数据、存记录）
每次对话重新开始	能记住历史，下次还能用

举个例子：

场景	豆包 App	Agent
写文案	你点"文案生成"按钮 → 输入需求 → AI生成	你说"帮我写文案发朋友圈" → AI写文案 → AI自动调用接口发朋友圈
测验单词	没有这个功能	你说"给我一个测验题" → AI自动出题 → 你答 → AI自动判断对错 → AI自动记到错题本

一句话：豆包 App 把多种能力打包成按钮让你点，Agent 是 AI 自己判断用什么能力。

六、怎么选模型？

6.1 决策流程

你想做什么？
    ├─ 写文案/聊天 → 豆包 App（免费好用）
    ├─ 画图 → Midjourney（最强）/ 豆包图片（方便免费）
    ├─ 生成视频 → Sora（最强）/ 豆包视频（方便）
    ├─ 生成音乐 → Suno（最强）/ 豆包音乐（方便）
    ├─ 读超长文档 → Kimi（200K）/ Gemini（1M）
    ├─ 做 Agent（低成本） → DeepSeek（性价比高）
    ├─ 做 Agent（稳定） → GLM-5（FC最稳）
    ├─ 做 Agent（企业级） → 通义 3.6-Plus（百万上下文）
    ├─ 做多模态 Agent → 豆包 2.0 Pro（全套能力）
    └─ 省钱 → Gemini 免费 / DeepSeek

6.2 选择建议表

你的需求	推荐	原因
写文案画图做视频做音乐	豆包 App	功能打包好用，免费
专业绘图	Midjourney	图片质量最高
专业视频	Sora / Runway	视频质量最高
专业音乐	Suno	音乐质量最高，带歌词
处理超长文档	Kimi / Gemini	200K-1M 上下文
低成本做 Agent	DeepSeek V3.2（标准版）	Function Calling + 1M上下文 + 性价比高（注意：Speciale版不支持FC）
国内 FC 最稳定	GLM-5 系列	官方完善支持
企业级 Agent	通义 3.6-Plus	百万上下文 + Agentic Coding
多模态 + Agent	豆包 2.0 Pro	原生架构 + 全套生成能力
国际项目	GPT-4o	全能标杆

七、我的选择

我要做什么	我选的	原因
做 Agent（英语学习工具）	GLM-5 或 DeepSeek	FC稳定，性价比可选
写学习笔记	DeepSeek	性价比高
画图演示	豆包图片	方便免费
读长文档	Kimi 或 DeepSeek	200K-1M上下文
做视频素材	豆包视频	方便免费

八、信息来源

本文基于以下官方信息：

豆包大模型 2.0 发布 - 2026年2月14日（字节官方）
GLM-5 发布 - 2026年2月12日，GLM-5.1 - 2026年4月（智谱官方）
DeepSeek V3.2 发布 - 2026年1月（DeepSeek官方）
通义千问 3.6-Plus 发布 - 2026年4月2日（阿里官方）
Midjourney、Sora、Suno 官方文档

写于 2026-04-20，感谢朋友的提问让我把能力概念讲清楚