即梦 Agent 后端编排逻辑深度拆解-设计可视化即梦Agent根本不是普通生成模型！它是**LLM编排器+技能插件+执

即梦 Agent 后端编排逻辑深度拆解-设计可视化

一份面向产品 / 研发 / Agent 设计的逆向架构拆解。

核心结论： 即梦 Agent 的本质不是“会生成内容的 LLM”，而是LLM 编排器 + 技能插件 + 执行引擎。

一句话结论

即梦 Agent 的后端更像一个三层编排系统：

Layer 1：Router 路由层 —— 负责安全审核、意图识别、任务分类、技能分配
Layer 2：Skill 技能层 —— 负责按需加载工作流规则与 SOP
Layer 3：Execution 执行层 —— 负责真正提交图片 / 视频 / 文件类任务

1. 整体架构总览

核心洞察

LLM 负责理解与编排，不直接承担最终生成

真正的生产动作由底层工具执行

整体系统是一个典型的 Orchestrator 模式，不是单体 Prompt 模式

2. 七大核心工具

dreamina_cli 参数逻辑

图片生成

command: text2image
prompt: Agent 自动扩写
output_id: 语义化命名
ratio: 自动推断
resolution_type: 默认 4K
model: 默认 5.0

视频生成

command: text2video / image2video
prompt: 视频描述或分镜脚本
duration: 4-15 秒
ratio: 默认 16:9
resolution: 默认 720P
model: 默认 seedance2.0_vip
ref_images: 风格 / 角色 / 产品 / 道具

ref_images 顺序规则： 风格图 → 角色 → 产品 → 道具

3. 技能调度机制：按需加载，而不是预加载

关键特征

技能不是固定写死在全局 prompt 中
而是任务到来后 动态注入规则片段
可以按需加载，也可以并行加载多个技能

技能层级关系

这意味着技能的本质，更像是可热插拔的工作流规则模块。

对 AdsTurbo 来说，这一点非常值得直接借鉴。

4. 状态机：Agent 是如何一步步跑起来的

前端状态与后端含义映射

5. 路由决策树

两条最关键分支

图片任务

能直接执行：直接调 text2image
常规需求：先加载 image-main
再继续分流到电商套图 / 海报 / 品牌 / 通用创作

视频任务

单 Clip、明确、4-15 秒：直接生成
成片、多阶段、需求复杂：进入 video-sop

6. Video-SOP：最有价值的编排资产

阶段总览

各阶段对应技能

Phase 6 是整个系统最“工程化”的部分

分镜时长公式

这说明它不是纯感性创作，而是把脚本拆分进一步计算化、规则化、可执行化。

7. Project Memory：跨轮次上下文管理

Memory 的作用

存储产品、目标用户、平台、当前阶段
存储大纲、剧本、故事板等阶段产物
存储已生成资源状态
支撑跨轮次连续对话与工作流推进

推断结构

JSON { "project_id": "12350335922188", "product": "智能手表", "target_audience": "25-35岁都市白领", "platform": "抖音", "current_phase": "Phase 1", "completed_phases": ["需求说明"], "assets": { "outline_file": "智能手表广告_大纲.md", "script_file": "智能手表广告_剧本.md", "storyboard_file": "智能手表广告_故事板.md" } }

8. 并发与异步：它为什么显得“像个成熟系统”

并行能力

图片默认 4 张并行生成
多个视频 Clip 可并行生成
跨模态任务也可并行提交

异步机制

Agent 提交后不阻塞等待
不主动轮询
结果由前端推送刷新
用户感知更流畅

关键原则

提交成功后，Agent 只负责告知“已提交”，而不是自己卡在等待里。

这件事对 AdsTurbo 非常重要，因为它会直接影响：

对话流畅度
任务并发能力
前后端职责边界
用户对“专业感”的判断

9. 错误处理与安全机制

错误处理

工具格式错了，Agent 会自我修正再重试
高级工具失败，会自动降级到基础工具
重复请求时，会先检查状态，减少浪费

安全机制

第一层：路由层拦截违规请求

第二层：系统规则禁止暴露内部实现

这个双层安全结构说明： 即梦并不是把安全压在最终输出上，而是前置到了编排入口。

10. 完整调用时序图

11. 对 Agent 的直接启发

启发一：采用“LLM 编排器 + 工具插件”架构

启发二：让技能变成可热插拔模块

不硬编码在大 system prompt 中
独立维护、独立迭代
可做 A/B 测试
可减少上下文冗余

启发三：把视频广告生成做成阶段化 SOP

每一阶段有独立输入输出
关键节点允许用户确认
阶段间依靠 project memory 传递上下文

启发四：生成任务必须异步化

提交到任务队列
Agent 立即回复“已提交”
前端通过 WebSocket / SSE 推送结果
前端自动刷新展示

12. 最后总结

即梦 Agent 最强的地方，不是单点模型能力，而是它把技能、状态、任务、记忆、异步执行串成了一条完整可控的生产链路。

最直接的结论，那就是：

先做编排，不要先卷生成
先做阶段流，不要先做全自动一步到位
先把技能模块化，再谈规模化扩展