我做了一个可复现的 Vertex AI 多模态 Agent:稳定、可控、不再“跑飞”

55 阅读2分钟

📘 背景:为什么 Vertex AI / Gemini 多模态总是不稳定?

做过多模态你一定遇到过这些问题:

  • 同样输入,结果永远不同
  • 角色会变脸
  • 身材会漂移(胖→瘦→奇怪)
  • 布料逻辑不一致
  • 脸、手、姿态不稳定
  • 视频逐帧不一致
  • Agent 执行路径不可重现

一句话:

多模态模型=强概率系统。

而工程系统需要的是:

可控、可复现、可审计的 pipeline。

所以我做了一个 PoC:

让多模态 Agent 能进入 deterministic(确定性)模式。


📦 仓库地址(可直接跑)

➡️ github.com/yuer-dsl/ve…

(公开 PoC,不包含任何受限核心架构)


🧩 这个 PoC 解决了什么?

它让 Vertex AI / Gemini 的多模态开始具备:

  • 🔒 身份一致性(锁脸、锁体型、不漂移)
  • 🔒 体型稳定性(body_ratio / fat_layer_distribution)
  • 🔒 布料力学一致(fabric_tension_model)
  • 🔒 光照一致(lighting_signature)
  • 🧩 Constraint 驱动而不是 prompt 驱动
  • 🧩 多次生成一致
  • 🧩 Agent 执行路径可重现
  • 🧩 输出可审计(几何分数、语义漂移分、审计日志)

简单说:

把“生成”变成“执行”。

📁 目录结构(非常易懂)

src/ constraint_loader.py multimodal_prompt_builder.py deterministic_agent_stub.py utils/ parse.py

examples/ structured_multimodal_constraints.yaml

🛠 如何运行?

你只需要:

python -m deterministic_agent_stub
--constraints examples/structured_multimodal_constraints.yaml

就能得到:

  • 正向 prompt
  • 负向 prompt
  • geometry_score
  • semantic_drift_score
  • aesthetic_score
  • deterministic decision log

工程师看到这里会说一句:

“这东西终于能 debug 了。”


🧠 核心思路:结构性约束(不是 prompt engineering)

例如 YAML 的体型锁定:

body_ratio: target: 1.15 tolerance: 0.05

或布料逻辑:

fabric_tension_model: abdomen_cloth: folds_density: medium_to_high folds_direction: vertical_bias

或脂肪分布

fat_layer_distribution: abdomen: controlled_volume_soft_compression

注意:
这是结构约束,而不是自然语言提示。

普通 prompt 做不到的工程一致性,
结构约束可以做到。

🧨 deterministic pipeline(确定性执行)

在 YAML 中你会看到:

CONTROL: deterministic_seed: 42 geometry_threshold: 0.80 semantic_drift_max: 0.15 stability_lambda: 0.92

这意味着:

  • 同输入
  • 同约束
  • 同 pipeline

👉 输出可复现。

这是多模态工程从“玄学”迈向“可控系统”的第一步。


🎯 适用场景

  • 多次生成保持同一人物
  • 电商试衣模特(身材 + 布料一致)
  • 虚拟人(身份不跑飞)
  • 视频逐帧一致性
  • 游戏角色连续立绘
  • 多模态 Agent 的 audit / replay
  • AIGC 工程项目的稳定性改进

一句话:

这是你第一次能让多模态“固定下来”。


📌 总结

如果你正在做:

  • Gemini 多模态
  • Vertex AI agent
  • AI 生成图/视频
  • 多场景同一角色
  • 身份保持 / 姿态一致
  • 调试多模态 pipeline

这个 PoC 给你一条全新的思路:

多模态不是玄学,是可以被结构化控制的。

这不是模型突破,而是工程突破。


✍ 作者

Yuer(独立工程师 / 表达结构研究者)

GitHub(公开安全版 PoC):
github.com/yuer-dsl/ve…