我做了一个可复现的 Vertex AI 多模态 Agent：稳定、可控、不再“跑飞”📘 背景：为什么 Vertex A

📘 背景：为什么 Vertex AI / Gemini 多模态总是不稳定？

做过多模态你一定遇到过这些问题：

同样输入，结果永远不同
角色会变脸
身材会漂移（胖→瘦→奇怪）
布料逻辑不一致
脸、手、姿态不稳定
视频逐帧不一致
Agent 执行路径不可重现

一句话：

多模态模型＝强概率系统。

而工程系统需要的是：

可控、可复现、可审计的 pipeline。

所以我做了一个 PoC：

让多模态 Agent 能进入 deterministic（确定性）模式。

📦 仓库地址（可直接跑）

➡️ github.com/yuer-dsl/ve…

（公开 PoC，不包含任何受限核心架构）

🧩 这个 PoC 解决了什么？

它让 Vertex AI / Gemini 的多模态开始具备：

🔒 身份一致性（锁脸、锁体型、不漂移）
🔒 体型稳定性（body_ratio / fat_layer_distribution）
🔒 布料力学一致（fabric_tension_model）
🔒 光照一致（lighting_signature）
🧩 Constraint 驱动而不是 prompt 驱动
🧩 多次生成一致
🧩 Agent 执行路径可重现
🧩 输出可审计（几何分数、语义漂移分、审计日志）

简单说：

把“生成”变成“执行”。

📁 目录结构（非常易懂）

src/ constraint_loader.py multimodal_prompt_builder.py deterministic_agent_stub.py utils/ parse.py

examples/ structured_multimodal_constraints.yaml

🛠 如何运行？

你只需要：

python -m deterministic_agent_stub
--constraints examples/structured_multimodal_constraints.yaml

就能得到：

正向 prompt
负向 prompt
geometry_score
semantic_drift_score
aesthetic_score
deterministic decision log

工程师看到这里会说一句：

“这东西终于能 debug 了。”

🧠 核心思路：结构性约束（不是 prompt engineering）

例如 YAML 的体型锁定：

body_ratio: target: 1.15 tolerance: 0.05

或布料逻辑：

fabric_tension_model: abdomen_cloth: folds_density: medium_to_high folds_direction: vertical_bias

或脂肪分布

fat_layer_distribution: abdomen: controlled_volume_soft_compression

注意：
这是结构约束，而不是自然语言提示。

普通 prompt 做不到的工程一致性，
结构约束可以做到。

🧨 deterministic pipeline（确定性执行）

在 YAML 中你会看到：

CONTROL: deterministic_seed: 42 geometry_threshold: 0.80 semantic_drift_max: 0.15 stability_lambda: 0.92

这意味着：

同输入
同约束
同 pipeline

👉 输出可复现。

这是多模态工程从“玄学”迈向“可控系统”的第一步。

🎯 适用场景

多次生成保持同一人物
电商试衣模特（身材 + 布料一致）
虚拟人（身份不跑飞）
视频逐帧一致性
游戏角色连续立绘
多模态 Agent 的 audit / replay
AIGC 工程项目的稳定性改进

一句话：

这是你第一次能让多模态“固定下来”。

📌 总结

如果你正在做：

Gemini 多模态
Vertex AI agent
AI 生成图/视频
多场景同一角色
身份保持 / 姿态一致
调试多模态 pipeline

这个 PoC 给你一条全新的思路：

多模态不是玄学，是可以被结构化控制的。

这不是模型突破，而是工程突破。

✍ 作者

Yuer（独立工程师 / 表达结构研究者）

GitHub（公开安全版 PoC）：
github.com/yuer-dsl/ve…