📘 背景:为什么 Vertex AI / Gemini 多模态总是不稳定?
做过多模态你一定遇到过这些问题:
- 同样输入,结果永远不同
- 角色会变脸
- 身材会漂移(胖→瘦→奇怪)
- 布料逻辑不一致
- 脸、手、姿态不稳定
- 视频逐帧不一致
- Agent 执行路径不可重现
一句话:
多模态模型=强概率系统。
而工程系统需要的是:
可控、可复现、可审计的 pipeline。
所以我做了一个 PoC:
让多模态 Agent 能进入 deterministic(确定性)模式。
📦 仓库地址(可直接跑)
(公开 PoC,不包含任何受限核心架构)
🧩 这个 PoC 解决了什么?
它让 Vertex AI / Gemini 的多模态开始具备:
- 🔒 身份一致性(锁脸、锁体型、不漂移)
- 🔒 体型稳定性(body_ratio / fat_layer_distribution)
- 🔒 布料力学一致(fabric_tension_model)
- 🔒 光照一致(lighting_signature)
- 🧩 Constraint 驱动而不是 prompt 驱动
- 🧩 多次生成一致
- 🧩 Agent 执行路径可重现
- 🧩 输出可审计(几何分数、语义漂移分、审计日志)
简单说:
把“生成”变成“执行”。
📁 目录结构(非常易懂)
src/ constraint_loader.py multimodal_prompt_builder.py deterministic_agent_stub.py utils/ parse.py
examples/ structured_multimodal_constraints.yaml
🛠 如何运行?
你只需要:
python -m deterministic_agent_stub
--constraints examples/structured_multimodal_constraints.yaml
就能得到:
- 正向 prompt
- 负向 prompt
- geometry_score
- semantic_drift_score
- aesthetic_score
- deterministic decision log
工程师看到这里会说一句:
“这东西终于能 debug 了。”
🧠 核心思路:结构性约束(不是 prompt engineering)
例如 YAML 的体型锁定:
body_ratio: target: 1.15 tolerance: 0.05
或布料逻辑:
fabric_tension_model: abdomen_cloth: folds_density: medium_to_high folds_direction: vertical_bias
或脂肪分布
fat_layer_distribution: abdomen: controlled_volume_soft_compression
注意:
这是结构约束,而不是自然语言提示。
普通 prompt 做不到的工程一致性,
结构约束可以做到。
🧨 deterministic pipeline(确定性执行)
在 YAML 中你会看到:
CONTROL: deterministic_seed: 42 geometry_threshold: 0.80 semantic_drift_max: 0.15 stability_lambda: 0.92
这意味着:
- 同输入
- 同约束
- 同 pipeline
👉 输出可复现。
这是多模态工程从“玄学”迈向“可控系统”的第一步。
🎯 适用场景
- 多次生成保持同一人物
- 电商试衣模特(身材 + 布料一致)
- 虚拟人(身份不跑飞)
- 视频逐帧一致性
- 游戏角色连续立绘
- 多模态 Agent 的 audit / replay
- AIGC 工程项目的稳定性改进
一句话:
这是你第一次能让多模态“固定下来”。
📌 总结
如果你正在做:
- Gemini 多模态
- Vertex AI agent
- AI 生成图/视频
- 多场景同一角色
- 身份保持 / 姿态一致
- 调试多模态 pipeline
这个 PoC 给你一条全新的思路:
多模态不是玄学,是可以被结构化控制的。
这不是模型突破,而是工程突破。
✍ 作者
Yuer(独立工程师 / 表达结构研究者)
GitHub(公开安全版 PoC):
github.com/yuer-dsl/ve…