走到今天,AI 生图其实已经解决了一个最大的难题:“他是谁”。
现在的云端大模型(像 Midjourney、NanoBanana 等)已经非常强了。你不需要训练什么复杂的模型,往往只需要上传一张参考图,AI 就能把人物的脸锁得死死的。哪怕换个场景,那张脸依然能保持一致。
脸的问题解决了,但“身体”的问题更严重了。
现在的尴尬是:脸是活的,身子是死的。你想让这个角色摆个复杂的动作,光靠写提示词根本写不明白。你写了五行字描述“身体前倾重心在左脚”,AI 生出来的图,人还是像飘在半空中的纸片。
所以,AI 写真工业化的最后一步,不是更强的模型,而是把“动作”独立出来。
缺席的“替身演员”
如果把生图比作拍电影,现在的 AI 只有编剧(提示词)和主演(人物参考)。它缺一个“替身演员”。
好莱坞拍大片时,大明星只负责露脸,那些高难度的动作,都是替身做的。我们的「真人实拍动作库」,就是在这个流程里扮演“替身”。
未来的 AI 写真流程应该极其简单,只有三个要素:
- 提示词: 决定光影和氛围。
- 人物参考: 云端模型搞定,决定长相。
- 动作资产: 我们搞定,决定物理状态。
以前我们试图用文字去控制动作,这本身就是错的。文字是管剧情的,图片才是管动作姿态的。只有把这三者拆开,你才能真正实现“换脸不换动作,换动作不换脸”。
完美的“瑕疵”
为什么我坚持要用“真人实拍”做替身,而不用 3D 骨架?
因为 3D 骨架太“数据化”了。而且如果AI没有专门训练过,会导致不认得这些骨架动作。
当你用一张真人照片做参考时(哪怕只参考 60%),AI 抄走的不仅仅是姿势,还有物理定律:
真人用力时,衣服会被肌肉撑紧。
真人站立时,鞋底会被体重压扁。
真人转身时,脊柱会微微弯曲。
这些“受力感”,是你永远无法用提示词写出来的。AI 看到真人照片里的这些细节,它生成的画面就会自带“重力”。
我们用真人动作图,其实就是在借用物理世界的规则,去约束 AI 的幻觉。
未来的“杀手级”功能
对于 NanoBanana 这些平台来说,下一步的竞争点其实很清晰。
现在的用户还在痛苦地用英语描述动作。未来的平台,应该内置一套「清洗过的真人动作索引」。
用户不需要说话,只需要做两步拖拽: 左边拖入一张“脸”,右边拖入一张“动作卡”。
那个穿着灰色紧身衣的“数字替身”,瞬间就会穿上你设计的皮囊,完美演绎你想要的剧情。
不需要学解剖,不需要写长篇大论。用最朴素的“照片”去控制最先进的“算法”,这才是 AI 写真该有的样子。