单图生成一致角色:四大模型对决
长期以来,生成角色一致的图像的最佳方法是训练一个 LoRA 模型。你需要创建图像数据集,然后用它们训练一个 FLUX LoRA。如果时间再往前推,你可能还记得不得不使用 ComfyUI 工作流的时候。那是一种结合了 SDXL、ControlNet、IPAdapter 和一些非商用面部特征点模型的工作流。如今,事情变得异常简单。
现在,我们有一系列先进的图像模型,可以仅凭一张参考图就精准地完成这个任务。在这篇博文中,我们将重点介绍哪些模型可以做到这一点,以及根据你的需求,哪个模型是最好的。
原始图像:“她穿着一件印有‘Replicate’字样的粉色T恤”用于生成一致角色的最佳模型
截至 2025 年 7 月,在 Replicate 平台上有四种模型可以仅凭一张参考图生成逼真且准确的输出。按发布时间排序:
- 某机构的 gpt-image-1
- 某机构的 Gen-4 Image
- 某机构的 FLUX.1 Kontext
- 某机构的 SeedEdit 3
自本文撰写以来,又发布了两个新模型:
- 某机构的 Character
- 某机构的 Gen-4 Image Turbo
FLUX.1 Kontext 有几个不同的版本:pro、max 和 dev。Dev 是 kontext 的开源版本,可控性和微调性更强,但能力不如 pro 版。
为了撰写这篇博文,作者制作了一个 Replicate 模型来方便地比较输出结果。以下是作者的比较模型,它可以并行运行 FLUX.1 Kontext、SeedEdit 3.0、gpt-image-1 和 Runway 的 Gen-4:fofr/compare-character-consistency。
价格和速度比较
首先,基本要素:速度和成本。下表显示了每个模型的价格和速度。gpt-image-1 的价格取决于你选择的输出质量(低、中、高)。Gen-4 Image 的价格取决于你选择 720p 还是 1080p 分辨率。
总的来说,gpt-image-1 是最慢且最昂贵的模型,而 Kontext Dev 是最便宜且最快的。权衡之处在于质量,我们将在下面更详细地探讨这一点。
| 模型 | 价格(每张) | 速度 | 发布日期 |
|---|---|---|---|
| 某机构 gpt-image-1 | 0.17 | 16s–59s | 2025年4月 |
| 某机构 Gen-4 Image | 0.08 | 20s–27s | 2025年4月 |
| 某机构 FLUX.1 Kontext Pro | $0.04 | 5s | 2025年5月 |
| 某机构 FLUX.1 Kontext Max | $0.08 | 7s | 2025年5月 |
| 某机构 FLUX.1 Kontext Dev | $0.025 | 4s | 2025年5月 |
| 某机构 SeedEdit 3 | $0.03 | 13s | 2025年7月 |
保留角色特征
我们来比较一下每个模型在保留角色特征方面的表现。
在下面的比较中,我们对 gpt-image-1 使用高质量和高保真设置。我们坚持使用 FLUX.1 Kontext Pro,因为它在质量和速度之间取得了最佳平衡。并且使用 1080p 的 Gen-4 Image。
照片级真实感
以下是一系列多样化的示例,展示了每个模型的优缺点,所有示例都侧重于照片级输出。
新活动
在这两个例子中,我们可以看到 Gen-4 的优势。构图最引人注目,角色也最准确。
原始图像:“她在弹钢琴” 原始图像:“他在弹吉他”调整场景
如果你想保留大部分原始构图,只改变场景的一小部分,所有模型都能很好地处理。
原始图像:“拿走那杯饮料”半身像,拥有不寻常的发色和瞳色
一个更具挑战性的比较:这里有一个角色患有虹膜异色症,头发有两种颜色,还有一些面部标记。我们可以看到每个模型都能处理头发和眼睛。(有些模型需要几次重试才能做对。)
原始图像:“一张她在夏日森林里的半身像照片”刮胡子、穿外套和下雨天
与其保持一切一致,不如尝试保持同一个人但改变一些东西。
结果好坏参半,只有 SeedEdit 3 和 gpt-image-1 能处理“刮干净胡子”的要求。但 gpt-image-1 生成的是一个完全不同的人,这可能是最糟糕的结果。
原始图像:“刮掉他的胡子,给他穿上雨衣,天正在下雨”尝试纹身
这里我们尝试一个有多个明显纹身的角色,看看每个模型如何处理它们。没有一个模型是完美的,其中 Gen-4 和 gpt-image-1 对颈部纹身的保留最好。
原始图像:“他是一名厨师,正在餐厅厨房里做饭”创意任务和完全变换
在这些示例中,我们希望将角色转换成其他东西,或者以不同的风格展示他们。一个好的模型会在保持角色特征的同时完成转换。
改变风格
通过这些简单的风格改变,我们可以很快发现 Gen-4 不应该用于这些风格化任务。
原始图像:“将这个人重新设计为动漫风格” 原始图像:“将其变成水彩画”变成其他东西
万圣节到了。我们把她变成女巫,把他变成食人魔,把另一个人变成潘多拉的蓝色纳美人。Gen-4 输出的女巫效果最好,但食人魔效果最不令人信服。
原始图像:“把她变成女巫” 原始图像:“把他变成绿色皮肤的食人魔”对于这个例子,Kontext Pro 不想创建来自潘多拉的蓝色纳美人的图像,这里展示的是 Kontext Dev。
原始图像:“把他变成来自潘多拉(阿凡达)的蓝色纳美人”结论
总的来说,我们发现:
- Kontext Pro 用途广泛,可以产生出色的结果,但面部周围通常有太多伪影,这常常使图像无法使用(这些伪影似乎在 Kontext Dev 中不存在,但 Dev 的整体质量较低)。
- gpt-image-1 总是会添加独特的黄色色调,即使启用了高质量和高保真设置,角色特征也经常发生变化。鉴于其成本最高、速度最慢,只会在最复杂的任务中使用它。
- SeedEdit 3 倾向于限制在初始构图内,这使得很难通过提示词获得新的角度或场景。输出通常较柔和,看起来可能更像是 AI 生成的。在复杂场景中,连贯性也是一个问题。
- 某机构的 Gen-4 在处理照片的相似度方面是最具适应性和准确性的。它的主要缺点是在复杂场景中的连贯性,可能会发现一些意料之外的胳膊、腿或手。有时可以通过几次重试修复,有时则不能。Gen-4 也不能重新设计场景风格。
建议
对于照片,建议从某机构的 Gen-4 Image 模型开始。如果需要更快或更便宜的输出,那么 Kontext Pro 是次佳选择。如果从 Gen-4 获得的一些输出不连贯,可以随时将它们输入 Kontext Pro 进行修复。
对于更具创意的任务和完全的角色转换,建议先尝试 Kontext Pro。如果任务更复杂,并且预算允许,也应该尝试 gpt-image-1。如果负担不起 gpt-image-1 且 kontext 不适合,SeedEdit 3 是一个不错的廉价替代方案。不要将 Gen-4 用于风格化任务。
以上就是本次的全部内容,请持续关注更多模型、比较和实验。在此之前,可以访问 replicate.com/explore 尝试新事物。FINISHED