最近在库拉KULAAI(t.kulaai.cn)上把主流的AI绘图模型都跑了一遍,发现中外模型的差距比一年前缩小了不少,但各自的"性格"却越来越鲜明。这篇文章聊聊实测体验,也说说我对接下来趋势的判断。
Midjourney:审美天花板,但开始被追赶
Midjourney V6.1依然是"出图即壁纸"的代名词。光影层次、色彩调性、构图的松弛感,这些软性能力短期很难被量化追赶。尤其在人物肖像和氛围感场景上,MJ有种"一眼就知道是它"的辨识度。
但问题也很明显。闭源生态意味着你只能在Discord或者它的Web端操作,工作流整合能力弱。对于需要批量出图、接入自有管线的团队来说,MJ更像一个灵感工具而非生产力工具。另外,V6系列在中文提示词理解上依然有明显短板,复杂场景的文字渲染偶尔翻车。
Flux:开源阵营的最强搅局者
Flux的出现让开源社区兴奋了一把。Black Forest Labs这支团队本身就有Stability AI的核心班底,出手确实有两把刷子。
Flux.1在几个维度上表现突出:文字渲染准确率大幅提升,复杂构图的空间逻辑更合理,人物手指的"AI味"明显减轻。最关键的是开源,意味着可以本地部署、可以微调LoRA、可以和ComfyUI无缝对接。对于独立创作者和小团队来说,自由度拉满。
不过Flux的审美调性偏"写实素",不像MJ那样自带滤镜感。想要风格化输出,需要自己调参数或叠加LoRA。另外它的社区生态还在积累阶段,预设的模型和工作流丰富度暂时不如SD系。
通义万相:阿里在认真做,但还在找感觉
通义万相是阿里云重点推的AI绘图产品,最近更新到2.0版本后进步明显。特别是在国风元素、中文文字排版、电商产品图这几个方向上,万相有针对性优化。
实测下来,万相在"淘宝风格"的商品图生成上确实好用——背景干净、光影自然、文字嵌入准确。这跟阿里庞大的电商数据和应用场景有直接关系。通用场景下的表现中规中矩,和MJ比在审美细腻度上还有差距,但差距在缩小。
万相的优势在于和阿里云生态的打通,API调用方便,企业级的计费和合规体系成熟。对于已经在阿里云体系内的团队,接入成本很低。
混元绘图:腾讯的务实路线
腾讯混元大模型的绘图能力一直比较低调,但最近几个版本的迭代速度在加快。混元的特点是"稳"——不太会出惊艳的大图,但也不太会翻车。
在多轮对话式绘图上,混元做得不错。你可以用自然语言逐步修改画面细节,这种交互体验比单纯写提示词要友好。另外混元在中文理解上天然有优势,毕竟腾讯自己的语料训练充分。
不过坦白说,混元在艺术风格多样性和创意发散能力上还偏保守。输出的画面往往"正确但不出彩",少了一点让人眼前一亮的东西。这可能跟腾讯谨慎的产品策略有关——宁可少惊艳,不能出问题。
真正的分水岭:生态整合能力
如果只比单张图的质量,中外模型已经没有代差。但拉开差距的是生态能力。
MJ靠审美和社区建立护城河,Flux靠开源切入细分场景,万相和混元则背靠各自的云平台做商业化落地。未来的竞争不是"谁出图更美",而是"谁能把AI绘图嵌入到真实的工作流里"。
企业级用户关心的是:能否批量生成?能否保证风格一致性?能否和设计工具链打通?能否满足合规要求?这些能力才是商业化的关键。
趋势判断:三个方向值得关注
第一,视频生成会成为下一个主战场。 各家都在往"图生视频""文生视频"方向发力,AI绘图的能力最终会成为视频生成的基础设施。
第二,垂直场景会分化出专业模型。 电商、游戏、建筑设计、医疗影像……通用模型满足不了专业需求,微调和垂直训练会成为刚需。
第三,端侧部署会加速。 随着模型压缩和硬件算力提升,在本地跑高质量绘图不再是奢望。Flux这类开源模型会率先受益。
写在最后
回到开头的测试结论:没有"最强"的模型,只有"最合适"的场景。MJ适合追求审美的创作者,Flux适合需要自由度的技术型用户,万相适合电商和企业级场景,混元适合需要稳定输出的团队。
建议实际动手跑几轮对比再做选择。模型评测文章看看就好,自己的需求才是最终的评判标准。