比 Vibe Coding 更值得留意的,是 Vibe Design。前者大家聊得够多了,后者却一直没人认真讲——但这一波图像模型的进化,已经在悄悄把设计这件事重新洗了一遍。 说句实话,Vibe Coding 的震撼还在预期之内;Vibe Design 给人的感觉不太一样:你还没来得及摸清它的上限,它又往前跑了一截。
一年前的图像模型,和今天不像同一个东西
把时间倒回一年。那会儿的模型做点氛围图还凑合,要做正经设计稿——尤其涉及中文——基本就是翻车现场。
笔画会断、结构会歪、字像硬贴上去的贴纸,稍微放大一点就露馅。你甚至说不清它画的是字,还是字的幻觉。
新一代模型的不同,不只是"画得更清楚"。它多了一种接近设计师的判断:知道哪里张扬、哪里要收一点,留白不是留空、是给画面留口气;一个汉字也不再是笔画的堆砌,而是一个有重心、有结构的整体。
以前是解决"像不像",现在是在处理"好不好看"。十张里挑一张的阶段过去了,一个方向现在可以稳稳地往下迭代。中文曾经是最大的短板,现在反而成了它最拿手的部分。
真正让人意外的,不是某一项能力突然变强,而是整体在跳级。
五个例子,五次被拉开差距
下面五个 prompt,结构都不简单:多格排版、多元素、多文字标签、多文化细节。越是"一看就难"的任务,越能把新旧模型之间的距离摊开来看。
一、中国传统民族服饰水墨图鉴
图鉴类海报是老模型最容易翻车的场景。人物、服饰差异、网格、每格下方的文字标签——任何一环没处理好,整张图就废了。
而这种任务恰好能让新模型交出像样的答卷:不是"画得不错",而是能当教材用、能塞进博物馆图录里。
Prompt:
中国传统水墨风格民族服饰图鉴海报,7×8 网格排列 56 位不同民族人物半身像,每格内人物保留完整头饰、服饰纹样和配饰特征,水墨设色细腻;每格下方独立名称标签栏,标注民族名称(如"汉族""苗族""藏族""彝族"等)及一行小字服饰特征简介;顶部主标题"中华民族服饰图鉴"居中繁体楷书,副标题"Fifty-Six Ethnic Costumes of China",底部一行小字"民族文化研究院 · 收藏版",整体兼具图鉴感、教育感和收藏感,仿古纸质感
二、二十四节气水墨图谱
24 个节气,24 个独立场景,24 段文字。这是课本级别的内容密度——模型不仅要知道"小满"长什么样,还得知道它前后相邻的节气该怎么衔接。
老模型能画风景,但做不了成体系的东西;能糊出氛围,糊不出知识。
Prompt:
中国二十四节气水墨图谱海报,4×6 网格按时间顺序排列 24 个节气场景,每格为一幅独立小水墨画,画面主体对应节气物候(如立春柳芽、雨水源头、惊蛰春雷、谷雨采茶、立夏枞叶、小满麦浪、夏至荷塘、大暑蛙鸣、秋分桶月、霜降红叶、大雪孤舟等),每格右下角竖排小字标注节气名称、对应公历日期和一句七字农谚;顶部主标题"二十四节气图谱"手写毛笔字,右上落款印章,底部一行小字"中国传统时序文化",整体古典教材质感,留白充足,水墨与浅赭石设色
三、明清瓷器博物图录
博物馆图录比海报更难。它要的不是"好看",而是"准"——器型、釉色、年代特征每一项都要立得住,旁边的中英文双语标签还得排得像真图录。
Prompt:
仿古米白底博物馆图录风格海报,5×8 网格展示 40 件明清代表性瓷器(青花瓶、斗彩罐、粉彩盘、单色釉碗、红釉高脚杯、三彩象生瓶等),每件瓷器为正面标准视图,细节保留釉面光泽和开片纹理;每件下方独立标签区,中文一行标注器名、朝代、尺寸,英文一行标注 name / dynasty / dimensions,左上角附小号馆藏编号;顶部主标题"明清瓷器图录 · A Catalogue of Ming-Qing Porcelain",底部一行版权字样"故宫博物院 藏品图录 2026",整体兼具学术感与收藏感
四、世界地标建筑手绘立面图鉴
建筑立面图是信息图里最挑剔的一类。线稿比例、标注密度、建造年代、高度数字、城市名称——任何一项含糊,整张图立刻露馅。
Prompt:
米色做旧纸质背景手绘线稿图鉴海报,3×4 网格排列 12 座世界著名建筑立面图(故宫太和殿、埃菲尔铁塔、帝国大厦、悉尼歌剧院、吉萨金字塔、泰姬陵、科隆大教堂、圣家堂、东京塔、比萨斜塔、伦敦大本钟、布达拉宫),每座建筑为精细黑色钢笔线稿立面,旁边配一张简短剖面图和比例尺;每格底部中英文双语标签,标注建筑名、所在城市国家、建成年代、高度米数;顶部主标题"世界地标建筑图鉴 · Landmarks of the World",左下角比例尺与文字图例,整体古典百科全书质感
五、中国八大菜系代表菜图鉴
美食图鉴考验的是排版和摄影感的叠加:既要拍出美食杂志那种质感,又要让每道菜的食材、刀工、火候都对得上,还得把八种风格互相区分开,标签、菜系、产地一个都不能错。
Prompt:
深木色桌面背景美食杂志风格图鉴海报,2×4 网格展示中国八大菜系代表菜(鲁菜葟烧海参、川菜麻婆豆腐、粤菜白切鸡、苏菜松鼠鲒鱼、闽菜佛跳墙、浙菜西湖醋鱼、湘菜剁椒鱼头、徽菜臭鲑鱼),每道菜为 45° 䯯拍摄影,瓷盘、配料、汤汁细节到位;每格下方独立标签,中文菜名大字、菜系小字、主要食材一行、代表产地一行;顶部主标题"中国八大菜系图鉴"毛笔字,副标题"A Culinary Atlas of China",底部一行小字"舌尖上的地理 2026 珍藏版",整体兼具食欲感、图鉴感和收藏感
左侧都是 gpt-img2,右侧是对比模型。一眼看上去都处理得不错,但 gpt-img2 在中文和部分细节上的表现更出彩;不过,对比右侧模型的耗时会更长一些。
真正让人在意的,是它还在进化
如果说 Vibe Coding 给人的感觉是"工具变聪明了",那 Vibe Design 的感觉更像:你还没反应过来,它又上了一个台阶。
前几个月它还在补作业,现在已经在抢创意;上一版还在学人做设计,下一版已经带着人往前跑。
中文字体、材质语言、情绪氛围、版式逻辑——这些曾经是设计师的护城河,是手艺的最后一道门。现在,这道门正被一块一块啃掉。
设计师真正要面对的,其实从来不是"会不会被取代"。问题更直接:整个行业的产出速度被硬抬起来了,谁先能把抽象的感觉翻译成准确的 prompt,谁就站在了新一轮的起点上。
但更让人在意的,是另一件事
当一个模型能把整本图鉴、图谱、博物图录都做得像真印刷出来一样——我们其实已经走到了一个挺危险的临界点。
海报分不出是不是 AI 做的,还能接受。 人像分不出是不是 AI 拍的呢? 新闻现场图分不出是不是 AI 生成的呢? "有图有真相"的那张图,分不出是不是 AI 伪造的呢?
比如这种
又或者这种
这些都不信,那直播间你信不信?
过去人们愿意相信图像,是因为"拍下来"这件事本身就很难造假。现在,生成一张"看起来像拍下来的"图,只需要一句话、几秒钟。
以后每一张图——小孩的照片、朋友圈的风景、事故现场、明星绯闻、战地新闻、法庭证据——你凭什么判断它是真的?
这不是技术问题,而是认知地基在松动。当"眼见为实"这四个字不再成立,我们还能靠什么去理解这个世界?
图像模型跑得越快,这个问题就越明显。今天它做的还只是规规矩矩的一张图鉴;明天它做的,可能就是一张你分不出真假的"现实"。
在这样一个越来越真、也越来越假的世界里,能做的大概只有一件事:把自己活成一个值得被信任的人。
附:如果你也想亲手感受一下这件事
说了这么多,最直接的办法其实不是继续讨论,而是自己生成几张看看。
上面这些图鉴、图谱、海报,如果放在一年前,你很难相信它们能靠一句 prompt 直接做出来;但现在,这已经不是概念了,而是可以立刻上手去试的现实。
如果你刚好也想自己跑一轮,可以看看 Amux API。最近它已经上了 gpt img2。
很多人聊 Vibe Design,聊到最后还是停在“觉得厉害”;但真正让人有感觉的,是你把一个念头、一段 prompt 扔进去,然后看着它真的长成一张像样的图。
图像模型到底进化到了哪一步,光看别人发案例其实不够。自己跑一遍,你会更清楚地知道:中文、排版、材质、氛围这些东西,为什么会突然变成今天这个样子。
如果你正想找个地方,亲手试试这种变化,那这个可以当作一个入口。