大家好,我是袋鼠帝。
阿里最近又整了个大活,发布了千问最强的图像生成模型:Qwen-Image-2.0。
说实话,AI圈子快过年了也卷得飞起,前有字节的Seedance 2.0刷屏,现在阿里也坐不住了。
真的谁都别想过年。。。
这次的新模型虽然不开源,但是我看了一下官方披露的能力和样张,确实有点东西。甚至可以说,它就是更懂中文的Nano Banana Pro。
简单来说,这个模型最大的特点就是:把生图和修图合二为一了,而且在写字这件事上,是强项。
这次Qwen-Image-2.0主要升级了这么几个点:
1、Qwen-Image-2.0这次在文字渲染上可以说是史诗级加强。它不仅能写字,还能写长文,甚至能把《兰亭集序》这种几百字的古文全文给你准确地渲染在图片上。
2、提示词(Prompt)长度支持到了1K token,是上个版本的两倍。
这意味着你可以给它下达非常复杂、非常具体的指令。
- 质感直逼摄影师,这次Qwen-Image-2.0在真实感上下了大功夫,生成的人物皮肤肌理、自然纹理都非常逼真,那种AI味儿少了很多。
而且它支持直出2K高清图,不用再后期放大了。图片真滴清晰,我下载下来平均都是5M。
在盲测榜 AI Arena的文生图评测里,它拿了1029分,超过了Seedream 4.5和Flux-2-Max,仅次于谷歌的Nano Banana Pro和GPT Image 1.5。
在图片编辑上,更是拿了1034分,排在第二,仅次于Nano Banana Pro。
目前已经可以在Qwen Chat里面免费玩
另外,阿里云百炼上也已经开通API邀测
光说不练假把式,咱们直接看效果。
话不多说,先给大家搞了一套春节马年限定
Prompt:一匹云朵做的马戴着墨镜飘在空中。天空中飘浮着几个像棉花糖一样的白色云朵字体,写着:“神马都是浮云 (除了快乐)”。字体软绵绵的,半透明,看起来很治愈。超现实梦幻风格。
祝大家👇:
提示词太多,就不一一放出来了,感觉Qwen-Image-2.0各种风格都能驾驭啊。
既然官方说书法能力很强,那必须得试一下子。
我选了当年我看射雕英雄传最喜欢的一首岳飞的词《满江红》
Prompt:一幅中国古代传统水墨人物山水画,立轴构图,纸本水墨,风格偏向南宋马远、夏圭的“残山剩水”风格,意境萧疏、悲壮。
人物主体: 画面主体是一位顶天立地的南宋名将岳飞。他身着残破的战袍和铁甲,按剑而立,站在悬崖边的古亭栏杆处。他的面部表情极其痛苦而坚毅,双眼含泪仰望苍穹,胡须在风中飘动,传达出“怒发冲冠,壮怀激烈”的情绪。他的鬓角可以看到斑斑白发(“白了少年头”)。
环境氛围: 背景是大面积的泼墨山水,表现风雨交加后刚停歇的状态,云层厚重压抑,山河破碎感。远处隐约可见被战火波及的城池和边关冷月。整体色调以水墨黑白灰为主,仅在人物盔甲和印章处有少许暗红色点缀,象征血与火。
画面自上而下、自右向左用王羲之小楷写着:
“怒发冲冠,凭栏处、潇潇雨歇。抬望眼,仰天长啸,壮怀激烈。三十功名尘与土,八千里路云和月。莫等闲、白了少年头,空悲切。靖康耻,犹未雪。臣子恨,何时灭。驾长车,踏破贺兰山缺。壮志饥餐胡虏肉,笑谈渴饮匈奴血。待从头、收拾旧山河,朝天阙。”
生成得真不错啊,我能深切的感受到岳飞当时的那种心情。
然后像下面这种食物的制作步骤,也是手到擒来,大小文字都不带崩的,稳得很。
Prompt:创建一个信息表,以手绘插画的形式展示如何制作鱼香肉丝
那就再上点难度:
请创建一个博物馆展品级别的【可卡布犬】专业知识信息图,要求如下:
整体设计要求
-
采用清晰的信息层级结构,便于快速浏览和理解
-
使用温馨、友好的配色方案(柔和的暖色调或清新的冷色调)
-
包含该品种宠物的逼真形象
-
信息分区明确,使用图标辅助说明
必须包含的信息模块
1. 基础档案
-
中文名称 & 英文名称
-
原产地
-
体型分类(小型/中型/大型)
-
平均体重范围
-
平均身高/体长
-
平均寿命
2. 外观特征
-
毛发类型(长毛/短毛/卷毛等)
-
常见毛色
-
典型体态特点
-
显著识别特征(如耳朵形状、尾巴特点等)
3. 性格特点
-
总体性格描述(3-5个关键词)
-
对主人的亲和度(用星级或百分比表示)
-
对陌生人的友好度
-
对其他宠物的友好度
-
对儿童的友好度
-
活跃程度
-
吠叫/喵叫频率
4. 生活习性
-
运动需求量(每天所需运动时间)
-
独处耐受度
-
训练难易度
-
掉毛程度
-
口水分泌程度(狗)
-
美容护理需求
-
适应环境(公寓/独立屋/农场等)
5. 健康注意事项
-
常见遗传疾病(列举3-5种)
-
易患疾病风险点
-
日常护理要点
-
定期检查建议
-
特殊健康需求
6. 饮食建议
-
推荐食物类型
-
每日喂食次数
-
需要避免的食物
-
营养补充建议
7. 适合人群
-
新手友好度
-
最适合的家庭类型
-
时间精力需求评估
-
经济成本预估(低/中/高)
8. 养护要点(Top 5)
-
列出5条最重要的养护提醒
-
用简洁的一句话表达,配图标
9. 优缺点对比
优点:
- 列举3-5个主要优点
需要考虑的方面:
- 列举3-5个需要注意或可能的挑战
10. 快速评分卡(使用星级或进度条)
-
新手友好度:★★★★☆
-
护理难度:★★★☆☆
-
运动需求:★★★★★
-
安静程度:★★☆☆☆
-
亲人程度:★★★★★
视觉呈现要求
-
采用信息图(Infographic)的形式
-
合理运用图标、图表、插图
-
重要信息用醒目颜色或边框突出
-
整体布局平衡美观
-
字体大小分级清晰(标题>副标题>正文)
-
竖版9:16
这个提示词和图片适配第三个亮点吗
这信息量相当大,而且它给可卡布犬填充了提示词里面全量的资料,这对宠物行业的商家来说,应该挺有用的。再看看这个城市地标拆解图,同样很稳啊!
prompt:创作一张关于[地标]的信息图,将地标的真实照片与蓝图风格的技术注释和图表叠加在图像上。在角落手绘框内添加标题“[地标]”。添加白色粉笔风格的草图,展示关键结构数据、重要尺寸、材料用量、内部结构图、荷载流向箭头、横截面图、平面图以及显著的建筑或工程特征。风格:蓝图风格,照片上叠加白色线条图,技术/建筑注释风格,具有教育信息图的感觉,注释后方可见真实环境。
换个风格看看,微缩城市天气图也是完美生成
prompt:Present a clear, 45° top-down isometric miniature 3D cartoon scene of [CITY], featuring its most iconic landmarks and architectural elements. Use soft, refined textures with realistic PBR materials and gentle, lifelike lighting and shadows. Integrate the current weather conditions directly into the city environment to create an immersive atmospheric mood.
Use a clean, minimalistic composition with a soft, solid-colored background.
At the top-center, place the title “[CITY]” in large bold text, a prominent weather icon beneath it, then the date (small text) and temperature (medium text). All text must be centered with consistent spacing, and may subtly overlap the tops of the buildings.
另外,图生图的物理理解能力也很强
上传左图问它:如果在水中加入大量盐,鸡蛋会发生什么变化?
于是就诞生了右图~
更让我惊喜的是人物生成,非常逼真,手和脚都不会崩,细节满满prompt:
{"style": "高光摄影棚人像,直闪风格美学,东亚社交媒体风格(如Ulzzang、抖音风),带有艺术化美颜修饰与轻快氛围。","output": {"color_profile": "sRGB 色彩配置文件","render_intent": "照片写实风格"},"subject": {"category": "人物","gender_presentation": "女性","ethnicity": "东亚人(如韩国人、中国人)","age_bracket": "年轻成年人","body": {"build": "纤细","proportions": "自然人体比例","posture": "放松地坐在沙发上,姿势随意","pose": "盘腿坐,双腿交叉靠近身体","gesture": "右手抬起,手指自然弯曲,用手背或指关节轻轻托着下巴与面颊下方。","head_tilt_deg": 5},"face": {"expression": "俏皮又带点诱惑,表情自然生动","gaze": "右眼直视镜头,带有轻微微笑的眼神交流感","eye_action": "左眼轻轻眨眼(单眼wink动作)","skin_tone": "极致白皙的瓷白肤色,散发柔和光感","makeup": "韩系/抖音风妆容:雾面无瑕底妆,颧骨高处的粉色腮红明显;双唇呈粉色渐变;眉毛干净立体;细致眼线勾勒眼型,卧蚕明亮突出。","features": "左眼下方有一颗细小而明显的美人痣,增强个性魅力。"},"hair": {"length": "长发","style": "慵懒感高盘发/丸子头,几缕碎发自然垂落,配以轻薄空气刘海,整体略带凌乱的随性感。","color": "深棕色带微光泽"},"wardrobe": {"top": "白色修身短款吊带上衣","outerwear": "浅灰色拉链连帽衫,敞开穿,微微滑落双肩","bottom": "白色抽绳家居短裤","footwear": "赤脚"}},"environment": {"location": "摄影棚或极简室内空间","set": "黑色皮沙发,背景为纯白或浅灰色墙面","props": "银色笔记本电脑(Apple MacBook,logo可见),放置在人物右侧(相机左侧)的坐垫上"},"lighting": {"key": {"source": "闪光灯/摄影灯","modifier": "裸灯头或直闪(硬光源)","position": "接近相机轴线,略偏相机右侧,略高于视线","effect": "在人物身后墙面上产生清晰的深色投影;皮肤与沙发表面有明显高光反射。"},"fill": {"type": "几乎无补光"},"ambient": "环境光被压制","white_balance_K": 5800},"camera": {"system": "数码相机","sensor": "全画幅等效","lens": {"type": "定焦镜头","focal_length_mm": 50},"exposure": {"iso": 100,"aperture_f": 4.0,"metering": "整体偏亮曝光,高调风格"},"focus": {"target": "右眼(近侧眼)","depth_of_field": "中等景深"},"framing": {"orientation": "竖构图","crop": "从大腿中部到头顶,头发上方留有空间","angle": "视线高度拍摄","composition": "人物居中构图"}},"color_grade": {"look": "明亮、干净、略带冷色调","contrast": "高对比度","saturation": "中等饱和度,强调粉色"},"postprocess": {"noise_reduction": "高强度降噪","texture": "皮肤高度平滑、无毛孔(“瓷娃娃”或“美颜滤镜”效果)","sharpen": "仅在眼睛/睫毛区域锐化","blemish_control": "彻底去除所有瑕疵与肌肤纹理"},"quality_targets": ["四肢长度与关节角度准确","手指数量与形态正确","衣物褶皱自然、贴合身体张力","眨眼表情自然准确"],"negative_prompt": ["不要修改或夸张身体比例","不要出现多余或融合的手指","不要有真实皮肤质感、毛孔或瑕疵","不要有文字或水印(指定logo除外)","不要使用超广角畸变","不要生成NSFW内容","不要暗调或情绪化光线","不要使用暖色调"]}
这个提示词真的超长...,但是它指令遵循能力非常强,各种细节都注意到了
还有这个超写实的特写,甚至连毛孔都能看见。
接下来根据上面这张图,还能生成6张复古宝丽来照片
Prompt:用6张复古宝丽来照片,用装饰绳和迷你衣夹固定,打造一个艺术拼贴画,就像一个家庭相册。每个宝丽来相框都略微褪色,并呈现出旧纸效果。背景是一面柔和的粉彩色墙,点缀着浅淡的阴影,营造出一种舒适而又充满创意的混乱氛围。
情绪和姿势:
-
轻松的笑声——闭上眼睛,自然的快乐。
-
梦幻般的目光向上凝视,放松的姿势。
-
顽皮的眨眼。
-
平静的微笑,头部歪向一侧。动态的手势,双手高举,充满活力。
-
浪漫地回头瞥了一眼。
店内弥漫着复古艺术的氛围,融合了70年代时尚杂志的元素,柔和的漫射灯光,以及柔和的暖金色色调。每一张照片都像是一张独特的幕后花絮,洋溢着一丝怀旧气息,也透露着个人的点滴历史。
嗯嗯,人物一致性也保持得很好
然后一键生成证件照,
Prompt:截取图片人像头部,帮我做成2寸证件照,要求:
1、蓝底
2、职业正装
3、正脸
4、微笑
这人物一致性,绝了。关键时刻能救急,真的超级实用~
下面这种多事物(人物、纸片、文字)叠加的场景,也生成的不错
Prompt:一张极简主义风格的彩色电影海报,展现了[角色名称]的半身像,从肩膀到头顶。脸部由少量大块方形纸片拼成,排列成简单的网格状(大约4x5或5x6块)。每块纸片都包含脸部的一部分,这些纸片组合起来便构成了完整的肖像。构成脸部的内部纸片并非完全平整;许多纸片边缘略微卷曲,边角翘起,投射出细小逼真的阴影,使其呈现出立体感,仿佛被钉在了墙上。其中4块纸片上直接用黑色手写着[文本1、文本2、文本3、文本4]。在中心网格的外围,不规则地散布着一些[便利贴颜色]的便利贴,它们随机放置在[颜色]的墙面上,上面手写着[外部文本内容,例如,经典语录]。整体布局略显不规则,各部分之间留有可见的缝隙,露出[彩色]混凝土墙背景。逼真的纸张纹理贯穿始终,高端影棚灯光突显了纸张边缘的翘起,清晰地展现了墨迹和纸张的纹理。
动漫场景
prompt:2D cartoon illustration of a [subject] charging forward in a [dynamic action pose], comic book style with bold black outlines and vivid primary colors. Inspired by classic superhero comics, expressive motion lines and exaggerated perspective, high-quality print style, energetic composition, intense visual impact
下面这种指尖微缩模型生成的效果也是杠杠的。
Prompt:A high-resolution advertising photograph of a realistic, miniature [PRODUCT] held delicately between a person's thumb and index finger. clean and white background,studio lighting, soft shadows. The hand is well-groomed, natural skin tone, and positioned to highlight the product's shape and details. The product appears extremely small but hyper-detailed and brand-accurate, centered in the frame with a shallow depth of field. Emulates luxury product photography and minimalist commercial style.
颜料飞溅、流体形态化处理得也非常nice
Prompt:colorful thick paint splashes forming abstract minimalist shape of a [PROMPT] , aesthetically pleasing vivid and vibrant colors, clean, pristine, liquid paint, white background --personalize cvlos9g --stylize 800 --v 6.1
体验完这次的Qwen-Image-2.0,我感觉国产生图模型确实越来越强大了。
虽然客观来说,它跟目前的行业老大Nano Banana Pro相比,在一些极致的创意生成上还有一点差距,但在中文理解、汉字渲染这些本土化能力上,它已经实现了局部反超。
这两天我感受到AI技术的发展速度比我想象中的还要快。每天都有新东西出来,每天都在进化。
你永远不知道AI的下一个版本有多强。
所以我也特别期待Qwen-Image-2.0的下一个版本,能彻底成为图片生成的王者
愿我们永远保持好奇, 永远保持初心(初学者心态)
我是袋鼠帝,一个春节还在努力更新的AI博主。
谢谢你耐心看完我的文章~