半壁华人!GPT Image 2团队曝光:无锡才俊带队,13人4个月封神

1 阅读8分钟

P.S. 无意间发现了一个巨牛的人工智能教程,忍不住分享一下给大家。很通俗易懂,重点是还非常风趣幽默,像看小说一样。网址是captainbed.cn/jj。希望更多人能加入到我们AI领域。

前言

我直接一个原地起立。兄弟们,昨晚OpenAI放GPT Image 2的时候,我正啃着泡面刷推特。结果一张团队合影直接给我整不会了。13个人,4个月,把AI生图天花板捅了个窟窿。我数了三遍,华人占了一半还多。这啥阵仗?这不是发布模型,这是华人攻城狮集体封神现场啊!我当时泡面都凉了,只顾着扒团队成员的LinkedIn,越扒越精神,直接通宵。

先说模型本身。我算是AI生图的老韭菜了,DALL-E 2那个年代过来的,谁没被那些"六亲不认"的文字渲染坑过?Midjourney是好看,但一让写字就翻车,十个字里八个是乱码。Stable Diffusion折腾半天装插件,调LoRA调到显卡冒烟。Flux倒是强了,但提示词得写小作文,写少了就给你整抽象活。直到GPT Image 2出现,我才感觉到什么叫"指哪打哪",什么叫"真·生产力"。

•4K分辨率:4096×4096输出,印刷级画质,放大看窗户灯光都不糊

•文字渲染:48种语言通吃,字符准确率99%,中文霓虹灯招牌端正得像设计师排版

•LM Arena ELO:1512分,比上一代高出242分,断层第一没有对手

•生成速度:比GPT Image 1.5快2倍,3秒出图不是梦

团队揭秘:13人封神榜

重点来了。我扒了扒这支封神团队的底细,越扒越心惊。带队的是Gabriel Goh,UC Davis数学博士,2019年从苹果跳槽到OpenAI。这哥们早起研究可解释性和凸优化,听着就硬核,是那种看公式能看出快感的纯数学脑。从DALL-E开始转图像生成,算是OpenAI图像线的活化石。但最让我坐不住的是下面这串名单,华人密度高得离谱,简直像走进了清华姚班的海外分校。

•陈博远:江苏人,伯克利本科MIT博士。世界模型、具身智能、强化学习三连击。关键这哥们业余还是个大厨,热爱珍珠奶茶。我看完直接破防,我周末只会点外卖,人家MIT博世在研究世界模型之余还能颠勺?这时间管理就离谱他妈给离谱开门——离谱到家了。我怀疑他一天有48小时。

•Weixin Liang:浙大竺可桢学院本科,斯坦福博士。注意这个"竺可桢学院",浙大最卷的地方,进去的都是卷王中的卷王,高考省前50起步。他在Meta实习搞的Mixture-of-Transformers,用模态解耦MoE把多模态训练成本打下来。这篇论文我啃了一晚上,看完只想说:这脑子是硅基的?25年刚毕业就进OpenAI核心组,一步登天。这履历,我酸了,柠檬树上柠檬果,柠檬树下你和我。

•Yuguang Yang:也是浙大竺可桢学院的。我查了下,这两位还不是同一届。竺院这是开了OpenAI定向班吗?批量输送人才?建议浙大校史馆直接开个"OpenAI校友专区",这产出率太凶残了。竺院招生办看到这波,明念分数线怕是要再涨十分。

•Bing Liang:Google五年老兵,Imagen3、Veo、Gemini Multimodal全参与过。2025年跳槽OpenAI,带着Google的图像生成秘籍来的。我现在就想知道Google HR的心情,这算不算核心技术流失?开个玩笑,但确实,这重级别的专家跳槽,对Google是暴击,对OpenAI是开挂。Bing Liang在Google干了五年多,把Imagen3的底子摸透了,转头就把经验注入GPT Image 2。这波啊,这波是技术扶贫。

•Mengchao Zhong:上海交大本科,德州农工硕士。在Pinterest和Airtable做过软件工程师,现在OpenAI负责多模态产品工程。这路静太真实了,国内名校→美国硕士→硅谷大厂→顶级AI公司。每一步都踩在点上,教科书级别的华人工程师进阶路线。我看着自己的简历,默默关掉了页面,人与人的差距比人与狗还大。

•Kiwhan Song:25年10月最晚加入,但人家是团队提示词大师。官方演示图很朵出自他手。这岗位现在叫Prompt Engineer,我喜欢叫"AI咒语师"。同样的炼丹炉,人家念咒出仙丹,我念咒出炸炉。这就是差距,而且是鸿沟。我prompt写了半年,还不如人家随手一调。这天赋,不服不行。

还有Ayaan Haque,Luma AI过来的,参与过Dream Machine训练,视频生成那边的高手。Dibya Bhattacharjee,耶鲁毕业,15年IPhO铜牌,A-Level数学和生物全球最高分。这团队13个人,随便拎一个出来都是别人公司的技术骨干。结果他们聚在一个组,4个月干出GPT Image 2。这密度,这效率,我除了"卧槽"说不出别的。这不是团队,这是复仇者联盟。

架构重构:专职选手登场

更恐怖的是这次架构完全重构。以前GPT Image 1和1.5都是挂在GPT-4o后面的,相当于让一个语言模型"兼职"画画。现在GPT Image 2是独立架构,专门为图像生成优化。这就好比以前请的是个会画画的作家,现在请的是专业画家。能一样吗?专职选手出手,就是降维打击。

推理模式(O-series)更是开挂了。模型会"思考"你要什么,甚至能自己上网查参考图。多轮编辑还能保留上下文,你让它"把左边那棵树换成樱花,再把人物衣服改成蓝色",它真懂。局部编辑不涌重画整张图,指哪改哪。这些功能对设计师来说,简直是把PS和Midjourney合体了,直接生产力拉满。以前改图要重跑整张,现在局部微调,省下的时间够我喝三杯奶茶。

// 多轮对话式图像编辑示例 User: 生成一张咖啡厅外景图,要有复古招牌 AI: [生成图片] User: 把招牌文字改成"深夜咖啡馆",字体用手写体 AI: [局部编辑,只改招牌] User: 再在门口加一只橘猫 AI: [在保留前面修改的基础上添加橘猫]

行业地震:DALL-E正式入土

OpenAI已经定了,5月12日,DALL-E 2和DALL-E 3正式入土。这意味着老diffusion架构在OpenAI彻底成为历史。我那些还在用DALL-E API做产频的兄弟,赶紧迁移吧,留给你们的时间不多了。到时候直接404,哭都没地方哭。5月12日这个日期选得妙啊,DALL-E的头七刚好撞上GPT Image 2满月,新旧交替仪式感拉满。

•GPT Image 2:ELO 1512,断层第一,文字渲染独一档

•GPT Image 1.5:ELO 1264,上一代王者,现在退居二线

•Gemini 3 Pro Image:ELO 1235,Google最强,但被甩近300分

•Flux 2 Max:ELO 1168,开源之光,性价比能打但上限不足

在LM Arena的盲测对决里,GPT Image 2把竞品全甩在身后。242分的差距,在竞技排名里相当于职业选手打业余选手。Midjourney V8、Flux 2 Max、Seedream 5.0各有所长,但在"文字+指令遵循"这块,GPT Image 2拿捏得死死的,没有对手,断层第一。文字渲染这块,GPT Image 2就是独一档,其他模型连车尾灯都看不见。

深夜emo:华人战力天花板

扒完这团队,我深夜彻底emo。13个人,4个月,改变一个行业。华人占半壁。这说明咱们华人工程师的战斗力,在全球AI战场就是顶配。但我也憋屈,为啥这些大神都在美国公司发光?国内大厂能不能给点力,把算力和自由度拉满,让下一个GPT Image 2在本土诞生?这个问题我越想越扎心。不是咱没人才,是咱能不能给人才足够的弹药和战场。

不过换个思路,浙大、上海交大、伯克利、MIT、斯坦福...这套人才培养链确实猛。华人学霸在全球AI圈已经是横着走的状态。只要环境对,给足资源,华人团队就是能整出大活。无锡才俊带队,13人4个月封神,这波操作我直接瑞思拜。建议国内高校赶紧把这支团队的履历打印出来,贴计算机系门口,这才是真正的招生简章。

所以兄弟们,别光看我在这吹。现在打开ChatGPT,点那个加号,自己生成几张图试试。搞个带文字的招牌,搞个4K风景,搞个局部编辑。试完回来告诉我,你有没有被震撼到?反正我是已经躺平了。这波OpenAI在大气层,咱们在大气层外看神仙打架。没试过的赶紧去体验,免费的额度虽然少,但够你震撼一把了。

哦对了,团队成员集体把头像换成了吉卜力风格,就是GPT Image 2生成的那个"奇脖子画风"。提示词他们也公布了,想要同款的自己搜。我只能帮到这了,评论区见,散会!

P.S. 想要系统学习AI的朋友可以去看看那个人工智能教程captainbed.cn/jj