如果说 DeepSeek 让 AI 学会了说人话,那 GLM-Image 就是专治 AI 画图「听不懂人话」的老毛病——毕竟,谁还没被那些鬼画符文字气笑过呢?
原先的扩散模型手艺好,但耳朵背。现在的 AI 画图工具,像极了手艺精湛却耳背的 Tony 老师——你说招牌写开业大吉,他画出一串连考古学家都破译不了的符号。扩散模型训练稳定、泛化强,但面对复杂指令和知识密集型场景,总在信息表达和语义对齐上掉链子。
GLM-Image 的解法很务实:让专业的模块干专业的事。90 亿参数的自回归模块(基于 GLM-4-9B-0414)当阅读理解冠军,生成携带语义信号的视觉词元;70 亿参数的扩散解码器(沿袭 CogView4 架构)当像素级工匠,还原高频细节。文科生写剧本、理科生做特效,分工明确才能出大片。
除文本生成图像外,GLM-Image 还支持图像编辑、风格迁移、身份保持、多主体一致性。更关键的是,它终于能正确渲染中文了!通过集成 Glyph-byT5 进行字符级编码,开业大吉不会再变成开壶大古,海报设计师总算可以松口气了。
开源,为了好用而不只是能用,由智谱华章以开源形式发布的 GLM-Image 打破「高性能=闭源收费」的潜规则。160 亿总参数对开发者友好,自回归懂语义 + 扩散雕细节的混合架构,或将成为下一代模型的标配。
毕竟,我们要的不是抽卡式的运气游戏,而是能听懂复杂需求的靠谱搭档。当 AI 海报终于出现正确的汉字,记得感谢这个双脑协作的聪明架构——从耳背 Tony 到贴心设计师,GLM-Image 真的下了功夫。
教程链接: go.openbayes.com/cZzpu
使用云平台: OpenBayes
首先点击「公共教程」,找到「GLM-Image:首个全流程国产芯片训练模型」,单击打开。
页面跳转后,点击右上角「克隆」,将该教程克隆至自己的容器中。
在当前页面中看到的算力资源均可以在平台一键选择使用。平台会默认选配好原教程所使用的算力资源、镜像版本,不需要再进行手动选择。点击「继续执行」,等待分配资源。
若显示「Bad Gateway」,这表示模型正在加载中,请等待约 2-3 分钟后刷新页面即可。
使用步骤如下:
- 页面跳转后,点击左侧 README 页面,进入后点击上方「运行」。
- 点击运行后等待加载模型与初始化
- 待运行完成,即可点击右侧 API 地址跳转至 demo 页面。
- 打开后上传你想要的图片或文字,点击运行
- 成图展示
教程链接: go.openbayes.com/cZzpu