在图像生成领域,扩散模型因其训练稳定和泛化能力强已逐渐走入主流行列。然而,面对海报、PPT、科普图等需要准确传达复杂信息的「知识密集型」场景时,传统模型存在指令理解与细节刻画难以兼顾的短板。 另一个长期存在的问题是生成图像中的文字经常出现笔画错误或难以辨识,严重影响实用价值。
基于此,智谱 于 2026 年 1 月联合华为开源了新一代图像生成模型 GLM-Image。 该模型基于昇腾 Atlas 800T A2 和昇思 MindSpore AI 框架完成全流程训练。其核心特点是采用了创新的 「自回归+扩散解码器」混合架构(9B 自回归模型 + 7B DiT 解码器), 将语言模型的深度理解能力与扩散模型的高质量生成能力相结合。
此外,模型通过改进 Tokenizer 策略,原生支持从1024×1024 到 2048×2048 的任意比例图像生成,无需重新训练。GLM-Image 的创新性还体现在以下两个方面:
*解决文字渲染难题: 在 CVTG-2K 和 LongText-Bench 权威评测中,其文字准确率等关键指标均位列开源模型第一,显著提升了图像中文字的生成准确性。
*定义高性价比应用: 在 API 调用模式下,生成单张图片的成本仅需 0.1 元,成本仅为主流闭源模型的 1/10 至 1/3,为商业化应用提供了高性价比选择。
目前,「GLM-Image:首个全流程国产芯片训练模型」已上线 OpenBayes 官网的教程版块, 快来输出无限创意吧!
教程链接:
Demo 运行
01
Demo 运行阶段
1.登录 OpenBayes.com,在「公共教程」页面,选择「GLM-Image:首个全流程国产芯片训练模型」教程。
2.页面跳转后,点击右上角「克隆」,将该教程克隆至自己的容器中。
3.选择「NVIDIA RTX PRO 6000 Blackwell Server Edition」以及「PyTorch」镜像,按照需求选择「按量付费」或「包日/周/月」,点击「继续执行」。新用户使用下方邀请链接注册,可获得 4 小时 RTX 5090 + 5 小时 CPU 的免费时长!
小贝总专属邀请链接(直接复制到浏览器打开):
4.等待分配资源,当状态变为「运行中」后,点击「打开工作空间」进入 Jupyter Workspace。
02
效果演示
页面跳转后,点击左侧 README 页面,进入后点击上方「运行」。
待运行完成,即可点击右侧 API 地址跳转至 demo 页面。
教程链接: