2.5 天低成本训练 11.6 亿参数扩散模型

159 阅读1分钟

micro_diffusion:2.5 天低成本训练 11.6 亿参数扩散模型

micro_diffusion[1] 是一个开源方法,旨在通过充分利用每一刀从零开始训练大规模扩散模型。

任何人只需使用 8 个 H100 GPU,在短短 2.5 天内,就能以 1890 美元的超低成本,用 3700 万张公开可用的真实和合成图像,训练出一个 11.6 亿参数的稀疏 Transformer。

这比 Stable Diffusion 的训练成本低 118 倍!不过,从论文的基准测试来看,模型生成的图片质量仅略优于 SD1.5,放到现在可能有点不够看。

Mistral 发布性能领先的编程模型 Codestral 25.01

Mistral 最新推出的编程模型Codestral 25.01[2] 现已登陆 Continue.dev 平台。开发者可以通过 VSCode 和 JetBrains 插件试用该模型。

Codestral 25.01 在同参数量模型中表现突出,目前在 LMsys Copilot 竞技场中稳居榜首。