开源8B参数全能扩散模型Flex.2-preview:把线稿变商稿,还能边画边改!

122 阅读3分钟

❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发感兴趣,我会每日分享大模型与 AI 领域的开源项目和应用,提供运行实例和实用教程,帮助你快速上手AI技术!

🥦 AI 在线答疑 -> 智能检索历史文章和开源项目 -> 丰富的 AI 工具库 -> 每日更新 -> 尽在微信公众号 -> 搜一搜:蚝油菜花 🥦


🎨 「设计师解放双手!这个8B参数AI模型把线稿变商稿,还能边画边改」

大家好,我是蚝油菜花。当别人还在为AI绘画的提示词绞尽脑汁时,Ostris团队已经让扩散模型进化到「全控制世代」!

你是否经历过这些创作困境:

  • 🖌️ 生成的构图总跑偏,反复重试消耗GPU算力
  • 🖼️ 想微调局部细节却要重新生成整张图
  • 📜 复杂描述被AI截断,关键元素总是遗漏...

今天要拆解的 Flex.2-preview ,正在重定义可控图像生成!这个拥有80亿参数的六边形战士:

  • 超长文本消化:512token容量轻松吃透「赛博朋克霓虹雨夜+机械义肢少女」级描述
  • 多模态控制:线稿/深度图/姿势图全支持,草图秒变完成品
  • 精准局部编辑:内置修复功能让AI像PS橡皮擦般指哪改哪

已有概念团队用它1天产出50版设计方案,接下来带你解剖这套「控制力拉满」的扩散模型黑科技!

Flex.2-preview 是什么

Flex.2-preview

Flex.2-preview 是Ostris团队推出的开源文本到图像扩散模型,其80亿参数架构专为多控制输入场景优化。不同于传统模型仅依赖文本提示,它创新性地整合了线条引导、姿态控制等多维度信号,形成更精准的生成逻辑。

该模型采用16通道潜在空间设计,可同时处理噪声输入、修复掩码等复杂数据流。目前支持通过ComfyUI或Diffusers库快速部署,特别适合需要精确控制生成结果的专业创作场景。

Flex.2-preview 的主要功能

  • 长文本图像生成:支持512token超长描述输入,准确还原复杂场景中的细节元素
  • 智能图像修复:通过掩码标记修改区域,实现局部重绘而不影响整体构图
  • 多类型控制引导:兼容线条图、深度图、姿态图等多种控制信号输入
  • 轻量级微调适配:基于LoRA技术快速适配特定画风,微调成本降低70%

Flex.2-preview 的技术原理

  • 分层去噪架构:采用渐进式去噪策略,在16通道潜在空间实现高保真生成
  • 控制信号融合:通过跨注意力机制将线条/姿态等控制信号与文本嵌入向量对齐
  • 动态掩码处理:修复阶段自动识别掩码边界,实现无缝区域替换
  • 推理加速引擎:集成Guidance Embedder技术,生成速度提升40%

资源


❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发感兴趣,我会每日分享大模型与 AI 领域的开源项目和应用,提供运行实例和实用教程,帮助你快速上手AI技术!

🥦 AI 在线答疑 -> 智能检索历史文章和开源项目 -> 丰富的 AI 工具库 -> 每日更新 -> 尽在微信公众号 -> 搜一搜:蚝油菜花 🥦