FreeScale：无需微调即可提升模型的图像生成能力，生成 8K 分辨率的高质量图像

2024-12-16 156 阅读4分钟

❤️ 如果你也关注 AI 的发展现状，且对 AI 应用开发非常感兴趣，我会每日跟你分享最新的 AI 资讯和开源应用，也会不定期分享自己的想法和开源实例，欢迎关注我哦！

🥦 微信公众号｜搜一搜：蚝油菜花 🥦

🚀 快速阅读

无需微调：FreeScale不需要对预训练模型进行额外的调整或训练，即可实现高分辨率输出。
高分辨率生成：FreeScale能生成高达8K分辨率的高质量图像和视频，扩展了视觉扩散模型在高分辨率生成方面的能力。
多尺度信息融合：通过结合不同感受野尺度的信息，FreeScale优化了局部和全局细节的生成，提升了视觉内容的整体质量。

正文（附运行示例）

FreeScale 是什么

公众号: 蚝油菜花 - FreeScale

FreeScale是由南洋理工大学、阿里巴巴集团和复旦大学联合推出的无需微调的推理框架，旨在提升预训练扩散模型生成高分辨率图像和视频的能力。该框架通过处理和融合不同尺度的信息，有效解决了模型在生成超训练分辨率内容时出现的高频信息增加导致的重复模式问题。

FreeScale首次实现了8K分辨率图像的生成，不仅提高了生成内容的质量与保真度，还减少了推理时间，显著超越了现有方法。

FreeScale 的主要功能

高分辨率视觉生成：FreeScale能生成高达8K分辨率的高质量图像和视频，扩展了视觉扩散模型在高分辨率生成方面的能力。
无需微调：与传统需要微调的方法不同，FreeScale不要求对预训练模型进行额外的调整或训练，即可实现高分辨率输出。
处理高频信息：FreeScale通过提取和融合不同尺度的信息，有效管理高频信息，减少生成内容中的重复模式和伪影。
多尺度信息融合：基于结合不同感受野尺度的信息，FreeScale优化了局部和全局细节的生成，提升了视觉内容的整体质量。
灵活控制细节级别：用户能根据需要调整不同区域的细节级别，实现更精细的视觉效果控制。

FreeScale 的技术原理

定制自级联上采样：从纯高斯噪声开始，逐步去噪，用训练分辨率生成图像，基于上采样获得更高分辨率的图像。
受约束的膨胀卷积：为扩大卷积的感受野并减少局部重复问题，FreeScale在特定的网络层中使用膨胀卷积。
尺度融合：在去噪过程中，调整自注意力层，使其同时具有全局和局部注意力结构，基于高斯模糊融合自全局注意力的高频细节和来自局部注意力的低频语义。
频率成分提取与融合：基于提取所需的频率成分并进行融合，优化高分辨率生成质量，减少高频信息引发的重复模式问题。
细节级别控制：调整生成细节的级别，基于缩放余弦衰减因子控制新生成细节的级别，实现对不同语义区域的细节进行差异化处理。

如何运行 FreeScale

1. 高分辨率文本到图像生成

从Hugging Face下载预训练的SDXL检查点。
修改run_freescale.py文件，并在终端中输入以下命令：

python run_freescale.py

# resolutions_list: 每个阶段自级联上采样的分辨率。
# cosine_scale: 细节比例，通常为1.0 ~ 2.0。对于8K图像生成，建议cosine_scale <= 1.0。

2. 灵活控制细节级别

下载预训练的SDXL检查点。
修改run_sdxl.py文件，生成原始分辨率的基准图像：

python run_sdxl.py

将生成的图像放入imgen_intermediates文件夹。
（可选）使用其他分割模型（如Segment Anything）生成掩码，并将其放入imgen_intermediates文件夹。
修改run_freescale_imgen.py文件，生成最终的高分辨率图像：

python run_freescale_imgen.py

# resolutions_list: 每个阶段自级联上采样的分辨率。
# cosine_scale: 前景细节比例，通常为2.0 ~ 3.0。
# cosine_scale_bg: 背景细节比例，通常为0.5 ~ 1.0。

资源

项目官网：haonanqiu.com/projects/Fr…
GitHub 仓库：github.com/ali-vilab/F…
arXiv 技术论文：arxiv.org/pdf/2412.09…

❤️ 如果你也关注 AI 的发展现状，且对 AI 应用开发非常感兴趣，我会每日跟你分享最新的 AI 资讯和开源应用，也会不定期分享自己的想法和开源实例，欢迎关注我哦！

🥦 微信公众号｜搜一搜：蚝油菜花 🥦