OpenBayes 教程上新丨超分辨率框架Chain-of-Zoom引入VLM生成的多尺度感知文本提示,256倍放大并保持图像高保真度

74 阅读3分钟

在图像增强领域,单幅图像超分辨率(Single-Image Super-Resolution,SISR)一直是热门研究方向。当前主流的 SISR 模型——尤其是基于扩散模型和生成对抗网络的先进方法——已能在 2x、4x 等固定倍数上生成极具视觉真实感的高分辨率图像,广泛应用于图像修复、卫星遥感、医疗影像等场景。

然而,这些模型往往只能在训练时指定的缩放倍数下工作,一旦尝试放大到远超训练尺度(如 16x、32x,甚至更高)时,生成质量便会急剧下降,出现细节模糊、结构失真甚至「幻觉内容」。究其原因,是因为模型缺乏对跨尺度信息的有效建模能力,也没有适应极高倍放大场景中视觉线索稀缺的特性。

针对相关挑战,KAIST AI 研究团队提出了创新的 Chain-of-Zoom(CoZ)框架,通过将超分辨率任务分解为一个自回归的中间尺度状态链,并结合多尺度感知提示,来实现极高倍率的放大。CoZ 在每一个缩放步骤中重复使用同一个基础超分辨率模型,将整体的条件概率问题分解为一系列可处理的子问题,从而在无需额外训练的情况下实现极高分辨率的输出。由于在大幅放大时图像中的视觉线索会迅速减少,研究人员为每一次缩放步骤引入由视觉语言模型(VLM)生成的多尺度感知文本提示来增强指导。

实验证明,将一个标准的 4 倍扩散式超分模型封装进 CoZ 框架后,可以实现超过 256 倍的放大,同时保持极高的图像保真度。小贝使用了一张建筑物的图片进行测试,可以看到通过该模型的放大,建筑物上的一砖一瓦都清晰地显现了出来。

image.png

Demo 运行

01 Demo 运行阶段

1.登录 OpenBayes.com,在「公共教程」页面,选择一键部署「Chain-of-Zoom:超分辨率图像细节放大 Demo」教程。

2.页面跳转后,点击右上角「克隆」,将该教程克隆至自己的容器中。

3.选择「NVIDIA GeForce RTX 4090-2」以及「PyTorch」镜像,OpenBayes 平台提供了 4 种计费方式,大家可以按照需求选择「按量付费」或「包日/周/月」,点击「继续执行」。新用户使用下方邀请链接注册,可获得 4 小时 RTX 4090 + 5 小时 CPU 的免费时长!

小贝总专属邀请链接(直接复制到浏览器打开):

go.openbayes.com/9S6Dr

4.等待分配资源,首次克隆需等待 2 分钟左右的时间。当状态变为「运行中」后,点击「API 地址」旁边的跳转箭头,即可跳转至 Demo 页面。由于模型较大,需等待约 3 分钟显示 WebUI 界面,否则将显示「Bad Gateway」。请注意,用户需在实名认证后才能使用 API 地址访问功能。

02 效果演示

上传一张图片,在「Scale Factor」处选择放大次数,在「Center Point X」和「Center Point Y」处调整中心区域 X、Y 坐标,最后点击「Start Super-Resolution Processing」生成。