本文首发于微信公众号 CVHub,不得以任何形式转载到其它平台,仅供学习交流,违者必究!
本文正在参加 人工智能创作者扶持计划
序言
作为一名合格的研发人员,我们需要时刻了解在技术的最新进展方面保持领先地位的重要性,特别是人工智能这种瞬息万变的行业。在这篇文章中,我们将为大家介绍一个强大的 AI 模型,经过训练可以根据提供的图像进行高质量复原。使用此模型,你只需上传要恢复的图像,它就会显着提高图像质量!
话不多说,先上一张效果图:
导读
受光照、监控探头本身的像素、聚焦区域以及人体运动的限制,人脸图像通常会模糊甚至变形。另一方面,盲人脸复原(Blind face restoration
本身就是一个极具挑战性且高度不适定问题(ill-posed problem
)。
这里可能很多读者不了解这个专业词汇,笔者为大家科普下。适定问题(well-posed problem)和不适定问题(ill-posed problem)均是数学领域的术语。前者需满足三个基本条件,若有一个不满足则可称为不适定问题:
条件一: a solution exists,即必须存在解;
条件二:the solution is unique,即解必须唯;
条件三:the solution's behavior changes continuously with the initial conditions,解能根据初始条件连续变化,不会发生跳变,即解必须稳定
因此,这通常需要适当的辅助引导(先验)来完成,主要有两种方式:
- 改进从退化输入到所需输出的映射;
- 补充输入中丢失的高质量细节。
听说马赛克是阻碍人类进步的绊脚石,今天小编将肩负重任为大家介绍的是人脸复原人气之王——CodeFormer,you南洋理工大学S-Lab实验室发表在 NeurIPS 2022
的一篇著作。这是一种基于 Transformer
的预测网络,能够对低质量人脸的全局组成和上下文进行建模以进行编码预测,即使在输入信息严重缺失的情况下也能复原出与目标人脸非常接近的自然人脸图像。此外,为了增强对不同退化的适应性,本文还提出了一个可控的特征转换模块(controllable feature transformation module
),允许在保真度和质量之间进行灵活的权衡。得益于带有丰富先验的 codebook 和网络整体的全局建模能力,CodeFormer 在质量和保真度方面都始终优于最先进的技术,显示出卓越的退化鲁棒性。最后,对合成和真实世界数据集的广泛实验结果也充分验证了本文方法的有效性。
方法
上图为 CodeFormer 的整体架构图,下面简单介绍下:
首先,学习一个离散的 codebook 和一个解码器,通过自重构学习来存储面部图像的高质量视觉部分。
其次,使用固定好的的 codebook 和解码器,随后引入一个用于编码序列预测的 Transformer 模块,对低质量输入的全局人脸组成进行建模。
最后,可控特征转换模块用于控制从低质量编码器(LQ Encoder)到解码器的信息流。
需要注意的是,此连接是可选的,在适当的情况下我们也可以禁用它以避免在输入严重退化时产生不利影响,并且可以调整标量权重(scalar weight) 以权衡质量和保真度。
效果
Face Restoration
Face Color Enhancement
Face Inpainting
实操教程
目前有几种方式供大家使用。
第一种是直接上 Github 按照 README 文档配置环境,加载模型权重推理,懂的都懂,此处省略。
第二种是通过 Web端直接访问,作者已将该模型打包至抱抱脸平台上,有兴趣的读者可以直接线上使用。
第三种是通过 GUI 可视化界面直接在本地运行,无惧隐私泄露,无须安装配置编译环境,一键运行。
写在最后
如果您也对人工智能和计算机视觉全栈领域感兴趣,强烈推荐您关注有料、有趣、有爱的公众号『CVHub』,每日为大家带来精品原创、多领域、有深度的前沿科技论文解读及工业成熟解决方案!欢迎扫码与我交流,一起探讨更多有趣的话题!
本文正在参加 人工智能创作者扶持计划