AI算法又整新活,去白宫跳一支舞!

·  阅读 65

大家好,我是K同学啊!

昨天逛某知名网站的时候,发现了一个有趣的算法,分享给大家

一张任意背景的图片,实现任意切换背景,感受一下:

图片

或许这个,感受更强烈:

图片

MODNet

MODNet是一个仅需RGB图片输入的实时人像抠图模型。

模型学习分为三个部分:语义估计、细节预测和语义细节融合。

图片

语义估计(Semantic Estimation):与现有的多模型方法类似,MODNet的第一步是在输入图像中定位人。不同之处在于,这里只能通过编码器来提取高级语义。MODNet的低分辨率分支,它有两个主要优势。首先,语义估计变得更加有效,因为它不再由包含解码器的单独模型来完成。其次,高级表示(I)有助于后续分支和联合优化。我们可以应用任意的CNN骨干toS。为了促进实时交互,我们采用了MobileNetV2[35]架构,这是一种为移动设备开发的独立模型。

细节预测(Detail Prediction):使用了高分辨率分支 D 处理前景肖像周围的过渡区域,它采用 I、S(I) 和来自 Sas 输入的低级特征。重用低级特征的目的是减少D的计算开销。此外,作者在以下三个方面进行就进一步简化:

  • D包含比S更少的卷积层;

  • 为D中的卷积层选择了一个小的通道数;

  • 我们不保持整个D的原始输入分辨率。在实践中,D由12个卷积层组成,其最大通道数为64。特征图分辨率在第一层下采样到1/4,在后两层恢复。此设置对细节预测的影响可以忽略不计。

都想要的

如果你懒得去看论文也不想敲代码,请看下面,作者早已洞悉大家的急迫上手的心情,代码直接给我们准备好了,只需点一个「运行」按钮即可。


最后再送大家一本,帮助大家拿到 BAT 等一线大厂 offer 的数据结构刷题笔记,是谷歌和阿里的大佬写的,对于算法薄弱或者需要提高的同学都十分受用(提取码:9go2 ):

pan.baidu.com/s/1Ng0CIXc\…

以及我整理的7K+本开源电子书,总有一本可以帮到你 💖(提取码:4eg0)

pan.baidu.com/s/1Uaw7Pd-Y…

分类:
人工智能
标签: