2020AI炼丹炉选择参考!大力神丹,this is for U !

802 阅读8分钟

点击上方“机器学习与生成对抗网络”,关注"星标"

获取有趣、好玩的前沿干货!

the original:Choosing the Best GPU for Deep Learning in 2020

lambdalabs.com/blog/choosi…

author:Michael Balaban  

translator :bryant8

# 转 载 请 显 眼 处 注 明 出 处 !

表现State-of-the-art (SOTA) 的深度学习模型越来越需要更大的显存开销,现在很多GPU已经开始日渐乏力。本文将展示一些GPU在训练SOTA模型的情况。

截止到2020 年 2 月,以下 GPU 可以训练所有SOTA(顶尖)的语言模型或图像模型:

  • RTX 8000:48GB 显存,约 5500 美元
  • RTX 6000:24GB 显存,约 4000 美元
  • Titan RTX:24GB 显存,约 2500 美元

而下面的 GPU 可训练大多数 (有些不行)SOTA 模型:

  • RTX 2080Ti:11GB 显存,约 1150 美元
  • GTX 1080Ti:11GB 显存,约 800 美元2手
  • RTX 2080:8GB 显存,约 720 美元
  • RTX 2070: 8GB 显存,约 500 美元

注意:大模型在上面这些的GPU 上训练,通常需调小 Batch size,同时这可能导致更低的精确率。

以下 GPU 无法训练SOTA了:

  • RTX 2060: 6GB 显存,约 359 美元

图像模型

1. 显存能支持的最大的批大小

*号表示 GPU 显存不足以运行模型

2. 性能(每秒处理的图像数量)

*号表示 GPU 显存不足以运行模型

语言模型

1. 显存能支持的最大批量大小

2. 性能

以 RTX 8000 为基准(“1”)

结论

1、更大容量的显存对语言模型受益更大。注意语言模型那张图的折线变化轨迹要比图像模型更陡。这表明语言模型受内存的限制更大,而图像模型受算力的限制更大。

2、显存越大往往可以带来更好的模型性能。因为显存越大,batch size 就越大,CUDA 可更加接近满负荷工作。

3、更大的显存可以按比例用更大的 Batch size,比如:24GB 显存的 GPU 相比8GB 显存的 GPU 可以用上 3 倍的 batch。

4、对于长序列,语言模型的内存占用增长不构成比例,因为注意力是序列长度的二次方关系。

建议

1、RTX 2060(6GB):业余炼丹选手。

2、RTX 2070 或 2080(8GB):对炼丹有认真的感情、但较穷的选手,可适用大部分模型啦。

3、RTX 2080Ti(11GB):沉迷炼丹无法自拔者,愿意为之付出到 1200美元左右。注:RTX 2080Ti 在深度学习训练上要比 RTX 2080 快大约 40%。

4、Titan RTX 和 Quadro RTX 6000(24GB):经常研究 SOTA 仙丹选手,但没富到能买 RTX 8000 ,可选这两款。

5、Quadro RTX 8000(48GB):志在炼出大力神丹!丹界新 SOTA,this is for U!

 


公众号近期荐读:

GAN整整6年了!是时候要来捋捋了! 

新手指南综述 | GAN模型太多,不知道选哪儿个?\

数百篇GAN论文已下载好!搭配一份生成对抗网络最新综述!

CVPR2020之MSG-GAN:简单有效的SOTA\

CVPR2020之姿势变换GAN:图像里谁都会劈叉?\

有点夸张、有点扭曲!速览这些GAN如何夸张漫画化人脸!\

见微知细之超分辨率GAN!附70多篇论文下载!\

天降斯雨,于我却无!GAN用于去雨如何?\

脸部转正!GAN能否让侧颜杀手、小猪佩奇真容无处遁形?\

容颜渐失!GAN来预测?\

强数据所难!SSL(半监督学习)结合GAN如何?\

弱水三千,只取你标!AL(主动学习)结合GAN如何?\

异常检测,GAN如何gan ?

虚拟换衣!速览这几篇最新论文咋做的!\

脸部妆容迁移!速览几篇用GAN来做的论文

【1】GAN在医学图像上的生成,今如何?

01-GAN公式简明原理之铁甲小宝篇


GAN&CV 交流群 ,无论小白还是大佬,诚挚邀您加入!\

一起讨论交流!长按备注【进群】加入:

更多分享、长按关注本公众号:\