十多年来,各组织正在将机器学习用于各种用例,如预测、协助决策过程等等。
由于对高计算资源的需求,以及在许多情况下昂贵的硬件要求,公共云成为运行机器学习或深度学习过程的更好方式之一。
术语
在我们深入探讨本帖的主题之前,让我们从一些术语开始:
- 人工智能- "计算机程序或机器的思考和学习能力",维基百科
- 机器学习--"在不明确教导计算机如何行为的情况下使其更加智能的任务",Bill Brock,Very公司的工程副总裁
- 深度学习--"机器学习的一个分支,使用具有许多层的神经网络。深度神经网络用学习到的表征来分析数据,就像一个人看问题的方式一样",Bill Brock,Very公司的工程副总裁。
深度学习的公共使用案例
在这篇博文中,我将重点介绍深度学习和云中可用于实现深度学习的硬件。
深度学习的工作流程
深度学习过程是由以下步骤组成的:
- 准备--将数据存储在一个存储库中(如对象存储或数据库)
- 建立--选择一个机器学习框架(如TensorFlow、PyTorch、Apache MXNet等)。
- 训练--选择硬件(计算、网络、存储)来训练你所建立的模型(从数据中 "学习 "并优化模型)。
- 推理--使用训练好的模型(大规模)来进行预测
深度学习处理器比较(训练阶段)
下面是公共云中各种处理器的比较表,专门用于深度学习训练阶段:
其他参考资料
- 亚马逊EC2 - 加速计算
- 由高迪加速器支持的AWS EC2实例用于训练深度学习模型
- AWS Trainium
- NVIDIA T4 Tensor Core GPU
- 英伟达A10张量核心GPU
- 英伟达A100张量核心GPU
深度学习处理器比较(推理阶段)
下面是公共云中各种处理器的比较表,专门用于深度学习推理阶段:
其他参考资料
摘要
在这篇博文中,我分享了关于使用公有云中的硬件来运行深度学习过程的各种选择。
,我建议你继续阅读并扩展你对机器学习和深度学习的知识,云中有哪些服务,有哪些用例可以实现深度学习的结果。
其他参考资料
关于作者
Eyal Estrin是一名云计算和信息安全架构师,是博客Security & Cloud 24/7的拥有者,也是《云安全手册》一书的作者,在IT行业拥有超过20年的从业经验。
Eyal自2020年起成为AWS社区建设者。