周会分享-我的AI小经验(记录贴)

50 阅读2分钟

过去一年AI的发展

OpenAI 2025年年度报告

谷歌某神人元旦3天写了一年代码

两个小问题

  1. 80B模型代表多大的参数量?

  2. 怎么计算的?

答案:

  1. 80B模型中的B: 是 “Billion”(十亿)的缩写。1B = 10亿。

80B: 也就是 80 × 10亿 = 800亿个参数,参数:神经元之间连接的权重(Weights)和偏置

以半精度(FP16/BF16)存储时,每个参数占用 2 字节,80B 模型仅权重文件就需要约 160 GB 的显存。如果需要保证20并发量,需要4XA100, 我们的服务器使用了8xl20,大约占用了240GB。成本在30万左右。

  1. 简单的transformer架构说明

transformer架构简单介绍

学习网站

简单的推理演示

为什么GPU比CPU快

CPU配备了几个核,每个核心的计算能力都比较强,可以处理复杂的程序; (项目经理)

GPU配备了大量的小核心,每个核心只能处理比较简单的任务,非常适合机器学习中的矩阵运算; (IT民工)

推荐

暂时无法在飞书文档外展示此内容