过去一年AI的发展
OpenAI 2025年年度报告
谷歌某神人元旦3天写了一年代码
两个小问题
-
80B模型代表多大的参数量?
-
怎么计算的?
答案:
- 80B模型中的B: 是 “Billion”(十亿)的缩写。1B = 10亿。
80B: 也就是 80 × 10亿 = 800亿个参数,参数:神经元之间连接的权重(Weights)和偏置
以半精度(FP16/BF16)存储时,每个参数占用 2 字节,80B 模型仅权重文件就需要约 160 GB 的显存。如果需要保证20并发量,需要4XA100, 我们的服务器使用了8xl20,大约占用了240GB。成本在30万左右。
- 简单的transformer架构说明
transformer架构简单介绍
学习网站
简单的推理演示
为什么GPU比CPU快
CPU配备了几个核,每个核心的计算能力都比较强,可以处理复杂的程序; (项目经理)
GPU配备了大量的小核心,每个核心只能处理比较简单的任务,非常适合机器学习中的矩阵运算; (IT民工)
推荐
- 《数学之美》作者吴军,nbkls, 我的AI启蒙书籍
- 企业级人工智能应用(OpenAI年度报告):randomarea.com/the-state-o…
- transformer首篇《Attention is All You Need》: arxiv.org/pdf/1706.03… ,经典中的经典,AIGC的起源
- transformer简易版讲解(知乎): zhuanlan.zhihu.com/p/338817680
- 机器学习的网站: zh.d2l.ai/chapter_pre… 中文版,相比较原版有点缺失,但是影响不大
- 实战网站kaggle:www.kaggle.com/, 可以在上面训练模型,很多有奖竞赛,奖金可观
- 编辑工具,jupyter notebook:jupyter.org/
- 全球最大的AI开源网站(抱抱脸):huggingface.co/,丰富的模型和数据集
- 中国最大的开源网站(魔塔):modelscope.cn/home 阿里达摩院联手中国计算机学会
- 示例代码
暂时无法在飞书文档外展示此内容
- Lena原图博客(博客内有链接):www.cnblogs.com/wxl84523580… 请带着欣赏艺术的眼光去看,不要心存邪念