周会分享-我的AI小经验（记录贴）

2026-01-15 118 阅读2分钟

过去一年AI的发展

OpenAI 2025年年度报告

谷歌某神人元旦3天写了一年代码

两个小问题

80B模型代表多大的参数量？
怎么计算的？

答案：

80B模型中的B：是 “Billion”（十亿）的缩写。1B = 10亿。

80B：也就是 80 × 10亿 = 800亿个参数，参数：神经元之间连接的权重（Weights）和偏置

以半精度（FP16/BF16）存储时，每个参数占用 2 字节，80B 模型仅权重文件就需要约 160 GB 的显存。如果需要保证20并发量，需要4XA100, 我们的服务器使用了8xl20，大约占用了240GB。成本在30万左右。

简单的transformer架构说明

transformer架构简单介绍

学习网站

简单的推理演示

为什么GPU比CPU快

CPU配备了几个核，每个核心的计算能力都比较强，可以处理复杂的程序；（项目经理）

GPU配备了大量的小核心，每个核心只能处理比较简单的任务，非常适合机器学习中的矩阵运算；（IT民工）

推荐

《数学之美》作者吴军，nbkls，我的AI启蒙书籍
企业级人工智能应用（OpenAI年度报告）：randomarea.com/the-state-o…
transformer首篇《Attention is All You Need》： arxiv.org/pdf/1706.03… ，经典中的经典，AIGC的起源
transformer简易版讲解（知乎）： zhuanlan.zhihu.com/p/338817680
机器学习的网站： zh.d2l.ai/chapter_pre… 中文版，相比较原版有点缺失，但是影响不大
实战网站kaggle：www.kaggle.com/，可以在上面训练模型，很多有奖竞赛，奖金可观
编辑工具，jupyter notebook：jupyter.org/
全球最大的AI开源网站（抱抱脸）：huggingface.co/，丰富的模型和数据集
中国最大的开源网站（魔塔）：modelscope.cn/home 阿里达摩院联手中国计算机学会
示例代码

暂时无法在飞书文档外展示此内容

Lena原图博客（博客内有链接）：www.cnblogs.com/wxl84523580… 请带着欣赏艺术的眼光去看，不要心存邪念