程序员转行学习 AI 大模型：踩坑记录：服务器内存不够，程序被killed本文是程序员转行学习AI大模型的踩坑记录分享

本文是程序员转行学习AI大模型的踩坑记录分享。当前阶段：还在学习知识点，由点及面，从 0 到 1 搭建 AI 大模型知识体系中。系列更新，关注我，后续会持续记录分享转行经历～

踩坑问题

我是在阿里云上购买了一个 99 元入门级云服务器 ECS，本来就考虑到内存比较小，所以我选的是小模型，“distilbert/distilgpt2”。但是即使是这个小模型，程序执行的时候，还是 killed，应该是环境内存不够，这台服务器内存是 2g 的。

图1 程序执行报错

图2 服务器配置

为了后续根据环境，选择合适的模型，查看了如何计算训练需要的内存大小。

FP32（32 位浮点数）

模型内存 = 参数量 * 4字节

FP16（16 位浮点数）

模型内存 = 参数量 * 2字节

INT8（8 位整数）

模型内存 = 参数量 * 1字节

可以在代码中，使用 weight.dtype 查看使用的数据类型。INT8 需要 GPU 环境。

不同数据类型对比：

图3 不同数据类型对比

关键要点：

1. FP32 是默认 ：不指定时自动使用
2. FP16 节省 25% ：权重和梯度减半
3. INT8 需要GPU ：CPU上训练不稳定

训练时的内存由以下部分组成

1. 模型权重（Model Weights）

模型权重内存 = 参数量 * 数据类型大小

如 82M 参数，FP32，内存 = 82,000,000 * 4 字节 = 328MB

2. 梯度（Gradients）

梯度内存 = 参数量 * 数据类型大小

说明：

Adam 优化器（最常用）：

一阶动量（m）= 参数量 × 4 字节
二阶动量（v）= 参数量 × 4 字节
优化器总内存 = 2 × 参数量 × 4 字节 = 参数量 × 8 字节

SGD 优化器：

优化器内存 = 0（不需要额外存储）

4. 激活值

激活值内存 = batch_size × seq_len × hidden_dim × 层数 × 数据类型大小

简化估算：

激活值内存 ≈ 模型权重内存 × (0.5 - 2.0)

影响因素：

包括：

PyTorch 开销 ≈ 300-700 MB

训练时总内存：

总内存 = 模型权重 + 梯度 + 优化器状态 + 激活值 + PyTorch 开销

详细公式：

总内存 = 参数量 × 4 字节（FP32 权重）
       + 参数量 × 4 字节（FP32 梯度）
       + 参数量 × 8 字节（Adam 优化器）
       + 激活值内存（100-500 MB）
       + PyTorch 开销（300-700 MB）

简化公式（估算）：

总内存 ≈ 参数量 × 16 字节 + 500-1200 MB

检查服务器内存：

free -h