一文教会你，搭建AI模型训练与微调环境指南

大模型大飞

2025-05-23 332 阅读3分钟

一、硬件要求

‌显卡配置‌：需要Nvidia显卡，至少配备8G显存，且专用显存与共享显存之和需大于20G。

二、环境搭建步骤

1. 设置文件存储路径

‌非系统盘存储‌：建议将非安装版的环境文件均存放在非系统盘（如E盘）中，以便于重装或移植。
‌自定义Path文件夹‌：在E盘创建mypath文件夹，并将其添加到用户环境变量Path中。

2. 下载并安装必要软件

‌CMake‌：下载CMake的Windows x64 ZIP文件，解压至E:\environment\cmake，并将bin目录添加到Path中。
‌Visual Studio‌：下载并安装Community版Visual Studio 2022 IDE，选择桌面C++板块内容进行安装。
‌Anaconda‌：下载新版Anaconda安装程序，安装时勾选将Anaconda添加到环境变量等选项。
‌Git‌：从官方渠道下载安装Git。
‌CUDA Toolkit‌：安装CUDA Toolkit 12.1版本，安装过程中仅选择CUDA驱动和工具包。

3. Python环境配置

‌使用uv管理Python包‌：将uv所有文件安装至E:\uv下，并添加Python 3.11独立文件。
‌创建虚拟环境‌：在LLaMA-Factory目录下，使用uv venv -p 3.11命令创建Python虚拟环境。
‌安装依赖‌：使用uv pip install -e ".[torch,metrics]"命令安装LLaMA-Factory的依赖项。

4. 安装训练加速与量化工具

‌flash-attention‌：下载并安装flash-attention训练加速库。
‌hqq‌：安装hqq用于量化。

5. 安装PyTorch

根据CUDA版本安装适配的PyTorch版本。使用全局代理加速时，可直接通过pip安装；无全局代理时，需先下载对应的wheel文件再安装。

6. 配置数据集与参数

‌数据集准备‌：将自定义数据集命名为alpaca_dataset.json，并放置在LLaMA-Factory\data目录下。
‌参数配置‌：在LLaMA-Factory\data\dataset_info.json文件中添加自定义数据集配置，并将.yaml参数配置文件放入LLaMA-Factory\config目录下。

7. 设置环境变量与启动Web界面

‌环境变量设置‌：在E:\mypath文件夹内新建llamafactory-cli.bat文件，并配置相关环境变量与启动命令。
‌启动Web界面‌：通过命令行输入llamafactory-cli webui启动LLaMA-Factory的Web界面。

三、模型微调与部署

1. 下载基础模型

从模型库下载所需的基础模型（如Qwen2.5-7B-Instruct），并解压至E:\AI\models目录中。

2. 在Web界面中进行模型微调

‌配置参数‌：在Web界面中，选择相应的配置路径、载入训练参数，并填写本地模型路径。
‌设置训练选项‌：配置量化等级、量化方法、加速方式、数据集、训练轮数、最大样本数等参数。
‌开始训练‌：点击“开始”按钮进行模型微调，训练结束后查看损失图以评估训练效果。

3. 部署微调后的模型

‌安装Ollama‌：下载并安装Ollama，并重启电脑。
‌拉取模型‌：使用Ollama拉取基础模型。
‌格式转换‌：使用llama.cpp中的工具将微调后的模型检查点转换为gguf格式。
‌创建新模型‌：在Ollama中创建新模型，并配置相关参数与gguf文件路径。

至此，微调后的模型已成功部署，并可通过Ollama进行调用与使用。