一文教会你,搭建AI模型训练与微调环境指南

332 阅读3分钟

一、硬件要求

  • 显卡配置‌:需要Nvidia显卡,至少配备8G显存,且专用显存与共享显存之和需大于20G。

二、环境搭建步骤

1. 设置文件存储路径

  • 非系统盘存储‌:建议将非安装版的环境文件均存放在非系统盘(如E盘)中,以便于重装或移植。
  • 自定义Path文件夹‌:在E盘创建mypath文件夹,并将其添加到用户环境变量Path中。

2. 下载并安装必要软件

  • CMake‌:下载CMake的Windows x64 ZIP文件,解压至E:\environment\cmake,并将bin目录添加到Path中。
  • Visual Studio‌:下载并安装Community版Visual Studio 2022 IDE,选择桌面C++板块内容进行安装。
  • Anaconda‌:下载新版Anaconda安装程序,安装时勾选将Anaconda添加到环境变量等选项。
  • Git‌:从官方渠道下载安装Git。
  • CUDA Toolkit‌:安装CUDA Toolkit 12.1版本,安装过程中仅选择CUDA驱动和工具包。

3. Python环境配置

  • 使用uv管理Python包‌:将uv所有文件安装至E:\uv下,并添加Python 3.11独立文件。
  • 创建虚拟环境‌:在LLaMA-Factory目录下,使用uv venv -p 3.11命令创建Python虚拟环境。
  • 安装依赖‌:使用uv pip install -e ".[torch,metrics]"命令安装LLaMA-Factory的依赖项。

4. 安装训练加速与量化工具

  • flash-attention‌:下载并安装flash-attention训练加速库。
  • hqq‌:安装hqq用于量化。

5. 安装PyTorch

  • 根据CUDA版本安装适配的PyTorch版本。使用全局代理加速时,可直接通过pip安装;无全局代理时,需先下载对应的wheel文件再安装。

6. 配置数据集与参数

  • 数据集准备‌:将自定义数据集命名为alpaca_dataset.json,并放置在LLaMA-Factory\data目录下。
  • 参数配置‌:在LLaMA-Factory\data\dataset_info.json文件中添加自定义数据集配置,并将.yaml参数配置文件放入LLaMA-Factory\config目录下。

7. 设置环境变量与启动Web界面

  • 环境变量设置‌:在E:\mypath文件夹内新建llamafactory-cli.bat文件,并配置相关环境变量与启动命令。
  • 启动Web界面‌:通过命令行输入llamafactory-cli webui启动LLaMA-Factory的Web界面。

三、模型微调与部署

1. 下载基础模型

  • 从模型库下载所需的基础模型(如Qwen2.5-7B-Instruct),并解压至E:\AI\models目录中。

2. 在Web界面中进行模型微调

  • 配置参数‌:在Web界面中,选择相应的配置路径、载入训练参数,并填写本地模型路径。
  • 设置训练选项‌:配置量化等级、量化方法、加速方式、数据集、训练轮数、最大样本数等参数。
  • 开始训练‌:点击“开始”按钮进行模型微调,训练结束后查看损失图以评估训练效果。

3. 部署微调后的模型

  • 安装Ollama‌:下载并安装Ollama,并重启电脑。
  • 拉取模型‌:使用Ollama拉取基础模型。
  • 格式转换‌:使用llama.cpp中的工具将微调后的模型检查点转换为gguf格式。
  • 创建新模型‌:在Ollama中创建新模型,并配置相关参数与gguf文件路径。

至此,微调后的模型已成功部署,并可通过Ollama进行调用与使用。