模型微调

157 阅读2分钟

技术架构

modelscope+minerU+easydataset+llamafactory

conda环境

conda create --name LLaMA-Factory python=3.11.9

conda配置cuda

进入conda环境

conda activate vdisco

先用conda search cudatoolkit --info 命令查看源内所有的cuda 版本,以及下载地址

conda search cudatoolkit --info

复制下来11.8的地址

https://repo.anaconda.com/pkgs/main/linux-64/cudatoolkit-11.8.0-h6a678d5_0.conda

复制url字段里的下载链接,然后用命令cd到想要下载的目录,执行如下代码下载

wget [你刚刚复制的链接地址]
sudo wget https://repo.anaconda.com/pkgs/main/linux-64/cudatoolkit-11.8.0-h6a678d5_0.conda

安装:执行如下命令进行安装,因为是通过本地安装的,所以需要写明本地包的路径 在特定虚拟环境下安装

conda install --use-local [本地cuda包所在的路径]

conda和cuda结合

https://blog.csdn.net/tyyhmtyyhm/article/details/136863438  

安装pytorch

**5070ti工艺只能用cuda12.8 匹配上的torch

pip3 install torch torchvision torchaudio--index-url https://download.pytorch.org/whl/cu128

//pip3 install torch==2.7.0 torchvision torchaudio --index-url download.pytorch.org/whl/cu128

# 查看pytorch版本
print(torch.__version__)

import torch
# 查看pytorch版本
print(torch.__version__)
# cuda是否可用
print(torch.cuda.is_available())
# cuda版本
print(torch.version.cuda)

做modelscope下载模型

pip install modelscope

安装模型

去魔塔社区下载模型

modelscope download --model Qwen/Qwen2.5-0.5B-Instruct

在干净的conda环境里面

pip install -e .[metrics]

装好后去 /usr/local/LLaMA-Factory/LLaMA-Factory

llamafactory-cli version 出现版本就是成功

进入使用

llamafactory-cli webui

训练文件都在里面

根据后面的easydatas找到路径 /usr/local/docker/easy-dataset/BvxquBpXpeD8

EasyDataSet

Docker容器安装: 克隆代码库 #安装目录 /usr/local/docker/easy-dataset

git clone github.com/ConardLi/ea… cd easy-dataset

构建 Docker 映像 docker build -t easy-dataset .

运行容器 docker run -d -p 1717:1717 -v {YOUR_LOCAL_DB_PATH}:/app/local-db --name easy-dataset easy-dataset 注意:需要修改YOUR_LOCAL_DB_PATH为你自己的数据存储路径。 /usr/local/docker/easy-dataset

docker run -d -p 1717:1717 -v /usr/local/docker/easy-dataset:/app/local-db --name easy-dataset easy-dataset

打开浏览器并导航至 http://localhost:1717 http://172.19.137.53:1717

上传文献,系统会自动分割代码块 第四步,先批量生成问题 再点击自动提取问题,从没处理出问题的文本中中分出问题 点击后可在任务管理中心可以看到处理进度 第五步,点击问题管理,全选问题-批量构造数据集 再自动生成数据集:自动查询没生成答案的问题,并且生成答案 答案生成完成后,就可以在 数据集管理 界面查看生成的数据集了 全选 导出

源码安装 MinerU

git clone github.com/opendatalab… cd MinerU uv pip install -e .[core] -i mirrors.aliyun.com/pypi/simple

Linux和macOS系统安装后自动支持cuda/mps加速,Windows用户如需使用cuda加速, 请前往 Pytorch官网 选择合适的cuda版本安装pytorch。

使用MinerU

命令行使用方式

基础用法

最简单的命令行调用方式如下:

mineru -p <input_path> -o <output_path>

<input_path>:本地 PDF/图片 文件或目录(支持 pdf/png/jpg/jpeg/webp/gif) <output_path>:输出目录