模型微调技术架构 minerU+easydataset+llamafactory conda环境 conda配置cuda

技术架构

modelscope+minerU+easydataset+llamafactory

conda环境

conda create --name LLaMA-Factory python=3.11.9

conda配置cuda

进入conda环境

conda activate vdisco

先用conda search cudatoolkit --info 命令查看源内所有的cuda 版本，以及下载地址

conda search cudatoolkit --info

复制下来11.8的地址

https://repo.anaconda.com/pkgs/main/linux-64/cudatoolkit-11.8.0-h6a678d5_0.conda

复制url字段里的下载链接，然后用命令cd到想要下载的目录，执行如下代码下载

wget [你刚刚复制的链接地址]
sudo wget https://repo.anaconda.com/pkgs/main/linux-64/cudatoolkit-11.8.0-h6a678d5_0.conda

安装：执行如下命令进行安装，因为是通过本地安装的，所以需要写明本地包的路径在特定虚拟环境下安装

conda install --use-local [本地cuda包所在的路径]

conda和cuda结合

https://blog.csdn.net/tyyhmtyyhm/article/details/136863438

安装pytorch

**5070ti工艺只能用cuda12.8 匹配上的torch

pip3 install torch torchvision torchaudio--index-url https://download.pytorch.org/whl/cu128

//pip3 install torch==2.7.0 torchvision torchaudio --index-url download.pytorch.org/whl/cu128

# 查看pytorch版本
print(torch.__version__)

import torch
# 查看pytorch版本
print(torch.__version__)
# cuda是否可用
print(torch.cuda.is_available())
# cuda版本
print(torch.version.cuda)

做modelscope下载模型

pip install modelscope

安装模型

去魔塔社区下载模型

modelscope download --model Qwen/Qwen2.5-0.5B-Instruct

在干净的conda环境里面

pip install -e .[metrics]

装好后去 /usr/local/LLaMA-Factory/LLaMA-Factory

llamafactory-cli version 出现版本就是成功

进入使用

llamafactory-cli webui

训练文件都在里面

根据后面的easydatas找到路径 /usr/local/docker/easy-dataset/BvxquBpXpeD8

EasyDataSet

Docker容器安装: 克隆代码库 #安装目录 /usr/local/docker/easy-dataset

git clone github.com/ConardLi/ea… cd easy-dataset

构建 Docker 映像 docker build -t easy-dataset .

运行容器 docker run -d -p 1717:1717 -v {YOUR_LOCAL_DB_PATH}:/app/local-db --name easy-dataset easy-dataset 注意：需要修改YOUR_LOCAL_DB_PATH为你自己的数据存储路径。 /usr/local/docker/easy-dataset

docker run -d -p 1717:1717 -v /usr/local/docker/easy-dataset:/app/local-db --name easy-dataset easy-dataset

打开浏览器并导航至 http://localhost:1717 http://172.19.137.53:1717

上传文献，系统会自动分割代码块第四步，先批量生成问题再点击自动提取问题，从没处理出问题的文本中中分出问题点击后可在任务管理中心可以看到处理进度第五步，点击问题管理，全选问题-批量构造数据集再自动生成数据集:自动查询没生成答案的问题，并且生成答案答案生成完成后，就可以在数据集管理界面查看生成的数据集了全选导出

源码安装 MinerU

git clone github.com/opendatalab… cd MinerU uv pip install -e .[core] -i mirrors.aliyun.com/pypi/simple

Linux和macOS系统安装后自动支持cuda/mps加速，Windows用户如需使用cuda加速，请前往 Pytorch官网选择合适的cuda版本安装pytorch。

使用MinerU

命令行使用方式

基础用法

最简单的命令行调用方式如下：

mineru -p <input_path> -o <output_path>

<input_path>：本地 PDF/图片文件或目录（支持 pdf/png/jpg/jpeg/webp/gif） <output_path>：输出目录