技术架构
modelscope+minerU+easydataset+llamafactory
conda环境
conda create --name LLaMA-Factory python=3.11.9
conda配置cuda
进入conda环境
conda activate vdisco
先用conda search cudatoolkit --info 命令查看源内所有的cuda 版本,以及下载地址
conda search cudatoolkit --info
复制下来11.8的地址
https://repo.anaconda.com/pkgs/main/linux-64/cudatoolkit-11.8.0-h6a678d5_0.conda
复制url字段里的下载链接,然后用命令cd到想要下载的目录,执行如下代码下载
wget [你刚刚复制的链接地址]
sudo wget https://repo.anaconda.com/pkgs/main/linux-64/cudatoolkit-11.8.0-h6a678d5_0.conda
安装:执行如下命令进行安装,因为是通过本地安装的,所以需要写明本地包的路径 在特定虚拟环境下安装
conda install --use-local [本地cuda包所在的路径]
conda和cuda结合
https://blog.csdn.net/tyyhmtyyhm/article/details/136863438
安装pytorch
**5070ti工艺只能用cuda12.8 匹配上的torch
pip3 install torch torchvision torchaudio--index-url https://download.pytorch.org/whl/cu128
//pip3 install torch==2.7.0 torchvision torchaudio --index-url download.pytorch.org/whl/cu128
# 查看pytorch版本
print(torch.__version__)
import torch
# 查看pytorch版本
print(torch.__version__)
# cuda是否可用
print(torch.cuda.is_available())
# cuda版本
print(torch.version.cuda)
做modelscope下载模型
pip install modelscope
安装模型
去魔塔社区下载模型
modelscope download --model Qwen/Qwen2.5-0.5B-Instruct
在干净的conda环境里面
pip install -e .[metrics]
装好后去 /usr/local/LLaMA-Factory/LLaMA-Factory
llamafactory-cli version 出现版本就是成功
进入使用
llamafactory-cli webui
训练文件都在里面
根据后面的easydatas找到路径 /usr/local/docker/easy-dataset/BvxquBpXpeD8
EasyDataSet
Docker容器安装: 克隆代码库 #安装目录 /usr/local/docker/easy-dataset
git clone github.com/ConardLi/ea… cd easy-dataset
构建 Docker 映像 docker build -t easy-dataset .
运行容器 docker run -d -p 1717:1717 -v {YOUR_LOCAL_DB_PATH}:/app/local-db --name easy-dataset easy-dataset 注意:需要修改YOUR_LOCAL_DB_PATH为你自己的数据存储路径。 /usr/local/docker/easy-dataset
docker run -d -p 1717:1717 -v /usr/local/docker/easy-dataset:/app/local-db --name easy-dataset easy-dataset
打开浏览器并导航至 http://localhost:1717 http://172.19.137.53:1717
上传文献,系统会自动分割代码块 第四步,先批量生成问题 再点击自动提取问题,从没处理出问题的文本中中分出问题 点击后可在任务管理中心可以看到处理进度 第五步,点击问题管理,全选问题-批量构造数据集 再自动生成数据集:自动查询没生成答案的问题,并且生成答案 答案生成完成后,就可以在 数据集管理 界面查看生成的数据集了 全选 导出
源码安装 MinerU
git clone github.com/opendatalab… cd MinerU uv pip install -e .[core] -i mirrors.aliyun.com/pypi/simple
Linux和macOS系统安装后自动支持cuda/mps加速,Windows用户如需使用cuda加速, 请前往 Pytorch官网 选择合适的cuda版本安装pytorch。
使用MinerU
命令行使用方式
基础用法
最简单的命令行调用方式如下:
mineru -p <input_path> -o <output_path>
<input_path>:本地 PDF/图片 文件或目录(支持 pdf/png/jpg/jpeg/webp/gif) <output_path>:输出目录