快速入门DVC(二):安装及ML项目初始化

2,708 阅读2分钟

这是我参与2022首次更文挑战的第7天,活动详情查看:2022首次更文挑战

在上一篇文章快速入门DVC(一):简介中概述了 DVC ,DVC(数据版本控制)是一种数据和机器学习实验管理工具,它有效利用了您已经非常熟悉的现有工程工具集(如Git、CI/CD 等)。

安装

使用pip安装

我们强烈建议您创建一个虚拟环境,或者使用pipx(在 Python 3.7+ 上)来封装您的本地环境。

pip install dvc

您可以根据您使用的远程存储类型,选择性的安装可选依赖项:[s3][azure][gdrive][gs][oss][ssh]。 使用 [all] 将它们所有包含在内一起安装。

例如,支持 Amazon S3 存储:

pip install "dvc[s3]"

在这种情况下,它会同时安装 DVCboto3 库。

使用conda安装

安装 DVC 之前,需要提前安装 MinicondaAnaconda 发行版。

conda install -c conda-forge mamba # installs much faster than conda
mamba install -c conda-forge dvc

您可以根据您使用的远程存储类型,选择性的安装可选依赖项:dvc-s3dvc-azuredvc-gdrivedvc-gsdvc-ossdvc-ssh

例如,支持 Amazon S3 存储:

conda install -c conda-forge mamba
mamba install -c conda-forge dvc-s3

在这种情况下,它会同时安装 DVCboto3 库。

使用berw安装(MacOS)

安装 DVC 之前,需要确保已经安装了 Homebrew

brew install dvc

使用apt安装(Debian/Ubuntu)

sudo wget \
       https://dvc.org/deb/dvc.list \
       -O /etc/apt/sources.list.d/dvc.list
wget -qO - https://dvc.org/deb/iterative.asc | sudo apt-key add -
sudo apt update
sudo apt install dvc

使用yum安装(Fedora/CentOS)

sudo wget \
       https://dvc.org/rpm/dvc.repo \
       -O /etc/yum.repos.d/dvc.repo
sudo rpm --import https://dvc.org/rpm/iterative.asc
sudo yum update
sudo yum install dvc

使用snap安装(Linux)

安装 DVC 之前,需要确保已经安装了snapd

snap install --classic dvc

查看帮助文档

$ dvc -h  

注意:

  1. 如果要将 DVC 用作 Python 库,请使用 pipconda 安装。

  2. 当使用 Homebrewdebrpm 存储库 、 snap 安装 DVC 时,会自动启用 Shell 补全。

项目初始化

安装完DVC之后, 通过在 Git 项目中运行 dvc init 来初始化它。

准备工作:

$ mkdir example-get-started

$ cd example-get-started

$ git init

初始化DVC:

$ dvc init

初始化DVC之后,创建了一些应该添加到 Git 仓库的内部文件。

$ git status

Changes to be committed:
        new file:   .dvc/.gitignore
        new file:   .dvc/config
        ...


$ git commit -m "Initialize DVC"

ok,现在你已经准备好DVC了。 DVC的特性可以分为几个功能组件(数据和模型版本控制访问与下载数据和模型数据流水线指标跟踪、更新训练参数以及可视化模型表现机器学习实验管理),后面我将在博文中一一探讨。