这是我参与2022首次更文挑战的第26天,活动详情查看:2022首次更文挑战
- 依赖(Dependency):记录在 Stage 的
deps部分(在dvc.yaml中)或.dvc文件中的文件或目录(可能由DVC跟踪)。请参阅dvc run。当任何依赖项发生变化时,Stage 就会失效(被认为已过时)。 - DVC 缓存:DVC 缓存是 DVC 跟踪的文件和目录及其不同版本的隐藏存储(默认在
.dvc/cache中)。 - DVC 文件:
dvc.yaml、dvc.lock或.dvc文件。 DVC 命令在工作空间中创建这些以编码流水线和跟踪数据以进行版本控制。请参阅dvc repro、dvc add。 - DVC 项目:通过在工作区(通常是 Git 存储库)中运行
dvc init进行初始化。它将包含.dvc/目录,以及使用dvc add或dvc run等命令创建dvc.yaml和.dvc文件。 - 实验:在数据流水线或 ML 模型开发期间尝试达到期望(更好/有趣)的结果。 DVC 旨在帮助管理实验,它具有内置的机制,如:运行缓存 和
dvc exp命令(在 DVC 2.0 及更高版本上可用)等。 - 外部依赖:一个 Stage 依赖(dvc.yaml 或 Import Stage 时
.dvc文件中的deps字段),其来源来自外部源,例如:HTTP、SSH、Amazon S3、Google Cloud Storage远程位置,甚至其他 DVC 存储库。请参阅外部依赖。 - 文件链接:一种让文件出现在多个不同文件夹中而不占用存储磁盘上更多物理空间的方法。这种方式既快速又经济。有关文件链接的更多信息,请参阅大型数据集优化和
dvc config cache。 - Import Stage:使用
dvc import或dvc import-url创建的.dvc文件,表示来自外部源的文件或目录。它具有外部依赖(数据源)、隐式下载命令以及作为输出的导入数据本身。 - 输出:由 DVC 跟踪的文件或目录,记录在 Stage (在
dvc.yaml中)或.dvc文件的outs部分。输出通常是 Stage 的结果。请参阅dvc add,dvc run,dvc import等。 - 参数依赖:流水线 Stage (在
dvc.yaml中定义)可以依赖于任意 YAML、JSON、TOML 或 Python 文件(默认为params.yaml)中的特定值。当任何参数值发生变化时,Stage 就无效了(被认为是过时的)。请参阅dvc params。 - 流水线(DAG):一组相互依赖的 Stage 。这也称为依赖图。
- 运行缓存:项目中已运行的 Stage 的日志。它由
dvc.lock文件备份组成,被标识为相互对应的依赖项、命令和输出的组合。dvc repro和dvc run迁移并重新利用运行缓存。有关更多详细信息,请参阅运行缓存。 - Stage :一个 Stage 代表单个数据处理步骤,包括它们的输入和结果输出,可以组合起来构建详细的机器学习流水线。
- 工作空间:包含 DVC 项目所有文件的目录,例如:原始数据、源代码、ML 模型。在工作空间中每次可以看到一个项目版本。