Git 快速下载指定文件：告别全量克隆，效率提升 90%日常开发中，我们经常需要从 Git 仓库下载文件，但直接用 gi

日常开发中，我们经常需要从 Git 仓库下载文件，但直接用 git clone全量拉取往往会下载大量无关文件（比如二进制、模型、示例代码），耗时又占空间。本文将分享一套 Git 「按需下载」的实用技巧，从基础到进阶，教你精准下载需要的文件，大幅提升下载效率。

1. 底层拆解：git clone 的完整执行流程

以瑞芯微的 rknn-toolkit2 仓库为例，直接执行常规克隆命令：

git clone https://github.com/airockchip/rknn-toolkit2.git

你会发现两个核心问题：

下载内容多：仓库包含大量二进制库、模型文件和示例代码，体积庞大；
下载速度慢：即使是小仓库，历史提交记录也会增加下载量，网络差时尤为明显。

可以将git clone 拆解为两个连续的动作

1. Fetch - 拉取元数据与文件内容

执行git clone后，Git 首先连接远程服务器，将仓库数据拉取到本地.git隐藏文件夹，默认会下载两类内容：

元数据：目录树结构、提交记录、分支 / 标签信息、索引文件（体积小，仅几十 KB~ 几 MB）；
Blob 文件：所有代码、资源、二进制文件的实际内容（体积大，是下载慢的核心）。

2. Checkout - 检出文件到工作目录

Fetch 完成后，Git 会自动执行checkout操作：将.git文件夹中缓存的文件内容，解压、还原到本地工作目录，让我们能直接查看、编辑文件。

核心痛点：默认流程下，Fetch 全量拉取 + Checkout 全量检出，即便手动精简部分内容，Git 也会自动补全剩余文件，最终还是全量下载。

2. Git 下载优化方案

优化方案 1：基础轻量化 - 仅拉取最新代码（无历史记录）

如果不需要仓库历史提交记录，仅需最新版本的完整代码，用--depth=1参数砍掉所有历史：

git clone --depth=1 https://github.com/airockchip/rknn-toolkit2.git

优化效果：

剔除所有历史提交，下载的元数据大幅减少；
仅下载最新版本的文件，下载量减少约 30%~50%；
缺点：仍会下载仓库所有文件，冗余资源（二进制、模型）依旧拖慢速度。

优化方案 2：进阶精准化 - 稀疏检出，仅下载指定文件 / 目录

通过组合参数实现「只拉目录索引，按需下载指定文件」，彻底跳过无关内容，核心用到 3 个关键参数：

--depth=1：仅保留最新提交，剔除历史；
--filter=blob:none：仅拉取目录树索引，不下载任何文件实际内容；
--sparse：开启稀疏检出，禁止 Git 自动全量检出文件。

# 1. 稀疏克隆初始化，仅拉目录索引
git clone --depth=1 --filter=blob:none --sparse https://github.com/airockchip/rknn-toolkit2.git
# 进入仓库目录
cd rknn-toolkit2

# 2. 指定需要下载的目录（复制仓库网页上的路径即可）
git sparse-checkout set rknpu2/runtime/Linux/librknn_api/aarch64
git sparse-checkout set rknpu2/runtime/Linux/librknn_api/include

优化效果：

仅下载指定目录的文件，无关内容完全跳过；
下载体积减少 90% 以上，速度提升 10 倍 +；
适合仅需核心库、头文件、特定工具的场景。

优化方案 3：高阶灵活化 - 手动分步配置（适配复杂场景）

如果需要自定义远程配置、指定分支、跳过 SSL 验证、精细化控制下载范围，可手动拆解clone流程，替代自动克隆，灵活性拉满：

1. 初始化空仓库

创建空目录并初始化Git仓库，此时仓库是空的，没有任何分支

mkdir rknn_custom && cd rknn_custom
git init
git branch

2. 配置远程仓库与按需过滤规则

# 添加远程仓库地址
git remote add origin https://github.com/airockchip/rknn-toolkit2.git
git remote -v
# 开启按需下载模式
git config remote.origin.promisor true
# 设置过滤规则：仅拉目录结构，不拉文件实际内容
git config remote.origin.partialclonefilter blob:none

3. 拉取最新目录索引（无实际文件）

拉取最新的分支信息，此时本地已知晓master分支或者tag上有哪些文件，但由于设置了过滤规则，并不会下载所有的文件，仅拉取了目录结构

# 拉取最新提交索引，按需跳过SSL验证
git -c http.sslVerify=false fetch --depth 1 origin master
git branch

4. 开启稀疏检出

初始化稀疏检出，通过--cone优化层级目录性能。指定一个目录，它会自动包含该目录下的所有文件以及路径上所有的上级目录。

git sparse-checkout init --cone

5. 创建本地分支

fetch到本地origin/master分支只有目录结构，并没有具体的文件，因此checkout也只有目录结构，基本上空的

git checkout -b master origin/master

6. 下载指定的文件或目录

git sparse-checkout set rknpu2/runtime/Linux/librknn_api/aarch64
git sparse-checkout add rknpu2/runtime/Linux/librknn_api/include

Git 知道仓库里有所有文件（fetch获取所有索引），但它只把符合规则的文件写入硬盘。
.git/info/sparse-checkout 里记下你的“白名单”
当更新规则（set 或 add）时，Git 会立刻删掉不符合规则的文件，或从本地缓存中释放符合规则的文件。

核心原理：为什么这些参数能提速？

结合前文的Fetch+Checkout流程，优化参数的核心作用是拆分下载逻辑，阻断全量拉取：

--filter=blob:none：让Fetch只拿「货物清单（目录索引）」，不拿「货物本身（文件内容）」，Fetch 阶段秒完成；
--sparse：修改Checkout行为，告诉 Git只按指定清单取货，不自动补全所有文件；
--depth=1：砍掉历史清单，进一步精简索引体积。

三者配合，实现「只下载需要的文件，其余一概跳过」，从根源解决下载慢、体积大的问题。

Git Clone 慢的本质是默认全量拉取历史记录 + 冗余文件，而非网络单一因素；而git clone的Fetch+Checkout自动流程，是单独优化无效的核心原因。