iOS 端侧模型训练与应用入门(三)别被“工程”这两个字吓跑。这其实就像做菜：你需要选对厨具（GPU/Mac），准备好食

模块三：工程实战——把AI从云端搬到指尖

写在前面：别被“工程”这两个字吓跑。这其实就像做菜：你需要选对厨具（GPU/Mac），准备好食材（数据），然后掌握好火候（训练配置）。很多人倒在这一步，不是因为不懂算法，而是因为环境配置搞死人。这章我们讲怎么最快把东西跑起来。

3.1 核心心法：丰俭由人，先把路修通 (Philosophy of Choice)

在开始之前，很多人会问：“为什么用 BERT？现在外面 Qwen（通义千问）、Baichuan（百川）、DeepSeek 中文效果不是更好吗？”

我们要的不是最好的车，而是最适合的路。

现状：最新的大模型（如 Qwen-7B）即使量化后也有 4GB+，在手机上跑起来不仅发热，而且推理延迟可能高达几百毫秒。更重要的是，它们对 CoreML 的支持往往稍微滞后。
策略：即使是 3 年前的 BERT-Base (110M) 或 MobileBERT (25M)，在处理“分类”这种任务上，效果已经足够惊人（95%+ 准确率）。
价值：这一章最有价值的不是“模型文件”本身，而是这套流水线。
今天你用 MobileBERT 跑通了 PyTorch -> CoreML -> iOS Update 的全流程。
明天苹果发布了更强的 NPU，或者有了更小更强的模型（比如 Phi-3），你只需要替换掉源头的模型文件，整套流水线依然能用。

结论：先用最成熟、最不折腾的部件（BERT）把端侧训练的流程跑通。这也是“丰俭由人”的智慧。

3.2 蒸馏艺术：让大师带徒弟 (Distillation)

我们选定了 MobileBERT（徒弟），但它确实比 Qwen（大师）笨。直接用几千条数据训练它，它学不会。

这时就需要知识蒸馏 (Knowledge Distillation)。

3.2.1 什么是蒸馏？

这就好比：让大师（Teacher）先做一遍卷子，然后让徒弟（Student）在旁边看着。

徒弟不仅要学大师的答案（Output Logits），还要学大师解题时的思路（Hidden States & Attention）。

如果是“自我训练”：徒弟只能看到标准答案（Label: 1），错了就挨打。
如果是“蒸馏”：大师会说：“这题虽然选A，但其实B也有点道理（Probability: A=0.8, B=0.15）。” 这种软标签 (Soft Label) 包含了极丰富的信息量。

3.2.2 高质量数据从哪来？

你可能会说：“我没有几百万条数据啊。”

妙招：用大师来造数据 (Data Augmentation)。

你手头可能只有 100 条真实的“目标记录”。
把它丢给云端的 GPT-4（最强大师）。
Prompt：“请模仿这些句子的风格，生成 10,000 条类似的句子，并标注好分类。”
结果：你瞬间拥有了 1万条高质量的带标注数据。
清洗：用 BERT-Large 再跑一遍这些数据，把“大师都拿不准”的剔除掉。

工程侧的胜利：

现在，你手里有了：

Teacher: BERT-Large (或 Cloud LLM API)
Student: MobileBERT
Data: 1万条高质量合成数据

这才是端侧小模型能“打”的秘密武器。

3.3 工欲善其事：选对你的“炼丹炉”

以前大家觉得玩 AI 必须得有几万块的显卡。现在的门槛其实低多了。

原则只有一个：有啥用啥，先把流程跑通，再想怎么快。

选项 A：蹭云端的免费午餐 (Google Colab) —— 推荐新手

如果你手头没有高性能电脑，或者不想把本地环境搞乱：

神器：Google Colab (免费版就有 T4 GPU)。
优点：环境都给你配好了，打开网页就能跑。GPU 显存大，训练 BERT 这种模型毫无压力。
缺点：得科学上网，有时候会断连。

选项 B：压榨你的 Mac (Apple Silicon + MLX) —— 极客之选

现在的 M1/M2/M3 芯片其实非常强。苹果推出了一个神器叫 MLX（你可以理解为苹果版的 PyTorch）。

优点：本地跑，不需要上传数据，隐私极好。而且能直接利用 Mac 统一内存（Unified Memory），大模型也能塞进去。
缺点：生态还在建设中，有些冷门算子可能不支持。

核心心法：先把东西做出来 (Make it Work First)

千万别在一开始就纠结“我这个训练能不能再快 10%”。

新手最大的坑是——版本地狱 (Dependency Hell)。

PyTorch 更新极快。
Transformers 更新也极快。
CoreML Tools 更新也很快。

这三者只要有一个版本对不上，你的模型导出时就会报错：“不支持的算子：Gelu”、“动态图转换失败”……

建议：

抄作业：直接用别人跑通了的 requirements.txt。
死磕一个版本：比如我现在验证通了 torch==2.1.0 + coremltools==7.1，那我就死守这个组合，除非万不得已绝不升级。

3.4 跨越鸿沟：从 PyTorch 到 CoreML

把你训练好的 PyTorch 模型（.pt 文件）变成 iPhone 能认的 .mlpackage，这一步叫由“软”变“硬”。

为什么要转？

PyTorch 模型像是一团软泥，甚至可以在运行时改变形状（动态图）。

CoreML 模型则是一块烧好的砖，形状固定，为了能在手机芯片（ANE）上飞奔，必须把所有计算路径都定死。

避坑指南

Trace vs Script：

导出时通常使用 torch.jit.trace。这意味着你要给模型喂一口“假数据”，让它跑一遍，记录下它数据流动的路径。
坑：如果你的模型里有 if input > 0: 这种逻辑，Trace 会只记录当时走的那条路。另一条路就被堵死了。

OPS 对齐：

有些新出的数学操作，CoreML 可能还没支持。
解决：如果报错，去查 CoreML Tools 文档。有时候换个写法（比如把 einsum 换成 matmul）就能过。

3.5 关键一步：给模型发“通行证” (Making it Updatable)

这是最容易被忽略，也是最核心的一步。

默认导出的 CoreML 模型是冻结的（Frozen）。它就像一张压好膜的照片，你没法在上面涂改。

要在 iPhone 上训练它，你必须在导出时给它发一张“可修改通行证”。

这不仅仅是打个勾那么简单，你必须在模型文件里“埋”进一整套训练逻辑。

核心操作：NeuralNetworkBuilder

很多教程只教你用 ct.convert，但那生成的模型往往只能看不能改。要支持端侧训练，我们需要使用更底层的 NeuralNetworkBuilder。


import coremltools as ct

from coremltools.models import datatypes

from coremltools.models import neural_network

# 1. 基础转换：先把 PyTorch 模型转成普通的 CoreML 模型
model = ct.convert(
    traced_model,

    inputs=[ct.TensorType(name="embedding", shape=(1, 768))]
)

# 2. 获取模型描述文件 (Spec)
spec = model.get_spec()

# 3. 启动构建器 (Builder)
builder = neural_network.NeuralNetworkBuilder(spec=spec)

# 4. 关键魔法：标记可训练层
# 假设你的最后一层全连接层名字叫 "classifier_dense"
# 你需要 inspect 你的 spec 找到这个确切的名字

layer_name = "classifier_dense"
builder.make_updatable([layer_name])

# 5. 埋入“尺子”：设置损失函数 (Loss Function)
# 告诉 iOS：怎么算“错”？(Cross Entropy Loss)
builder.set_categorical_cross_entropy_loss(
    name="lossLayer",
    input=layer_name # 连接到分类层的输出
)

# 6. 埋入“工具箱”：设置优化器 (Optimizer)
# 告诉 iOS：怎么改？(SGD - Stochastic Gradient Descent)
# 为什么要用 SGD 而不是 Adam？
# 因为 SGD 极其省内存！Adam 需要为每个参数维护两个额外的状态（Momentum, Variance），
# 这会使内存消耗翻三倍。对于手机来说，SGD 是最经济实惠的选择。

builder.set_sgd_optimizer(
    learning_rate=0.01,
    batch=16
)

# 7. 设置训练时的输入 (Training Inputs)
# 训练时不仅需要 embedding，还需要 label (正确答案)
builder.set_epochs(10) # 默认跑几轮

# 8. 保存为新模型
mlmodel_updatable = ct.models.MLModel(spec)
mlmodel_updatable.save("MyModel_Updatable.mlpackage")

解释：

这就好比你给装修队（iOS系统）交房。默认全是承重墙（不可动）。

你需要拿着图纸（Builder），做三件事：

红笔圈地 (make_updatable)：“这面墙（分类头），你们可以敲。”
给把尺子 (set_loss)：“敲的时候用这把尺子量，别敲歪了。”
给个锤子 (set_optimizer)：“用这个锤子敲，每次敲轻点（Learning Rate）。”

只有把这三样东西都打包进 .mlpackage 里，iOS 拿到模型后，调用 MLUpdateTask 时才不会报错。

3.6 另一端的接应：iOS 端的流水线 (MLUpdateTask)

模型制作好了，放进 App 里只是第一步。iOS 怎么跑起来呢？这又是一条流水线。


graph LR

subgraph DevSide["开发端 (Mac)"]

PyTorch["PyTorch Model (.pt)"] --> CoreMLTools["CoreML Tools"]

CoreMLTools --> Builder["NeuralNetworkBuilder\n(添加 Loss/Optimizer)"]

Builder --> MLPackage["Updatable Model\n(.mlpackage)"]

end

subgraph AppSide["手机端 (iOS App)"]

MLPackage --> Bundle["App Bundle\n(只读 Read-only)"]

Bundle --第一次运行拷贝--> Sandbox["Documents 目录\n(读写 Read-Write)"]

Sandbox --> UpdateTask["MLUpdateTask"]

end

Data["用户纠错数据"] --> UpdateTask

UpdateTask --生成新参数--> Sandbox

流程图：

读取旧模型 -> 准备新数据 -> 开启训练任务 -> 保存新模型

第一步：喂饭 (Batch Provider)

iOS 训练不能一个一个喂数据，要打包成“饭盒”（Batch）。

你需要把用户产生的“纠错数据”（比如用户把一个任务从“工作”改成了“生活”），封装成 MLArrayBatchProvider。

输入：那条数据的 Embedding 向量。
目标：用户修改后的正确标签。

第二步：开工 (MLUpdateTask)

这是 Apple 提供的核心类。


let updateTask = try MLUpdateTask(
    forModelAt: compiledModelURL,
    trainingData: trainingBatch,
    configuration: config
) { context in
    // 这里是训练中的回调，可以看 Loss 是不是在下降
    print("当前 Loss: \(context.metrics[.lossValue])")
}

// 开始干活
updateTask.resume()

第三步：交接 (Write Back)

训练完成后，系统并不会自动替换旧模型。它会生成一个新的临时文件。

你需要手动做一个“狸猫换太子”的操作：

拿到 updateTask 生成的新模型路径。
把它移动到 App 的沙盒文档目录（Documents Directory）。
下次推理时，优先加载这个文档目录里的新模型。

注意：原来的 App Bundle 里的模型是只读的，永远改不了。你的“进化版”模型永远只能住在沙盒里。

3.7 避坑指南：那些让你怀疑人生的错误

Loss 不下降 (Loss Convergence)

现象：训练了半天，Loss 还是 2.3 左右晃悠，准确率一塌糊涂。
原因：Usually it's the Learning Rate too high. 比如默认的 0.01 太大了，改成 0.001 试试。或者数据没有 Shuffle（打乱顺序），模型背下顺序了。

模型文件损坏 (Model Corruption)

现象：MLUpdateTask 报错 "Model is not updatable" 或者 "Invalid format"。
原因：通常是 Python 导出脚本里 builder.save() 之前的某一步没做对。比如 Content-Type 没设置好。务必在 Mac 上先跑一遍 check_update.py 验证脚本。

形状不匹配 (Shape Mismatch)

现象：Error computing batch size.
原因：Python 导出的输入是 (1, 768)，但 iOS 喂进去的数据是 (768)。iOS 端需要把数据用 MLMultiArray 包装成正确的形状。

3.8 单元测试：像测 App 一样测模型

代码写完了要写 Unit Test，模型也一样！

很多人的悲剧在于：辛辛苦苦把模型导进 App，一运行就崩，或者输出全是 0。

流水线里的质量卡点：

在你把模型文件拖进 Xcode 之前，必须在 Python 里跑这三行代码：

形状检查：输入是 (1, 128) 吗？输出是 (1, 16) 吗？
数值对齐：用同一个输入，PyTorch 算出来的结果是 0.85，CoreML 算出来是 0.849 吗？（允许一点点误差，但不能差太多）。
极限测试：输入全是 0 会崩吗？输入全是乱码会崩吗？

只有通过了这些体检，你的模型才有资格被放进手机里。