出海技术挑战——Lalamove端云协同审核实战揭秘在 Lalamove 的全球化版图中，司机运营团队（DOP）面临着一

作者：Lalamove Tech / Driver & DS

背景：当国际化遇上“审核瓶颈”

在 Lalamove 的全球化版图中，司机运营团队（DOP）面临着一场看不见硝烟的战争。我们在全球多个市场高速扩张，随之而来的是海量的司机准入审核需求：人脸比对验证、证件核验……这不仅是人力的问题，更是技术精度的挑战。不同国家的审核内容格式千差万别，欺诈手段层出不穷。

传统的“人工+基础规则”模式在国际化浪潮下显得捉襟见肘，并主要显现出以下痛点：

如何在高频次、多维度的审核任务中，平衡效率、准确率与成本？我们的答案是：建设一套 AI 赋能的“端云协同”审核体系。

核心架构：为什么我们需要“端云协同”？

分层治理：端侧保障数据质量，云端聚焦决策分析，协同加速案例流转

在早期的尝试中，我们发现单纯依赖云端算力或单纯依赖人工都有局限。为此，我们确立了分层治理的技术战略：

端侧（Mobile）：做好“守门员”。 利用端侧轻量级模型，实时拦截低质量、不合规的图片（如模糊、无人脸、证件残缺），从源头保障数据质量，减少无效上传。
云端（Cloud）：充当“大脑”。 聚焦复杂决策，利用大模型（LLM）和高精度 CV 模型处理非结构化信息，解决“长尾”难题。

这种协同机制，旨在让机器处理绝大部分的常规内容，让人力聚焦于高风险、高难度的核心场景。

应用场景与成效分析

场景一：人脸比对审核

业务背景

在国际化业务中，司机运营团队经常需要确认司机的真实身份，以防止不法分子冒充已注册司机从事违规甚至违法行为。为了解决这一问题，我们引入了人脸识别****、比对****技术（Face Recognition Technology，FRT）：通过比对司机实时拍摄的照片与数据库中保存的注册照片，来快速、准确地完成身份核验。

解决方案 - 人脸比对技术的应用

前端**：快速拦截低质量数据**

毫秒级拦截 在照片上传前，前端轻量级模型会进行第一轮“体检”。如果出现以下情况，直接拦截：

❌ 无人脸: 未检测到任何人脸 bounding box

❌ 多张人脸: 检测到人脸数量 > 1

❌ 人脸未居中: 人脸框中心点偏离画面中心, 防止侧脸、远景、偷拍式照片

另外，前端快速拦截还能够带来以下优点：

✅ 减少无效图片上传

✅ 降低后端调用第三方 FRT 的成本

✅ 提升司机端操作的即时反馈体验

这样可以尽早过滤无效请求，减少后端压力，同时提升整体用户体验。

后端：精准识别与身份比对

高精度比对 通过“守门员”的照片，进入后端接入 AWS Rekognition 等服务，提取高维特征向量（Embedding），与注册底库进行 1:1 比对。

标准流程

人脸检测 & 特征提取： 提取高维人脸特征向量（embedding）並判断是否为真实人脸
身份比对： 与司机注册时留存的人脸照片进行 1:1 比对，计算相似度分数（Similarity Score）
阈值判定
1. 高于通过阈值 → 认证成功
2. 低于拒绝阈值 → 认证失败

成效与收益

场景二：司机注册证件审核

业务背景

司机在注册过程环节同样面对以及场景多元复杂的问题。司机在注册环节需要多种证件（包括身份证/驾照等），在全球多个地区的证件审核过程中：

错误证件类型 占比最高
证件照片不符合规范 占被拒绝照片比例的第二

为解决这一痛点，我们的解决方案是在前后端同时引入 OCR技术，并在后端结合大模型进行更复杂信息提取，对证件类型进行自动校验，并优先在问题较为严重的市场上线。

解决方案 - 前端视觉引导和OCR结合大语言模型的应用

后端

整体处理流程涉及以下模块：

传统方案通常在 OCR 之后，通过关键词匹配、正则表达式和人工维护规则来提取证件信息并判断证件类型。这种方式在证件版式稳定、语言单一的情况下实现成本较低，但在全球化场景中暴露出明显局限：

对证件版式和字段顺序高度敏感，一旦证件样式变化就需要新增或调整规则
多语言、多国家场景下规则数量快速膨胀，维护成本随业务扩展线性上升
OCR 产生轻微错字或字段缺失时，正则匹配容易整体失效
难以处理语义层面的判断，例如证件类型混用或字段语义不明确
对复杂、长尾场景的覆盖能力有限，人工兜底比例较高

整体来看，传统OCR方案可控但不灵活，更适合规则清晰、变化较少的业务环境。而大语言模型结合OCR能补足OCR技术本身的不足，并且prompt engineering流程能够简化模范设置流程，相比OCR 模版开发速度更快。以下是大语言模型结合OCR在业务场景的具体实例。

成效与收益

场景三：海外市场车辆月度审核

业务背景：当“人工肉眼”遇上“复杂规则”

在海外市场，车辆月度是司机佣金结算的关键前提，直接影响司机的收入。然而，随着业务量的激增，单纯依靠人工审核暴露出了两个致命问题：

标准执行难统一（Subjectivity）： 在Lalamove，车辆的月度审核规则多达数十余项、执行难度高、标准难完全统一。
拒单理由过于集中： 在被拒绝的申请中，我们发现了一个惊人的数据：约四成的照片是因为“车牌展示不完整”而被拒绝。这意味着，超过三分之一的失败并非因为车辆本身，而是因为司机没拍好车牌。这是一个典型的、可以通过端侧引导来解决的“非技术性错误”。

解决方案 -- 前端视觉引导和后端多模态大模型检测分层治理

为解决以上挑战，我们同样设计了前后端协同的智能审核体系：

客户端：自研轻量级模型，把 AI 装进手机里

面对“车牌展示不完整”这一顽疾，通用模型往往难以兼顾端侧的性能与精度。为此，我们没有依赖第三方 API，而是依托公司内部机器学习平台，完成了一次端侧 AI 的全链路自研。

从清洗海量真实场景数据，到选定适配移动端的轻量化架构，再到训练调优与端上部署，我们掌控了每一个技术细节。这种“量体裁衣”的策略，让我们在保证 App 运行流畅的前提下，实现了高于99.9%的准确率。

这意味着，绝大多数不合规拍摄在按下快门的瞬间就会被拦截，无需消耗后端算力。

后端：多模态大模型驱动复杂决策

核心难点：当规则多到“令人发指”

在Lalamove，车辆月审涉及数十余项细则。想要使用传统的 CV 模型一一击破的开发成本极高，且难以穷尽所有边缘情况。于是，我们决定引入多模态大模型 (Multimodal LLM**)**，利用其强大的视觉理解能力来破局。

探索之路：从“幻觉”到“落地”

大模型不是魔法，如何用好它？我们经历了三个版本的迭代：

❌ 版本一（暴力拆解）： 针对数十余项标准，分别调用大模型。
- 结果：
  
  效果尚可，但 Token 消耗巨大，成本和耗时都无法接受。
❌ 版本二（一锅端）： 把所有规则写进一个超长 Prompt，一次性问完。
- 结果：
  
  模型“顾此失彼”，注意力分散，导致幻觉严重，准确率暴跌。
✅ 版本三（分组+结构化）：最终方案
- 策略：
  
  基于相关性分组。我们将审核标准分为“内容相关”、“车辆相关”、“车贴外观相关”等分组，分步骤提取信息。

破局关键：只提取，不决策

这是我们在工程实践中得出的最重要经验。我们不直接问大模型“这张图过不过？”，而是让它充当“信息提取器”。

LLM 负责看： 输出结构化 JSON（例如："text_visible": true, "side_view": true）。
代码负责判： 业务系统根据 JSON 字段进行逻辑判断。这既避免了大模型的逻辑幻觉，又保留了业务规则的灵活性。

工程化落地：细节决定成败

有了好模型，还需要好的工程实践来支撑上线。

🎛️ 参数调优：低温运行 为了保障审核结果的一致性，我们在部署 AI 工作流时，将 Temperature 设置为 0.1。低温度让大模型变得“冷静”且“保守”，确保每次输出的结果稳定可靠。

🔐 数据合规：跨国调用的安全解法 出于成本考量，我们选择了国内的高性价比算力资源。但如何处理海外数据？

安全前置： 在与信息安全部门深度协作后，我们设计了严格的数据脱敏清洗机制。
合规调用： 在调用大模型前，所有敏感信息（如具体的车牌号文字、背景人脸等）均在端侧或中间层完成脱敏。大模型只负责识别“车贴样式”等非敏感视觉特征。这一方案完美平衡了成本优势与数据合规的双重需求。

出海技术挑战——Lalamove端云协同审核实战揭秘

背景：当国际化遇上“审核瓶颈”

核心架构：为什么我们需要“端云协同”？

分层治理：端侧保障数据质量，云端聚焦决策分析，协同加速案例流转

应用场景与成效分析

场景一：人脸比对审核

业务背景

解决方案 - 人脸比对技术的应用

成效与收益

场景二：司机注册证件审核

业务背景

解决方案 - 前端视觉引导和OCR结合大语言模型的应用

成效与收益

场景三：海外市场车辆月度审核

业务背景：当“人工肉眼”遇上“复杂规则”

解决方案 -- 前端视觉引导和后端多模态大模型检测分层治理

客户端：自研轻量级模型，把 AI 装进手机里

后端：多模态大模型驱动复杂决策

核心难点：当规则多到“令人发指”

探索之路：从“幻觉”到“落地”

破局关键：只提取，不决策

工程化落地：细节决定成败

成效与收益

未来展望