出海技术挑战——Lalamove端云协同审核实战揭秘

174 阅读10分钟

作者:Lalamove Tech / Driver & DS

背景:当国际化遇上“审核瓶颈”

在 Lalamove 的全球化版图中,司机运营团队(DOP)面临着一场看不见硝烟的战争。我们在全球多个市场高速扩张,随之而来的是海量的司机准入审核需求:人脸比对验证、证件核验……这不仅是人力的问题,更是技术精度的挑战。不同国家的审核内容格式千差万别,欺诈手段层出不穷。

传统的“人工+基础规则”模式在国际化浪潮下显得捉襟见肘,并主要显现出以下痛点:

如何在高频次、多维度的审核任务中,平衡效率、准确率与成本?我们的答案是:建设一套 AI 赋能的“端云协同”审核体系。

核心架构:为什么我们需要“端云协同”?

分层治理:端侧保障数据质量,云端聚焦决策分析,协同加速案例流转

在早期的尝试中,我们发现单纯依赖云端算力或单纯依赖人工都有局限。为此,我们确立了分层治理的技术战略:

  • 端侧(Mobile):做好“守门员”。 利用端侧轻量级模型,实时拦截低质量、不合规的图片(如模糊、无人脸、证件残缺),从源头保障数据质量,减少无效上传。

  • 云端(Cloud):充当“大脑”。 聚焦复杂决策,利用大模型(LLM)和高精度 CV 模型处理非结构化信息,解决“长尾”难题。

这种协同机制,旨在让机器处理绝大部分的常规内容,让人力聚焦于高风险、高难度的核心场景。

应用场景与成效分析

场景一:人脸比对审核

业务背景

在国际化业务中,司机运营团队经常需要确认司机的真实身份,以防止不法分子冒充已注册司机从事违规甚至违法行为。为了解决这一问题,我们引入了人脸识别****、比对****技术(Face Recognition Technology,FRT):通过比对司机实时拍摄的照片与数据库中保存的注册照片,来快速、准确地完成身份核验。

解决方案 - 人脸比对技术的应用

前端**:快速拦截低质量数据**

毫秒级拦截 在照片上传前,前端轻量级模型会进行第一轮“体检”。如果出现以下情况,直接拦截:

无人脸: 未检测到任何人脸 bounding box

多张人脸: 检测到人脸数量 > 1

人脸未居中: 人脸框中心点偏离画面中心, 防止侧脸、远景、偷拍式照片

另外,前端快速拦截还能够带来以下优点:

✅ 减少无效图片上传

✅ 降低后端调用第三方 FRT 的成本

✅ 提升司机端操作的即时反馈体验

这样可以尽早过滤无效请求,减少后端压力,同时提升整体用户体验。

后端:精准识别与身份比对

高精度比对 通过“守门员”的照片,进入后端接入 AWS Rekognition 等服务,提取高维特征向量(Embedding),与注册底库进行 1:1 比对。

标准流程

  1. 人脸检测 & 特征提取: 提取高维人脸特征向量(embedding)並判断是否为真实人脸

  2. 身份比对: 与司机注册时留存的人脸照片进行 1:1 比对,计算相似度分数(Similarity Score)

  3. 阈值判定

    1. 高于通过阈值 → 认证成功

    2. 低于拒绝阈值 → 认证失败

成效与收益

场景二:司机注册证件审核

业务背景

司机在注册过程环节同样面对以及场景多元复杂的问题。司机在注册环节需要多种证件(包括身份证/驾照等),在全球多个地区的证件审核过程中:

  • 错误证件类型 占比最高

  • 证件照片不符合规范 占被拒绝照片比例的第二

为解决这一痛点,我们的解决方案是在前后端同时引入 OCR技术,并在后端结合大模型进行更复杂信息提取,对证件类型进行自动校验,并优先在问题较为严重的市场上线。

解决方案 - 前端视觉引导和OCR结合大语言模型的应用

后端

整体处理流程涉及以下模块:

传统方案通常在 OCR 之后,通过关键词匹配、正则表达式和人工维护规则来提取证件信息并判断证件类型。这种方式在证件版式稳定、语言单一的情况下实现成本较低,但在全球化场景中暴露出明显局限:

  • 对证件版式和字段顺序高度敏感,一旦证件样式变化就需要新增或调整规则

  • 多语言、多国家场景下规则数量快速膨胀,维护成本随业务扩展线性上升

  • OCR 产生轻微错字或字段缺失时,正则匹配容易整体失效

  • 难以处理语义层面的判断,例如证件类型混用或字段语义不明确

  • 对复杂、长尾场景的覆盖能力有限,人工兜底比例较高

整体来看,传统OCR方案可控但不灵活,更适合规则清晰、变化较少的业务环境。而大语言模型结合OCR能补足OCR技术本身的不足,并且prompt engineering流程能够简化模范设置流程,相比OCR 模版开发速度更快。以下是大语言模型结合OCR在业务场景的具体实例。

成效与收益

场景三:海外市场车辆月度审核

业务背景:当“人工肉眼”遇上“复杂规则”

在海外市场,车辆月度是司机佣金结算的关键前提,直接影响司机的收入。然而,随着业务量的激增,单纯依靠人工审核暴露出了两个致命问题:

  1. 标准执行难统一(Subjectivity): 在Lalamove,车辆的月度审核规则多达数十余项、执行难度高、标准难完全统一。

  2. 拒单理由过于集中: 在被拒绝的申请中,我们发现了一个惊人的数据:约四成的照片是因为“车牌展示不完整”而被拒绝。 这意味着,超过三分之一的失败并非因为车辆本身,而是因为司机没拍好车牌。这是一个典型的、可以通过端侧引导来解决的“非技术性错误”。

解决方案 -- 前端视觉引导和后端多模态大模型检测分层治理

为解决以上挑战,我们同样设计了前后端协同的智能审核体系:

客户端:自研轻量级模型,把 AI 装进手机里

面对“车牌展示不完整”这一顽疾,通用模型往往难以兼顾端侧的性能与精度。为此,我们没有依赖第三方 API,而是依托公司内部机器学习平台,完成了一次端侧 AI 的全链路自研

从清洗海量真实场景数据,到选定适配移动端的轻量化架构,再到训练调优与端上部署,我们掌控了每一个技术细节。这种“量体裁衣”的策略,让我们在保证 App 运行流畅的前提下,实现了高于99.9%的准确率。

这意味着,绝大多数不合规拍摄在按下快门的瞬间就会被拦截,无需消耗后端算力。

后端:多模态大模型驱动复杂决策
核心难点:当规则多到“令人发指”

在Lalamove,车辆月审涉及数十余项细则。想要使用传统的 CV 模型一一击破的开发成本极高,且难以穷尽所有边缘情况。 于是,我们决定引入多模态大模型 (Multimodal LLM**)**,利用其强大的视觉理解能力来破局。

探索之路:从“幻觉”到“落地”

大模型不是魔法,如何用好它?我们经历了三个版本的迭代:

  • ❌ 版本一(暴力拆解): 针对数十余项标准,分别调用大模型。

    • 结果:

      效果尚可,但 Token 消耗巨大,成本和耗时都无法接受。

  • ❌ 版本二(一锅端): 把所有规则写进一个超长 Prompt,一次性问完。

    • 结果:

      模型“顾此失彼”,注意力分散,导致幻觉严重,准确率暴跌。

  • ✅ 版本三(分组+结构化):最终方案

    • 策略:

      基于相关性分组。我们将审核标准分为“内容相关”、“车辆相关”、“车贴外观相关”等分组,分步骤提取信息。

破局关键:只提取,不决策

这是我们在工程实践中得出的最重要经验。 我们不直接问大模型“这张图过不过?”,而是让它充当“信息提取器”。

  • LLM 负责看: 输出结构化 JSON(例如:"text_visible": true, "side_view": true)。

  • 代码负责判: 业务系统根据 JSON 字段进行逻辑判断。 这既避免了大模型的逻辑幻觉,又保留了业务规则的灵活性。

工程化落地:细节决定成败

有了好模型,还需要好的工程实践来支撑上线。

🎛️ 参数调优:低温运行 为了保障审核结果的一致性,我们在部署 AI 工作流时,将 Temperature 设置为 0.1。低温度让大模型变得“冷静”且“保守”,确保每次输出的结果稳定可靠。

🔐 数据合规:跨国调用的安全解法 出于成本考量,我们选择了国内的高性价比算力资源。但如何处理海外数据?

  • 安全前置: 在与信息安全部门深度协作后,我们设计了严格的数据脱敏清洗机制

  • 合规调用: 在调用大模型前,所有敏感信息(如具体的车牌号文字、背景人脸等)均在端侧或中间层完成脱敏。大模型只负责识别“车贴样式”等非敏感视觉特征。 这一方案完美平衡了成本优势数据合规的双重需求。

成效与收益

未来展望