11月13日,2025百度世界大会在北京举办。百度集团执行副总裁、百度智能云事业群总裁沈抖在会上重磅发布“一见多人协作SOP分析Agent”!基于一见多模态大模型的时空定位能力,不仅能够理解视频中复杂的时间与空间关系,精准识别每一道菜品的完整工序,还能识别多人协同操作过程中的错误环节并及时提醒,有效应对门店多员工并行操作时易出错的问题,真正实现从“看懂画面”到“理解过程”的跨越。
你是否也经历过这样的点餐小插曲:满心期待地咬一口汉堡,却发现少了灵魂酸黄瓜;端着咖啡找座时,才惊觉没放吸管——这些看似微小的事情,背后往往是连锁门店后厨在多人协作中面临的难题。门店要同时保障出餐速度与出品稳定,依靠的不只是厨师的手艺,更是一套标准化管理体系,多名员工、多样菜品、多个工序,时空交错,要确保每道菜从头到尾符合工序,传统的视觉系统很难实现。
百度一见再次进化,将SOP合规分析能力拓展至连锁门店的多人协作场景。它不仅能够理解视频中复杂的时间与空间关系,精准识别每一道菜品的完整工序,还能分析出哪个环节出现问题及时提醒。
在实际操作中,用户只需创建汉堡SOP Agent,输入提示词,让Agent基于标准视频学习汉堡制作工序的规范。通过配置所需要的大模型、AI技能和SOP知识库,并配置Agent的运行时间,即可发布上线。运行过程中,一见能基于多模态视频推理,识别出操作过程中的错误环节并及时提醒,帮助门店提升出品品质和效率。
为了让现场观众有直观感受,沈抖和两位同事现场同步制作两个汉堡和一杯咖啡。一见能准确及时地识别出多人协作制作过程中“牛肉堡未撒粉”和“冷饮未放吸管”两个错误,并实时提示纠正;同时,一见还可以统计制作过程的物料消耗数据,帮助门店准确掌握库存情况,节省盘点时间,切实为员工减负。
从8月发布的“工序合规分析”能力,到如今支持多人复杂场景的SOP分析Agent,一见深入每一个场景,解决每一个问题,持续将企业复杂的视觉管理难题变得简单落地。目前,一见已在连锁、港口、钢铁、电力、水务、矿山、化工、油气、铁路等20+行业应用落地,服务数百家头部客户。
未来,百度一见将持续推进多模态大模型在千行百业的深度应用,帮助企业实现视觉管理数字化,将“看见”的价值,转化为实实在在的智能跃迁与增长动能。