视频分析平台实现程序监控与模仿学习

0 阅读7分钟

编者按: 本次采访是某机构科学部门发布的系列内容之一,旨在探讨某机构所投资公司产品与服务背后的科学原理。2019年,Alexa基金首次投资nflux.ai,并于2020年参与了该公司的种子轮融资。2018年,Seyed Sajjadi在南加州大学(USC)攻读计算机科学硕士学位时决定辍学并创立nFlux.ai。在攻读硕士期间,他还在加州州立大学北岭分校的系统工程研究实验室(SERL)担任项目经理。

在南加州大学期间,Seyed Sajjadi专注于Sigma(一种认知架构与系统)的开发。其研究成果之一是一篇论文,由Sajjadi与计算机科学教授Paul Rosenbloom及其他USC合作者共同撰写。

在USC,Sajjadi在计算机科学教授Paul Rosenbloom的认知/虚拟人类架构实验室工作。他专注于Sigma的开发,该系统旨在结合过去四十年在符号认知架构、概率图模型以及近期神经网络模型方面的独立研究成果。其研究成果之一是一篇论文,题为《模拟中控制合成角色:认知架构与Sigma的案例研究》,由Sajjadi与Rosenbloom及其他USC合作者共同撰写。该论文被2018年跨服务/行业培训模拟与教育会议(I/ITSEC)接收。

在SERL,Sajjadi领导了一个由90多名工程师和人类因素研究人员组成的跨学科团队,专注于构建下一代具有人工智能的机器人搜索与救援系统。正是在这里,Sajjadi和同事们开始思考创立nflux.ai,其灵感来源于漫威电影宇宙中的虚构角色J.A.R.V.I.S.(只是一个非常智能的系统),以及对人工智能系统如何以积极方式增强人类能力的愿景。

某机构科学部门向Sajjadi提出了三个问题,涉及开发认知架构的挑战、nFlux在制造业中对模仿学习的关注,以及该公司技术最终如何与Alexa家庭用户产生关联。

问:什么是视频分析平台,它如何实现您所说的程序监控?

nFlux是首个智能视频分析平台,能够自动从视频片段的非结构化数据中学习并生成上下文洞察。目标之一是希望通过视频理解的图灵测试。设想一位女士坐在办公桌前观看电脑上的视频,我们希望开发一个视频理解系统,能够以与这位女士同等水平的理解力回答关于该视频的任何问题。首个客户是某机构(NASA),目前正在构建一个类似于《太空漫游》系列中虚构AI角色HAL 9000的系统。HAL 9000是一个通用AI系统,可以模仿人类的思考、行为和行动方式。具有讽刺意味的是,《太空漫游》的故事围绕深空任务展开。如今,如果航天员有问题,他们会呼叫某中心(休斯顿),由某中心(约翰逊航天中心)的人员回答。但随着人类开展如火星等深空任务,通信存在40分钟延迟,这种通信方式不切实际。因此,目标是在航天器上提供一个智能系统,能够理解航天员的操作,并通过增强其自身能力来提供帮助。

这就是所提及的程序监控,也是正在开发的核心创新。目标是模仿学习,即通过示范学习。如果一名航天员执行某个程序,目标是通过最少数量(例如10或15个)的视频样本捕捉该程序。在机器学习中,这属于极小的样本量。但从这样小的样本量中开发出一个计算模型,以便将来其他航天员执行相同程序时可以进行跟踪。如果在执行过程中航天员偏离了程序(例如遗漏了一颗螺丝钉),系统能够实时识别并提醒航天员。这就是程序监控的核心,也是一直在开发的航天员辅助技术。视频分析平台的关键能力之一是从极少量的视频中学习。这一点意义重大。但为了让算法能从少量数据中进行推断,它们需要从基础模型中提取基本信号。这之所以成为可能,是因为智能体可以通过关键活动(如系绳、钻探组件等)的先前语义知识进行增强,并且能够从合成生成的数据中识别每个步骤的关键组件(物体、工具)。这项技术的灵感来源于人类观看从未见过的新程序时吸收信息的方式。即使之前没有见过所使用的物体或工具,人类也能够识别正在执行的关键活动,并推断出成功完成程序所需的步骤。

问:nFlux技术如何在制造业中应用?

尽管人们认为机器人已经接管了制造业,但仍有72%的制造工作由人类完成。美国每天有六百万人上班执行一系列程序。当制造车间的人员工作时,系统可以实时捕捉任何偏差。系统可以充当虚拟教师或指导员,帮助培训新员工或学习新程序的现有员工。这对制造商极具价值,因为它缩短了生产周期。如果能够在制造设施中更快地培训员工,就能转化为数百万美元的制造时间节省。同时,这也影响产品质量。员工培训得越好,程序越标准化,缺陷率就越低。这对任何制造商都是两个关键要素。技术还有助于捕捉所谓的“部落知识”。在许多复杂的制造环境中,培训无法通过纸质文档完成,而需要通过从视频中导出的、正确执行程序的计算模型。该计算模型可以帮助培训新入职员工,监控他们的工作以确保正确遵循程序,并为制造劳动力充当智能助手。nFlux并非旨在取代劳动力,而是增强员工的工作。最终,这能减少制造工厂为输出高质量产品所需的返工量。

问:Alexa基金是投资者。那么您的计算模型如何与Alexa用户产生关联?

设想一下,当您烹饪时,Echo Show 10正在看着您,如果您遗漏了一种配料,它会提醒您。这就是将程序监控从车间带到厨房的一个例子。

带屏幕的Echo Show于2017年首次推出,随后有后续几代产品,包括今年早些时候首次上市的新款Echo Show 10。这些设备支持多模态体验,为Alexa提供更丰富的上下文和视觉理解。这些多模态Echo设备通常放置在厨房中,最流行的用途之一是烹饪以及实时遵循烹饪指令。设想一下,当您烹饪时,Echo Show 10看着您,如果您忘记添加某种配料,它会提醒您。这就是将程序监控从车间带到厨房的一个例子。

今年早些时候,获得了另一份来自某机构(NASA)的合同,用于支持航天员的健康。这项工作与其他Alexa医疗保健相关场景相关。如果是一位居家或居住在辅助生活设施中的老年人,当nFlux应用注意到没有在上午9点按时服药时,它是否会提醒您?或者,如果医生嘱咐每两小时走动五分钟,系统可以识别出过去几小时没有活动,并提醒您走动。这些就是面向消费者的场景,它们补充了程序监控的商业方法,并可应用于家庭环境中。FINISHED