Robin机器人感知系统:从混杂包裹中精准抓取

3 阅读10分钟

Robin机器人:感知变化世界中的抓取艺术

在某机构运营中心,当包裹在传送带上滚动时,Robin机械臂便开始工作。它下降、拾起一个包裹、扫描,然后将其放置在一个小型驱动机器人上,由后者将其引导至正确的装卸口。Robin的视觉系统使其能够以完全不同的方式观察和应对世界。

“大多数机械臂在受控环境中工作,”某机构机器人及AI部门的高级软件开发经理Charles Swan解释道。“例如,如果它们焊接汽车框架,它们期望部件在固定位置,并遵循预设的动作序列。它们并没有真正感知环境。”

“Robin应对的是一个周围事物不断变化的世界。它理解那里有什么物品——不同大小的箱子、软包裹、堆叠的信封——并决定要抓取哪一个。它做的所有这些事情,都不需要人为编写每一步的动作指令。Robin所做的事情在研究领域并不罕见,但在实际生产中却非同寻常。”

得益于机器学习,Robin及其先进的感知系统正迅速投入大规模生产。当Swan在2021年开始接触该机器人时,某机构在其运营中心仅运行着几十台。如今,他的团队正大幅扩展该感知系统的规模。

为了实现这一目标,某机构机器人公司的研究人员正在探索让Robin达到无与伦比的生产精度的方法。

训练日

过去五年,机器学习显著提升了机器人观察、理解和推理其环境的能力。

过去,经典的计算机视觉算法会系统地将场景分割成单个元素,这是一种缓慢且计算密集的方法。监督式机器学习使这一过程更加高效。

“我们不会明确说明模型应该如何学习,”某机构机器人及AI部门的软件开发经理Bhavana Chandrashekhar说。“相反,我们给它一个输入图像并说,‘这是一个物体’。然后它尝试识别图像中的物体,我们对其表现进行评分。仅利用这种监督反馈,模型就学会了如何从图像中提取特征,从而对图像中的物体进行分类。”

Robin的感知系统从能识别边缘和平面等物体元素的预训练模型开始。接着,它被训练识别运营中心分拣区内常见的包裹类型。

机器学习模型在拥有大量样本图像时学习效果最佳。然而,尽管每天处理数百万个包裹,Chandrashekhar的团队最初发现,很难找到足够的训练数据来捕捉传送带上源源不断的箱子和包裹的巨大变化。

“所有东西都混杂在一起,大小形状各异,有些堆叠在一起,有些处在阴影中,”Chandrashekhar说。“在节假日,你可能看到小黄人或比莉·艾利什的图案混在我们常见的棕色和白色包裹中。封箱胶带也可能会变化。有时,即使对人类来说,也很难区分包裹之间的差异。你可能有一个白色信封在另一个白色信封上面,两者都皱巴巴的,你分不清一个从哪里开始,另一个在哪里结束。”

为了让Robin的模型理解它所看到的内容,研究人员收集了数千张图像,在箱子、黄色、棕色和白色邮件以及标签等特征周围画线,并添加描述。然后,团队使用这些标注过的图像不断重新训练机器人。

训练在模拟生产环境中继续进行,机器人使用测试包裹在运行的传送带上工作。每当Robin未能识别物体或抓取失败时,研究人员就会标注这些错误,并将其添加到训练数据集中。这种持续的训练方案显著提高了机器人的效率。

持续学习

Robin在这些测试中的成功率显著提高,但研究人员追求近乎完美。“我们希望在那些随机出现的边缘问题上表现得非常好,这些问题在测试期间只发生几次,但当我们在更大规模运行时,在现场会更频繁地出现,”Chandrashekhar说。

由于Robin在测试中的高准确率,研究人员发现很难找到足够的错误来创建用于进一步训练的数据集。“起初,我们不得不设想机器人会如何犯错,以便创建可以用来改进模型的数据类型,”Chandrashekhar解释道。

该团队还监控Robin对其决策的置信度。例如,感知模型可能表示它对识别一个包裹很有信心,但对将其归类为特定类型的包裹信心不足。Chandrashekhar的团队开发了一个框架,确保这些低置信度的图像被自动发送给人工标注,然后再添加回训练数据集。

“这是持续学习的一部分,”高级应用科学经理Jeremy Wyatt说。“它非常强大,因为每个包裹都成为一个学习机会。每个机器人贡献的经验都有助于整个机器人群组变得更好。”

这种持续学习带来了巨大的改进。“在短短六个月内,我们将Robin感知系统无法抓取的包裹数量减半,并将感知系统犯的错误减少了90%”,Wyatt指出。

尽管如此,机器人在生产中仍会犯错,需要纠正。如果Robin掉落了一个包裹或将两个邮件放在一个分拣机器人上,会发生什么?大多数生产机器人对错误视而不见,但Robin是个例外。它会监控自己的操作是否有失误。

Robin的质量保证系统监督它如何处理包裹。如果发现问题,它会尝试自行修复,或者如果无法修复,则请求人工干预。“如果Robin发现并纠正了一个错误,它可能会损失一些时间,”Swan解释说。“但是,如果那个错误根本没有被处理,我们可能会延迟一两天才能将产品送达客户手中。”

扩展Robin感知能力

Swan加入Robin感知团队时,只有几十台机器人在生产中。他的目标是将感知系统扩展到数千台机械臂。为了实现这一目标,Swan的团队不仅专注于捕捉和标注错误以进行持续学习,还寻求这些错误的根本原因。

他们依赖Robin感知的用户界面,该界面让工程师能够通过机器人的视角观察,并追溯其视觉系统是如何做出决策的。例如,他们可能会发现一个Robin抓取了两个包裹,因为它无法区分它们;或者另一个因深度信号噪声而未能抓取任何包裹。审计Robin的决策使某机构机器人工程师能够微调机器人的行为。

从每天分拣超过一百万件物品的机器人群组中得出的指标对此进行了补充。“一旦你有了那种数据,你就可以开始寻找相关性,”Swan说。“然后你可以说,决策的延迟与机器的某个属性或场景的某个属性有关,这就是我们可以关注的重点。”

群组指标提供了比任何单台机器所能见到的更广泛场景和问题的数据,从破损的灯光到粘在传送带上的地址标签。这些数据每几天就被用来重新训练Robin,使其对所工作环境有更广泛的理解。

它还有助于某机构提高效率。在Robin抓取包裹之前,它必须首先分割一个杂乱的场景,决定要抓取哪个包裹,计算如何接近包裹,并选择使用其八个吸盘中的多少个来拾取。选择太多,它可能会提起不止一个包裹;选择太少,则可能掉落货物。

这个决策需要的远不止计算机视觉。“决定抓取什么以及在哪里抓取是通过学习系统、优化、几何推理和3D理解的组合来完成的,”某机构机器人AI部门的首席应用科学家Nick Hudson解释说。“有很多相互作用的组件,它们都需要适应在不同站点和地区看到的变化。”

“效率和良好决策之间总是需要权衡,”Swan继续说道。“那是一个主要的扩展挑战。我们进行了大量的离线实验,使用非常杂乱的场景和其他减慢机器人速度的情况来改进我们的算法。当我们满意时,我们会在一小部分机器人群组上运行它们。如果表现良好,我们就会推广到所有机器人。”

这些推广之所以成为可能,还因为软件被重写以支持定期更新,软件开发经理Sicong Zhao说。“软件是模块化的。这样,我们可以升级一个组件而不影响其他组件。它也允许多个团队同时进行不同的改进。”这种模块化使得感知系统的关键部分能够每周自动重新训练两次。

这并非易事。Robin拥有数万行代码,因此Zhao的团队花了数月时间来理解这些行之间的交互,以便将其组件模块化。这项努力是值得的。它使Robin更易于升级,并最终能够根据需要频繁地进行自动群组更新,同时减少运营中断。

下一代机器人感知

Swan解释说,这些持续改进对于在某机构的规模上部署Robin至关重要。该团队的目标是每周自动更新数次Robin机器人群体。

“我们正在增加Robin的使用量,”Swan说。“为此,我们必须不断提高Robin处理那些随机边缘情况的能力,使其永远不会分拣错误,拥有出色的运动规划,并以手臂能处理的最快安全速度移动——所有这些都要有余量。”

这意味着更多的创新。以包裹识别为例。Robin的感知系统需要能够识别一堆包裹,并知道从最上面的开始抓取,以避免弄倒整堆。“Robin也有如何做到这一点的感觉,但我们需要机器学习来加速Robin决定最有可能成功抓取哪个包裹的方式,因为我们不断添加新型包装,”Zhao解释道。

Chandrashekhar相信,基于机器人和包裹运动物理学的更强大的数字模拟将加速创新。“当我们讨论可变形的包裹时,比如装在软质邮件里的水瓶,这非常困难,”她说。“但我们正在接近目标。”

从长远来看,她希望看到能够自我学习的机器人,它们能自学如何少犯错并更快地从错误中恢复。自我学习也将使机器人更容易使用。“部署机器人不应该需要博士学位,”Swan说。

Hudson赞同道:“拥有一个能够自动适应的机器人群组是一个独特的机会。关于如何实现这一目标,还存在一些未解决的问题,包括单个机器人是否应该自行适应。该群体已经使用全球收集的数据更新其对物体的理解。我们如何也能让单个机器人适应它们在本地看到的问题——例如,如果一个吸盘被堵塞或撕裂了?”

最终,Swan希望利用某机构机器人研究人员所学到的知识来创造新型机器人。“我们仅仅触及了机器人可能性的表面,”他说。FINISHED