他们好像在玩一种很新的东西: Embodied AI(3)webSHop

470 阅读3分钟

介绍

目前人类语言和机器交互方面工作的阻碍,主要来源于基础语言库的缺失,以及在真实环境中的反馈需要人工参与,而这部分的数据集获取代价较高。为了弥补这个问题,作者提出webshop: 模拟电商网站(有1百多万的商品和1万多对应的文本描述),给定文本描述后,需要在许多的 web网站中,找到满足描述条件的商品页面,并且执行购买行文。对 webshop 而言的挑战是: 需要理解复杂的语义,定义问题,理解问题并且找到最佳购买策略。

方法

Rule-Based

基于规则的方法最简单的就是一个IR,抽取 instruction 中的文本描述,直接检索,然后将检索到的第一条信息返回即可,没有任何的 reward learning 过程。

webshop

一个真实的 webshop 环境如下图所示,将其拆解为三个部分: A 部分看做是用户在web上的操作历程,首先有自己对目标的 instruction,然后根据自身所需,搜索想要的商品,得到结果页面后,点击搜索的 item,可以看到具体商品属性、商详页、购买按钮等信息,如果点击了购买,那就是一个满分 reward; B 部分则是根据语言解析后执行的 action序列;C 部分展示了指令对应搜索结果序列及结果属性。 截屏2023-02-04 下午11.22.39.png

具体的模型如下: 将搜索到的商品通过 resNet 得到图片表述,输入的 instruction 通过 transform 生成搜索的query;然后将两者联合,再通过注意力机制,预测对应的最佳 action,然后再决定下一步的动作。

截屏2023-02-04 下午11.29.09.png

整体的复杂度并不是很高,不过工作的意义蛮重大的,至少对我来说很有吸引力,毕竟每天花在淘宝上的时间真的太多了。有的时候就想买一个东西,却不知道在哪个网站才能买到性价比最高、最能满足我需求的东西。如果 AI 能帮忙干好这件事情,简直是部分女性的福音啊

效果

最终评估的时候,除了基本的模型评估外,还采用了人工对比的方式。实验表明, webshop 的准确率在 29%, 虽然比人工专家的准确率 (59%) 要低,但是比基于规则的方法(9.6%) 还是要好很多。通过尝试不同模型的组合来达到更好的语义理解和策略决定,并且在亚马逊网站上做了实验,发现webshop的决策与模拟真实的决策相媲美,证明 webshop 是可以在真实的世界中运行的。

WebShop: Towards Scalable Real-World Web Interaction with Grounded Language Agents: arxiv.org/abs/2207.01…

开启掘金成长之旅!这是我参与「掘金日新计划 · 2 月更文挑战」的第 4 天,点击查看活动详情