获得徽章 27
掘金运营团队
风清扬重出江湖
Captaincc于2024-04-10 11:41发布的图片
5
苹果发布了专门用于理解应用 UI 界面的 MLLLM Ferret-UI 。
专门针对移动UI屏幕进行了优化,具备了指向、定位和推理等多种能力。
看来 iOS 18 有可能会有类似通过Siri自动操作应用界面的能力?
---------详细介绍---------
介绍与特点:
Ferret-UI是一个新的MLLM,专门为提高对移动UI屏幕的理解而设计。它具备引用、定位和推理能力,
能够处理UI屏幕上的各种任务。Ferret-UI的一个关键特点是其“任何分辨率”(any resolution)技术,该技术通过放大细节来解决UI屏幕中小型对象的识别问题,从而提高模型对UI元素的理解精度。
移动用户界面(UI)屏幕的理解:
UI屏幕的理解是一个复杂的问题,因为它不仅要求模型能够理解屏幕上的内容,还要能够识别和操作具体的UI元素。
与传统的自然图像相比,UI屏幕通常具有更多的长宽比和更小的元素,这些元素对于模型来说是一个挑战。此外,UI屏幕的理解还涉及到对屏幕元素间关系的识别,以及对用户可能采取的行动的预测。

“任何分辨率”(any resolution)技术的应用:

为了克服UI屏幕中的小对象识别问题,Ferret-UI采用了“任何分辨率”技术。该技术通过将屏幕分割成基于原始宽高比的子图像,并对每个子图像进行单独编码,从而在不丢失重要视觉信号的情况下放大细节。

这种方法使得模型能够更准确地识别和理解UI屏幕上的小型对象。

训练样本的收集与任务制定:

Ferret-UI的训练涉及从基础UI任务到高级任务的广泛数据样本收集。这些样本被格式化为带有区域注释的指令遵循格式,以便于模型进行精确的引用和定位。

此外,为了提高模型的推理能力,还特别编制了一个包含详细描述、感知/交互对话和功能推断等高级任务的数据集。
模型架构与数据集的建立:
Ferret-UI的架构基于Ferret模型,后者在自然图像的引用和定位任务中表现出色。为了适应UI屏幕的特点,Ferret-UI进行了架构调整,包括集成“任何分辨率”技术和使用预定义的网格配置来划分全图图像。
此外,为了全面评估模型的能力,还建立了一个包含所有研究任务的综合测试基准。
高级任务中的对话能力:
此外,Ferret-UI还能够通过功能推断来解释屏幕的整体目的,显示出在理解和生成自然语言指令方面的高级能力。
展开
Captaincc于2024-04-09 12:23发布的图片
2
Captaincc
VIP.5 如鱼得水
关注了
问题解决官 @juejin.cn
Captaincc
VIP.5 如鱼得水
关注了
问题解决官 @juejin.cn
Captaincc
VIP.5 如鱼得水
关注了
问题解决官 @juejin.cn
Captaincc
VIP.5 如鱼得水
关注了
蓝胖子的编程梦
VIP.1 初学乍练
问题解决官 @juejin.cn
Captaincc
VIP.5 如鱼得水
关注了
问题解决官 @juejin.cn
下一页
个人成就
社区共建者
优秀创作者
文章被点赞 538
文章被阅读 76,419
掘力值 2,062
掘金运营团队
收藏集
5
关注标签
103
加入于