Ferret-UI 2:苹果最新跨平台通用GUI理解多模态大模型

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
AITNT-国内领先的一站式人工智能新闻资讯网站 搜索
Ferret-UI 2:苹果最新跨平台通用GUI理解多模态大模型
6594点击    2024-11-01 12:27

Ferret-UI 2:苹果最新跨平台通用GUI理解多模态大模型


Ferret-UI 2: Mastering Universal User Interface Understanding

Across Platforms


论文:

https://arxiv.org/abs/2410.18967v1


Ferret-UI 2 是苹果研究团队最新发表的一款先进的多模态大型语言模型(MLLM),旨在实现跨多个平台的通用用户界面(UI)理解。


Ferret-UI 2:苹果最新跨平台通用GUI理解多模态大模型


与前身 Ferret-UI 相比,Ferret-UI 2 通过引入对多平台类型的支持、通过自适应缩放实现的高分辨率感知能力,以及利用GPT4o和视觉提示生成的高级任务训练数据,显著提升了UI的感知和交互能力。这些创新使得Ferret-UI 2能够更准确地识别和理解不同设备和操作系统上的UI元素,从而执行复杂的用户中心交互。


Ferret-UI 2:苹果最新跨平台通用GUI理解多模态大模型

Ferret-UI 2:苹果最新跨平台通用GUI理解多模态大模型


Ferret-UI 2 在多个基准测试中展现了卓越的性能,不仅在各种UI理解任务上超越了前代模型,还证明了其强大的跨平台迁移能力。实验结果表明,无论是在iPhone、Android、iPad、Webpage还是AppleTV上,Ferret-UI 2都能有效地理解和响应用户意图,处理高分辨率的UI截图,并在多样化的设备生态系统中无缝扩展。


技术解读


Ferret-UI 2 是一种多模态大型语言模型(MLLM),它通过结合先进的图像处理技术和自然语言理解能力,实现了对多种设备平台用户界面的广泛理解。该模型通过自适应缩放和视觉提示技术,能够精确地识别和操作不同分辨率和复杂度的UI元素,从而支持跨平台的用户交互。


Ferret-UI 2:苹果最新跨平台通用GUI理解多模态大模型


Ferret-UI 2 的处理过程涉及从原始数据注释中构建训练数据集,并通过CLIP图像编码器提取UI截图的特征。其技术特点包括对多平台类型的支持,这意味着它可以处理来自iPhone、Android、iPad、Webpage和AppleTV等不同来源的UI界面。此外,模型采用自适应N网格方法来动态调整图像的分辨率,以保持在不同设备上的感知能力。


Ferret-UI 2:苹果最新跨平台通用GUI理解多模态大模型

Ferret-UI 2:苹果最新跨平台通用GUI理解多模态大模型


Ferret-UI 2 还利用GPT4o和视觉提示生成高级任务训练数据,这种方法通过在UI元素周围添加标记框和唯一编号,增强了模型对空间关系的理解,从而提高了训练数据的质量。在模型架构上,Ferret-UI 2 继承了Ferret-UI的基础,并通过引入自适应N网格机制进行了优化,以实现在给定推理成本限制下的最优网格配置。


总的来说,Ferret-UI 2 能够为广泛的设备生态系统提供统一的UI理解和交互能力。它不仅在多个基准测试中显示出卓越的性能,还证明了其在不同平台间的强迁移能力,这表明Ferret-UI 2是朝着创建一个能够适应多样化设备环境的通用UI代理迈出的重要一步。


论文解读


这篇论文介绍了Ferret-UI 2,一个用于跨平台用户界面(UI)理解的多模态大型语言模型(MLLM)。


以下是论文内容要点:


摘要


  • Ferret-UI 2是为了解决平台多样性、分辨率变化和数据限制等基础问题而设计的,能够跨多种平台(包括iPhone、Android、iPad、Webpage和AppleTV)进行UI理解。
  • 该模型在Ferret-UI的基础上引入了支持多平台类型、通过自适应缩放实现高分辨率感知、以及使用GPT4o和视觉提示生成高级任务训练数据等三项关键创新。
  • 实验表明,Ferret-UI 2在多个基准测试中显著优于Ferret-UI,并展示了强大的跨平台迁移能力。


1. 引言


  • 用户界面(UI)是人机交互的核心,随着平台的多样化,UI的复杂性也在增加。
  • Ferret-UI 2通过三项关键进步增强了UI感知和用户交互能力:多平台支持、动态高分辨率图像编码和高质量的多模态训练数据生成。


2. 相关工作


  • 论文回顾了单平台和多平台UI代理的研究进展,以及用于评估UI代理的专用基准测试。


3. Ferret-UI 2


  • 描述了如何从原始数据注释中策划训练数据集,并介绍了模型架构。
  • 数据集构建:包括从不同平台类型收集的数据,以及如何生成基本任务和高级任务的数据。
  • 模型架构:在Ferret-UI的基础上,使用CLIP图像编码器和自适应N网格方法来提取和编码UI截图的图像特征。


4. 实验


  • 训练数据:包括自己构建的数据集和公共数据集。
  • 模型:使用了不同的大型语言模型(LLM)作为背骨。
  • 评估:在构建的基准测试和公共基准测试上评估模型性能。


4.2 实验结果


  • 主要结果:Ferret-UI 2在所有测试基准上都显示出优于Ferret-UI的性能。
  • GUI-World基准测试结果:Ferret-UI 2具有良好的零样本迁移能力,能够在野外测试数据上泛化。


4.3 消融研究


  • 跨平台迁移能力:评估了Ferret-UI 2模型在不同平台间的迁移能力。
  • 架构和数据集改进的消融研究:比较了Ferret-UI和Ferret-UI 2在不同版本的iPhone数据集上的性能。


5. 结论


  • Ferret-UI 2通过支持多平台、高分辨率图像编码和改进的数据生成,在所有测试基准上都优于Ferret-UI,展示了强大的跨平台迁移能力。
  • 未来的工作将专注于增加更多平台类型,并构建一个用于通用UI导航的通用代理。


文章来自于“ADFeed”,作者“ADFeed”。


Ferret-UI 2:苹果最新跨平台通用GUI理解多模态大模型

关键词: AI , GUI , 苹果GUI , Ferret-UI 2
AITNT-国内领先的一站式人工智能新闻资讯网站