Ferret-UI 2：苹果最新跨平台通用GUI理解多模态大模型

6772点击 2024-11-01 12:27

Ferret-UI 2: Mastering Universal User Interface Understanding

Across Platforms

论文：

https://arxiv.org/abs/2410.18967v1

Ferret-UI 2 是苹果研究团队最新发表的一款先进的多模态大型语言模型（MLLM），旨在实现跨多个平台的通用用户界面（UI）理解。

Ferret-UI 2：苹果最新跨平台通用GUI理解多模态大模型

与前身 Ferret-UI 相比，Ferret-UI 2 通过引入对多平台类型的支持、通过自适应缩放实现的高分辨率感知能力，以及利用GPT4o和视觉提示生成的高级任务训练数据，显著提升了UI的感知和交互能力。这些创新使得Ferret-UI 2能够更准确地识别和理解不同设备和操作系统上的UI元素，从而执行复杂的用户中心交互。

Ferret-UI 2：苹果最新跨平台通用GUI理解多模态大模型

Ferret-UI 2 在多个基准测试中展现了卓越的性能，不仅在各种UI理解任务上超越了前代模型，还证明了其强大的跨平台迁移能力。实验结果表明，无论是在iPhone、Android、iPad、Webpage还是AppleTV上，Ferret-UI 2都能有效地理解和响应用户意图，处理高分辨率的UI截图，并在多样化的设备生态系统中无缝扩展。

技术解读

Ferret-UI 2 是一种多模态大型语言模型（MLLM），它通过结合先进的图像处理技术和自然语言理解能力，实现了对多种设备平台用户界面的广泛理解。该模型通过自适应缩放和视觉提示技术，能够精确地识别和操作不同分辨率和复杂度的UI元素，从而支持跨平台的用户交互。

Ferret-UI 2：苹果最新跨平台通用GUI理解多模态大模型

Ferret-UI 2 的处理过程涉及从原始数据注释中构建训练数据集，并通过CLIP图像编码器提取UI截图的特征。其技术特点包括对多平台类型的支持，这意味着它可以处理来自iPhone、Android、iPad、Webpage和AppleTV等不同来源的UI界面。此外，模型采用自适应N网格方法来动态调整图像的分辨率，以保持在不同设备上的感知能力。

Ferret-UI 2：苹果最新跨平台通用GUI理解多模态大模型

Ferret-UI 2 还利用GPT4o和视觉提示生成高级任务训练数据，这种方法通过在UI元素周围添加标记框和唯一编号，增强了模型对空间关系的理解，从而提高了训练数据的质量。在模型架构上，Ferret-UI 2 继承了Ferret-UI的基础，并通过引入自适应N网格机制进行了优化，以实现在给定推理成本限制下的最优网格配置。

总的来说，Ferret-UI 2 能够为广泛的设备生态系统提供统一的UI理解和交互能力。它不仅在多个基准测试中显示出卓越的性能，还证明了其在不同平台间的强迁移能力，这表明Ferret-UI 2是朝着创建一个能够适应多样化设备环境的通用UI代理迈出的重要一步。

论文解读

这篇论文介绍了Ferret-UI 2，一个用于跨平台用户界面（UI）理解的多模态大型语言模型（MLLM）。

以下是论文内容要点：

摘要：

Ferret-UI 2是为了解决平台多样性、分辨率变化和数据限制等基础问题而设计的，能够跨多种平台（包括iPhone、Android、iPad、Webpage和AppleTV）进行UI理解。
该模型在Ferret-UI的基础上引入了支持多平台类型、通过自适应缩放实现高分辨率感知、以及使用GPT4o和视觉提示生成高级任务训练数据等三项关键创新。
实验表明，Ferret-UI 2在多个基准测试中显著优于Ferret-UI，并展示了强大的跨平台迁移能力。

1. 引言：

用户界面（UI）是人机交互的核心，随着平台的多样化，UI的复杂性也在增加。
Ferret-UI 2通过三项关键进步增强了UI感知和用户交互能力：多平台支持、动态高分辨率图像编码和高质量的多模态训练数据生成。

2. 相关工作：

论文回顾了单平台和多平台UI代理的研究进展，以及用于评估UI代理的专用基准测试。

3. Ferret-UI 2：

描述了如何从原始数据注释中策划训练数据集，并介绍了模型架构。
数据集构建：包括从不同平台类型收集的数据，以及如何生成基本任务和高级任务的数据。
模型架构：在Ferret-UI的基础上，使用CLIP图像编码器和自适应N网格方法来提取和编码UI截图的图像特征。

4. 实验：

训练数据：包括自己构建的数据集和公共数据集。
模型：使用了不同的大型语言模型（LLM）作为背骨。
评估：在构建的基准测试和公共基准测试上评估模型性能。

4.2 实验结果：

主要结果：Ferret-UI 2在所有测试基准上都显示出优于Ferret-UI的性能。
GUI-World基准测试结果：Ferret-UI 2具有良好的零样本迁移能力，能够在野外测试数据上泛化。

4.3 消融研究：

跨平台迁移能力：评估了Ferret-UI 2模型在不同平台间的迁移能力。
架构和数据集改进的消融研究：比较了Ferret-UI和Ferret-UI 2在不同版本的iPhone数据集上的性能。

5. 结论：

Ferret-UI 2通过支持多平台、高分辨率图像编码和改进的数据生成，在所有测试基准上都优于Ferret-UI，展示了强大的跨平台迁移能力。
未来的工作将专注于增加更多平台类型，并构建一个用于通用UI导航的通用代理。

文章来自于“ADFeed”，作者“ADFeed”。

Ferret-UI 2：苹果最新跨平台通用GUI理解多模态大模型

关键词: AI , GUI , 苹果GUI , Ferret-UI 2