ChatGPT 人工智能 GPT4 伦理 生成式 医疗 监管 安全 机器学习 深度学习 神经网络 计算机视觉 强化学习 模型 算法 应用 开发 研究 工具 平台 框架 数据集 训练 部署 安全 合规 培训 投资 LLM,llm AI,ai,Ai 大模型 大语言模型 制图 生图 绘图 文生图 文生视频 生成式AI AGI 世界模型 sora chatGPT,chatgpt,ChatGpt claude openai Llama deepseek midjourney 红熊猫模型 Red panda,panda Stable Diffusion,StableDiffusion,stable DALL- E 3 DALL E DALL Flux,flux 扩散模型 混元大模型 文心一言 通义千问 可灵 Pika PixelDance 豆包 月之暗面 零一万物 阶跃星辰 搜索增强 MiniMax Talkie Agent prompt fastai LangChain TTS 微调 提示词 知识库 智能体
# 热门搜索 #
搜索
Ferret-UI 2:苹果最新跨平台通用GUI理解多模态大模型
5821点击    2024-11-01 12:27


Ferret-UI 2: Mastering Universal User Interface Understanding

Across Platforms


论文:

https://arxiv.org/abs/2410.18967v1


Ferret-UI 2 是苹果研究团队最新发表的一款先进的多模态大型语言模型(MLLM),旨在实现跨多个平台的通用用户界面(UI)理解。



与前身 Ferret-UI 相比,Ferret-UI 2 通过引入对多平台类型的支持、通过自适应缩放实现的高分辨率感知能力,以及利用GPT4o和视觉提示生成的高级任务训练数据,显著提升了UI的感知和交互能力。这些创新使得Ferret-UI 2能够更准确地识别和理解不同设备和操作系统上的UI元素,从而执行复杂的用户中心交互。



Ferret-UI 2 在多个基准测试中展现了卓越的性能,不仅在各种UI理解任务上超越了前代模型,还证明了其强大的跨平台迁移能力。实验结果表明,无论是在iPhone、Android、iPad、Webpage还是AppleTV上,Ferret-UI 2都能有效地理解和响应用户意图,处理高分辨率的UI截图,并在多样化的设备生态系统中无缝扩展。


技术解读


Ferret-UI 2 是一种多模态大型语言模型(MLLM),它通过结合先进的图像处理技术和自然语言理解能力,实现了对多种设备平台用户界面的广泛理解。该模型通过自适应缩放和视觉提示技术,能够精确地识别和操作不同分辨率和复杂度的UI元素,从而支持跨平台的用户交互。



Ferret-UI 2 的处理过程涉及从原始数据注释中构建训练数据集,并通过CLIP图像编码器提取UI截图的特征。其技术特点包括对多平台类型的支持,这意味着它可以处理来自iPhone、Android、iPad、Webpage和AppleTV等不同来源的UI界面。此外,模型采用自适应N网格方法来动态调整图像的分辨率,以保持在不同设备上的感知能力。



Ferret-UI 2 还利用GPT4o和视觉提示生成高级任务训练数据,这种方法通过在UI元素周围添加标记框和唯一编号,增强了模型对空间关系的理解,从而提高了训练数据的质量。在模型架构上,Ferret-UI 2 继承了Ferret-UI的基础,并通过引入自适应N网格机制进行了优化,以实现在给定推理成本限制下的最优网格配置。


总的来说,Ferret-UI 2 能够为广泛的设备生态系统提供统一的UI理解和交互能力。它不仅在多个基准测试中显示出卓越的性能,还证明了其在不同平台间的强迁移能力,这表明Ferret-UI 2是朝着创建一个能够适应多样化设备环境的通用UI代理迈出的重要一步。


论文解读


这篇论文介绍了Ferret-UI 2,一个用于跨平台用户界面(UI)理解的多模态大型语言模型(MLLM)。


以下是论文内容要点:


摘要


  • Ferret-UI 2是为了解决平台多样性、分辨率变化和数据限制等基础问题而设计的,能够跨多种平台(包括iPhone、Android、iPad、Webpage和AppleTV)进行UI理解。
  • 该模型在Ferret-UI的基础上引入了支持多平台类型、通过自适应缩放实现高分辨率感知、以及使用GPT4o和视觉提示生成高级任务训练数据等三项关键创新。
  • 实验表明,Ferret-UI 2在多个基准测试中显著优于Ferret-UI,并展示了强大的跨平台迁移能力。


1. 引言


  • 用户界面(UI)是人机交互的核心,随着平台的多样化,UI的复杂性也在增加。
  • Ferret-UI 2通过三项关键进步增强了UI感知和用户交互能力:多平台支持、动态高分辨率图像编码和高质量的多模态训练数据生成。


2. 相关工作


  • 论文回顾了单平台和多平台UI代理的研究进展,以及用于评估UI代理的专用基准测试。


3. Ferret-UI 2


  • 描述了如何从原始数据注释中策划训练数据集,并介绍了模型架构。
  • 数据集构建:包括从不同平台类型收集的数据,以及如何生成基本任务和高级任务的数据。
  • 模型架构:在Ferret-UI的基础上,使用CLIP图像编码器和自适应N网格方法来提取和编码UI截图的图像特征。


4. 实验


  • 训练数据:包括自己构建的数据集和公共数据集。
  • 模型:使用了不同的大型语言模型(LLM)作为背骨。
  • 评估:在构建的基准测试和公共基准测试上评估模型性能。


4.2 实验结果


  • 主要结果:Ferret-UI 2在所有测试基准上都显示出优于Ferret-UI的性能。
  • GUI-World基准测试结果:Ferret-UI 2具有良好的零样本迁移能力,能够在野外测试数据上泛化。


4.3 消融研究


  • 跨平台迁移能力:评估了Ferret-UI 2模型在不同平台间的迁移能力。
  • 架构和数据集改进的消融研究:比较了Ferret-UI和Ferret-UI 2在不同版本的iPhone数据集上的性能。


5. 结论


  • Ferret-UI 2通过支持多平台、高分辨率图像编码和改进的数据生成,在所有测试基准上都优于Ferret-UI,展示了强大的跨平台迁移能力。
  • 未来的工作将专注于增加更多平台类型,并构建一个用于通用UI导航的通用代理。


文章来自于“ADFeed”,作者“ADFeed”。


关键词: AI , GUI , 苹果GUI , Ferret-UI 2