ChatGPT 人工智能 GPT4 伦理 生成式 医疗 监管 安全 机器学习 深度学习 神经网络 计算机视觉 强化学习 模型 算法 应用 开发 研究 工具 平台 框架 数据集 训练 部署 安全 合规 培训 投资 LLM,llm AI,ai,Ai 大模型 大语言模型 制图 生图 绘图 文生图 文生视频 生成式AI AGI 世界模型 sora chatGPT,chatgpt,ChatGpt claude openai Llama deepseek midjourney 红熊猫模型 Red panda,panda Stable Diffusion,StableDiffusion,stable DALL- E 3 DALL E DALL Flux,flux 扩散模型 混元大模型 文心一言 通义千问 可灵 Pika PixelDance 豆包 月之暗面 零一万物 阶跃星辰 搜索增强 MiniMax Talkie Agent prompt fastai LangChain TTS 微调 提示词 知识库 智能体
# 热门搜索 #
搜索
控制电脑手机的智能体人人都能造,微软开源OmniParser
9934点击    2024-10-26 20:18

大模型控制计算机果真就是未来方向?


最近这几天,让大模型具备控制计算机(包括电脑和手机)的相关研究和应用如雨后春笋般不断涌现。


先是 Anthropic 发布了能控制计算机的新版 Claude 3.5 Sonnet,之后荣耀 MagicOS 9.0 来了个全局智能体,再然后,昨天智谱发布了具备「全栈式工具使用能力」的 AutoGLM,同时华为也公布了一项可让 AI 像人类一样操作手机的新研究成果 LiMAC


很显然,这股热潮完全没有要停息的意思。今天,有网友发现苹果已经默默发布了 Ferret-UI 的两个实现版本(分别基于 Gemma 2B 和 Llama 8B),这是苹果今年五月发布的一个可让 AI 理解手机屏幕的技术,详情参阅《让大模型理解手机屏幕,苹果多模态 Ferret-UI 用自然语言操控手机》。


来自 X 用户 Niels Rogge


  • Ferret-UI 项目地址:https://huggingface.co/papers/2404.05719


不仅如此,微软也低调开源了他们的相关研究 OmniParser,这是一个基于大模型的屏幕解析工具,可将 UI 截图转换成结构化的元素;据称其解析和理解 UI 的能力达到了当前最佳水平,甚至超越了 GPT-4V。



  • 项目地址:https://huggingface.co/microsoft/OmniParser
  • 代码地址:https://github.com/microsoft/OmniParser
  • 论文标题:OmniParser for Pure Vision Based GUI Agent
  • 论文地址:https://arxiv.org/abs/2408.00203


有了这个工具,或许每个人都可以创建自己的计算机操控智能体了。



先来看看 OmniParser 的效果。对于一个用户任务:「将约翰内斯堡提供素食选择的餐厅保存到我的行程中」。


OmniParser 首先会解析 Tripadvisor 网页屏幕上的所有元素,然后它成功从中找到了「餐厅」选项。之后它点击(动作执行需要搭配其它模型)该选项,打开了一个搜索框。OmniParser 继续解析,这一次没有在屏幕上找到所需关键词,于是它在搜索框中输入了「约翰内斯堡」。再次解析后,它打开了相应的搜索项,展开了搜索结果。同样,继续解析,它成功定位到了素食选项,然后进行了勾选。最后,点击筛选出的第一个选项上的相应按钮将其收藏到行程中。至此,任务完成。



而如果你想看看能否进入布莱斯峡谷国家公园呢?OmniParser 也能助你轻松完成。



整体来看,OmniParser 的解析能力非常出色,过程也还算流畅。


我们知道,不同的操作系统和应用有着大不相同的交互界面。为了稳健地应对各种不同情况,屏幕解析模型需要:


  1. 可靠地识别交互界面内可交互的图标;
  2. 理解屏幕截图中各种不同元素的含义,并将计划动作与屏幕上相应的区域准确地关联起来。


OmniParser 正是为这一目的而生的。OmniParser 可基于用户任务和 UI 截图输出:(1) 解析后的截图,带有边界框和数值 ID,(2) 包含提取出的文本和图标描述的局部语义。下面展示了几个例子:



如果再搭配上其它可以基于 UI 采取行动的模型(比如 GPT-4V、Phi-3.5 和 Llama 3.2),便可以创造出可以理解并控制计算机的智能体。


该团队用 GPT-4V 做了实验,结果发现 OmniParser 能大幅提升其为界面区域生成精准动作的能力。他们使用 OmniParser 和 GPT-4V 创建的一个智能体在 WindowsAgentArena 基准上达到了最佳水平。


OmniParser 是如何炼成的?


收集和整理专用数据集 ——OmniParser 的开发始于创建两个数据集:


  • 一个可交互区域检测数据集,该数据集收集整理自常见的网页,其中可点击和可操作的区域都做了标注。
  • 一个图标描述数据集,旨在将每个 UI 元素与其相应的功能关联起来。在训练模型以理解检测到的元素的语义方面,此数据集非常关键。


下面展示了可交互区域检测数据集的一些样本示例。



对检测和描述模型进行微调 ——OmniParser 使用了两个互补的模型:


  • 一个检测模型,在可交互图标数据集上进行了微调,其能可靠地识别屏幕截图中的可操作区域。
  • 一个描述模型,在图标描述数据集上完成了训练,其作用是提取检测到的元素的功能语义,为预期操作生成准确符合上下文的描述。


性能表现


该团队对自己的方法进行了实验验证。结果发现,OmniParser 可大幅提升 GPT-4V 在 ScreenSpot 基准上的性能。



在 Mind2Web 基准上,OmniParser + GPT-4V 的表现也胜过可从 HTML 提取额外信息的 GPT-4V。



在 AITW 基准上,OmniParser 的表现优于一个经过增强的 GPT-4V—— 附带了一个使用视图图层训练的专用 Android 图标检测模型。



另外,其在新基准 WindowsAgentArena 上也达到了最佳性能。



OmniParser 可作为当前各种视觉 - 语言模型(VLM)的插件。为了进一步演示这一点,该团队也测试了其与 Phi-3.5-V 和 Llama-3.2-V 的组合。



该团队表示:「我们希望 OmniParser 可以作为一种通用且易于使用的工具,在 PC 和移动平台上解析用户的屏幕,而无需依赖 HTML 和 Android 中的视图图层等额外信息。」


不知道如果将 OmniParser 与新版 Claude 3.5 Sonnet 的 Computer Use 结合起来会是什么效果?可能会像这位网友说的,很赞吧。



文章来自于微信公众号 “机器之心”,作者“Panda”


关键词: AI , AI控制电脑 , OmniParser , LiMAC
AITNT资源拓展
根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考
1
智能体

【开源免费】AutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。

项目地址:https://github.com/Significant-Gravitas/AutoGPT


【开源免费】MetaGPT是一个“软件开发公司”的智能体项目,只需要输入一句话的老板需求,MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色,包括产品经理 / 架构师 / 项目经理 / 工程师,MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。

项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md

2
微调

【开源免费】XTuner 是一个高效、灵活、全能的轻量化大模型微调工具库。它帮助开发者提供一个简单易用的平台,可以对大语言模型(LLM)和多模态图文模型(VLM)进行预训练和轻量级微调。XTuner 支持多种微调算法,如 QLoRA、LoRA 和全量参数微调。

项目地址:https://github.com/InternLM/xtuner