AI资讯新闻榜单内容搜索-GUI

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
AITNT-国内领先的一站式人工智能新闻资讯网站 搜索
搜索: GUI
浙大&港理工等提出InfiGUI-R1:利用强化学习,让GUI智能体学会规划任务、反思错误

浙大&港理工等提出InfiGUI-R1:利用强化学习,让GUI智能体学会规划任务、反思错误

浙大&港理工等提出InfiGUI-R1:利用强化学习,让GUI智能体学会规划任务、反思错误

当前,多模态大模型驱动的图形用户界面(GUI)智能体在自动化手机、电脑操作方面展现出巨大潜力。然而,一些现有智能体更类似于「反应式行动者」(Reactive Actors),主要依赖隐式推理,面对需要复杂规划和错误恢复的任务时常常力不从心。

来自主题: AI技术研报
6837 点击    2025-05-02 20:21
AI也能操作手机了!DroidRun 让 Agent 实现智能手机自动化操作!

AI也能操作手机了!DroidRun 让 Agent 实现智能手机自动化操作!

AI也能操作手机了!DroidRun 让 Agent 实现智能手机自动化操作!

继 BrowserUse 和 ComputerUse 席卷 AI 自动化领域后,手机操作类项目终于迎来重磅选手:DroidRun!开源 AI 手机操作神器,解锁 Android 自动化新时代!

来自主题: AI资讯
6884 点击    2025-04-16 09:31
移动GUI智能体迈向实用化!全新验证器架构V-Droid,刷新成功率纪录

移动GUI智能体迈向实用化!全新验证器架构V-Droid,刷新成功率纪录

移动GUI智能体迈向实用化!全新验证器架构V-Droid,刷新成功率纪录

移动GUI自动化智能体V-Droid采用「验证器驱动」架构,通过离散化动作空间并利用LLM评估候选动作,实现了高效决策。在AndroidWorld等多个基准测试中任务成功率分别达到59.5%、38.3%和49%,决策延迟仅0.7秒,接近实时响应。

来自主题: AI技术研报
5780 点击    2025-04-15 14:53
智能体丝滑玩手机,决策延迟0.7秒!MSRA等提出验证器架构,不直接依赖大模型生成最终操作

智能体丝滑玩手机,决策延迟0.7秒!MSRA等提出验证器架构,不直接依赖大模型生成最终操作

智能体丝滑玩手机,决策延迟0.7秒!MSRA等提出验证器架构,不直接依赖大模型生成最终操作

随着人工智能和大语言模型(LLMs)的不断突破,如何将其优势赋能于现实世界中可实际部署的高效工具,成为了业界关注的焦点。

来自主题: AI技术研报
2506 点击    2025-04-03 15:19
AI玩手机越玩越6!西湖大学发布新智能体:会自我进化的AppAgentX

AI玩手机越玩越6!西湖大学发布新智能体:会自我进化的AppAgentX

AI玩手机越玩越6!西湖大学发布新智能体:会自我进化的AppAgentX

人工智能正迎来前所未有的变革,其中,大语言模型(LLM)的崛起推动了智能系统从信息处理向自主交互迈进。

来自主题: AI技术研报
6956 点击    2025-03-09 13:39
微软GUI智能体OmniParser二代开源!推理延迟降低60%,大模型玩手机更溜了

微软GUI智能体OmniParser二代开源!推理延迟降低60%,大模型玩手机更溜了

微软GUI智能体OmniParser二代开源!推理延迟降低60%,大模型玩手机更溜了

OmniParser V2可将屏幕截图转换为结构化元素,帮助LLM理解和操作GUI;在检测小图标和推理速度上显著提升,延迟降低60%,与多种LLM结合后表现优异。

来自主题: AI技术研报
7817 点击    2025-03-07 16:14
引领人机交互革命?微软研究团队发布80页的大模型GUI智能体综述

引领人机交互革命?微软研究团队发布80页的大模型GUI智能体综述

引领人机交互革命?微软研究团队发布80页的大模型GUI智能体综述

图形用户界面(Graphical User Interface, GUI)作为数字时代最具代表性的创新之一,大幅简化了人机交互的复杂度。

来自主题: AI技术研报
7371 点击    2025-01-09 14:39
Ferret-UI 2:苹果最新跨平台通用GUI理解多模态大模型

Ferret-UI 2:苹果最新跨平台通用GUI理解多模态大模型

Ferret-UI 2:苹果最新跨平台通用GUI理解多模态大模型

Ferret-UI 2 是苹果研究团队最新发表的一款先进的多模态大型语言模型(MLLM),旨在实现跨多个平台的通用用户界面(UI)理解。

来自主题: AI技术研报
6651 点击    2024-11-01 12:27
OmniParser:微软重磅打造的提升GUI代理性能的屏幕解析利器

OmniParser:微软重磅打造的提升GUI代理性能的屏幕解析利器

OmniParser:微软重磅打造的提升GUI代理性能的屏幕解析利器

OmniParser 是由微软研究院提出的一个创新性工具,旨在通过解析用户界面截图来增强基于视觉的图形用户界面(GUI)代理的性能。

来自主题: AI技术研报
5331 点击    2024-11-01 12:13