AI资讯新闻榜单内容搜索-LLM

AI玩手机越玩越6！西湖大学发布新智能体：会自我进化的AppAgentX

人工智能正迎来前所未有的变革，其中，大语言模型（LLM）的崛起推动了智能系统从信息处理向自主交互迈进。

来自主题: AI技术研报

7199 点击 2025-03-09 13:39

谁是最强AI研究助手？Meta等提出全新基准MLGym：LLM智能体大排名

AI研究智能体全新升级！Meta等推出MLGym，一个专门用于评估和开发LLM智能体的Gym环境。MLGym提供了标准化的基准测试，让LLM智能体在多任务挑战中展现真正实力。

来自主题: AI技术研报

7950 点击 2025-03-08 13:47

微软GUI智能体OmniParser二代开源！推理延迟降低60%，大模型玩手机更溜了

OmniParser V2可将屏幕截图转换为结构化元素，帮助LLM理解和操作GUI；在检测小图标和推理速度上显著提升，延迟降低60%，与多种LLM结合后表现优异。

来自主题: AI技术研报

8155 点击 2025-03-07 16:14

CVPR 2025｜北大开源多模态驱动的定制化漫画生成框架DiffSensei，还有4.3万页漫画数据集

北京大学、上海人工智能实验室、南洋理工大学联合推出 DiffSensei，首个结合多模态大语言模型（MLLM）与扩散模型的定制化漫画生成框架。该框架通过创新的掩码交叉注意力机制与文本兼容的角色适配器，实现了对多角色外观、表情、动作的精确控制

来自主题: AI技术研报

8452 点击 2025-03-07 14:15

开启空间智能问答新时代：Spatial-RAG框架来了

当涉及到空间推理任务时，LLMs 的表现却显得力不从心。空间推理不仅要求模型理解复杂的空间关系，还需要结合地理数据和语义信息，生成准确的回答。为了突破这一瓶颈，研究人员推出了 Spatial Retrieval-Augmented Generation (Spatial-RAG)—— 一个革命性的框架，旨在增强 LLMs 在空间推理任务中的能力。

来自主题: AI技术研报

5196 点击 2025-03-07 10:34