AI资讯新闻榜单内容搜索-模型

IEEE | LLM Agent的能力边界在哪？首篇「图智能体 (GLA)」综述为复杂系统构建统一蓝图

LLM Agent 正以前所未有的速度发展，从网页浏览、软件开发到具身控制，其强大的自主能力令人瞩目。然而，繁荣的背后也带来了研究的「碎片化」和能力的「天花板」：多数 Agent 在可靠规划、长期记忆、海量工具管理和多智能体协调等方面仍显稚嫩，整个领域仿佛一片广袤却缺乏地图的丛林。

来自主题: AI技术研报

7918 点击 2025-11-10 09:20

小成本DeepSeek和Kimi，正攻破奥特曼的「算力护城河」

2025年前盛行的闭源+重资本范式正被DeepSeek-R1与月之暗面Kimi K2 Thinking改写，二者以数百万美元成本、开源权重，凭MoE与MuonClip等优化，在SWE-Bench与BrowseComp等基准追平或超越GPT-5，并以更低API价格与本地部署撬动市场预期，促使行业从砸钱堆料转向以架构创新与稳定训练为核心的高效路线。

来自主题: AI资讯

9699 点击 2025-11-10 09:19

全球第二、国内第一！最强文本的文心5.0 Preview一手实测来了

「Baidu is back」，在业界权威大模型公共基准测试平台 LMArena 发布最新一期文本竞技场排名（Text Arena）之后，有人发出了这样的惊呼。根据 11 月 8 日凌晨 LMArena 的最新排名显示，百度文心最新模型 ERNIE-5.0-Preview-1022（文心 5.0 Preview）在文本榜单上一举跃居全球并列第二、国内第一。

来自主题: AI资讯

8473 点击 2025-11-10 09:18

马斯克Grok 4深夜大升级：200万逆天上下文、五倍GPT-5「脑容量」！

太快了！一天之内Grok连迎两大更新——Grok 4 Fast与Grok Imagine都进行了大升级。Grok 4 Fast把上下文窗口提高到2M，并把完成率拉到94.1%（推理）与97.9%（非推理）。这意味着，你不必再把一本书或一整个代码库切碎喂给模型，它可以一次吞下，然后稳定地给出结果。

来自主题: AI资讯

8973 点击 2025-11-09 15:42

机器人训练，北京男大有了技能玩法

还得是大学生会玩啊（doge）！网上正高速冲浪中，结果意外发现：有男大竟找了个机器人队友？而且机器人还相当黏人（bushi~ 白天超市打工它要跟着，一看东西装好就立马乐颠颠帮忙拉小推车，上楼下楼忙个不停：

来自主题: AI技术研报

6440 点击 2025-11-09 15:38

英伟达、DeepSeek集体跟进！18个月前被忽视，如今统治AI推理

2024年，加州大学圣地亚哥分校「Hao AI Lab」提出了DistServe的解耦推理理念，短短一年多时间，迅速从实验室概念成长为行业标准，被NVIDIA、vLLM等主流大模型推理框架采用，预示着AI正迈向「模块化智能」的新时代。

来自主题: AI技术研报

9789 点击 2025-11-09 15:37

LLM强化学习新框架！UCSD多智能体训练框架让LLM工具调用能力暴增5.8倍

现有的LLM智能体训练框架都是针对单智能体的，多智能体的“群体强化”仍是一个亟须解决的问题。为了解决这一领域的研究痛点，来自UCSD和英特尔的研究人员，提出了新的提出通用化多智能体强化学习框架——PettingLLMs。支持任意组合的多个LLM一起训练。

来自主题: AI技术研报

7129 点击 2025-11-09 15:36

改掉幻觉=杀死AI？Science曝光大模型「先天死穴」

《Science》的一篇新文章指出，大模型存在一个先天难解的软肋：幻觉难以根除。AI厂商让大模型在不确定性情况下说「我不知道」，虽然有助于减少模型幻觉，但可能因此影响用户留存与活跃度，动摇商业根本。

来自主题: AI技术研报

8951 点击 2025-11-09 15:35

银河通用全新模型统一机器人导航任务，7B参数模型支持实时部署

北京大学，银河通用，阿德莱德大学，浙江大学等机构合作，探究如何构建具身导航的基座模型（Embodied Navigation Foundation Model）提出了NavFoM，一个跨任务和跨载体的导航大模型。实现具身导航从“专用”到“通用”的技术跃进

来自主题: AI技术研报

7804 点击 2025-11-09 15:34

仅0.2B就比GPT-4.1强？加州大学新指标：组合推理基准首次超越人类

加州大学河滨分校团队发现，AI组合推理表现不佳部分源于评测指标过于苛刻。他们提出新指标GroupMatch和Test-Time Matching算法，挖掘模型潜力，使GPT-4.1在Winoground测试中首次超越人类，0.2B参数的SigLIP-B16在MMVP-VLM基准测试上超越GPT-4.1并刷新最优结果。这表明模型的组合推理能力早已存在，只需合适方法在测试阶段解锁。

来自主题: AI技术研报

7214 点击 2025-11-09 15:33