AI资讯新闻榜单内容搜索-模型

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
搜索: 模型
IEEE | LLM Agent的能力边界在哪?首篇「图智能体 (GLA)」综述为复杂系统构建统一蓝图

IEEE | LLM Agent的能力边界在哪?首篇「图智能体 (GLA)」综述为复杂系统构建统一蓝图

IEEE | LLM Agent的能力边界在哪?首篇「图智能体 (GLA)」综述为复杂系统构建统一蓝图

LLM Agent 正以前所未有的速度发展,从网页浏览、软件开发到具身控制,其强大的自主能力令人瞩目。然而,繁荣的背后也带来了研究的「碎片化」和能力的「天花板」:多数 Agent 在可靠规划、长期记忆、海量工具管理和多智能体协调等方面仍显稚嫩,整个领域仿佛一片广袤却缺乏地图的丛林。

来自主题: AI技术研报
7918 点击    2025-11-10 09:20
小成本DeepSeek和Kimi,正攻破奥特曼的「算力护城河」

小成本DeepSeek和Kimi,正攻破奥特曼的「算力护城河」

小成本DeepSeek和Kimi,正攻破奥特曼的「算力护城河」

2025年前盛行的闭源+重资本范式正被DeepSeek-R1与月之暗面Kimi K2 Thinking改写,二者以数百万美元成本、开源权重,凭MoE与MuonClip等优化,在SWE-Bench与BrowseComp等基准追平或超越GPT-5,并以更低API价格与本地部署撬动市场预期,促使行业从砸钱堆料转向以架构创新与稳定训练为核心的高效路线。

来自主题: AI资讯
9699 点击    2025-11-10 09:19
全球第二、国内第一!最强文本的文心5.0 Preview一手实测来了

全球第二、国内第一!最强文本的文心5.0 Preview一手实测来了

全球第二、国内第一!最强文本的文心5.0 Preview一手实测来了

「Baidu is back」,在业界权威大模型公共基准测试平台 LMArena 发布最新一期文本竞技场排名(Text Arena)之后,有人发出了这样的惊呼。根据 11 月 8 日凌晨 LMArena 的最新排名显示,百度文心最新模型 ERNIE-5.0-Preview-1022(文心 5.0 Preview)在文本榜单上一举跃居全球并列第二、国内第一。

来自主题: AI资讯
8473 点击    2025-11-10 09:18
马斯克Grok 4深夜大升级:200万逆天上下文、五倍GPT-5「脑容量」!

马斯克Grok 4深夜大升级:200万逆天上下文、五倍GPT-5「脑容量」!

马斯克Grok 4深夜大升级:200万逆天上下文、五倍GPT-5「脑容量」!

太快了!一天之内Grok连迎两大更新——Grok 4 Fast与Grok Imagine都进行了大升级。Grok 4 Fast把上下文窗口提高到2M,并把完成率拉到94.1%(推理)与97.9%(非推理)。这意味着,你不必再把一本书或一整个代码库切碎喂给模型,它可以一次吞下,然后稳定地给出结果。

来自主题: AI资讯
8973 点击    2025-11-09 15:42
机器人训练,北京男大有了技能玩法

机器人训练,北京男大有了技能玩法

机器人训练,北京男大有了技能玩法

还得是大学生会玩啊(doge)! 网上正高速冲浪中,结果意外发现:有男大竟找了个机器人队友?而且机器人还相当黏人(bushi~ 白天超市打工它要跟着,一看东西装好就立马乐颠颠帮忙拉小推车,上楼下楼忙个不停:

来自主题: AI技术研报
6440 点击    2025-11-09 15:38
英伟达、DeepSeek集体跟进!18个月前被忽视,如今统治AI推理

英伟达、DeepSeek集体跟进!18个月前被忽视,如今统治AI推理

英伟达、DeepSeek集体跟进!18个月前被忽视,如今统治AI推理

2024年,加州大学圣地亚哥分校「Hao AI Lab」提出了DistServe的解耦推理理念,短短一年多时间,迅速从实验室概念成长为行业标准,被NVIDIA、vLLM等主流大模型推理框架采用,预示着AI正迈向「模块化智能」的新时代。

来自主题: AI技术研报
9789 点击    2025-11-09 15:37
LLM强化学习新框架!UCSD多智能体训练框架让LLM工具调用能力暴增5.8倍

LLM强化学习新框架!UCSD多智能体训练框架让LLM工具调用能力暴增5.8倍

LLM强化学习新框架!UCSD多智能体训练框架让LLM工具调用能力暴增5.8倍

现有的LLM智能体训练框架都是针对单智能体的,多智能体的“群体强化”仍是一个亟须解决的问题。为了解决这一领域的研究痛点,来自UCSD和英特尔的研究人员,提出了新的提出通用化多智能体强化学习框架——PettingLLMs。支持任意组合的多个LLM一起训练。

来自主题: AI技术研报
7129 点击    2025-11-09 15:36
改掉幻觉=杀死AI?Science曝光大模型「先天死穴」

改掉幻觉=杀死AI?Science曝光大模型「先天死穴」

改掉幻觉=杀死AI?Science曝光大模型「先天死穴」

《Science》的一篇新文章指出,大模型存在一个先天难解的软肋:幻觉难以根除。AI厂商让大模型在不确定性情况下说「我不知道」,虽然有助于减少模型幻觉,但可能因此影响用户留存与活跃度,动摇商业根本。

来自主题: AI技术研报
8951 点击    2025-11-09 15:35
银河通用全新模型统一机器人导航任务,7B参数模型支持实时部署

银河通用全新模型统一机器人导航任务,7B参数模型支持实时部署

银河通用全新模型统一机器人导航任务,7B参数模型支持实时部署

北京大学,银河通用,阿德莱德大学,浙江大学等机构合作,探究如何构建具身导航的基座模型(Embodied Navigation Foundation Model)提出了NavFoM,一个跨任务和跨载体的导航大模型。实现具身导航从“专用”到“通用”的技术跃进

来自主题: AI技术研报
7804 点击    2025-11-09 15:34
仅0.2B就比GPT-4.1强?加州大学新指标:组合推理基准首次超越人类

仅0.2B就比GPT-4.1强?加州大学新指标:组合推理基准首次超越人类

仅0.2B就比GPT-4.1强?加州大学新指标:组合推理基准首次超越人类

加州大学河滨分校团队发现,AI组合推理表现不佳部分源于评测指标过于苛刻。他们提出新指标GroupMatch和Test-Time Matching算法,挖掘模型潜力,使GPT-4.1在Winoground测试中首次超越人类,0.2B参数的SigLIP-B16在MMVP-VLM基准测试上超越GPT-4.1并刷新最优结果。这表明模型的组合推理能力早已存在,只需合适方法在测试阶段解锁。

来自主题: AI技术研报
7214 点击    2025-11-09 15:33