3B激活参数!商汤绝影Sage登顶PinchBench,端侧第一

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
3B激活参数!商汤绝影Sage登顶PinchBench,端侧第一
8033点击    2026-04-22 18:52

一个3B激活参数的端侧模型,在全球Agent权威评测中,以94%任务完成率,超越了Claude、GPT-5.4、Gemini等国际主流云侧和端侧大模型。商汤绝影Sage来了,它不是「更聪明的语音助手「,而是第一个真正能在车里「办成复杂事「的智能体基座。


有人可能不信。


一个部署在车端的小模型,凭什么在Agent评测上赢过Claude、GPT-5.4?


数字摆在这里——在公开Agent评测基准PinchBench上,商汤绝影Sage端侧大模型最佳任务完成率:94%


同场较量的对手?Claude-Opus-4.6(93.3%)、GPT-5.4(90.5%)、Google-Gemini-3(87.0%)、Qwen3.5-27B(90.0%)……全部落后。


3B激活参数!商汤绝影Sage登顶PinchBench,端侧第一


3B激活参数!商汤绝影Sage登顶PinchBench,端侧第一


这不是一场「以大打大」的胜利。


Sage的激活参数只有3B,总参数量32B(MoE架构)。而小米MiMo-v2-Pro的激活参数是42B、总参数规模超1T——Sage所需激活算力仅为其1/14,显存占用约为其1/31,但在PinchBench上的任务完成率仍高出6.6个百分点。


3B激活参数!商汤绝影Sage登顶PinchBench,端侧第一


1/14的算力,多出6.6个百分点。


这是什么概念?


这意味着一件事被彻底证明了:「只有大模型才能做好Agent任务」,这个判断,错了。


从「听懂指令「到「说到做到」

座舱缺的从来不是语音


先说说这个问题的背景。


今天的智能座舱,卡在哪儿?


不是没有AI,是AI「太浅了」。


用户说「帮我订今晚回北京的高铁,顺便把车内温度调低两度」——现有的语音助手,大概率会拆解成两件事分开问你确认,甚至直接说「我不太明白您的意思」。


这叫「能听懂指令」,但不叫「能办成一件复杂的事」。


真正的Agent能力,需要模型跨越多个步骤、多个工具、多轮推理,最终完成任务闭环。这种能力,过去只存在于云端大模型里。


原因很直接:车端芯片算力有限,大参数模型跑不动;小模型又没有足够的推理深度。


智能座舱因此陷入两难:


依赖云端:有延迟、有成本、有断网风险; 坚守端侧:有响应速度,但没有真正的智能体能力。


Sage的发布,第一次打破了这个僵局。


效果先看

Sage在车里能「干」什么


空谈技术路线,不如先看能力。


场景一:复合指令一次解析,多系统自动联动


用户说:「今晚出门晚,车内预热一下,帮我把导航设回家,音乐切换到轻松一点的。」


Sage不需要用户一句一句确认。


它一次性解析复合指令,自动联动空调、导航、音乐三个系统,完成任务闭环——整个流程,首字响应约0.5秒,用户几乎感觉不到「等待」。


场景二:主动感知,不等唤醒


后排坐着孩子,传感器检测到,Sage主动触发儿童模式:锁定车窗控制权、切换适龄内容、调整音量上限。


没有人唤醒它,它已经做了。


场景三:实时路况判断,主动提出方案


进入拥堵路段,结合实时路况感知,Sage主动问:「当前路段预计延误23分钟,是否切换到备选路线?」


不只是回答,而是主动发起。


这三个场景,指向同一个能力转变:Sage不再是「被动唤醒、单次响应」的语音助手,而是一个真正懂场景、会主动思考的出行伙伴。


在OrinX平台部署下,Sage可实现首字响应(TTFT)约0.5秒、单Token推理延迟(TPOT)低至0.03秒、生成吞吐达到80tk/s,平均任务时长优于主流API模型,保证座舱体验的稳定性和实时感。


两项黑科技

一个让它「学得快」

一个让它「做事不出错」


Sage在PinchBench跑赢一众大模型的背后,真正的功臣是商汤绝影自研的两项后训练技术:SCOUTERL


SCOUT:省60%算力,让车载AI快速「学会」复杂出行任务


全称:Sub-Scale Collaboration on Unseen Tasks(分级协同学习框架)。


它解决的是一个工程现实问题——让大模型学习复杂任务,太贵了。


出行场景涉及空间规划、多设备联动、多步决策,直接让大模型在真实任务中自己反复试错,既慢又烧算力。


SCOUT的思路是「探路与吸收解耦」:先派一个轻量小模型快速跑一遍,把走得通的路径筛出来,再把这些高价值经验喂给大模型学习。


用类比来说,就是「小模型先探路、踩雷、找通道,大模型再吸收精华、直接上手」。


结果是:在复杂任务能力注入过程中,GPU小时消耗节省约60%,同时快速掌握更多真实用车场景技能。


技术论文已上传arXiv:https://arxiv.org/abs/2601.21754


ERL:让模型「边想边纠错」,任务完成率提升20%


全称:Erasable Reinforcement Learning(可擦除强化学习)。


这项技术已被机器学习顶级会议ICLR 2026收录。


它解决的核心问题是:复杂任务链路里,一步出错,全盘崩。


用户说一句话,模型可能需要10步推理和执行。哪怕第7步偏了一点,前面6步的努力就白费,整个任务流程失效。


ERL让模型能够自动识别推理过程中的错误步骤,对错误内容进行擦除并重新生成,从源头阻断偏差扩散——就像给推理过程装上了「实时橡皮擦」。


这项技术让Sage在多跳复杂推理基准上较此前SOTA取得显著提升,装车后复杂任务完成率提升20%。


技术论文已上传arXiv:https://arxiv.org/abs/2510.00861


SCOUT负责学习效率,ERL负责执行稳定性,两项技术前后协同,共同推动Sage从语言大模型演进为能独立完成复杂任务的智能体。


能力天花板

Sage和同级端侧旗舰的差距有多大


PinchBench上的94%是综合结果,具体能力维度上,Sage和行业参照点的差距更直观。


对比对象:Google-Gemma4——本月最新发布的同量级端侧旗舰。


跨学科专业知识(MMLUPro)Sage 76分,领先同级端侧模型约10%。端侧模型,已具备云端级通用知识密度。


研究生级专业推理(GPQA Diamond):Sage 77分,提升33%。这是考察深度推理的维度,也是Agent能否应对复杂决策的关键。


座舱语义与视觉理解(Human Semantic Understanding):Sage 91分,提升32%。依托原生车载数据建立的差异化优势,直接影响真实座舱体验。


工具调用与任务闭环(τ2-bench):Sage 80分,较Gemma4提升38%,接近翻倍领先。


最后这个数字值得单独说一下。


τ2-bench,专门评估模型调用工具、走完多步任务的实战能力——也就是「会聊天」和「会办事」之间的分水岭。


接近翻倍的领先,直接印证了Sage作为端侧智能体基座在真实任务执行上的核心优势。


市场转折点

汽车AI的上半场,靠指令

下半场,靠Agent


为什么「端侧Agent基座」这件事,现在重要?


先看一组行业现实。


当前搭载了「智能语音」的汽车,普遍存在同一个用户体验瓶颈:语音助手能听,但不能想;能应答,但不能执行;能单步,但不能多步。


这不是某一家车企的问题,是整个行业在AI算力、模型能力和车端部署之间的结构性矛盾。


依赖云端方案的代价在放大:每次对话都要消耗Token,单任务token消耗就可达数十万量级;网络抖动就会影响体验;数据隐私也是潜在风险。


端侧部署才是量产落地的唯一可行路径——但端侧模型的能力天花板,一直是整个行业的卡脖子问题。


Sage的出现,正好踩在这个时间窗口。


Sage可接入OpenClaw、Hermes等主流Agent框架,不只是一个座舱大模型,而是一个为更多端侧智能体落地提供核心支撑的基座——可覆盖出行、家庭等全场景智能体部署。


北京车展期间,商汤绝影将正式推出搭载Sage端侧多模态智能体基座大模型的SageBox,为汽车迈入超级智能体时代打下技术底座。


这意味着,车企在引入端侧Agent能力时,有了一套经过全球评测验证的量产方案。


商汤绝影

从「懂AI」到「懂车AI」的技术积累


Sage不是一款从零起步的产品。


它背后是商汤绝影多年在汽车AI领域的技术沉淀——从智能驾驶感知到座舱语义理解,再到今天的端侧智能体基座,每一步都在向「真正懂车、懂人、懂场景」靠近。


Sage之所以能在Human Semantic Understanding(座舱语义与视觉理解)上拿到91分、提升32%,正是原生车载数据训练的结果。


3B激活参数!商汤绝影Sage登顶PinchBench,端侧第一


通用大模型的训练数据里,没有「车内乘员状态感知」,没有「驾驶场景多步决策」,没有「空调+导航+影音联动」这种出行场景特有的任务链路。


Sage有。


这种原生优势,不是靠刷榜刷出来的,是靠在真实出行场景里长期训练出来的。


智能座舱

正在迎来它真正的「奇点时刻」


回头看汽车AI的发展历程。


第一阶段:语音识别,能听懂人话。


第二阶段:语音助手,能应答简单指令。


第三阶段:大模型接入,能对话、能聊天。


现在,第四阶段来了——


能独立规划、能多步执行、能主动感知、能在车端实时完成复杂任务的端侧智能体。


Sage代表的技术方向,不只是「更聪明的语音助手」,而是从根本上改变人与汽车的协作方式。


用户不再需要把一件事拆成十个指令说给汽车听,汽车开始真正理解「你想要什么」,然后想办法帮你做到。


3B激活参数赢过了一众云端旗舰,这个结果告诉行业:智能座舱的上限,不在云端,在端侧原生技术路线上还有更多可能。


SageBox即将亮相北京车展。


下一代汽车AI的样子,已经在那里了。


文章来自于"新智元",作者 "YHluck"。

AITNT-国内领先的一站式人工智能新闻资讯网站
AITNT资源拓展
根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考
1
AI代理

【开源免费】Browser-use 是一个用户AI代理直接可以控制浏览器的工具。它能够让AI 自动执行浏览器中的各种任务,如比较价格、添加购物车、回复各种社交媒体等。

项目地址:https://github.com/browser-use/browser-use


2
智能体

【开源免费】AutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。

项目地址:https://github.com/Significant-Gravitas/AutoGPT


【开源免费】MetaGPT是一个“软件开发公司”的智能体项目,只需要输入一句话的老板需求,MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色,包括产品经理 / 架构师 / 项目经理 / 工程师,MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。

项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md