3B激活参数！商汤绝影Sage登顶PinchBench，端侧第一

8556点击 2026-04-22 18:52

一个3B激活参数的端侧模型，在全球Agent权威评测中，以94%任务完成率，超越了Claude、GPT-5.4、Gemini等国际主流云侧和端侧大模型。商汤绝影Sage来了，它不是「更聪明的语音助手「，而是第一个真正能在车里「办成复杂事「的智能体基座。

有人可能不信。

一个部署在车端的小模型，凭什么在Agent评测上赢过Claude、GPT-5.4？

数字摆在这里——在公开Agent评测基准PinchBench上，商汤绝影Sage端侧大模型最佳任务完成率：94%。

同场较量的对手？Claude-Opus-4.6（93.3%）、GPT-5.4（90.5%）、Google-Gemini-3（87.0%）、Qwen3.5-27B（90.0%）……全部落后。

3B激活参数！商汤绝影Sage登顶PinchBench，端侧第一

这不是一场「以大打大」的胜利。

Sage的激活参数只有3B，总参数量32B（MoE架构）。而小米MiMo-v2-Pro的激活参数是42B、总参数规模超1T——Sage所需激活算力仅为其1/14，显存占用约为其1/31，但在PinchBench上的任务完成率仍高出6.6个百分点。

3B激活参数！商汤绝影Sage登顶PinchBench，端侧第一

1/14的算力，多出6.6个百分点。

这是什么概念？

这意味着一件事被彻底证明了：「只有大模型才能做好Agent任务」，这个判断，错了。

从「听懂指令「到「说到做到」

座舱缺的从来不是语音

先说说这个问题的背景。

今天的智能座舱，卡在哪儿？

不是没有AI，是AI「太浅了」。

用户说「帮我订今晚回北京的高铁，顺便把车内温度调低两度」——现有的语音助手，大概率会拆解成两件事分开问你确认，甚至直接说「我不太明白您的意思」。

这叫「能听懂指令」，但不叫「能办成一件复杂的事」。

真正的Agent能力，需要模型跨越多个步骤、多个工具、多轮推理，最终完成任务闭环。这种能力，过去只存在于云端大模型里。

原因很直接：车端芯片算力有限，大参数模型跑不动；小模型又没有足够的推理深度。

智能座舱因此陷入两难：

依赖云端：有延迟、有成本、有断网风险；坚守端侧：有响应速度，但没有真正的智能体能力。

Sage的发布，第一次打破了这个僵局。

效果先看

Sage在车里能「干」什么

空谈技术路线，不如先看能力。

场景一：复合指令一次解析，多系统自动联动

用户说：「今晚出门晚，车内预热一下，帮我把导航设回家，音乐切换到轻松一点的。」

Sage不需要用户一句一句确认。

它一次性解析复合指令，自动联动空调、导航、音乐三个系统，完成任务闭环——整个流程，首字响应约0.5秒，用户几乎感觉不到「等待」。

场景二：主动感知，不等唤醒

后排坐着孩子，传感器检测到，Sage主动触发儿童模式：锁定车窗控制权、切换适龄内容、调整音量上限。

没有人唤醒它，它已经做了。

场景三：实时路况判断，主动提出方案

进入拥堵路段，结合实时路况感知，Sage主动问：「当前路段预计延误23分钟，是否切换到备选路线？」

不只是回答，而是主动发起。

这三个场景，指向同一个能力转变：Sage不再是「被动唤醒、单次响应」的语音助手，而是一个真正懂场景、会主动思考的出行伙伴。

在OrinX平台部署下，Sage可实现首字响应（TTFT）约0.5秒、单Token推理延迟（TPOT）低至0.03秒、生成吞吐达到80tk/s，平均任务时长优于主流API模型，保证座舱体验的稳定性和实时感。

两项黑科技

一个让它「学得快」

一个让它「做事不出错」

Sage在PinchBench跑赢一众大模型的背后，真正的功臣是商汤绝影自研的两项后训练技术：SCOUT和ERL。

SCOUT：省60%算力，让车载AI快速「学会」复杂出行任务

全称：Sub-Scale Collaboration on Unseen Tasks（分级协同学习框架）。

它解决的是一个工程现实问题——让大模型学习复杂任务，太贵了。

出行场景涉及空间规划、多设备联动、多步决策，直接让大模型在真实任务中自己反复试错，既慢又烧算力。

SCOUT的思路是「探路与吸收解耦」：先派一个轻量小模型快速跑一遍，把走得通的路径筛出来，再把这些高价值经验喂给大模型学习。

用类比来说，就是「小模型先探路、踩雷、找通道，大模型再吸收精华、直接上手」。

结果是：在复杂任务能力注入过程中，GPU小时消耗节省约60%，同时快速掌握更多真实用车场景技能。

技术论文已上传arXiv：https://arxiv.org/abs/2601.21754

ERL：让模型「边想边纠错」，任务完成率提升20%

全称：Erasable Reinforcement Learning（可擦除强化学习）。

这项技术已被机器学习顶级会议ICLR 2026收录。

它解决的核心问题是：复杂任务链路里，一步出错，全盘崩。

用户说一句话，模型可能需要10步推理和执行。哪怕第7步偏了一点，前面6步的努力就白费，整个任务流程失效。

ERL让模型能够自动识别推理过程中的错误步骤，对错误内容进行擦除并重新生成，从源头阻断偏差扩散——就像给推理过程装上了「实时橡皮擦」。

这项技术让Sage在多跳复杂推理基准上较此前SOTA取得显著提升，装车后复杂任务完成率提升20%。

技术论文已上传arXiv：https://arxiv.org/abs/2510.00861

SCOUT负责学习效率，ERL负责执行稳定性，两项技术前后协同，共同推动Sage从语言大模型演进为能独立完成复杂任务的智能体。

能力天花板

Sage和同级端侧旗舰的差距有多大

PinchBench上的94%是综合结果，具体能力维度上，Sage和行业参照点的差距更直观。

对比对象：Google-Gemma4——本月最新发布的同量级端侧旗舰。

跨学科专业知识（MMLUPro）：Sage 76分，领先同级端侧模型约10%。端侧模型，已具备云端级通用知识密度。

研究生级专业推理（GPQA Diamond）：Sage 77分，提升33%。这是考察深度推理的维度，也是Agent能否应对复杂决策的关键。

座舱语义与视觉理解（Human Semantic Understanding）：Sage 91分，提升32%。依托原生车载数据建立的差异化优势，直接影响真实座舱体验。

工具调用与任务闭环（τ2-bench）：Sage 80分，较Gemma4提升38%，接近翻倍领先。

最后这个数字值得单独说一下。

τ2-bench，专门评估模型调用工具、走完多步任务的实战能力——也就是「会聊天」和「会办事」之间的分水岭。

接近翻倍的领先，直接印证了Sage作为端侧智能体基座在真实任务执行上的核心优势。

市场转折点

汽车AI的上半场，靠指令

下半场，靠Agent

为什么「端侧Agent基座」这件事，现在重要？

先看一组行业现实。

当前搭载了「智能语音」的汽车，普遍存在同一个用户体验瓶颈：语音助手能听，但不能想；能应答，但不能执行；能单步，但不能多步。

这不是某一家车企的问题，是整个行业在AI算力、模型能力和车端部署之间的结构性矛盾。

依赖云端方案的代价在放大：每次对话都要消耗Token，单任务token消耗就可达数十万量级；网络抖动就会影响体验；数据隐私也是潜在风险。

端侧部署才是量产落地的唯一可行路径——但端侧模型的能力天花板，一直是整个行业的卡脖子问题。

Sage的出现，正好踩在这个时间窗口。

Sage可接入OpenClaw、Hermes等主流Agent框架，不只是一个座舱大模型，而是一个为更多端侧智能体落地提供核心支撑的基座——可覆盖出行、家庭等全场景智能体部署。

北京车展期间，商汤绝影将正式推出搭载Sage端侧多模态智能体基座大模型的SageBox，为汽车迈入超级智能体时代打下技术底座。

这意味着，车企在引入端侧Agent能力时，有了一套经过全球评测验证的量产方案。

商汤绝影

从「懂AI」到「懂车AI」的技术积累

Sage不是一款从零起步的产品。

它背后是商汤绝影多年在汽车AI领域的技术沉淀——从智能驾驶感知到座舱语义理解，再到今天的端侧智能体基座，每一步都在向「真正懂车、懂人、懂场景」靠近。

Sage之所以能在Human Semantic Understanding（座舱语义与视觉理解）上拿到91分、提升32%，正是原生车载数据训练的结果。

3B激活参数！商汤绝影Sage登顶PinchBench，端侧第一

通用大模型的训练数据里，没有「车内乘员状态感知」，没有「驾驶场景多步决策」，没有「空调+导航+影音联动」这种出行场景特有的任务链路。

Sage有。

这种原生优势，不是靠刷榜刷出来的，是靠在真实出行场景里长期训练出来的。

智能座舱

正在迎来它真正的「奇点时刻」

回头看汽车AI的发展历程。

第一阶段：语音识别，能听懂人话。

第二阶段：语音助手，能应答简单指令。

第三阶段：大模型接入，能对话、能聊天。

现在，第四阶段来了——

能独立规划、能多步执行、能主动感知、能在车端实时完成复杂任务的端侧智能体。

Sage代表的技术方向，不只是「更聪明的语音助手」，而是从根本上改变人与汽车的协作方式。

用户不再需要把一件事拆成十个指令说给汽车听，汽车开始真正理解「你想要什么」，然后想办法帮你做到。

3B激活参数赢过了一众云端旗舰，这个结果告诉行业：智能座舱的上限，不在云端，在端侧原生技术路线上还有更多可能。

SageBox即将亮相北京车展。

下一代汽车AI的样子，已经在那里了。

文章来自于"新智元"，作者 "YHluck"。

关键词: AI新闻 , 商汤绝影 , Sage , PinchBench

AITNT资源拓展

根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考

AI代理

【开源免费】Browser-use 是一个用户AI代理直接可以控制浏览器的工具。它能够让AI 自动执行浏览器中的各种任务，如比较价格、添加购物车、回复各种社交媒体等。
项目地址：https://github.com/browser-use/browser-use

智能体

【开源免费】AutoGPT是一个允许用户创建和运行智能体的（AI Agents）项目。用户创建的智能体能够自动执行各种任务，从而让AI有步骤的去解决实际问题。
项目地址：https://github.com/Significant-Gravitas/AutoGPT

﻿【开源免费】MetaGPT是一个“软件开发公司”的智能体项目，只需要输入一句话的老板需求，MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色，包括产品经理 / 架构师 / 项目经理 / 工程师，MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。
项目地址：https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md