英伟达全模态大模型 Nemotron 3 Nano Omni 来了,几秒搞定老黄3分钟演讲,吞吐量同类9倍

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
英伟达全模态大模型 Nemotron 3 Nano Omni 来了,几秒搞定老黄3分钟演讲,吞吐量同类9倍
8788点击    2026-04-29 19:52

一个模型搞定文本、视觉、语音。


智东西4月29日报道,英伟达于昨日正式推出全新多模态推理模型Nemotron 3 Nano Omni,将文本、视觉、语音三大模态能力深度融合至单一模型体系,目前可免费使用


英伟达全模态大模型来了,几秒搞定老黄3分钟演讲,吞吐量同类9倍


作为Nemotron 3系列的最新成员,Nemotron 3 Nano Omni可处理文本、图像、音频、视频、文档、图表和图形界面等多种输入,并以文本形式输出。此外,模型可根据不同任务与模态动态激活专家网络,在保证高吞吐的同时实现强多模态感知能力,使整体吞吐量达到同类开放多模态模型的9倍


目前,该模型在MMlongbench-Doc、OCRBenchV2等文档智能榜单上占据前五。视频与音频理解任务方面,在DailyOmni、VoiceBench上拿下第一,超过Qwen3-Omni-30B-A3B-Thinking和Gemini 2.5Flash


英伟达全模态大模型来了,几秒搞定老黄3分钟演讲,吞吐量同类9倍


▲OCRBenchV2排行榜


英伟达全模态大模型来了,几秒搞定老黄3分钟演讲,吞吐量同类9倍


▲DailyOmni排行榜


除准确率外,MediaPerf数据显示,其在多任务场景中实现最高吞吐量,并在视频级标注任务中具备最低推理成本。


训练数据集方面,Hugging Face显示,Nemotron 3 Nano Omni使用Qwen3-VL-30B-A3B-Instruct、Qwen3.5-122B-A10B、Qwen3.5-397B-A17B、Qwen2.5-VL-72B-Instruct和gpt-oss-120b进行了改进。


英伟达全模态大模型来了,几秒搞定老黄3分钟演讲,吞吐量同类9倍


根据海外网友实测,Nemotron 3 Nano Omni模型视频内容识别迅速精准,可快速解析演讲视频并提炼关键信息;能应答特定人物演讲中的细分议题相关问题,问答贴合原文。同时可读取、解析专业技术文档,解答模型训练类硬核技术问题,整体理解能力、多模态信息处理与专业内容解读表现不俗。


开源网址:


https://nvda.ws/420h6mR


https://openrouter.ai/nvidia/nemotron-3-nano-omni-30b-a3b-reasoning:free


官方网址:


https://build.nvidia.com/nvidia/nemotron-3-nano-omni-30b-a3b-reasoning


能迅速理解视频内容


定位相关片段


在实际测试中,一位海外博主上传了黄仁勋(Jensen Huang)在NVIDIA GTC 2026上的一段三分多钟的演讲视频,并直接向模型提问视频内容。Nemotron 3 Nano Omni 在短短几秒内,便完成了对画面与语音的联合理解,不仅准确概括了演讲核心观点,还能指出具体语境中的关键信息。


英伟达全模态大模型来了,几秒搞定老黄3分钟演讲,吞吐量同类9倍


英伟达全模态大模型来了,几秒搞定老黄3分钟演讲,吞吐量同类9倍


随后,这位博主进一步追问:“关于排行榜,黄仁勋具体说了什么?”模型在已有视频上下文的基础上,快速定位相关片段,并给出更细致的回答,体现出对长视频内容的持续记忆与跨模态检索能力。


英伟达全模态大模型来了,几秒搞定老黄3分钟演讲,吞吐量同类9倍


他又将Nemotron 3 Nano Omni的技术文档直接输入模型,要求其解释模型的训练方式。面对从视频到文本的多源信息切换,模型依然能够无缝衔接,在同一推理框架下解析复杂技术细节,梳理出包括混合专家架构、数据与训练流程在内的关键逻辑。


英伟达全模态大模型来了,几秒搞定老黄3分钟演讲,吞吐量同类9倍


Nemotron 3 Nano Omni主要应用场景包括计算机用户代理导航图形界面、企业分析和合规工作流程的文档智能,以及客户服务和研究应用的音视频理解。模型提供开放的权重、数据集和训练技术,可部署在本地系统、数据中心和云环境中,以满足监管、主权或数据本地化要求。


早期采用者包括Aible、富士康、Palantir和H Company,而戴尔科技、DocuSign、Infosys 和Oracle等公司正在评估该模型。Nemotron 3 模型系列在过去一年中的下载量已超过 5000 万次。


吞吐量为同类开放多模态模型的9倍


Nemotron 3 Nano Omni的核心亮点集中在混合型MoE架构、高效时空视觉处理以及全面的多模态能力上,可根据不同任务与模态动态激活专家网络,在保证高吞吐的同时实现强多模态感知能力,使整体吞吐量达到同类开放多模态模型的9倍。


英伟达全模态大模型来了,几秒搞定老黄3分钟演讲,吞吐量同类9倍


混合型MoE核心架构创新性地将Mamba层与Transformer层深度融合,其中Mamba层负责提升序列处理效率与内存利用率,Transformer层则保障精准的推理计算,这种融合设计不仅显著提升了数据处理吞吐量,更使内存和计算效率最高提升4倍,使其在子代理角色中具备极强的适配性。


对于相同交互阈值下的视频推理,Nemotron 3 Nano Omni可维持更高的总吞吐量,与替代的开放式全向模型相比,其有效系统容量可提高约9.2倍


英伟达全模态大模型来了,几秒搞定老黄3分钟演讲,吞吐量同类9倍


对于相同交互阈值下的多文档推理,Nemotron 3 Nano Omni可维持更高的总吞吐量,与替代的开放式全向模型相比,其有效系统容量可提高约7.4倍


英伟达全模态大模型来了,几秒搞定老黄3分钟演讲,吞吐量同类9倍


从之前的 Nemotron Nano VL V2型号到 Nemotron 3 Nano Omni,多模态精度在行业领先的基准测试中均有所提高。


英伟达全模态大模型来了,几秒搞定老黄3分钟演讲,吞吐量同类9倍


统一架构内整合多模态处理能力的开源模型


当下,智能体推理领域的开源AI模型正迎来集中爆发,市场竞争日趋激烈:Meta的Llama系列长期占据开源大语言模型赛道龙头地位;谷歌Gemini聚焦云端超大规模多模态能力,构建差异化优势;OpenAI的GPT系列则始终是商用领域的标杆之作;Deepseek上周最新发布的V4-Pro、V4-Flash,更以混合注意力架构,针对性优化长周期智能体任务,进一步丰富了市场供给。


Nemotron 3 Nano Omni的核心差异化,不在于单项性能突破,而是四大优势的独家集合:单模型统一视觉、音频、文本多模态感知、混合专家高能效适配边缘部署、开源权重开放、完全商用授权。目前暂无竞品同时具备全部特性。对标产品各有短板:谷歌端侧模型 Gemini Nano未开源,Meta Llama多模态版本无法在统一架构内整合音频处理能力。


结语:英伟达完善AI布局的“关键一招”


该模型的战略影响远超产品本身。若其成为智能体部署的主流选择,英伟达将实现推理GPU硬件、优化加速软件框架、自研上层模型的三位一体。竞品若基于英伟达二次开发,会进一步加深硬件依赖;即便对手自主研发模型,训练环节仍离不开英伟达GPU算力支撑。智能体AI时代全面提速,英伟达的核心目标并非单点垄断,而是渗透产业每一层核心环节、构筑不可替代性。



文章来自于微信公众号 "智东西",作者 "智东西"

AITNT-国内领先的一站式人工智能新闻资讯网站
AITNT资源拓展
根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考
1
AI代理

【开源免费】Browser-use 是一个用户AI代理直接可以控制浏览器的工具。它能够让AI 自动执行浏览器中的各种任务,如比较价格、添加购物车、回复各种社交媒体等。

项目地址:https://github.com/browser-use/browser-use


2
AI工作流

【开源免费】字节工作流产品扣子两大核心业务:Coze Studio(扣子开发平台)和 Coze Loop(扣子罗盘)全面开源,而且采用的是 Apache 2.0 许可证,支持商用!

项目地址:https://github.com/coze-dev/coze-studio


【开源免费】n8n是一个可以自定义工作流的AI项目,它提供了200个工作节点来帮助用户实现工作流的编排。

项目地址:https://github.com/n8n-io/n8n

在线使用:https://n8n.io/(付费


【开源免费】DB-GPT是一个AI原生数据应用开发框架,它提供开发多模型管理(SMMF)、Text2SQL效果优化、RAG框架以及优化、Multi-Agents框架协作、AWEL(智能体工作流编排)等多种技术能力,让围绕数据库构建大模型应用更简单、更方便。

项目地址:https://github.com/eosphoros-ai/DB-GPT?tab=readme-ov-file



【开源免费】VectorVein是一个不需要任何编程基础,任何人都能用的AI工作流编辑工具。你可以将复杂的工作分解成多个步骤,并通过VectorVein固定并让AI依次完成。VectorVein是字节coze的平替产品。

项目地址:https://github.com/AndersonBY/vector-vein?tab=readme-ov-file

在线使用:https://vectorvein.ai/付费

3
智能体

【开源免费】AutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。

项目地址:https://github.com/Significant-Gravitas/AutoGPT


【开源免费】MetaGPT是一个“软件开发公司”的智能体项目,只需要输入一句话的老板需求,MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色,包括产品经理 / 架构师 / 项目经理 / 工程师,MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。

项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md