英伟达全模态大模型 Nemotron 3 Nano Omni 来了，几秒搞定老黄3分钟演讲，吞吐量同类9倍

9774点击 2026-04-29 19:52

一个模型搞定文本、视觉、语音。

智东西4月29日报道，英伟达于昨日正式推出全新多模态推理模型Nemotron 3 Nano Omni，将文本、视觉、语音三大模态能力深度融合至单一模型体系，目前可免费使用。

英伟达全模态大模型来了，几秒搞定老黄3分钟演讲，吞吐量同类9倍

作为Nemotron 3系列的最新成员，Nemotron 3 Nano Omni可处理文本、图像、音频、视频、文档、图表和图形界面等多种输入，并以文本形式输出。此外，模型可根据不同任务与模态动态激活专家网络，在保证高吞吐的同时实现强多模态感知能力，使整体吞吐量达到同类开放多模态模型的9倍。

目前，该模型在MMlongbench-Doc、OCRBenchV2等文档智能榜单上占据前五。视频与音频理解任务方面，在DailyOmni、VoiceBench上拿下第一，超过Qwen3-Omni-30B-A3B-Thinking和Gemini 2.5Flash。

英伟达全模态大模型来了，几秒搞定老黄3分钟演讲，吞吐量同类9倍

▲OCRBenchV2排行榜

英伟达全模态大模型来了，几秒搞定老黄3分钟演讲，吞吐量同类9倍

▲DailyOmni排行榜

除准确率外，MediaPerf数据显示，其在多任务场景中实现最高吞吐量，并在视频级标注任务中具备最低推理成本。

训练数据集方面，Hugging Face显示，Nemotron 3 Nano Omni使用Qwen3-VL-30B-A3B-Instruct、Qwen3.5-122B-A10B、Qwen3.5-397B-A17B、Qwen2.5-VL-72B-Instruct和gpt-oss-120b进行了改进。

英伟达全模态大模型来了，几秒搞定老黄3分钟演讲，吞吐量同类9倍

根据海外网友实测，Nemotron 3 Nano Omni模型视频内容识别迅速精准，可快速解析演讲视频并提炼关键信息；能应答特定人物演讲中的细分议题相关问题，问答贴合原文。同时可读取、解析专业技术文档，解答模型训练类硬核技术问题，整体理解能力、多模态信息处理与专业内容解读表现不俗。

开源网址：

https://nvda.ws/420h6mR

https://openrouter.ai/nvidia/nemotron-3-nano-omni-30b-a3b-reasoning:free

官方网址：

https://build.nvidia.com/nvidia/nemotron-3-nano-omni-30b-a3b-reasoning

能迅速理解视频内容

定位相关片段

在实际测试中，一位海外博主上传了黄仁勋（Jensen Huang）在NVIDIA GTC 2026上的一段三分多钟的演讲视频，并直接向模型提问视频内容。Nemotron 3 Nano Omni 在短短几秒内，便完成了对画面与语音的联合理解，不仅准确概括了演讲核心观点，还能指出具体语境中的关键信息。

英伟达全模态大模型来了，几秒搞定老黄3分钟演讲，吞吐量同类9倍

随后，这位博主进一步追问：“关于排行榜，黄仁勋具体说了什么？”模型在已有视频上下文的基础上，快速定位相关片段，并给出更细致的回答，体现出对长视频内容的持续记忆与跨模态检索能力。

英伟达全模态大模型来了，几秒搞定老黄3分钟演讲，吞吐量同类9倍

他又将Nemotron 3 Nano Omni的技术文档直接输入模型，要求其解释模型的训练方式。面对从视频到文本的多源信息切换，模型依然能够无缝衔接，在同一推理框架下解析复杂技术细节，梳理出包括混合专家架构、数据与训练流程在内的关键逻辑。

英伟达全模态大模型来了，几秒搞定老黄3分钟演讲，吞吐量同类9倍

Nemotron 3 Nano Omni主要应用场景包括计算机用户代理导航图形界面、企业分析和合规工作流程的文档智能，以及客户服务和研究应用的音视频理解。模型提供开放的权重、数据集和训练技术，可部署在本地系统、数据中心和云环境中，以满足监管、主权或数据本地化要求。

早期采用者包括Aible、富士康、Palantir和H Company，而戴尔科技、DocuSign、Infosys 和Oracle等公司正在评估该模型。Nemotron 3 模型系列在过去一年中的下载量已超过 5000 万次。

吞吐量为同类开放多模态模型的9倍

Nemotron 3 Nano Omni的核心亮点集中在混合型MoE架构、高效时空视觉处理以及全面的多模态能力上,可根据不同任务与模态动态激活专家网络，在保证高吞吐的同时实现强多模态感知能力，使整体吞吐量达到同类开放多模态模型的9倍。

英伟达全模态大模型来了，几秒搞定老黄3分钟演讲，吞吐量同类9倍

混合型MoE核心架构创新性地将Mamba层与Transformer层深度融合，其中Mamba层负责提升序列处理效率与内存利用率，Transformer层则保障精准的推理计算，这种融合设计不仅显著提升了数据处理吞吐量，更使内存和计算效率最高提升4倍，使其在子代理角色中具备极强的适配性。

对于相同交互阈值下的视频推理，Nemotron 3 Nano Omni可维持更高的总吞吐量，与替代的开放式全向模型相比，其有效系统容量可提高约9.2倍。

英伟达全模态大模型来了，几秒搞定老黄3分钟演讲，吞吐量同类9倍

对于相同交互阈值下的多文档推理，Nemotron 3 Nano Omni可维持更高的总吞吐量，与替代的开放式全向模型相比，其有效系统容量可提高约7.4倍。

英伟达全模态大模型来了，几秒搞定老黄3分钟演讲，吞吐量同类9倍

从之前的 Nemotron Nano VL V2型号到 Nemotron 3 Nano Omni，多模态精度在行业领先的基准测试中均有所提高。

英伟达全模态大模型来了，几秒搞定老黄3分钟演讲，吞吐量同类9倍

统一架构内整合多模态处理能力的开源模型

当下，智能体推理领域的开源AI模型正迎来集中爆发，市场竞争日趋激烈：Meta的Llama系列长期占据开源大语言模型赛道龙头地位；谷歌Gemini聚焦云端超大规模多模态能力，构建差异化优势；OpenAI的GPT系列则始终是商用领域的标杆之作；Deepseek上周最新发布的V4-Pro、V4-Flash，更以混合注意力架构，针对性优化长周期智能体任务，进一步丰富了市场供给。

Nemotron 3 Nano Omni的核心差异化，不在于单项性能突破，而是四大优势的独家集合：单模型统一视觉、音频、文本多模态感知、混合专家高能效适配边缘部署、开源权重开放、完全商用授权。目前暂无竞品同时具备全部特性。对标产品各有短板：谷歌端侧模型 Gemini Nano未开源，Meta Llama多模态版本无法在统一架构内整合音频处理能力。

结语：英伟达完善AI布局的“关键一招”

该模型的战略影响远超产品本身。若其成为智能体部署的主流选择，英伟达将实现推理GPU硬件、优化加速软件框架、自研上层模型的三位一体。竞品若基于英伟达二次开发，会进一步加深硬件依赖；即便对手自主研发模型，训练环节仍离不开英伟达GPU算力支撑。智能体AI时代全面提速，英伟达的核心目标并非单点垄断，而是渗透产业每一层核心环节、构筑不可替代性。

文章来自于微信公众号 "智东西"，作者 "智东西"

关键词: AI新闻 , Nemotron 3 Nano Omni , 英伟达AI , Nemotron 3

AITNT资源拓展

根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考

AI代理

【开源免费】Browser-use 是一个用户AI代理直接可以控制浏览器的工具。它能够让AI 自动执行浏览器中的各种任务，如比较价格、添加购物车、回复各种社交媒体等。
项目地址：https://github.com/browser-use/browser-use

AI工作流

【开源免费】字节工作流产品扣子两大核心业务：Coze Studio（扣子开发平台）和 Coze Loop（扣子罗盘）全面开源，而且采用的是 Apache 2.0 许可证，支持商用！
项目地址：https://github.com/coze-dev/coze-studio

【开源免费】n8n是一个可以自定义工作流的AI项目，它提供了200个工作节点来帮助用户实现工作流的编排。
项目地址：https://github.com/n8n-io/n8n
在线使用：https://n8n.io/（付费）

【开源免费】DB-GPT是一个AI原生数据应用开发框架，它提供开发多模型管理（SMMF）、Text2SQL效果优化、RAG框架以及优化、Multi-Agents框架协作、AWEL（智能体工作流编排）等多种技术能力，让围绕数据库构建大模型应用更简单、更方便。
项目地址：https://github.com/eosphoros-ai/DB-GPT?tab=readme-ov-file


【开源免费】VectorVein是一个不需要任何编程基础，任何人都能用的AI工作流编辑工具。你可以将复杂的工作分解成多个步骤，并通过VectorVein固定并让AI依次完成。VectorVein是字节coze的平替产品。
项目地址：https://github.com/AndersonBY/vector-vein?tab=readme-ov-file
在线使用：https://vectorvein.ai/（付费）

智能体

【开源免费】AutoGPT是一个允许用户创建和运行智能体的（AI Agents）项目。用户创建的智能体能够自动执行各种任务，从而让AI有步骤的去解决实际问题。
项目地址：https://github.com/Significant-Gravitas/AutoGPT

﻿【开源免费】MetaGPT是一个“软件开发公司”的智能体项目，只需要输入一句话的老板需求，MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色，包括产品经理 / 架构师 / 项目经理 / 工程师，MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。
项目地址：https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md