英伟达NIM新升级,助力AI在多领域应用。
北京时间7月30日,英伟达(也称NVIDIA)在美国丹佛市举行的顶尖计算机图形大会SIGGRAPH 2024上展示了在渲染、仿真和生成式AI领域的多项最新进展。
去年的SIGGRAPH,英伟达推出GH200、L40S显卡、ChatUSD轮番登场。而今年的主角,是英伟达在生成式AI时代的新王牌——“Nvidia NIM”全新升级,并且通过NIM 将生成式 AI 应用于 USD(通用场景描述),拓宽AI在3D世界的可能性。
Nvidia NIM升级:既是福音,也是挑战
英伟达宣布,Nvidia NIM实现了进一步优化,并标准化了AI模型的复杂部署。NIM是英伟达在AI布局中的关键一环。黄仁勋多次对NIM带来的创新赞赏有佳,称其是“AI-in-a-Box, 本质上它就是盒子里的人工智能。”
这次升级无疑巩固了英伟达在AI领域的领导地位,成为其技术护城河的重要组成部分。
一直以来,CUDA被认为是英伟达在GPU领域建立领导地位的关键因素。借助CUDA的支持,GPU从单一的图形处理器发展成为通用的并行计算设备,使得AI开发成为可能。不过,尽管英伟达的软件生态系统非常丰富,但对于缺乏AI基础开发能力的传统行业来说,这些分散的系统仍然过于复杂和难以掌握。
为了解决这一问题,在今年3月,英伟达在GTC大会上推出了NIM(Nvidia Inference Microservices)云原生微服务,将过去几年开发的所有软件集成在一起,以简化和加速AI应用的部署。NIM可将模型作为优化的“容器”,这些容器可部署在云端、数据中心或工作站上,让开发人员能够在几分钟内完成工作,比如轻松为副驾驶、聊天机器人等构建生成式 AI 应用程序。
到现在,Nvidia布局的NIM生态系统已经可提供一系列预训练的AI模型。英伟达宣布,帮助开发者在多个领域加速应用开发和部署,并且重点在不同的领域(如理解、数字人、三维开发、机器人技术和数字生物学)中提供的具体AI模型:
Nvidia NIM(Nvidia Inference Model)提供的服务及其具体模型
理解方向,NIM可使用Llama 3.1和NeMo Retriever,提升文本数据的处理能力;数字人方向,提供了Parakeet ASR和FastPitch HiFiGAN等模型,支持高保真语音合成和自动语音识别,为构建虚拟助手和数字人类提供了强大的工具;
在三维开发方面,USD Code和USD Search等模型简化三维场景的创建和操作,帮助开发者更高效地构建数字孪生和虚拟世界;
在机器人具身方向,英伟达推出了MimicGen和Robocasa模型,通过生成合成运动数据和模拟环境,加速了机器人技术的研发和应用。MimicGen NIM 可根据 Apple Vision Pro 等空间计算设备记录的远程操作数据,生成合成运动数据。Robocasa NIM 可在 OpenUSD (一个用于在 3D 世界中进行开发和协作的通用框架)中生成机器人任务和仿真就绪环境。
数字生物学领域的DiffDock和ESMFold等模型,则在药物发现和蛋白质折叠预测方面提供了先进的解决方案,推动了生物医学研究的进展等等。
此外,Nvidia宣布Hugging Face推理即服务平台也由Nvidia NIM提供支持,在云端运行。
通过整合这些多功能模型,Nvidia的这种生态系统不仅提升了AI开发的效率,还提供了创新的工具和解决方案。不过,尽管Nvidia NIM的诸多升级对于行业确实是一大“福音”。但从另一面来看,也给程序员们带来了很多挑战。
Nvidia NIM通过提供预训练的AI模型和标准化的API,大大简化了AI模型的开发和部署过程,这对于开发者来说确实是一大福音,但是否也意味着普通程序员的就业机会未来或将进一步收缩?毕竟,企业可以用更少的技术人员完成同样的工作,因为这些任务已经由NIM预先完成,普通程序员可能不再需要进行复杂的模型训练和调优工作。
教AI用3D思维进行思考,构建虚拟物理世界
英伟达在SIGGRAPH大会上也展示了生成性AI在开放USD和Omniverse平台上的应用。
英伟达宣布,构建了世界上首个能够理解基于 OpenUSD(Universal Scene Description 通用场景描述)语言、几何、材料、物理和空间的生成性AI模型,并将这些模型打包为Nvidia NIM微服务。目前,在Nvidia API目录中有三个NIM可供预览:USD Code,用于回答开放USD的知识问题并生成开放USD Python代码;USD Search,允许开发者使用自然语言或图像输入搜索庞大的开放USD 3D和图像数据库;USD Validate,可检查上传文件与开放USD发布版本的兼容性,并使用Omniverse云API生成完全RTX渲染的路径追踪图像。
英伟达表示,随着Nvidia NIM微服务对OpenUSD的增强和可访问性,未来各行各业都可以构建基于物理的虚拟世界和数字孪生。通过基于开放USD的新的生成性AI和Nvidia加速开发框架,这些框架构建于Nvidia Omniverse平台之上,更多行业现在可以开发用于可视化工业设计和工程项目的应用程序,以及用于模拟环境以构建下一波物理AI和机器人。此外,新的USD连接器将机器人和工业模拟数据格式以及开发者工具连接起来,使用户能够将大规模、完全由Nvidia RTX光线追踪的数据集流式传输到Apple Vision Pro。
简而言之,通过Nvidia NIM引入USD,通过大模型更好的理解物理世界和构建虚拟世界,这是一笔非常宝贵的数字资产。举个例子,在2019年,法国巴黎圣母院遭遇严重火灾,教堂大面积被毁。庆幸的是,育碧游戏设计师曾无数次造访这座建筑物,学习它的结构,完成了对巴黎圣母院的数字复原工作,在3A游戏《刺客信条:大革命》,重现了巴黎圣母院的所有细节,也给巴黎圣母院的修复带来很大的帮助。当时设计师和历史学家用了两年的时间来复刻,但随着该技术的推出,未来针对数字副本的重现我们可以大规模的提速,通过AI来更精细化的理解和复刻物理世界。
再比如,设计师在Omniverse中构建基础三维场景,并利用这些场景调节生成性AI,实现可控和协作的内容创作过程。比如WPP与可口可乐公司率先采用这一工作流程,来扩大其全球广告活动。
Nvidia还宣布即将推出几种新的NIM微服务,包括USD Layout、USD Smart Material和FDB Mesh Generation,以进一步提升开发者在开放USD平台上的应用能力和效率。
这次NVIDIA Research携20多篇论文参会,分享涉及推动合成数据生成器和逆渲染工具发展的创新成果,其中两篇获得了技术最佳论文奖。今年展示的研究表明,AI通过提升图像质量和解锁新的3D表示方式,使模拟能力变得更好;同时,改进的合成数据生成器和更多内容也提高了AI的水平。这些研究展示了Nvidia在AI和模拟领域的最新进展和创新。
图注:Getty Images生成性AI案例
英伟达表示,设计师和艺术家现在有了新的改进方式,通过使用基于许可数据训练的生成性AI来提高生产力。比如Shutterstock(美国图片供应商),推出了其生成性3D服务的商业测试版。它仅需使用文本或图像提示,使创作者能够快速原型化3D资产,并生成360 HDRi背景以照亮场景;以及Getty Images(美国图片交易公司)加速了其生成性AI服务,使图像生成速度加倍,提高输出质量。这些服务基于多模态生成性AI架构Nvidia Edify,通过新模型速度加倍,提升了图像质量和提示准确性,让用户能够控制相机设置,如景深或焦距。用户可以在大约六秒钟内生成四张图像,并将它们放大到4K分辨率。
结语
在黄仁勋出现的各大场合中,他总是穿着一袭皮衣,向世界描绘AI所带来的激动人心的未来。
我们也经历着英伟达的成长,目睹英伟达一步步从游戏GPU巨头到AI芯片霸主、再到纵横AI软硬件全栈式布局,英伟达的野心十足,在AI的技术浪潮最前沿快速迭代。
从可编程着色GPU、CUDA加速计算,到Nvidia Omniverse和生成式AI NIM微服务的推出,再到推动3D建模、机器人模拟和数字孪生技术的发展,也意味着新一轮AI产业的革新来临。
不过,随着大公司拥有更多的资源,包括资金、技术和人力,能够更快地采用和实施Nvidia NIM等先进技术。而中小企业由于资源有限,可能难以跟上技术发展的步伐。再加上人才技术水平的不同,未来是否会导致更多的技术不平等加剧?
人类之理想中的AI,是帮助人类解放双手和劳动力,带给人类更高生产力的世界。但是当生产力和生产资料被少部分人掌握的时候,会不会引发带来更深层次的一场危机?这都是我们需要思考的问题。
文章来源于“ 腾讯科技”,作者“李海丹”
【开源免费】n8n是一个可以自定义工作流的AI项目,它提供了200个工作节点来帮助用户实现工作流的编排。
项目地址:https://github.com/n8n-io/n8n
在线使用:https://n8n.io/(付费)
【开源免费】DB-GPT是一个AI原生数据应用开发框架,它提供开发多模型管理(SMMF)、Text2SQL效果优化、RAG框架以及优化、Multi-Agents框架协作、AWEL(智能体工作流编排)等多种技术能力,让围绕数据库构建大模型应用更简单、更方便。
项目地址:https://github.com/eosphoros-ai/DB-GPT?tab=readme-ov-file
【开源免费】VectorVein是一个不需要任何编程基础,任何人都能用的AI工作流编辑工具。你可以将复杂的工作分解成多个步骤,并通过VectorVein固定并让AI依次完成。VectorVein是字节coze的平替产品。
项目地址:https://github.com/AndersonBY/vector-vein?tab=readme-ov-file
在线使用:https://vectorvein.ai/(付费)
【开源免费】Fay开源数字人框架是一个AI数字人项目,该项目可以帮你实现“线上线下的数字人销售员”,
“一个人机交互的数字人助理”或者是一个一个可以自主决策、主动联系管理员的智能体数字人。
项目地址:https://github.com/xszyou/Fay
【开源免费】LGM是一个AI建模的项目,它可以将你上传的平面图片,变成一个3D的模型。
项目地址:https://github.com/3DTopia/LGM?tab=readme-ov-file
在线使用:https://replicate.com/camenduru/lgm
【开源免费】VideoChat是一个开源数字人实时对话,该项目支持支持语音输入和实时对话,数字人形象可自定义等功能,首次对话延迟低至3s。
项目地址:https://github.com/Henry-23/VideoChat
在线体验:https://www.modelscope.cn/studios/AI-ModelScope/video_chat
【开源免费】Streamer-Sales 销冠是一个AI直播卖货大模型。该模型具备AI生成直播文案,生成数字人形象进行直播,并通过RAG技术对现有数据进行寻找后实时回答用户问题等AI直播卖货的所有功能。
项目地址:https://github.com/PeterH0323/Streamer-Sales