ChatGPT 人工智能 GPT4 伦理 生成式 医疗 监管 安全 机器学习 深度学习 神经网络 计算机视觉 强化学习 模型 算法 应用 开发 研究 工具 平台 框架 数据集 训练 部署 安全 合规 培训 投资 LLM,llm AI,ai,Ai 大模型 大语言模型 制图 生图 绘图 文生图 文生视频 生成式AI AGI 世界模型 sora chatGPT,chatgpt,ChatGpt claude openai Llama deepseek midjourney 红熊猫模型 Red panda,panda Stable Diffusion,StableDiffusion,stable DALL- E 3 DALL E DALL Flux,flux 扩散模型 混元大模型 文心一言 通义千问 可灵 Pika PixelDance 豆包 月之暗面 零一万物 阶跃星辰 搜索增强 MiniMax Talkie Agent prompt fastai LangChain TTS 微调 提示词 知识库 智能体
# 热门搜索 #
搜索
英伟达“AI盒子”升级发布软件和服务,黄仁勋打造物理世界的数字副本
9128点击    2024-07-30 11:38

英伟达NIM新升级,助力AI在多领域应用。


北京时间7月30日,英伟达(也称NVIDIA)在美国丹佛市举行的顶尖计算机图形大会SIGGRAPH 2024上展示了在渲染、仿真和生成式AI领域的多项最新进展。


去年的SIGGRAPH,英伟达推出GH200、L40S显卡、ChatUSD轮番登场。而今年的主角,是英伟达在生成式AI时代的新王牌——“Nvidia NIM”全新升级,并且通过NIM 将生成式 AI 应用于 USD(通用场景描述),拓宽AI在3D世界的可能性。


Nvidia NIM升级:既是福音,也是挑战


英伟达宣布,Nvidia NIM实现了进一步优化,并标准化了AI模型的复杂部署。NIM是英伟达在AI布局中的关键一环。黄仁勋多次对NIM带来的创新赞赏有佳,称其是“AI-in-a-Box, 本质上它就是盒子里的人工智能。”


这次升级无疑巩固了英伟达在AI领域的领导地位,成为其技术护城河的重要组成部分。


一直以来,CUDA被认为是英伟达在GPU领域建立领导地位的关键因素。借助CUDA的支持,GPU从单一的图形处理器发展成为通用的并行计算设备,使得AI开发成为可能。不过,尽管英伟达的软件生态系统非常丰富,但对于缺乏AI基础开发能力的传统行业来说,这些分散的系统仍然过于复杂和难以掌握。


为了解决这一问题,在今年3月,英伟达在GTC大会上推出了NIM(Nvidia Inference Microservices)云原生微服务,将过去几年开发的所有软件集成在一起,以简化和加速AI应用的部署。NIM可将模型作为优化的“容器”,这些容器可部署在云端、数据中心或工作站上,让开发人员能够在几分钟内完成工作,比如轻松为副驾驶、聊天机器人等构建生成式 AI 应用程序。


到现在,Nvidia布局的NIM生态系统已经可提供一系列预训练的AI模型。英伟达宣布,帮助开发者在多个领域加速应用开发和部署,并且重点在不同的领域(如理解、数字人、三维开发、机器人技术和数字生物学)中提供的具体AI模型:



Nvidia NIM(Nvidia Inference Model)提供的服务及其具体模型


理解方向,NIM可使用Llama 3.1和NeMo Retriever,提升文本数据的处理能力;数字人方向,提供了Parakeet ASR和FastPitch HiFiGAN等模型,支持高保真语音合成和自动语音识别,为构建虚拟助手和数字人类提供了强大的工具;


在三维开发方面,USD Code和USD Search等模型简化三维场景的创建和操作,帮助开发者更高效地构建数字孪生和虚拟世界;


在机器人具身方向,英伟达推出了MimicGen和Robocasa模型,通过生成合成运动数据和模拟环境,加速了机器人技术的研发和应用。MimicGen NIM 可根据 Apple Vision Pro 等空间计算设备记录的远程操作数据,生成合成运动数据。Robocasa NIM 可在 OpenUSD (一个用于在 3D 世界中进行开发和协作的通用框架)中生成机器人任务和仿真就绪环境。


数字生物学领域的DiffDock和ESMFold等模型,则在药物发现和蛋白质折叠预测方面提供了先进的解决方案,推动了生物医学研究的进展等等。


此外,Nvidia宣布Hugging Face推理即服务平台也由Nvidia NIM提供支持,在云端运行。


通过整合这些多功能模型,Nvidia的这种生态系统不仅提升了AI开发的效率,还提供了创新的工具和解决方案。不过,尽管Nvidia NIM的诸多升级对于行业确实是一大“福音”。但从另一面来看,也给程序员们带来了很多挑战。


Nvidia NIM通过提供预训练的AI模型和标准化的API,大大简化了AI模型的开发和部署过程,这对于开发者来说确实是一大福音,但是否也意味着普通程序员的就业机会未来或将进一步收缩?毕竟,企业可以用更少的技术人员完成同样的工作,因为这些任务已经由NIM预先完成,普通程序员可能不再需要进行复杂的模型训练和调优工作。



教AI用3D思维进行思考,构建虚拟物理世界


英伟达在SIGGRAPH大会上也展示了生成性AI在开放USD和Omniverse平台上的应用。


英伟达宣布,构建了世界上首个能够理解基于 OpenUSD(Universal Scene Description 通用场景描述)语言、几何、材料、物理和空间的生成性AI模型,并将这些模型打包为Nvidia NIM微服务。目前,在Nvidia API目录中有三个NIM可供预览:USD Code,用于回答开放USD的知识问题并生成开放USD Python代码;USD Search,允许开发者使用自然语言或图像输入搜索庞大的开放USD 3D和图像数据库;USD Validate,可检查上传文件与开放USD发布版本的兼容性,并使用Omniverse云API生成完全RTX渲染的路径追踪图像。


英伟达表示,随着Nvidia NIM微服务对OpenUSD的增强和可访问性,未来各行各业都可以构建基于物理的虚拟世界和数字孪生。通过基于开放USD的新的生成性AI和Nvidia加速开发框架,这些框架构建于Nvidia Omniverse平台之上,更多行业现在可以开发用于可视化工业设计和工程项目的应用程序,以及用于模拟环境以构建下一波物理AI和机器人。此外,新的USD连接器将机器人和工业模拟数据格式以及开发者工具连接起来,使用户能够将大规模、完全由Nvidia RTX光线追踪的数据集流式传输到Apple Vision Pro。


简而言之,通过Nvidia NIM引入USD,通过大模型更好的理解物理世界和构建虚拟世界,这是一笔非常宝贵的数字资产。举个例子,在2019年,法国巴黎圣母院遭遇严重火灾,教堂大面积被毁。庆幸的是,育碧游戏设计师曾无数次造访这座建筑物,学习它的结构,完成了对巴黎圣母院的数字复原工作,在3A游戏《刺客信条:大革命》,重现了巴黎圣母院的所有细节,也给巴黎圣母院的修复带来很大的帮助。当时设计师和历史学家用了两年的时间来复刻,但随着该技术的推出,未来针对数字副本的重现我们可以大规模的提速,通过AI来更精细化的理解和复刻物理世界。


再比如,设计师在Omniverse中构建基础三维场景,并利用这些场景调节生成性AI,实现可控和协作的内容创作过程。比如WPP与可口可乐公司率先采用这一工作流程,来扩大其全球广告活动。


Nvidia还宣布即将推出几种新的NIM微服务,包括USD Layout、USD Smart Material和FDB Mesh Generation,以进一步提升开发者在开放USD平台上的应用能力和效率。


这次NVIDIA Research携20多篇论文参会,分享涉及推动合成数据生成器和逆渲染工具发展的创新成果,其中两篇获得了技术最佳论文奖。今年展示的研究表明,AI通过提升图像质量和解锁新的3D表示方式,使模拟能力变得更好;同时,改进的合成数据生成器和更多内容也提高了AI的水平。这些研究展示了Nvidia在AI和模拟领域的最新进展和创新。



图注:Getty Images生成性AI案例


英伟达表示,设计师和艺术家现在有了新的改进方式,通过使用基于许可数据训练的生成性AI来提高生产力。比如Shutterstock(美国图片供应商),推出了其生成性3D服务的商业测试版。它仅需使用文本或图像提示,使创作者能够快速原型化3D资产,并生成360 HDRi背景以照亮场景;以及Getty Images(美国图片交易公司)加速了其生成性AI服务,使图像生成速度加倍,提高输出质量。这些服务基于多模态生成性AI架构Nvidia Edify,通过新模型速度加倍,提升了图像质量和提示准确性,让用户能够控制相机设置,如景深或焦距。用户可以在大约六秒钟内生成四张图像,并将它们放大到4K分辨率。


结语


在黄仁勋出现的各大场合中,他总是穿着一袭皮衣,向世界描绘AI所带来的激动人心的未来。


我们也经历着英伟达的成长,目睹英伟达一步步从游戏GPU巨头到AI芯片霸主、再到纵横AI软硬件全栈式布局,英伟达的野心十足,在AI的技术浪潮最前沿快速迭代。


从可编程着色GPU、CUDA加速计算,到Nvidia Omniverse和生成式AI NIM微服务的推出,再到推动3D建模、机器人模拟和数字孪生技术的发展,也意味着新一轮AI产业的革新来临。


不过,随着大公司拥有更多的资源,包括资金、技术和人力,能够更快地采用和实施Nvidia NIM等先进技术。而中小企业由于资源有限,可能难以跟上技术发展的步伐。再加上人才技术水平的不同,未来是否会导致更多的技术不平等加剧?


人类之理想中的AI,是帮助人类解放双手和劳动力,带给人类更高生产力的世界。但是当生产力和生产资料被少部分人掌握的时候,会不会引发带来更深层次的一场危机?这都是我们需要思考的问题。


文章来源于“ 腾讯科技”,作者“李海丹


AITNT资源拓展
根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考
1
AI工作流

【开源免费】n8n是一个可以自定义工作流的AI项目,它提供了200个工作节点来帮助用户实现工作流的编排。

项目地址:https://github.com/n8n-io/n8n

在线使用:https://n8n.io/(付费)


【开源免费】DB-GPT是一个AI原生数据应用开发框架,它提供开发多模型管理(SMMF)、Text2SQL效果优化、RAG框架以及优化、Multi-Agents框架协作、AWEL(智能体工作流编排)等多种技术能力,让围绕数据库构建大模型应用更简单、更方便。

项目地址:https://github.com/eosphoros-ai/DB-GPT?tab=readme-ov-file



【开源免费】VectorVein是一个不需要任何编程基础,任何人都能用的AI工作流编辑工具。你可以将复杂的工作分解成多个步骤,并通过VectorVein固定并让AI依次完成。VectorVein是字节coze的平替产品。

项目地址:https://github.com/AndersonBY/vector-vein?tab=readme-ov-file

在线使用:https://vectorvein.ai/(付费)

2
数字人

【开源免费】Fay开源数字人框架是一个AI数字人项目,该项目可以帮你实现“线上线下的数字人销售员”,

“一个人机交互的数字人助理”或者是一个一个可以自主决策、主动联系管理员的智能体数字人。

项目地址:https://github.com/xszyou/Fay

3
AI 3D建模

【开源免费】LGM是一个AI建模的项目,它可以将你上传的平面图片,变成一个3D的模型。

项目地址:https://github.com/3DTopia/LGM?tab=readme-ov-file

在线使用:https://replicate.com/camenduru/lgm

4
无人直播

【开源免费】VideoChat是一个开源数字人实时对话,该项目支持支持语音输入和实时对话,数字人形象可自定义等功能,首次对话延迟低至3s。

项目地址:https://github.com/Henry-23/VideoChat

在线体验:https://www.modelscope.cn/studios/AI-ModelScope/video_chat


【开源免费】Streamer-Sales 销冠是一个AI直播卖货大模型。该模型具备AI生成直播文案,生成数字人形象进行直播,并通过RAG技术对现有数据进行寻找后实时回答用户问题等AI直播卖货的所有功能。

项目地址:https://github.com/PeterH0323/Streamer-Sales