英伟达Jim Fan预测：未来2~3年机器人将迎来“GPT-3时刻”

6392点击 2024-09-20 10:26

在这个科技不断进步的时代，我们终将迎来“与机器人共存”的未来。你认为，未来会是人机和平共处，还是《终结者》式未来？

随着科技发展，这个未来似乎近在咫尺。昨日外媒 The Decoder 发文报道，在最近的一次红杉资本的采访中，Nvidia 高级研究员 Jim Fan 预测：在未来两到三年内，机器人基础模型将取得重大进展。

我希望我们能在未来两到三年内，看到机器人基础模型的研究突破，出现机器人技术的"GPT-3 时刻”。

Jim Fan：NVIDIA 具身AI代理研究领导者

Jim Fan ，师从“人工智能教母”李飞飞教授，在斯坦福大学视觉实验室取得博士学位。研究领域包括了多模态基础模型、强化学习、计算机视觉、具身人工智能等多项前沿技术领域。

英伟达Jim Fan预测：未来2~3年机器人将迎来“GPT-3时刻”

2016年，Jim Fan 曾作为 OpenAI 的第一个实习生，与 Ilya Sutskever 和 Andrej Karpathy 合作共事；

此外，Jim 还曾在百度 AI Labs、以及 Yoshua Bengio 领导的 MILA 研究院实习。

毕业后，Jim 加入 NVIDIA，继续投身人工智能研究。在2023年，Jim 带头开发了 Voyager ，第一个基于大语言模型的能熟练游玩 Minecraft 的 AI 代理；

英伟达Jim Fan预测：未来2~3年机器人将迎来“GPT-3时刻”

以及“2023英伟达十大项目之一”的 Eureka ，利用大语言模型赋能机器手，完成三十余项复杂精巧的任务，例如转笔。

英伟达Jim Fan预测：未来2~3年机器人将迎来“GPT-3时刻”

此外，Jim 的成果还有 MineDojo（利用互联网知识构建的开放式代理）、VIMA（最早的机器人操作多模态基础模型之一）等等。其作品还被诸多媒体引用、报道，可谓是硕果累累。

机器人的“GPT-3时刻”：2-3年开启新的篇章

对于具身智能发展现状，Jim认为：现在具身智能发展空前鼎盛，在未来2-3年内，机器人基础模型的研究可能会取得突破性进展，从而实现更通用的机器人能力。

从2023年开始，具身智能热度可谓是水涨船高，无论是高校还是产业，相关的研究可谓是层出不穷。发展至今，人形机器人已经在某些特定领域可以帮助、解放人类的工作，比如手工、做饭、参与工作链等。

NVIDIA 创始人黄仁勋也表示：“开发通用人形机器人基础模型，是当今 AI 领域中最令人兴奋的课题之一。世界各地的机器人技术领导者正在汇集各种赋能技术，致力于在人工通用机器人领域实现突破。”

进入2024年，在黄仁勋大力支持下，Jim 与他的老同事 Yuke Zhu 教授一起，组建起英伟达最壕AI实验室——GEAR （Generalist Embodied Agent Research），立项 Project GR00T ，为通用具身智能体构建基础模型。

GR00T 驱动的机器人，将能够理解自然语言，并通过观察人类行为来模仿动作，来快速学习人类身体的协调性、灵活性和其它技能，以适应现实世界并与之互动。

英伟达Jim Fan预测：未来2~3年机器人将迎来“GPT-3时刻”

Jim 认为：2024年，将是属于机器人、游戏AI和模拟的一年。

至于为什么选择人形机器人，Jim是这样回答的：

在李飞飞教授门下时，我就转向了具身智能研究方向。人类社会是围绕人类的化身、人类的外形因素构建的，我们所有的餐馆、工厂、医院以及所有设备和工具——它们都是为人类形态和人类双手设计的。所以我在人形机器人上看到了巨大的潜力。理论上，人类可以做的任何任务。有能力的人形机器人也能做到。 我预测，人形机器人硬件的生态系统只需要两到三年就可以准备就绪。

另外，Jim 还有一个长期愿景：

在未来2-3年内，机器人基础模型的研究就能开启新的篇章。10年后，编码代理模型会有人类软件工程师的水准。人形机器人也一样，会具备人类水平的敏捷性和可靠性。

然而，真正想让机器人落地投产还会牵扯到诸多问题。如果让机器人在日常生活中的广泛采用，我们还有这些问题需要讨论：

技术突破的进度限制；

机器人合理定价和大规模投产成本问题；

硬件安全问题；

个人隐私和机器人相关法律完善问题。

机器人的落地难度与自动驾驶汽车相似，甚至比自动驾驶汽车的普及更加困难啊。

未来挑战：数据采集与模型架构仍是难题

对于当下机器人发展面临的问题，尽管 Jim Fan 对前景持乐观态度，但他认为挑战仍然存在。目前最大的难题，还是数据采集的问题：

英伟达在开发机器人人工智能时，采用了三种数据类型的结合：互联网动作数据、模拟数据、和真实世界机器人数据。三种方法各有优势与不足，只有将它们结合，才是成功的关键。transformer接收token并输出token，受限于数据的质量，机器人的表现也会不尽人意。

针对具身智能的模型架构，Jim 也提出了自己的见解：

所有移动的东西最终都将是自主的，对于机器人模型，我觉得我们还没有突破架构的极限。还是那个问题，数据是一个难题，我们不能从互联网上下载一些人类动作数据，它们不会附带模型控制数据。一旦我们能利用这些高质量操作扩大数据管道，我们就可以将transformer推到极限；一旦数据管道完全开发完成，就可以看到机器人模型出现一些新兴的特性。我愿称之为具身智能的scaling law。

另外，将快速、无意识的运动控制，与较慢、有意识的规划和推理过程，集成到同一个模型中，并让这个模型可以同时运动和推理，依然是机器人尚待突破的技术壁垒。

笔者认为，从现在机器人技术的发展进度来看，机器人也许真的进入了“GPT-3 时刻”。与 GPT-3 等大语言模型进行比较的话，接下来，机器人可能也会出现类似的演变：

首先是专业的通用模型，然后是针对特定任务进行训练的微调模型，最后出现自主思考的模型。

如果未来真的出现自主思考的机器人模型，它会是《终结者》或“Moss”，还是“解放人类双手”的福音呢？

文章来自于“夕小瑶科技说”，作者“夕小瑶编辑部”。

英伟达Jim Fan预测：未来2~3年机器人将迎来“GPT-3时刻”

关键词: AI , AI机器人 , 具身智能 , 人工智能

AITNT资源拓展

根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考

OWL

【开源免费】OWL是一个完全开源免费的通用智能体项目。它可以远程开Ubuntu容器、自动挂载数据、做规划、执行任务，堪称「云端超级打工人」而且做到了开源界GAIA性能天花板，达到了57.7%，超越Huggingface 提出的Open Deep Research 55.15%的表现。
项目地址：GitHub：https://github.com/camel-ai/owl

cursor

【免费】cursor-auto-free是一个能够让你无限免费使用cursor的项目。该项目通过cloudflare进行托管实现，请参考教程进行配置。
视频教程：https://www.bilibili.com/video/BV1WTKge6E7u/
项目地址：https://github.com/chengazhen/cursor-auto-free?tab=readme-ov-file

AI代理

【开源免费】Browser-use 是一个用户AI代理直接可以控制浏览器的工具。它能够让AI 自动执行浏览器中的各种任务，如比较价格、添加购物车、回复各种社交媒体等。
项目地址：https://github.com/browser-use/browser-use

智能体

【开源免费】AutoGPT是一个允许用户创建和运行智能体的（AI Agents）项目。用户创建的智能体能够自动执行各种任务，从而让AI有步骤的去解决实际问题。
项目地址：https://github.com/Significant-Gravitas/AutoGPT

﻿【开源免费】MetaGPT是一个“软件开发公司”的智能体项目，只需要输入一句话的老板需求，MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色，包括产品经理 / 架构师 / 项目经理 / 工程师，MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。
项目地址：https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md

微调

【开源免费】XTuner 是一个高效、灵活、全能的轻量化大模型微调工具库。它帮助开发者提供一个简单易用的平台，可以对大语言模型（LLM）和多模态图文模型（VLM）进行预训练和轻量级微调。XTuner 支持多种微调算法，如 QLoRA、LoRA 和全量参数微调。
项目地址：https://github.com/InternLM/xtuner