机器人上学篇(上):我等的机器人,它在多远的未来

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
AITNT-国内领先的一站式人工智能新闻资讯网站 搜索
机器人上学篇(上):我等的机器人,它在多远的未来
7702点击    2025-04-21 09:52

和大模型一样,一切都关乎数据


都2025年了,我们还在为晚会上转手绢的机器人欢呼。回想起我小时候看过的那些科普读本中的预言,我怎么觉得早应该人手一个阿童木了呢?


机器人上学篇(上):我等的机器人,它在多远的未来


从后空翻、转手绢,到能登台演小品,还要等多久?再到像阿童木一样呢?哪怕是让机器人帮忙拖地、遛狗、叠衣服、做饭,似乎都还离我们很远……


这里面到底难在哪?为什么我们也的确值得为了“转手绢”这样的“花活”而骄傲喝彩呢?


和大模型一样,一切关乎数据


经过各种科幻作品的漫长想象之后,现实的人形机器人早在半个世纪前就有了雏形。比如,日本早稻田大学在1973年研制出了Wabot-1,有了人的双手、双脚、视觉和听觉,但并不能完成什么复杂操作。此后,人形机器人学会了弹钢琴、跳舞、有了面部表情,却一直没有产生从“自动化”到“智能化”这一质的飞跃。


机器人上学篇(上):我等的机器人,它在多远的未来


幸好,深度学习和AI大模型来了,“具身智能”这一概念开始受到学术界和产业界的广泛关注。根据中国计算机学会的定义,具身智能(Embodied Artificial Intelligence, EAI)是指一种基于物理身体进行感知和行动的智能系统,其通过智能体与环境的交互获取信息、理解问题、做出决策并实现行动,从而产生智能行为和适应性。


具身智能的展现形态包括人形机器人、四足机器人(俗称“机器狗”)、轮式机器人、仿生机器人等,甚至也包括智能驾驶。


机器人上学篇(上):我等的机器人,它在多远的未来


和当前火热的Deepseek、ChatGPT等产品不同,具身智能存在“物理实体”与环境的交互,需要理解真实的世界才能做出判断和行动。


以 AI 聊天工具和人形机器人作对比,当我们和 AI 对话时,AI 需要处理的信息是语言、声音、图像、视频等;而我们与人形机器人进行交互时,它们需要处理的是如何识别物体、如何辨别方位、如何规划运动轨迹,并且判断此时该抬手还是伸腿、该伸两个手指还是该伸出手掌、通过什么样的角度使出多大的力量……


这些在人类看来完全“不用思考”的问题,却都是机器人需要从零开始学起的内容。


机器人上学篇(上):我等的机器人,它在多远的未来


和 AI 一样,机器人的学习过程也是从数据采集和处理开始的。但比 AI 更复杂之处在于,机器人需要获取的数据维度更多,比如图像、空间等感知数据,关节角度、速度等运动数据,力反馈、扭矩等力学数据,温度、光照等环境数据,以及任务执行结果与性能数据等等。


这些来自真实物理世界的数据,其生成和采集的难度远比来自互联网世界的数据大得多。因此,当前可供具身智能使用的数据集也小得多。


根据对冲基金Coatue的相关数据,具身机器人数据集仅有 2.4M,远低于有15T Tokens的文本数据集。中国信通院联合发布的《具身智能发展报告 (2024年)》中也提到,缺乏数据成为具身智能能力突破的重要壁垒。一方面,真实数据面临获取成本过高的挑战;另一方面,仿真合成数据面临“现实差距”——即模拟环境与现实世界之间的差异。


这里就提到了具身智能数据采集的两类主要方式:真实世界数据采集、仿真世界数据采集


真实世界数据采集


在真实世界进行数据采集的方式有:人类动作捕捉和人类遥操作。


大家对动作捕捉应该比较熟悉了,像平时常看的虚拟主播,电影里的阿凡达、金刚,《黑神话·悟空》游戏里的角色……都是通过真人动作捕捉来进行模拟的。


同样地,真人动作捕捉也能够用在机器人训练上。


机器人上学篇(上):我等的机器人,它在多远的未来


目前,动作捕捉通常采用光学和惯性两种模式。光学捕捉是在人体动捕服上提前标记多个点位,通过红外相机进行轨迹和动作还原;而惯性捕捉是通过惯性传感器(陀螺仪、加速度计、磁力计等)来测算人体的动作和姿态,从而形成数据记录。


光学动捕的优势在于精度高,能够捕捉面部表情、手指动作等细微且复杂的变化,但是对于场地布置以及光线照明的要求较高;惯性动捕虽然精度受限,但不受场地限制,还可以直接获得动力学参数,因此受到不少人形机器人厂商的青睐。


动捕设备在捕捉到运动信号后,将数据传至处理设备,再通过一系列算法还原三维空间内的位置坐标和运动轨迹,最终生成可供机器人使用或分析的数据。根据宇树机器人公布的信息,在春晚上转手绢的H1机器人,就是通过一套新研发的动捕程序,将人类跳舞时的动作数据直接映射到机器人本体上,以此来进行训练的。


机器人上学篇(上):我等的机器人,它在多远的未来


但人类与机器人的动作轨迹并不会完全相同,仍然可能存在适配问题。通过人类遥操作,可以进一步提升数据采集的准确性和可靠性。


人类遥操作是指人类操作员远程控制机器人执行任务,并记录机器人的真实数据。和动作捕捉的区别在于其最终采集到的是真机数据,弥合了“具身差距(Embodiment Gap)”,也就是机器人和真人之间的差距。


当前,特斯拉人形机器人 Optimus 就是通过人类穿戴动捕设备、遥控机器人完成任务,在这个过程中采集机器人的视觉识别、运动控制和其他传感信息。


为了给机器人提供更好的数据采集环境,许多厂商和服务商专门建设了机器人训练场。


训练场里设置有多种真实场景,比如厨房、客厅、卧室、超市、奶茶店、甚至户外场景。由人类控制机器人在这些环境里操作,像打开柜门、铺床单、冲咖啡、从货架上取物等,反复重复多次,机器人就能“有样学样”地学会这一动作了。


机器人上学篇(上):我等的机器人,它在多远的未来


显然,这样的真机采集模式能够获取最高质量的训练数据,但同时需要耗费大量的建设成本以及人力成本,只有“财大气粗”的玩家才能做到。


根据国家地方共建人形机器人创新中心的数据负责人估算,“特斯拉 Optimus 至少需要数百万小时的数据,才能完全准备好在特斯拉工厂工作,这期间可能需要至少 5 亿美元的数据采集成本。”


仿真世界数据采集


有一种方式可以显著降低数据生产和采集的成本,那就是让机器人在类似于机器人的“模拟人生”里学习、成长,最终发展出自己的智慧——虽然最后这一点,目前来看还是个奢望。


机器人仿真平台能够模拟实体机器人在虚拟环境中的行为和性能,这不仅包含对机器人传感器数据的模拟,还涉及到对天气、地形、环境的模拟,以及对机器人控制算法的测试和验证。


仿真世界部分解决了一个重要难题,就是机器人的“泛化能力”。


机器人上学篇(上):我等的机器人,它在多远的未来


比如说,以往是在真实的咖啡厅环境里训练机器人对指定物品的抓取能力,很可能换一间咖啡厅、换一样物品、换一个桌面材质、甚至窗外换一个天气,机器人就无法再完成同样的动作——因为它的泛化性有限,无法根据已有知识在不同场景下做迁移。这就需要在另一个场景下再次训练,成本就是这么增加的。


而仿真平台可以在数字世界里,基于模拟出的物品和场景生成变幻无穷的环境,同时满足物理正确。机器人的行为同样也能被模拟出来,比如机器手抓取物品的位置和姿势。在这个基础上生成抓取行为的轨迹算法,并迁移到物理世界进行实际的操作和验证。这样就完成了一个 Real2Sim2Real(Reality 和 Simulation)的完整过程。


但 Sim-to-Real Gap(仿真与现实的鸿沟) 仍然是需要解决的问题,当前已经有多种算法在试图减少这一影响。


不过,要说数据量最大、成本最低数据来源,仍然是海量的互联网数据。


理论上讲,在视频网站上分享出来的人类行为视频,也可以成为机器人学习的“资料库”,但这部分数据的“噪声”太大、随机性也很强,既不是机器人训练的特定场景,数据也没有经过结构化处理和标注,很难直接用来训练机器人。


机器人上学篇(上):我等的机器人,它在多远的未来


但仍然有研究机构在进行这方面的努力,认为可以通过互联网上大规模的人类操作视频进行“预训练”,再用少量机器人数据进行“微调”——谁让互联网数据量大管饱呢。


在未来,也许互联网数据与仿真数据、真机数据能够融合使用,真正为具身智能提供数据的“宝库”。而数据采集的方式也会有所突破,有人认为,“脑机接口”将会成为未来重要的机器人数据来源,人类通过大脑信号直接控制机器人进行操作。


总之,从 AI 大模型到具身智能机器人,就好像从玩贪吃蛇跨越到畅游魔兽世界,“智能体”有了物理实体,要学习的东西更多了,但可探索的空间也变得更大了。


在这一系列的下一篇中,我们继续讲讲一些真实发生的、有趣的机器人训练案例。


机器人上学篇(上):我等的机器人,它在多远的未来


文章来自于“果壳”,作者“冰点”。


机器人上学篇(上):我等的机器人,它在多远的未来

AITNT-国内领先的一站式人工智能新闻资讯网站
AITNT资源拓展
根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考
1
cursor

【免费】cursor-auto-free是一个能够让你无限免费使用cursor的项目。该项目通过cloudflare进行托管实现,请参考教程进行配置。

视频教程:https://www.bilibili.com/video/BV1WTKge6E7u/

项目地址:https://github.com/chengazhen/cursor-auto-free?tab=readme-ov-file


2
AI代理

【开源免费】Browser-use 是一个用户AI代理直接可以控制浏览器的工具。它能够让AI 自动执行浏览器中的各种任务,如比较价格、添加购物车、回复各种社交媒体等。

项目地址:https://github.com/browser-use/browser-use


3
智能体

【开源免费】AutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。

项目地址:https://github.com/Significant-Gravitas/AutoGPT


【开源免费】MetaGPT是一个“软件开发公司”的智能体项目,只需要输入一句话的老板需求,MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色,包括产品经理 / 架构师 / 项目经理 / 工程师,MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。

项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md

4
微调

【开源免费】XTuner 是一个高效、灵活、全能的轻量化大模型微调工具库。它帮助开发者提供一个简单易用的平台,可以对大语言模型(LLM)和多模态图文模型(VLM)进行预训练和轻量级微调。XTuner 支持多种微调算法,如 QLoRA、LoRA 和全量参数微调。

项目地址:https://github.com/InternLM/xtuner