蛰伏一年,周衔团队带来首个具身基础模型,烹饪做实验弹琴,效果炸场

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
蛰伏一年,周衔团队带来首个具身基础模型,烹饪做实验弹琴,效果炸场
7045点击    2026-05-07 17:02

那个一句话生成完整物理世界、做出 GitHub 最大开源机器人项目的团队,又出手了。


蛰伏一年,周衔团队带来首个具身基础模型,烹饪做实验弹琴,效果炸场


去年底,Genesis 物理引擎一经开源,就在机器人圈刷屏:只需要一句话,就能生成可交互的物理世界,用来训练和测试机器人。


现在,这家创下硅谷具身智能赛道最大种子轮融资纪录(1.05 亿美元)的 Genesis AI,终于公布了自己的首个机器人基础模型 GENE-26.5。


蛰伏一年,周衔团队带来首个具身基础模型,烹饪做实验弹琴,效果炸场


它能自主完成一个涉及 20 多步操作的烹饪任务,还能解魔方、弹钢琴、制作奶昔、操作实验室移液、整理线束…… 这些是长时序,需要精细力控、双手协调、in-hand manipulation 和工具使用的任务,远超很多机器人 demo 的简单抓取或重复动作,且是完全自主、1x 真实速度播放。


Genesis 表示,这些任务不是为单点 demo 单独设计的,而是由同一个模型、同一套硬件平台、同一套数据策略和同一套控制栈完成。


视频一经放出,立刻刷屏,也把不少机器人从业者看炸了。


Eclipse Ventures 合伙人 Seth Winterroth 在社交平台上直言,自己在机器人行业前沿待了十多年,见过过去几年几乎所有号称实现「通用操作能力」突破的团队。


但 Genesis 放出的东西,「和自己之前见过的完全不是一个级别」。


蛰伏一年,周衔团队带来首个具身基础模型,烹饪做实验弹琴,效果炸场


蛰伏一年,周衔团队带来首个具身基础模型,烹饪做实验弹琴,效果炸场


蛰伏一年,周衔团队带来首个具身基础模型,烹饪做实验弹琴,效果炸场


蛰伏一年,周衔团队带来首个具身基础模型,烹饪做实验弹琴,效果炸场


蛰伏一年,周衔团队带来首个具身基础模型,烹饪做实验弹琴,效果炸场


蛰伏一年,周衔团队带来首个具身基础模型,烹饪做实验弹琴,效果炸场


GENE-26.5 能做什么?


官方演示里,最有代表性的任务是做饭。


这是一个约 4 分钟的长程任务,包含 20 多个子任务。机器人需要单手打蛋、切番茄、用毛巾、盐磨、打蛋器、刀、锅铲、煎锅等工具,还要完成双手协同操作。


蛰伏一年,周衔团队带来首个具身基础模型,烹饪做实验弹琴,效果炸场


另一个更接近商业化应用的场景,是实验室移液。


机器人要抓取移液枪、插入枪头、转移液体、密封试管、按下离心机的小按钮,再把试管放入转子中。这个流程要求毫米级精度、工具使用、精细手部协调,以及对小尺寸物体的稳定操作。


蛰伏一年,周衔团队带来首个具身基础模型,烹饪做实验弹琴,效果炸场


还有一个炫技但很说明问题的任务:解魔方。Genesis 称,这是他们所知第一次有通用双手机器人系统完成魔方求解。它不是靠特殊机械夹具,而是用外部求解器生成动作指令,再由模型执行。


蛰伏一年,周衔团队带来首个具身基础模型,烹饪做实验弹琴,效果炸场


他们甚至还让机器人挑战了 Rush E 钢琴曲。这首曲子以高难度著称,超出普通人类极限。前段时间,朗朗在巴黎里昂车站与钢琴博主斗琴弹的就是这个曲子。


蛰伏一年,周衔团队带来首个具身基础模型,烹饪做实验弹琴,效果炸场


工业场景里,则包括线束整理。这被 Genesis 称为汽车行业的圣杯任务之一,因为线缆、胶带等软体物体非常难处理,需要双手协同、柔性物体控制和精确缠绕。


蛰伏一年,周衔团队带来首个具身基础模型,烹饪做实验弹琴,效果炸场


更关键的是,对于演示任务中的大多数挑战性技能,GENE 只需要不到 1 小时的任务特定机器人数据。对于 20 秒以内的技能,这相当于少于 200 条 episode。


这正是 Genesis 想证明的能力:不是每个任务都从零训练,而是让机器人越来越接近少量数据快速部署。


不是只把模型训大


然而,Genesis 并不认为通用操作能靠「把模型训大」直接解决。


Genesis 联合创始人兼 CEO 周衔的说法:


模型一直是目标,因为更好的模型意味着更好的智能。


但他们很快意识到,光做模型还不够。机器人不是纯数字 AI,它需要模型、传感器、执行器、控制系统、数据采集和评测体系一起工作。


任何一层不够强,都会拖累整体表现。


于是,Genesis 选择了全栈路线。GENE-26.5 也不是一个孤立模型,而是一整套系统,包括:


接近人手的机器人硬件、低成本人类数据采集体系、从零构建的仿真评测栈、面向机器人的多模态基础模型,以及低延迟高精度控制系统。


这就是 Genesis 所说的 full-stack robotics。


仿真,成了模型迭代加速器


机器人模型还有一个老问题:评测太慢。一个机器人、一个人类评估员、一次只能跑一个任务。每次模型 checkpoint 都要实机测试,效率极低。


Genesis 的解法,是把仿真系统作为闭环评测核心。


他们认为,真实世界评测当然重要,但仿真在可控性、可复现性和规模化上优势巨大。GENE-26.5 的开发中,Genesis 构建了大量仿真评测任务,覆盖不同光照、背景、物体属性、场景配置和任务指令。


蛰伏一年,周衔团队带来首个具身基础模型,烹饪做实验弹琴,效果炸场


官方给出的一个说法是:图中的每个数据点都代表 200 个评测设置、超过 150 小时机器人执行时间;如果放到真实世界里做,整张图需要 2700 小时的人机评测。


这也是他们去年开源 Genesis 物理引擎的意义所在。仿真不是展示工具,而是机器人基础模型迭代的加速器。


一双「人手」,为什么这么重要?


其新一代 Genesis Hand 1.0,被设计成和人手 1:1 尺寸匹配,拥有 20 个主动、可反驱自由度,手掌和手指覆盖柔性材料,用来模拟人类皮肤的软接触特性。


蛰伏一年,周衔团队带来首个具身基础模型,烹饪做实验弹琴,效果炸场


蛰伏一年,周衔团队带来首个具身基础模型,烹饪做实验弹琴,效果炸场


为什么一定要做人形手?今天很多机器人公司还在用两指夹爪,因为它简单、稳定、工程上好控制。但问题也很明显:它和人类真实操作世界的方式差太远。


Genesis 的判断是,如果机器人手能尽可能接近人手,就能大幅缩小机器人研究里常说的「具身差距」。这样一来,人类日常工作中的动作数据,就更容易迁移到机器人身上。


这也是 Genesis 自研机器人手的核心逻辑:不是为了炫技,而是为了收集更多可用数据。


公司联合创始人 Théophile Gervet 表示,接近人手的设计可以让他们收集到比过去更多的数据,从而训练出能完成更多任务的模型。


真正的关键,是那只数据手套


在技术博客里,Genesis 反复强调一个观点:世界上最有价值的物理技能,藏在人类双手的隐性知识里。


装配工的手感、实验员的精度、厨师的速度,这些能力过去几乎没有被系统记录下来。为此,Genesis 构建了一个以人为中心的数据引擎,主要包括三类数据:


  • 一类是手套数据,采集高精度手部运动和触觉信号;
  • 一类是第一视角视频,记录真实任务中的自然行为;
  • 还有一类是第三视角视频,用互联网规模数据覆盖更多物理交互场景。


蛰伏一年,周衔团队带来首个具身基础模型,烹饪做实验弹琴,效果炸场


其中最关键的,是他们自研的数据采集手套。这只手套使用 EMF 手指追踪和密集触觉传感,可以在不明显干扰人类工作的情况下,把真实工作过程变成机器人训练数据。


Genesis 的设想是,未来实验室技师、制造业工人等都可以在正常工作时佩戴这种手套。相比笨重的数据采集设备,它更轻、更便宜,也更接近很多行业本来就在使用的安全手套。


这也是 Genesis 给出的通用操作扩展路径:先在人类演示数据上预训练,再用少量机器人数据对齐,最后通过真实世界和仿真反馈持续迭代。


不过,这里也有一个现实问题:工人是否愿意戴着手套和摄像头,去训练未来可能替代自己的机器人?


Genesis 方面目前还没有给出明确答案,只表示相关细节还没完全确定,是否额外支付报酬也会由客户和员工之间决定。


蛰伏一年,周衔团队带来首个具身基础模型,烹饪做实验弹琴,效果炸场


蛰伏一年,周衔团队带来首个具身基础模型,烹饪做实验弹琴,效果炸场


蛰伏一年,周衔团队带来首个具身基础模型,烹饪做实验弹琴,效果炸场

这些结果共同突显了一个明显的趋势:扩展数据和计算能力可以提高泛化和适应效率。


为了让模型真正听话,他们还重做了控制栈


Genesis 还在博客里披露了一个容易被忽略、但非常关键的细节:他们替换了双臂机器人原厂控制器,自己重写了一套控制中间件。


原因是,机器人执行动作时,模型输出和真实电机动作之间会累积延迟、跟踪误差和控制器伪影。


对于从人类动作中学习的机器人来说,这些误差会放大人到机器人的差距。


Genesis 自研控制系统后,端到端延迟最低可做到 3 毫秒;在 15cm 圆形轨迹跟踪测试中,原厂控制器平均误差约 20mm,他们的系统降到约 2mm,相当于提升一个数量级。


蛰伏一年,周衔团队带来首个具身基础模型,烹饪做实验弹琴,效果炸场

Genesis AI 的自研硬件与模型在控制精度上,相比于现成解决方案(Off-the-shelf)的显著优势。


这解释了为什么 Genesis 一再强调「全栈」。不是为了技术叙事好听,而是因为在机器人里,模型、硬件、控制、数据和评测必须同时成立。


下一个目标:不只是手,而是全身机器人


GENE-26.5 这个名字也有玄机:其中的 26.5 指向 2026 年 5 月


Genesis 表示,这只是第一版,之后还会快速迭代。公司认为,机器人模型迭代的真正瓶颈在评估,而他们自研的仿真系统可以帮助加速训练和测试。


总结来看,GENE-26.5 不是 Genesis 的终点,更像是它的第一张系统能力展示牌。它想证明的是:通用机器人并不是先学会走路,再慢慢学会干活。


相反,真正有价值的入口,可能是一双能稳定、灵巧、可泛化地和世界接触的手


因为大多数体力劳动,本质上不是机器人在世界里移动,而是改变世界。导航可以把世界简化成障碍物和可通行空间;行走主要处理和地面的接触,规律相对稳定。


但操作不一样。机器人要面对未知物体的形状、重量、摩擦、动态变化,还要在长任务链里保持毫米级精度。一个动作偏几毫米,后面可能全错。


所以 Genesis 认为,机器人如果能可靠地和物理世界发生复杂接触,其他能力才有意义。


Genesis 的路线也很清晰:用接近人手的硬件缩小具身差距;用人类工作数据扩大训练规模;用仿真系统加速闭环评测;用低延迟控制减少执行误差;最后,把这一切喂给机器人基础模型。


也难怪投资人会把它称作「最强通用操作演示」。


公司接下来还计划发布首个通用机器人,而且不是只有一双手,而是完整的全身机器人。换句话说,Genesis 这次展示的不是终点,而是起手式。


机器人领域,新的狠角色已经亮牌。


参考链接

https://www.genesis.ai/blog/gene-26-5-advancing-robotic-manipulation-to-human-level


文章来自于"机器之心",作者 "Sia"。

AITNT-国内领先的一站式人工智能新闻资讯网站