机器人的“脑”,正在泛化性、通用性、自学习、处理复杂任务等能力上实现突破。
近期,36氪获悉,具身智能创业公司“自变量机器人(X Square)”连续完成Pre-A与Pre-A+轮融资,总金额达到亿元级。投资方包括德联资本、基石资本、啟赋资本、南山战新投,老股东九合创投持续加注,一苇资本担任独家财务顾问。
据了解,融资将用于下一代统一具身智能大模型的训练与场景落地。
自变量机器人成立于2023年12月。公司致力于通过研发具身智能通用大模型的路径,实现通用机器人。2024年4月初,36氪曾报道过其完成数千万元天使轮及天使+轮融资。
自变量机器人的创始团队,兼具Robotics Learning(机器人学习)和大模型的双重背景。
创始人兼CEO王潜毕业于清华大学,是全球最早在神经网络中引入注意力机制的学者之一。博士期间,王潜在美国顶级机器人实验室参与了多项Robotics Learning的研究,研究方向覆盖了机器人的多个前沿领域。
联合创始人兼CTO王昊是北大计算物理博士,在粤港澳大湾区数字经济研究院(IDEA研究院)期间担任封神榜大模型团队算法负责人,发布了国内首个多模态开源大模型“太乙”,首批百亿级大语言模型“燃灯”以及千亿级大语言模型“姜子牙”。
当前,“脑”(不论大脑还是小脑)日益成为具身智能赛道的热门话题。
在海外,两位前卡内基梅隆大学教授成立的Skild AI,在2024年7月完成了3亿美元的融资,成立仅一年估值就达15亿美元;由前Google研究员,Stanford与Berkeley教授成立的Physical Intelligence(PI),估值则已达到20亿美元。
“自变量机器人从成立之日起就坚定选择了‘统一大模型’的技术路线,与这两家公司后续公布的不谋而合。”王潜表示。
但目前,具身智能大模型领域还存在不少无人区。在国内,首批百亿级大语言模型和机器人的结合还较浅,常常只局限在简单的语音互动与感知规划。
与此同时,全球范围内尚未出现能真正解决物理世界复杂的操作问题的通用大模型。传统机器人通常基于特定场景和任务,很难根据环境和任务的变化自主调整策略。长远来看,作为“脑”的模型泛化性不足,也会给具身智能的规模化造成阻碍。
王潜对36氪表示,训练具有高泛化性的具身智能通用大模型,也就是统一大模型,是目前真正的解法。
为具身智能接入一个通用的底层模型,意味着机器人有了一个学习了所有任务之间的通用架构的大脑,比如物理世界的规律、物体的特性、机械臂的控制力度等。
相较于适用于特定任务或场景的垂直模型,具身智能通用模型所具有的任务泛化性,能够让开发者不用根据每个新任务从0-1训练模型,减少模型微调所需训练数据量的同时,所得模型还能根据任务和环境变化自主调整策略。
成立以来,自变量机器人在具身智能通用操作模型的研发上进行了快速迭代。成立仅2个月,自变量机器人就训练出了第一版具身智能操作模型,可实现切菜、倒水等步骤长且复杂的操作任务。在2024年中,模型在特定任务上已显现出少样本学习和自发的跨任务迁移能力。
近期,自变量机器人实现了全球目前最大参数规模的具身智能通用操作大模型:Great Wall系列(GW)的WALL-A模型,采用的技术路线为“统一具身智能大模型”。王潜表示,该模型在多个维度上达到或超过了SOTA水平。
据王潜介绍,WALL-A模型的特点在于,实现了两个维度的“统一”:
一,实现了所有步骤“端到端”的完全纵向统一。输入最原始的视频、语言、传感器信号,输出最后的机器人的速度、位姿、力矩,用一个模型完全解决,中间没有任何切分的步骤;
二,实现了不同任务的横向统一。所有的任务放在同一个模型训练,推理用同一个模型进行操作。也就是说,一切操作任务,只用这一个模型,就解决所有问题。
王潜对36氪提到,端到端的纵向统一,可以避免人为干预所引入的噪声和信息损失;任务的横向统一,则让机器人像人一样从不同任务中获得可相互借鉴的经验。
“新一代的具身智能技术的突破体现在泛化性、通用性、自学习、处理复杂任务的能力上,这一切在统一大模型均有体现。”王潜表示。
他透露,自变量机器人已经实现了一系列创新,既包括底层算法、框架的创新,也包括数据工程、训练工程的整体系统级创新和优化。
以下是投资人评价:
德联资本:
德联资本长期以来坚定支持机器人领域的早期创新,大模型带来的具身智能技术跃迁将使机器人泛化性得到本质提升,加速场景普及应用。自变量机器人作为具身智能基础模型公司,创新性地提出大小脑融合的统一端到端具身基础大模型,展现了scaling law在具身智能领域的巨大潜力。自变量团队具备行业稀缺的Robotics Learning与多模态大模型融合能力,将模型架构、训练方法、数据管线深度耦合,具有显著的差异化与竞争壁垒。德联资本高度认可并坚定支持自变量成为行业领先的具身智能基础模型公司。
基石资本:
自变量机器人在具身大模型上的深刻理解与技术积累令人印象深刻,是国内极少数既完整做过多模态大模型又深入理解机器人复杂操作的复合型团队。公司成立之初就坚定选择端到端的训练范式,搭载其模型的机器人在空间关系理解、长序列复杂动作以及场景泛化能力等关键难点上都展现出国内外领先的水平。我们认为自变量是一个专业水平领先并有极客精神、心怀梦想并愿意为之付出的创业团队,热烈欢迎他们加入基石大家庭,我们将持续坚定的支持公司的发展,协助公司达成远期目标。
啟赋资本:
自变量机器人是当前国内唯一致力于端到端统一具身大模型的公司,也是少见的能将完整的语言及多模态大模型训练经验和机器人学习经验有机结合的原生团队。这一代的具身智能技术,既需要新的技术栈上的突破,也需要在整体工程落地上的创举。公司在技术原始创新、工程创新、工程落地方面体现出了极大的优势,是一个兼具探索家气质、科学家精神、工程师实践的团队。我们相信随着自变量机器人在模型、数据、工程等方面工作的逐步落地,必将显现出领先世界的模型效果与真正落地通用机器人的商业潜力。
南山战新投:
自变量机器人采用先进的端到端技术路线,致力于构建一个能够从感知直接到动作的通用具身大模型。得益于其高效的数据采集系统,公司能够实现数据与模型之间的快速迭代,确保技术持续领先。在短短半年内,公司自主研发的基础模型已经能够训练机器人执行一系列复杂而精细的物理操作。团队由机器人学习和大模型领域的专家组成,与国内其他具身智能公司相比,展现出明显的差异化优势。公司技术与南山区的人工智能战略高度一致,有望解决具身智能机器人产业发展的核心瓶颈,并具备引领未来具身智能大模型发展的潜力。
九合创投:
自变量机器人从Day 1开始坚定统一大模型的技术路线,在具身智能的Foundation Model上持续投入,并已经产生了阶段性的成果,当前模型的现场执行效果、复杂任务处理能力、泛化能力处于领先状态。九合在自变量团队持续加注,我们期待团队在LLM理论基础、实践经验的积累上,不断推进具身智能大模型的技术路线演进,给具身赛道带来新的变化。
文章来自 “36kr”,作者 周鑫雨
【开源免费】XTuner 是一个高效、灵活、全能的轻量化大模型微调工具库。它帮助开发者提供一个简单易用的平台,可以对大语言模型(LLM)和多模态图文模型(VLM)进行预训练和轻量级微调。XTuner 支持多种微调算法,如 QLoRA、LoRA 和全量参数微调。
项目地址:https://github.com/InternLM/xtuner