ChatGPT 人工智能 GPT4 伦理 生成式 医疗 监管 安全 机器学习 深度学习 神经网络 计算机视觉 强化学习 模型 算法 应用 开发 研究 工具 平台 框架 数据集 训练 部署 安全 合规 培训 投资 LLM,llm AI,ai,Ai 大模型 大语言模型 制图 生图 绘图 文生图 文生视频 生成式AI AGI 世界模型 sora chatGPT,chatgpt,ChatGpt claude openai Llama deepseek midjourney 红熊猫模型 Red panda,panda Stable Diffusion,StableDiffusion,stable DALL- E 3 DALL E DALL Flux,flux 扩散模型 混元大模型 文心一言 通义千问 可灵 Pika PixelDance 豆包 月之暗面 零一万物 阶跃星辰 搜索增强 MiniMax Talkie Agent prompt fastai LangChain TTS 微调 提示词 知识库 智能体
# 热门搜索 #
搜索
基于人类视频数据学习,「零次方科技」四个月已完成两款人形机器人研发|早期项目
3010点击    2024-10-24 11:26

想象生成模型能力提升,真实数据减少、生成数据增高,泛化性也随之增强。


数据之于技术发展的重要性长期存在。但由于它的采集难度大,训练数据成了横亘在机器人规模化落地面前的一座大山。


目前,机器人的训练数据大体上可分为三类:第一类是真实的遥操数据,第二类是高质量的仿真合成数据,第三类是人类的行为数据、其主要源于互联网视频。


机器人训练数据(图源:零次方科技)


随着Scaling Law在人工智能领域被验证,大语言模型和以特斯拉FSD(Full-Self Driving)推理为代表的端到端高速大模型,给具身智能领域带来了新的启发。


要实现具身智能,无论是遵循多模态大模型、采取构建高维世界模型、亦或是组合专有领域小模型的多种路径,其核心就在于能否解决对多样性、高质量数据的需求。通过对这一核心问题的思考,硬氪近日接触到的具身智能创业公司「零次方科技」提出了他们的解法——基于人类视频数据学习(Learn from hunman video)。


「零次方科技」成立于今年5月,由清华大学和江淮前沿技术协同创新中心共同孵化,核心成员来自清华大学AI&Robot智能机器人实验室,团队中还有多位主创曾就职于字节跳动、百度等互联网大厂、节卡等协作机器人公司。


数据量是实现通用具身操作的必需因素,单位数据成本是产品落地的基础条件。一个现实情况是,真实遥感数据和仿真数据都存在单位成本高的问题,而人类数据虽然数据量最庞大、但其数据质量是最低的。如何利用好海量的人类视频数据成为「零次方科技」探索的主要技术路径。


数据量与应用场景(图源:零次方科技)


区别于当前主流的遥操作技术,「零次方科技」借助三维人体运动姿态感知模型,通过提取人类关键关节的运动数据、并重映射到机器人身上,可在一定程度上降低算法的学习成本;同时,基于4D高斯溅射技术对机器人所观测信息进行重建,获得一个基于扩散模型的机器人动作生成策略,驱动机器人自主完成任务,使其具备直接向人类学习的能力(LFWH)。


测试结果显示,在LFWH基础上,机器人能够在仿真训练中进行强化学习,实现更加灵活泛化的操作,以弥补机器人与人之间的先天性结构差异,进而赶超人类专家的工作效率,并实现快速部署。


根据专项场景的数据及互联网数据训练想象生成模型(Imaginator),随着imaginator能力提升,模型训练中所需的真实数据逐渐减少,生成数据的比例越来越高,算法的泛化性也随之增强,进而实现Imaginator的生成能力愈发接近真实世界,逼近现实物理规律的世界模型,最终实现真正的通用人工智能。


想象生成模型(图源:零次方科技)


以「零次方科技」9月发布的双臂机器人F1为例。F1当前正尝试将其引入专业工厂的专项操作中落地使用,通过逐步拓展场景、推动数据飞轮滚动,可以有效提高模型和机器人的泛化能力。


比如中小企业工厂改造难、手动编程等问题,「零次方科技」提出,用机器人自主学习实现原位替代,不需要改变工厂布局、也不需要编程,只需把机器人引入人类岗位中,通过其持续学习的能力、不断填入数据,以增强机器人在场景方面的泛化能力。


用机器人模拟人类行为进行数据训练(图源:零次方科技)


在机器人整机方面,「零次方科技」四个月共完成了两款人形机器人的研发工作。除上述提到的F1双臂机器人外,10月24日,公司正式发布首款人形机器人Z1,该机器人可以在多种不规则路面、复杂地形中长时间稳定行走,且具备优秀的抗干扰性能,即使受到各方向的强冲击也能保持稳定站立。


Z1配备有150Nm关节电机,全身具备27个自由度,载重测试极限高达20公斤,负载/自重比超70%。其搭载了自研的EtherCAT通讯模组,整体系统可实现低延时、高带宽;同时,团队还采用了AI技术辅助进行机器人的结构参数设计,能耗更低、其动态运动性能更高。


目前,「零次方科技」正在尝试让机器人学习电影《钢甲铁拳》中的画面,已实现对人类双臂动作的准确复刻。根据官方公布的视频画面,通过观察人类的行为动作,Z1可以模仿人学习攻击招式,以灵活的全身协同控制能力为基础,进行动态防御。


创始人闵宇恒表示,计划于今年年底,其机器人将在无操作设备的情况下展开人形机器人拳击比赛,实现每个人的机甲梦。


文章来自于 “36氪”,作者“黄楠