ChatGPT 人工智能 GPT4 伦理 生成式 医疗 监管 安全 机器学习 深度学习 神经网络 计算机视觉 强化学习 模型 算法 应用 开发 研究 工具 平台 框架 数据集 训练 部署 安全 合规 培训 投资 LLM,llm AI,ai,Ai 大模型 大语言模型 制图 生图 绘图 文生图 文生视频 生成式AI AGI 世界模型 sora chatGPT,chatgpt,ChatGpt claude openai Llama deepseek midjourney 红熊猫模型 Red panda,panda Stable Diffusion,StableDiffusion,stable DALL- E 3 DALL E DALL Flux,flux 扩散模型 混元大模型 文心一言 通义千问 可灵 Pika PixelDance 豆包 月之暗面 零一万物 阶跃星辰 搜索增强 MiniMax Talkie Agent prompt fastai LangChain TTS 微调 提示词 知识库 智能体
# 热门搜索 #
搜索
斯坦福家务机器人,看似全能,实际靠遥控
7589点击    2024-01-08 10:48

Mobile ALOHA能做的事情很多,但还离不开人。


近日,斯坦福华人团队的Mobile ALOHA“全能家务机器人”在网上爆火,它展示了做饭、铺床、浇花等多种家务技能,可谓是全复合“保姆人才”。


它能够煮虾,可以擦拭桌子上的红酒,能洗盘子,还可以自动打开电梯。


还可以打开窗帘为窗台上的花浇水,将衣服放到洗衣机里、撒上洗衣液洗衣。这让网友直呼机器人时代已来,它难能可贵在“眼里有活儿”。


不过,Mobile ALOHA所展示的复杂技能,其实是背后由人遥控操作的。


1月6日清晨,发现网友为Mobile ALOHA所呈现的自主化、智能化能力倾倒后,Mobile ALOHA的两位研发人员连忙“辟谣”,称部分动作是机器人自主展示的,部分则由人遥控完成。


为了如实呈现机器人的能力,他们还专门放出了Mobile ALOHA在全自动状态下的“蠢笨”动作合集,称 “机器人尚未准备好接管世界”。


当你以为机器人能丝滑优雅地举起一杯红酒时,它只能颤颤巍巍地握住杯子,看着酒杯倾倒碎在地上,将红酒洒满桌;



红酒洒满桌


表现颇佳时,机器人能熟悉地端起左手颠锅、右手拿铲,完成一道菜肴的制作;但多是几次,原本挥洒自如的锅铲就不是对着铁锅底部一顿操作,就是在锅中挥舞但碰不到菜。



失败的炒菜案例


全自动状态下,它无法有力地控制住一把平底锅,将锅端起后,整个平锅便不可避免地掉落,为了拯救翻到的铁锅,守在旁边的研究人员还被烫伤了;



倒菜失败


甚至一根红色圆珠笔,Mobile ALOHA也无法拾起。



拿记号笔


现实和理想还有差距,但Mobile ALOHA所呈现出的完成精细和复杂的任务的运动操作能力,仍值得关注,这让未来机器人更具有想象空间。


遥控的叠被子、做菜、洗衣技能


Mobile ALOHA到底可以做到什么?


经过20~50轮演示和模仿学习,机器人可以自主完成一些复杂的移动操控任务。


 它能够按照人类做菜的顺序,将油倒入锅中,再放入一粒虾仁,并翻转锅铲将其炒熟,并拿起锅,转身将虾倒入背后已备好的盘子里。



炒虾


它可以自动按下电梯按钮,并成功进入电梯中;



自动开电梯


还可以精准打开一扇两门柜子,并抬手将一个3磅重的锅放入柜子中,再关上柜门。



将锅放入柜门


还可以在与人相遇后伸出“手”击掌。



与人击掌


目前,机器人可以连续9次完成端起酒杯擦桌子的动作;连续5次自主呼叫电梯,具有学会技能的能力。


但这个技能并非100%精准、智能,会出现错误,呈现出前文所展示的“失败状态”。


对于一款想要进入家庭场景的机器人而言,比起技能丰富度,安全是更重要的前提。一款身体笨重、由钢铁材料制成的机器人,会给家带来远超狗等宠物的杀伤力。


机器人尚未做好准备接管世界,但拥有潜力。


为了探索Mobile ALOHA的潜力,符博士将机器人带回家中,并遥控机器人完成了一些复杂动作。


它能完成做滑蛋虾仁、干贝烧鸡、蚝油生菜厨艺,这里面涉及到了切蒜、洗生菜、打鸡蛋等细致动作。



做干贝烧鸡


在遥控状态下,它能拉开窗帘布、打开窗子,握着水壶浇水;



浇水


可以握着戴森吸尘机,进行全屋清洁;



用吸尘器打扫房间


它能在主人站着不动的情况下,捏着圆形的剃须刀完成整个刮胡子动作。



剃胡子


可以将衣服赛道洗衣机里,并转动洗衣液的圆形瓶盖,将洗衣液倒入洗衣机,再操作完成洗衣动作。



洗衣服


也能从抽纸盒中抽出一张纸,并揉成一团,再擦去玻璃上的灰,且控制机械与玻璃接触时,不伤害玻璃表面。



拿纸擦玻璃


虽然上述家务能力是由人遥控操作完成的,但机器人呈现的完成复杂、精细动作的物理可能,是一个巨大的进步。


它还解决了人形机器人领域的一大技术难题——面对布料这种柔软又单薄的材质,机器人要如何完成叠被子、叠衣服等人手可以简单完成的动作。


在遥控状态下,它可以完成铺平床单、为枕头套上枕套的动作,且机器人铺平的床可谓一丝不苟,远超当代年轻人的床物收纳能力范畴。



换床单


它还可以将一件衣服展开,捏着拉链头,拉上衣服拉链,再用衣服撑将其撑起,并放入衣柜中。



收纳衣服


在机器人世界,人手能简单完成的动作,对机器便越难。机器人还做不到“眼中有活”,但手能干细致活。


Mobile ALOHA的联合研发者Tony Z.Zhao还引用了2015年的DARPA机器人挑战大赛上的失败汇集,戏谑称希望特斯拉机器人的摔倒视频。


对于Mobile ALOHA的失败集锦,网友也格外宽容,称他们“愚蠢又可爱”,也有人称“比起远程操控,自主果然困难很多”。


软硬件开源,全套机器人仅需3.2万美元


Mobile ALOHA的最大价值是物理操作能力的进步,它展示了机器人做重复性精细操作任务的潜力。


为了实现双手操作技巧,符博士团队基于谷歌Deepmind的ALOHA遥操作系统生成,设计出了一款低成本的全身远程操作系统“Mobile ALOHA”。


Mobile ALOHA是一个开源的操作系统,其学习原理是遥操作和模仿学习,即通过对人类重复动作的学习掌握技能,它是一种全身远程操作的双手移动操作系统。


谷歌的ALOHA遥操作系统更多是在桌面上进行思考,Mobile ALOHA在底部上增加了移动底盘,增加了对机器人移动性和灵活性的训练。


借助集成的移动底座和全身远程操作界面,Mobile ALOHA可以收集更多的机器人与现实世界交互的数据,并在交互过程中学习、模仿人类动作。


研究团队发现,只需对每项任务进行 50 次演示,Mobile ALOHA学会动作的成功率能高达90%,如可以实现连续9次擦红酒,连续5次成功使用电梯。


据符博士表示,之所以能在50个演示之内便实现上述效果,是因为Mobile-ALOHA 将模仿学习和静态操作数据结合协同训练。



协同训练效果


通过这种联合训练方式,机器人训练成功率可以显著提高,尤其是在执行需要精确操作的任务时。如在擦拭红酒任务中,举起酒杯和擦拭是最重要的子动作,在没有联合训练时,其成功率只有58%,但联合训练后,成功率可以提高到95%。



训练效果差别1


这种联合数据训练的方式,在VINN、扩散策略和ACT等不同的模拟学习方法上都有着不错的效果。如扩散策略下,整个任务的成功率原本只有35%,但经过联合训练后,可以提高到65%。



训练效果差别2


此外,协同训练在不同数据组合情况下,鲁棒性、稳定性在不同维度上都得到了提高。



训练效果差别3


在硬件上,它的外在形象并非最火的人形机器人形态,整个身体由一个移动底盘、一个操作界面,两个机械臂,反馈驱动,两个腕部相机及1个顶部相机构成。整个机器采用反向驱动结构的设计,控制者能通过操作台控制机械臂,指导Mobile ALOHA完成动作。它的底部安装有电池包,可断电使用。



Mobile ALOHA的硬件设计


这款机器人和操作系统由斯坦福的三人团队研究而成——计算机科学博士生Zipeng Fu和Tony Z.Zhao,和二人的指导老师是Chelsea Finn。


他们在软硬件上都进行了开源,公布了代码、硬件结构和数据,团队还专门列出了具体的硬件清单,包括整套机器人下来成本只需要3.2万美元,即22.7万人民币。


这意味着,只要有兴趣,任何人都可以基于他们的研究成果,对机器人进行试验,去训练自己想实现的动作。


该硬件的运动底盘厂家松灵机器人已在官网表示,可以定制同款斯坦福Mobile Aloha机器人。



Mobile Aloha机器人


2024年被认为是人形机器人元年,无论是特斯拉、波士顿动力等具身智能玩家,还是如谷歌的AutoRT 控制系统,又或 RT-2机器人大模型,都在从不同维度推动人形机器人发展。在最长远的想象力,进入家庭的人形机器人将会带来巨大的市场空间。


原本以特斯拉、智元机器人等人形机器人都将to B场景看作最先落地的未来,To C家庭场景则更具有难度,但Mobile ALOHA的机器人让To C场景看到曙光。


全自动的机器人时代虽尚未来到,但Mobile ALOHA仅通过两指夹具,便完成了洗衣、做饭等高难度动作,这让家务机器人、人形机器人有了更加具象的想象空间。


文章来自于36氪 “杨逍”,作者 “杨逍