11月26日,我们在硅谷Menlo Park举办了一场主题为「AI机器人与可穿戴设备未来」的线下活动。在「The Right and Cool Way of Building Robots」环节中,我们邀请到K-Scale Labs的 CTO 兼联合创始人 Pawel Budzianowski,一起探讨如何在创业公司中正确而有趣地开发机器人,和围绕这一主题的方方面面。
Pawel 分享了他从 NLP 领域转型至机器人创业的个人经历,以及K-Scale 在技术研发、开源平台、供应链和模拟学习等方面的进展与挑战。他也阐述了 AI 如何重塑机器人行业的未来、大规模低成本生产与开源平台的价值,和如何通过真实世界互动来获取高质量训练数据等关键话题。
王兆洋:在向 Pawel 提问之前,我想先问问大家:有没有听说过 “卡尔达肖夫指数” 这个概念?
观众:这是一个关于不同文明类型的分级理论,主要基于能源消耗规模,甚至涉及到太阳系的能量利用。
Pawel:没错。我们坚信,机器人是维持现代文明的关键。如果想要进一步提升生活品质,就需要更多能源,而这意味着需要更多机器人。未来,也许我们能消耗整个银河系的恒星能量——希望有生之年能看到这成为现实。
王兆洋:我提这个问题,是因为 K-Scale的名字就来源于这个理论。能分享一下为什么选择这个名字,以及你们正在做什么来实现这个使命吗?
Pawel:当然!先做个简单的自我介绍。我是 Pawel,我们几个月前创立了这家公司。公司的CEO Ben进入了YC 2024冬季批次,我在去欧洲的两周前遇见了他。我本来是做大语言模型对话式AI的。我们在网上偶然相识,一起共进早餐,谈了大约四个小时。我们之所以相遇,是因为有很多做LLM和对话式AI的人看到了斯坦福、伯克利或DeepMind发表的几篇论文。你们可能看过那些小型机器人在模拟器中踢足球的视频,完全是通过学习实现的。当我看到那篇论文时,我对训练又一个LLM的兴奋感顿时消失了,我对妻子说:"我需要制造那样的机器人。"就这样,九个月后我来到了这里。
当我们讨论这件事时,考虑到AI以及机器人技术的进展,我们意识到这个听起来很疯狂的赌注 - 在几年内,每个人都能以不到5000美元的价格拥有一个人形机器人 - 虽然在2024年听起来很荒谬,但这比大多数人想象的要更接近现实。就像几年前没人相信 ChatGPT 会成为现实一样。到了那时,我们甚至可以通过机器人远程探索银河资源,而不需要像马斯克那样冒着生命危险去火星。虽然我们选了“卡尔达肖夫”这个概念作为名字,但看到很少有人了解它,我现在有点怀疑这是不是最明智的选择哈哈。
王兆洋:你们目前在做什么呢?三个月前我见过Ben,他提到了一些你们的工作进展。能不能分享一下这段时间你们取得的成就?
Pawel:我们在今年三月正式启动了公司。K-Scale 的使命是为像我和Ben这样的开发者创建一个平台,让他们能够轻松地构建人形机器人或其他类型的机器人。
刚刚视频中展示的项目是30天前我们黑客马拉松团队的作品,通过我们的软件技术栈和经验完成了。这个机器人完全开源,成本只有350美元,目标是提供一个足够便宜、功能实用的平台,让任何人都能构建自己的机器人。
我们的关键是要让机器人不仅便宜,而且真正有用。我认为实现这一点的唯一方法是在机器人上运行大语言模型,为其赋能一些实用功能。尽管现在这个机器人还比较简单,但它已经能做俯卧撑了!
王兆洋:看起来你们不仅在开发和销售自己的机器人,还在为开发者搭建平台,提供必要的工具和开源资源,同时组织黑客马拉松活动,建立一个大社区。这工作量很大啊,你们的资金够用吗?
Pawel: 我有个可能“不太政治正确”的答案,但看到摄像机我还是不说了(笑)。实际上,很多公司在自动驾驶领域浪费了大量资金。虽然我们融资规模远不及那些大公司,但我们更注重市场导向。我们的座右铭是:“不要成为又一个倒闭的机器人公司。”
我们的目标是打造一个足够便宜、适合大众的机器人平台,让人们可以在此基础上开发自己的功能。它不需要像特斯拉的Optimus那样炫酷,也不需要像Figure或Unitree那样功能齐全,只要够用并且便于开发即可。从这个角度看,即使只有10个人和几百万美元的种子轮融资,而不是数亿美元,这个目标也是可以实现的。与南亚制造商的合作也给我们带来了很多机会。
王兆洋:所以你认为即使做这么大的事情也是可行的?
Pawel:是的,我们正在等待更多机器人运到我们的Menlo Park办公室。不过别告诉我们的邻居,他们可能会被吓到(笑)。
王兆洋:我们来深入了解一下你们的产品和软件开发。你们目前正在开发多少种机器人?它们具备哪些技能?你提到不想做像Optimus或Figure那样的产品,那么在技能选择和设计方面是怎么考虑的?
Pawel:从长远来看,我们希望成为一个开源平台,让任何人都可以基于我们的技术构建自己的机器人项目。我们的一切开发都是开源的,甚至包括Scrum会议,如果你对自己的机器人有任何问题都可以加入讨论。
为了实现这个目标,我们正在构建大量技术栈。首先,我们正在构建一个新的机器人操作系统,用 Rust 取代传统的ROS。Rust更简单、高效,可以快速部署并进行微调。从软件角度来看,这就是我们24/7在建设的东西。在此基础上,我们有一个模型。虽然机器人领域有很多传统方法,比如基于模型的MPC(Model Predictive Control)方法,但我们完全投入到强化学习和模仿学习的操作中,试图构建一个神经网络来驱动机器人,并将其提供给开发者,让他们能够在此基础上构建应用。
硬件方面,我们从构建一个半身人形机器人平台开始,这是一款金属版本的机器人,比市场上同类产品便宜十倍左右。它的高度约160厘米(5英尺),具备基础技能,包括行走、对话和物体操作。我们希望用户可以即插即用,通过网站实时串流机器人的视频数据,远程操作,并与机器人进行交互。训练完成后,它就能开始为用户完成一些实际任务。对于硬件,这是我们的基础平台。我们想要测试市场,看看有多少人愿意为此付费并在此基础上开发。
同时,我们还在探索两个其它方向:一是纯工业用途,比如像Unitree H1、Astro机器人或Figure这样的两米高的强壮人形机器人,用于体力劳动。但由于当前制造成本较高,我们认为时机还不成熟。二是教育用途。我们已经有来自危地马拉的学生使用300美元的成本开发小型人形机器人,用机器学习进行操作。我认为教育市场在机器人领域的资源严重不足,这也是我们未来重点关注的方向之一。
从长远来看,会有小型、中型和大型人形机器人,但现在我们主要针对中型市场。
王兆洋:听起来你们正在为人形机器人打造一个类似“乐高”的系统,但问题是,你们不可能满足所有人的需求,对吧?我在YouTube上看到你们分享了一些有趣的视频,展示了模仿学习和强化学习的操作能力。我与许多机器人领域的人交流过,发现他们大致有两种主流的长期发展理念:一种是端到端的方式,比如马斯克所推崇的那种;另一种是将不同的技术组合在一起,让目标更容易实现。你怎么看?
Pawel:好的,让我先为不太了解机器人领域的人提供一些背景。我假装自己是机器人专家,虽然实际上不是。一年前,当我开始研究机器人领域的文献并参加相关会议时,我的背景主要是自然语言处理(NLP)。2015年开始读博时,我研究对话AI模型,当时我手头只有一个GPU,用来训练基于一个大约1万条对话的数据集。而现在,像OpenAI或Anthropic这样的公司每天可能就能收集10,000条对话,仅用于小规模微调。
当我一年前进入机器人领域时,感觉就像回到了2016年的NLP世界。许多机器人研究者也只有一个GPU来训练模型。问题是,机器人领域不仅需要一个聪明的AI,还需要让它在硬件上运行得足够快和可靠,因为机器人是一个需要以50赫兹运行的物理设备。这意味着每20毫秒,你就要向机器人发送控制指令,比如左右移动。这种实时性要求让很多人望而却步。
历史上有很多关于机器人行走的数学模型。近年来的突破是使用模拟器和游戏引擎,让机器人在虚拟世界中学习行走,比如设置目标“朝特定方向直走20秒”并给予奖励。通过模拟,可以同时运行数千个机器人进行训练,这是该领域的一个标准方法。然而,这种方法主要解决行走问题。
当涉及到更复杂的操作,比如用手拿起并打开瓶子时,问题就变得更加困难了。任务中涉及的扭矩、摩擦力等因素很难通过模拟准确再现。因此,很多情况下,你不得不将多个系统结合起来解决问题。这是一种有效的短期方法,但从NLP的经验来看,最终目标是构建一个能够端到端控制机器人的大模型。
理想的模型可以每20毫秒向所有电机发送指令,控制机器人手脚的每一步动作。这需要克服许多挑战,比如如何让模型更快、如何同时控制多部件,以及如何获取大量高质量的数据。
在这个过程中,数据采集是最大的难点,也是每个团队必须解决的问题。无论是通过人类远程操作收集数据,还是利用基础模型(如视频VLM)进行微调,关键是找到高效的方法获取有用的数据。最终,简单的设计和强大的计算能力才是胜利的关键。我们正努力推动这一目标的实现。
王兆洋:你提到你的背景,这让我想到上个月听你演讲时发现的一个有趣点。你原本是NLP(自然语言处理)领域的算法专家,来自大语言模型的世界,却加入了一家机器人公司,负责硬件开发并担任CTO。如今,AI的进步正在深刻影响机器人领域。你能分享一下,大语言模型如何在机器人领域发挥作用,甚至可以说是“入侵”了吗?
Pawel:无论是哪种机器人公司,大多数工程师的起点通常是机电一体化、电子工程等领域,但最终他们都需要深度掌握AI,特别是机器学习。这种转变几乎不可避免。
机器学习的现状非常有趣。虽然我们还在谈论2022年的大语言模型,但如今,如果你进入机器学习领域,接触的第一个模型很可能是视觉语言模型,它可以输入图像并生成对话。而且已经有开源模型支持语音输入输出,接下来几个月内还会出现高质量的视频模型。
对于像我这样从大语言模型领域转型的人来说,从LLM到视觉语言模型,再到机器人,仅仅是添加一个新的数据维度,比如电机的状态信息(关节位置)。这些数据可以输入同样的网络,采用相同的训练方式。这让跨领域变得更简单:理解机器人所需的数据只需要一天,但学习硬件的复杂细节可能需要一生。
王兆洋:你的经历似乎是一个隐喻,反映了未来五年中可能会有更多与你背景类似的创始人加入机器人领域。在准备这次对话时,我也思考了软件与硬件的关系。比如,比特币是软件,但它能让硬件“燃烧”;软件现在也能让你的硬件看起来很蠢。但我在想,未来是否有机会扭转这种局面?硬件能否对软件产生影响或帮助?尤其是现在扩展定律的瓶颈越来越明显。你怎么看?
Pawel:几年前,我坚信添加视频或音频数据会让模型更智能,但Ilya证明我们都错了——即便只有文本,也能训练出非常智能的模型。
真正的突破可能出现在这样的场景:未来有成千上万个机器人帮你洗衣服、买杂货、陪你聊天。假设它们拥有一定的自主性,比如你对机器人说:“去帮我买杂货。”它不需要详细清单,而是自主决定买可口可乐还是健怡可乐。可能结果是错误的,比如它买了健怡可乐,你非常生气,训斥它。这种反馈会成为宝贵的数据点。机器人可以从中学到个性化的偏好,比如“Pawel讨厌健怡可乐,因为里面没有糖。”
这样的数据是传统数据标注员无法提供的,它源于机器人与真实世界的交互。这种基于现实反馈的数据,会推动算法迈向一个全新的阶段。虽然要实现这种能力还需要整个领域付出数千小时的努力,但我认为这将是机器人发展的下一个巨大飞跃——学习如何真正影响现实世界。
王兆洋:我们聊了很多宏观层面的内容,现在让我们关注一些现实问题。我们都知道机器人行业的供应链非常复杂,即使只是交付一台机器人,都可能让人焦头烂额。你怎么看待这个行业的供应链现状?对这个生态系统有什么期待?
Pawel:作为一名来自欧洲的人,我真心希望未来的世界能够像一个大家庭一样,南亚、非洲、南美、北美和欧洲都能成为一个紧密联系的大市场。虽然当前的地缘形势并不乐观,但根据我们的经验,我们的产品是在内部设计的,同时与许多南亚的制造商合作。
如果你去深圳走一走,你会发现那里的效率和成本与美国相比有多大差异。我们对南亚制造商的进步充满信心,因为在北美建立端到端的制造体系,不仅价格竞争力不足,质量也很难达到那样的高度。因此,我们非常依赖全球制造商的支持。这也是我们选择开源的原因。我们希望尽可能多的公司参与制造我们的设计,因为我们的最终目标是在软件和智能模型上下注,构建一个强大的机器人平台。
目前的现状是,即使是顶尖大学,比如伯克利和斯坦福的博士生,想要接触人形机器人都非常困难,更不用说普通开发者了。如果全世界现在只有100个可运行的人形机器人,我们怎么可能推动行业前进?历史一再证明,大规模、低成本的制造模式是成功的关键,这正是我们正在努力实现的方向。
王兆洋:我们时间快到了,我再问最后一个问题,然后留些时间给观众提问。我的问题是,我知道你们租了一栋房子,整个团队一起生活和工作,而且这栋房子离Marc Andreessen家只有三分钟车程。到目前为止,这种策略如何?
Pawel:我得先澄清,a16z目前还不是我们的投资者(笑)。但说正经的,我们确实有一个“机器人之家”。我们团队里有人常驻,还有博士生在这里长期研究。
我们的公司以开源为核心,对所有想研究机器人技术的开发者完全开放。这栋房子不仅是我们的办公地点,也是一种生活方式。这里的人有的在建立自己的业务,有的在平台上招募人才。我们的房子欢迎任何感兴趣的人来参观,或许你在散步时还能偶遇Marc。
更重要的是,我们定期举办黑客马拉松活动。我们正在筹备下一次活动,等从中国运来一些更大的平台后就会正式宣布。
王兆洋:好的,谢谢Pawel!观众可以提问了。
问题1:我很好奇,你们黑客松时间安排是怎样的?目标有多宏大?
Pawel:我们上一次的黑客马拉松持续了48小时,共有11个团队参与。坦白说,其中三个团队几乎全程没睡觉。我个人觉得48小时的时间不足以产出真正意义深远的成果,但令人欣慰的是,很多人充满热情,甚至活动结束后还继续完善他们的项目。我认为一周可能是更合理的时间,但我们选择48小时,是因为大多数人还是需要回归正常生活。至于硬件和软件的比例,大约是五五开。
问题2:机器人公司在走出受控环境、适应新场景时往往遇到困难。你们是如何应对的?
Pawel:你说得很对,这确实是个常见问题。很多机器人演示在换了灯光或房间后就会崩溃。归根结底,这是一个数据量和模型见过的场景多样性的问题。我们之所以如此注重开源和可负担性,是因为让机器人变得真正智能的唯一方法,就是让它接触成千上万种不同的场景,而不是反复在一个宝马工厂中训练。一旦数据中有了足够多的多样性,这个问题就会迎刃而解。
问题3:你提到模型性能需要与开发者和硬件协同工作。这些模型是在本地运行还是在云端运行?如果有人想入门机器人并进行模拟,该怎么做?
Pawel:这是一个价值十亿美元的问题。许多大公司正在研究这一方向。你可能听说过 Physical intelligence,他们开发的模型非常出色。通过预测未来 64 个动作,这种模型可以闭环自主运行一段时间,让你有时间思考下一步动作。
对于操作任务来说,这种方法允许在云端运行巨型模型,每半秒预测一系列动作,同时确保机器人能够自主完成多个微动作。这种方法适合静态任务和操作任务,可以扩展到数十亿参数。未来几年,许多公司可能会在这个领域实现重大突破。
但真正的难点在于能否加速模型推理,使其在运动过程中快速决策,比如机器人保持平衡时,需要实时反馈,而不仅仅是静态的动作决策。我们最近看到一些新论文提出了很好的解决方案,发展速度令人惊叹。
问题4:关于模拟和模仿学习的两个方向,你倾向于哪个?
Pawel:我不相信模拟,因为现实世界太复杂了。我之所以有如此强烈的观点,是因为我所有的朋友,包括一些来自自动驾驶领域的,对模拟都非常消极,尽管他们仍在努力尝试。
问题5:你提到你们的平台是对人形机器人开源的。那么,如果是设计不同形态的公司也可以使用吗?
Pawel:当然可以!这正是我们希望看到的,我们的平台目标就是为不同形态的机器人提供支持。
问题 6:你提到你们与亚洲制造商合作,同时使用 Rust 语言,但大多数亚洲制造商仍在使用 ROS(机器人操作系统)。你们如何实现兼容?
Pawel:这是我们选择开源的原因之一。我们正在与多家执行器制造商紧密合作,确保他们的固件能够与我们的系统兼容。必须承认,这并不是一段轻松的旅程,但我们在逐步克服这些挑战,推动更高的标准化。
文章来自于微信公众号“硅星人Pro”,作者“Jessica”