本期我们请到了具身智能初创企业千寻智能Spirit AI的两位创始人,千寻智能于2024年2月成立,不到1年时间,千寻智能已接连完成三轮融资。其最近一次融资,在2024年10 月完成交割,而且千寻新一轮融资也在火爆进行中,据说已经进入收尾阶段。
CEO 韩峰涛是机器人行业的"老炮",曾参与创立珞石机器人并深耕九年;联合创始人高阳则是具身智能领域的学术新秀,师从计算机视觉大师Trevor Darrell和机器人专家Pieter Abbeel。2023年底,这对看似不同路径的创业搭档走到了一起,共同创立了千寻智能,立志于用"数据金字塔"模式探索具身智能的商业化之路。
在他们看来,随着大模型技术的突破和AI技术的进步,具身智能迎来了前所未有的发展机遇。通过结合互联网视频数据、仿真数据、遥操数据和强化学习,他们希望打造出一个能控制各种机器人在各种场合执行任务的具身模型。这个愿景背后,是对"构建下一代智慧劳动力"的深层思考,也是对人工智能与实体经济深度融合的积极探索。
这是一个关于技术突破、商业落地和远大愿景的故事,更是一个关于如何在人工智能的新浪潮中寻找突破口的启示。让我们一起走进他们的创业历程,探寻具身智能的未来图景。让我们一起走进千寻的故事,enjoy!
ZP:请韩总和高阳分别先介绍下自己吧,有什么关键的人生经历?
韩峰涛:我2008年本科毕业,放弃了华为的Offer,去浙大读神经网络方向的研究生。那时候没人看好神经网络,我毕业找的工作也与神经网络无关。兜兜转转十几年后我又回到这个领域,像是命中注定。
2015年,我从安稳的国企出来创业,虽遭遇不理解,但凭借初生牛犊不怕虎的精神,与两位同事创办了珞石。9年间,我见证了国产工业机器人产业崛起,自己也从算法工程师成长为别人口中的"行业老炮"。
2023年底,我离开珞石,投身具身智能创业。很多投资人都喜欢连续创业者,但是对创业者本身而言,再次选择创业是需要很大勇气的。第一次创业还有“无知者无畏”的加持,再次创业更加清楚需要多少付出和风险。但想到机器人行业的时代机遇和接近40岁的人生阶段,我决定再次出发。
高阳:我从小喜欢电子设备和编程,初二开始学编程,拿了多次获得省级计算机和数学比赛一等奖,还做了密码学算法研究。凭这些成绩保送清华计算机系。清华本科对我来说挺轻松,因为编程水平已达毕业标准。大二在Google中国实习做自然语言处理,跟随朱军老师研究AI。大三后获得多所顶尖学校博士offer,选择了UC Berkeley,师从计算机视觉大师Trevor Darrell。后来又跟随机器人专家Pieter Abbeel做博士后。
2020年8月,我回清华当了交叉信息院的助理教授。干了一年后,我觉得这些技术的突破时机成熟了,就想着创办一家具身智能公司。去年七八月的时候,我到处找人聊这事儿,碰巧遇到了韩总。他也想做具身智能创业,也在四处找人。我们一聊,发现想法特别合拍,就这么干起来了。
ZP:韩总之前创办珞石对今天再次创业有什么感触?
韩峰涛:珞石做的机械臂,是目前最成熟的机器人形态。未来干活的机器人,基本都得配上机械臂。所以,我们在机械臂研发和落地上的丰富经验,对做好具身智能有直接的推动作用。毕竟,具身智能就是各种形态的机器人,是AI的具象化。我完整经历过机器人产业的五个阶段:技术、产品、解决方案、商业闭环和价值闭环。每个阶段的跨越都是个鸿沟,都特别难,很多公司都倒在了这些坎儿上。
但反过来说,这些踩坑的经历其实是笔宝贵财富。现在做千寻这家新公司,我就能避开很多坑,少走很多弯路,把钱花在刀刃上。
ZP:两位是怎么看具身智能行业Timing 的?为什么是现在创业?
韩峰涛:做事情最重要的是Timing,古人讲天时地利人和,时间节点一定是最重要的。我做了十几年机器人,深知大家对"机器人"的美好想象。朋友们常问我能不能用机器人做这做那,看似都是些简单的活。可实际上,传统机器人连叠衣服都做不好,这让人难以接受。毕竟,人类都登陆火星了,怎么机器人还这么笨呢?
但现在不一样了。有了大模型和AI技术的进步,机器人终于能做以前做不到的事了。它们正从工厂走向商用,未来还会进入家庭。成熟的硬件平台、初步验证的AI技术,再加上迫切的客户需求,这些都说明具身智能创业的时机已到。
对我来说,具身智能就是智能的具象化,是各种形态的机器人。它不仅是机器人的延续,更承载了我的理想:把机器人从单一的专用工具,升级为真正智能的助手,去帮助人们做更多的事情。
高阳:第一个点是大模型的发展改变了我对通用智能实现路径的看法。以前我不相信单靠数据堆积能带来突破,也不认为"大力出奇迹"可行。但现在,大模型已经证明了这条路是可行的。我们可以用类似方法来实现机器人的相应功能。其次,机器人学习领域最近有了突破性进展。比如模仿学习和强化学习的进步,让我们现在能做到以前做不到的事情。
ZP:您认为具身智能会怎么落地?
高阳:我觉得具身智能这个领域与自动驾驶最相似,但又有所不同。自动驾驶主要聚焦于驾驶车辆这一单一场景,尽管在高速公路、城市、园区等环境中有所不同。相比之下,具身智能的应用场景就广泛得多,可以涉及各种不同领域。
我觉得具身智能的落地速度会因场景而异。在一些简单场景中,可能两三年内就能看到不错的应用。但要实现每个家庭都有智能机器人,这个目标还比较遥远,可能需要十年左右才能真正实现。
ZP:2-3年会落地的具体场景是什么?有什么样的特征吗?
高阳:有些场景,传统的自动化或机器人技术已经能够解决80%甚至90%的问题,但总有一些关键卡点需要更高的泛化能力来应对。在这些情况下,具身智能技术可以带来突破,使得这些场景能够顺利落地。我认为这是一个在两三年内能够实现的、具备较好应用前景的场景。
我们也考察了许多具有代表性的场景,例如西式快餐的后厨。像麦当劳、肯德基这样的后厨环境是非常标准化的,例如炸薯条、制作汉堡和炸鸡块等工作。这些操作行为相对简单、标准化,并且场景较为封闭,可能是优先应用的方向。
从任务角度看,抓取有很大的进展空间,像炸薯条这样的任务,操作过程相对简单:把炸锅放入油中,炸几分钟后提起来,抖掉多余的油,再倒入另一个容器。这些动作相对标准化、重复性强,会在两三年内实现自动化落地。需要高精度、高灵巧度的操作短期内还不能解决。
ZP:在诸多具身智能创业的中国和海外公司中,千寻的定位和差异化是什么?
韩峰涛:我们团队其实是一个非常独特且稀缺的组合 - 既有经验丰富的产业老炮团队,也有世界级顶尖的科学家阵列;千寻的另外一个联创郑灵茵,曾是机器人行业的出海先行者,具有深厚的工业机器人出海经验,曾0-1组建和带领海外团队深耕全球市场,并迅速实现了商业化成果转化;硬件团队是来自传统工业机器人具备多年技术储备和经验的行业顶尖人才团队。
说到我们的技术路线,千寻是国内唯一一家采用类似GPT训练路线来做具身大模型的公司。
这个训练路线,简单来说分三步:首先是基于海量数据建立预训练基座模型,然后用真实数据做微调,最后通过真实任务来做强化学习。这个路线和大家熟悉的大语言模型训练方法非常类似,比如说基座+SFT+RLHF。为什么选择这条路?因为这个路线已经在视觉语言模型(VLM)领域得到了验证,而且目前来看,这是唯一能够构建出具备通用泛化能力的具身模型的技术路线。
我们最大的差异化优势主要体现在两个方面:一个是视频学习预训练,另一个是真实任务数据的强化学习。这两点都是我们的独特之处。
千寻对于商业化落地也具备行业顶尖的深刻认知,具身智能外在表现是各种形态的机器人,来帮助人或者代替人干活,因此只有做过劳动力级别机器人落地的团队,才能深刻认知原来的机器人能做什么事,不能做什么事,在不能做的事情里面,有哪些场景是因为卡在AI上没法落地。这次AI技术进步之后,哪些场景可以快速落地,谁有这样的需求,该如何去推广销售设计机器人系统等,得益于原有在机械臂行业的落地经验,对上面提到的这些方面,我们有领先行业的认知。
ZP:介绍一下千寻的技术路线?
高阳:很多具身智能公司通常选择某一特定的技术路线。比如,有些公司主要依赖“Sim-to-Real”的方法,通过仿真器生成大量数据,然后将这些数据迁移到现实世界;或者像RT-2那样,构建一个巨大的模型,依赖大量的模仿学习数据进行训练。我们认为这些技术路线各自都有其局限性。
千寻选择"数据金字塔"模式作为技术路线。具体来说,我们会用海量数据进行预训练,然后用少量数据微调。这样不仅可以大大减少对真实世界中采集数据的依赖,同时也能通过预训练的过程提高模型的泛化能力。这种方式能够在保持数据质量和泛化能力的同时,降低数据采集成本,使我们在现实世界中的应用更具效率和灵活性。
ZP:千寻的路线,在数据源和训练方式上有什么不同吗?
高阳:我们的数据源选择是关键,主要有三个方面的创新。首先,我们利用互联网级别的人类视频数据进行训练。这种方法在国内其他公司中比较少见,但它能提供真实且广泛的先验知识。相比之下,仅依赖模拟器训练的场景往往单一,与现实世界差距较大,效果有限。
其次,我们使用互联网训练的大型视觉语言模型,提供先验知识来进行预训练。比如,我之前在学术工作中用过COP这种方法。这样做能让模型更好地理解物理世界的高层次规律,因为大型视觉语言模型在宏观理解上表现出色。
最后,我们会在现实世界中进行强化学习。当机器人有了一定能力后,我们让它在真实环境中自主探索学习。这样,机器人能在少量人为干预下自我发现问题并提升能力,更灵活地适应复杂场景,高效完成任务。
ZP:你预估具身智能模型需要的训练数据量级和成本在多少?
高阳:我们的数据使用策略是分层的,不同类型的数据规模各不相同。这种划分是基于各类数据在模型训练中的作用和需求。模拟器生成的数据量最大,可能达到百亿到千亿级别。互联网视频数据次之,大概在一亿左右。而模仿学习和强化学习的数据量相对较少,约为百万级别。
预算方面,我们大概投入几千万。这样的投入能让我们构建出一个在现实世界中较为通用的技术模型,可以执行许多日常任务。你可以把它理解为类似GPT1.0或GPT2.0这种级别的能力模型。
ZP:模型和硬件是解耦合的吗?不同部位的硬件与模型的关联程度如何?
高阳:我们的模型和硬件是比较解耦的,但不是完全独立。主要的关联其实体现在手部形态上。具体来说,躯干或手臂的模型相对通用,可以适用于不同硬件本体。但手部模型就跟硬件设计关系更密切了。比如,两指和五指机器人的手部模型就不能直接共用,因为结构和功能差异太大。不过,如果都是两指或都是五指的机器人,那它们的手部模型是可以共用的。总的来说,我们的模型设计考虑了一定程度的通用性。但在某些特定部位,尤其是手部,还是需要根据硬件的具体形态做些针对性调整。
ZP:千寻会自己做硬件本体吗?具体是什么形态?包括哪些部分?
高阳:我们自己做硬件本体。我们定义的硬件本体大概是一个轮式底盘加上双臂的形态。它不只是个简单的机械臂,而是一个相对完整的人形机器人,有头、有躯干、有双臂,再加上一个轮式底盘。
ZP:您认为具身智能Scaling law的达成路径会是什么样的?您对这条路线的信心来源是什么?是基于您观察到的一些数据,还是更多来自于您的直觉?
高阳:我认为具身模型的scaling law和大语言模型是一致的,但预训练路径有些区别。我们相信具身智能的预训练方式是利用仿真器、视频和大语言模型共同为具身模型提供数据。这种方法能更好地适应具身智能的特点。至于行业共识,我认为目前公司在采用不同的技术路线。一些公司要么完全使用Sim-to-Real,要么使用大型的视觉语言模型(VLA)或者开放式的VLA模型。
至于我对这条路线的信心,一方面,我之前在这方面做了很多学术研究,这些研究中的实验结果让我相信这条路线是可行的。另一方面,从直觉上来说,这条技术路线的本质和大语言模型的技术路线相似,而大语言模型已经取得了成功,所以可以自然推断这条路线大概率也会成功。因此,我的信心来自于实验数据和直觉的双重支撑。
ZP:在具身智能的发展路径上,关键点和难点是什么?如果假设这条路线可以成功,未来的市场格局会是什么样的?会是两三家公司垄断市场吗?
韩峰涛:我认为关键因素有三点:。具身智能的关键因素主要有三点。第一是AI这块,我们要搞清楚怎么用海量数据做预训练,建立基座模型,然后通过PostTrain把它变成能用的机器人大模型,这个思路其实跟大语言模型的Scaling Law很像。第二是机器人硬件,关键是要做出有竞争力的系统,包括性能、质量这些都要过关,成本要控制好,维护要方便。这样机器人才能真正到基础场景里干活,形成价值闭环,给公司持续输血。第三就是商业化了,要尽快实现商业闭环,这样才能收集到大量真实场景的任务数据来反哺模型。这点有点像特斯拉,他们现在有几百万辆车在路上跑,都在不断收集真实的驾驶数据。
高阳:短期来看,算法是关键。我们目前已经有了这些数据,接下来的难点和核心就在于如何高效地利用这些数据,如何将数据转化为实际的模型能力。从具身智能的角度来看,我认为算力并不是目前的主要瓶颈。在未来可预见的三年内,人才将成为关键瓶颈。问题在于,什么样的人才既能掌握算法,又能将算法在工程上实现得非常出色。我觉得这是当前面临的主要挑战。相比之下,具身智能模型对算力的需求相对没有大语言模型那么高。大语言模型可能动辄需要几千甚至上万张卡,而具身模型在短期内可能百卡量级就足够了。所以,未来的竞争焦点更在于人才,而不是算力。至于市场格局,人才的稀缺性可能导致一些公司在技术和市场上占据优势,但是否会形成垄断还需要观察。
ZP:创业公司相比大厂的优势可能是什么?
高阳:我认为创业公司的优势主要有两个方面。首先是人才,比如千寻,包括我和韩总,都是在国内这两个领域里顶尖的人才。相比之下,大公司的顶尖人才并不一定都集中在内部,所以这是一个很大的优势。
其次,创业公司在历史包袱和场景适应性上要灵活得多。大公司在管理上往往有一些战略性目标和管理损耗,对于需要快速迭代的最新技术并不总是最友好的。这一点可以从大语言模型的领域中看出来,当前表现最出色的几家公司大多都是初创公司。当然,大语言模型目前已经变成了一个资源集中型的行业,可能在资源和人才方面各占一半,要做好需要既有顶尖的人才,也有大量的资源。但在具身智能领域,我认为至少在未来3到5年内,最大的瓶颈还是人才,而不是资源。
ZP:关于数据,有什么可以加速具身智能获取高质量数据的方法吗?
高阳:我认为数据采集速度确实有可能加快,推动这一加速的因素可能包括:更先进的数据采集硬件、更完善的质量控制(QC),以及更标准化的采集流程。这些改进将使得数据生产变得更加工业化和高效。从数据采集的角度来看,未来还有很多提升的空间。
ZP:在数据金字塔里面,最宝贵的数据层是什么?
高阳:主要的数据来源有三个:仿真器、互联网视频,以及通过互联网训练的大型视觉语言模型。这三类是核心的数据源。至于遥控操作和模仿学习的数据,其数据量相对较小,可能不足以算作预训练层的主要组成部分。
我个人认为是预训练数据。因为所有大模型的底层能力都依赖于海量数据,而在我们构建的数据金字塔中,预训练层拥有最多的数据量。因此,我认为最重要的任务就是如何将预训练做得非常好。
ZP:也就是说,预训练数据可获取的量很多,但难点是用好?
高阳:对。
ZP:学术侧在如何用好海外预训练数据上有什么进展吗?
高阳:我们组提出了一些算法,比如ATM和General Flow。这些方法在该领域有较大的进展。此外,跟随斯坦福的宋淑兰老师的研究方向,也提出了一个类似的方法,叫Image to Flow to Act,这也是一个显著的进展。还有我们2024年提出的一个名为COPA的算法。同时,斯坦福的李飞飞老师也提出了两个相关算法,分别是Voxposer 和Recap。走的是另一条路子。他们主要通过视觉-运动模型提供先验知识。这些算法在预训练层的研究中,从不同角度带来了很大的突破和进展。
ZP:我们观察到海外如像李飞飞的World Labs、Skild AI和Physical Intelligence等公司都获得了大笔的投资,他们获得投资人支持的关键是什么?
高阳:我对这些公司的创始人都很熟悉。Skild AI的创始人是Deepak Pathak和Abhinav Gupta,Physical Intelligence的创始人是Sergey Levine和Chelsea Finn,他们都是学术界中机器人学习领域的顶尖人物。首先,Sergey Levine在强化学习方面有非常深厚的研究积累,我个人认为他和Pieter Abbeel是强化学习领域最优秀的两位研究者。Chelsea Finn是Sergey的学生,也是我的同年级博士同学,我们在我读博期间也有一些合作。
他们基本代表了美国西海岸在机器人学习领域最强的学术力量。Abhinav Gupta则是CMU的一位新晋教授,他在机器人学习方面已有十多年的研究经验,是最早一批专注于该领域的教授之一。Deepak Pathak同样是我的同学,Trevor Darrell的学生,也是具身智能领域非常优秀的研究者。
这两家公司能够获得如此多的融资,主要原因在于投资人看重他们在具身学习和具身智能领域的学术实力。他们的愿景是开发出具身智能的大脑,而这些顶尖的北美教授无疑是最有能力去实现这一目标的人。
ZP:那你觉得,在这些教授的履历里,是不是强化学习最受重视?
高阳:不完全是这样,强化学习只是其中的一个环节。除了强化学习,视觉处理和模仿学习也是非常重要的组成部分。当然,Sergey Levine和Chelsea Finn确实主要专注于强化学习领域,而Deepak Pathak和Abhinav Gupta在视频学习方面做了很多工作,Deepak也在强化学习方面有不少贡献。并不是只有强化学习才重要,整个技术栈需要非常全面的能力才能应对具身智能的复杂性。
ZP:具身智能领域有没有明显的先发优势?你觉得现在进入这个领域有什么优劣势?
高阳:从技术角度,先发优势不太明显,毕竟技术开发需要时间。但商业上确实有优势,先发公司能更早拿到资金,快速探索应用场景,形成商业闭环。不过长远来看,等到每家都有机器人的时候,现在的先发优势可能就没那么重要了。所以,关键还是看谁能真正把技术做好、做到位。
ZP:我挺好奇的,具身智能领域会不会像图像或语言模型那样,出现某个主流技术路线?或者有类似ImageNet那样的基础设施,让所有人的技术水平上一个台阶?怎么看技术共识、路线收敛和开源基础设施方面的进展?
高阳:技术路线的收敛在未来很可能会出现。我们相信,现在走的这条路线有望成为主流,实现通用操作能力。至于开源基础设施,虽然会逐步完善,但可能不会像Llama那样全面开放。更可能是针对特定领域或功能的专用模块开源。
ZP:怎么看中国公司在具身智能和机器人中的身位?(比如人才、硬件、应用场景方面的优势劣势、资源机会等)
高阳:在具身智能和机器人领域,我更看好中国公司,主要是因为产品定位和商业化能力。
具身智能的关键在于提供什么样的产品。理想情况是开箱即用的机器人,能快速投入使用,这正是商业化的核心。
相比之下,美国公司往往只专注开发"大脑",忽视硬件。除非他们采用类似安卓的通用免费模式,否则难以实现软硬件的最佳结合。
这种策略可能是美国公司在规避自身劣势。美国的硬件供应链和人才储备相对较少,成本也高。举个例子,Boston Dynamics的机械狗售价约十万美元,而中国公司如宇树已经将价格降到3-5万人民币左右。虽然中国产品可能尺寸稍小,但性能已经足够实用。
中国在硬件制造上有明显的成本和人才优势。因此,美国公司选择购买现成硬件,反而更符合他们的市场环境。
ZP:什么时候可以看千寻的产品或更多的Demo?
高阳:我们目前有个"零号机"demo,年底左右会推出第二个,硬件软件都会更新。不过,要看到成熟产品可能得等两三年,我们的目标是那时候实现小批量生产和实际应用。同时我们在探索各种应用场景。比如之前说的麦当劳后厨,还有物流等其他领域。这些都是我们正在研究的方向。
ZP:未来2-3年内,韩峰涛和高阳分别关心的3个重要问题会是什么?
韩峰涛:第一是人才,全球范围内的优秀的人才;第二,大行业里的场景商用闭环;第三技术,保持技术方向正确;
高阳:我目前关注的几个核心问题主要涉及数据、场景和技术团队三个方面。
首先是数据金字塔的构建和工程化落地。我需要明确如何构建每一层的数据金字塔,并有效地将其工程化。其次是场景的选择与应用。最后是组织建设。我们要找到最优秀的人才,形成一个有凝聚力和执行力的团队。
ZP:千寻后续有哪些里程碑和目标?
韩峰涛:2024年我们将聚焦技术能力展示,通过一系列演示来展现AI的泛化能力。到2025年,我们将完成首个商用场景闭环,开始小规模出货并为量产做准备。
2026到2027年是关键突破期,目标是让具身大模型在各类任务中的完成率超过80%,使其更实用、更易落地。我们会从单场景数据收集转向'基座模型+微调+强化'的方式,同时与合作伙伴一起拓展更多应用场景。
ZP:千寻的长期的愿景会是什么?你希望一起打造一个什么样的公司?
高阳:我们内部讨论了很久,最终达成了一个共同的愿景——构建下一代智慧劳动力。我们希望打造出一个能在标准化场景快速落地的具身智能解决方案,十年后世界上百分之十的人能拥有一个自己的机器人助理,在产业规模化和技术化水平提升到一定程度,而机器人的价格可能也会下降到汽车价格的三分之一。我们希望这千寻能帮助解决劳动力短缺的问题。将人类从许多繁重、重复、令人疲惫的体力劳动中解放出来。这与工业革命、电气革命的影响类似,尽管我们已经取得了很大进展,但仍有一些工作需要人来完成。我们的目标就是把这件事做好,推动进一步的自动化与解放。
ZP:过去一年,哪些技术进展让你们最兴奋?
韩峰涛:第一,大模型的推理成本在大幅下降;第二,行业巨头开始进入具身行业,人才、资金、产业链相比原来的机器人行业有巨大优势,真正具备了腾飞的物质基础;第三中国的供应链初步展现了领先全球的竞争力,包括成本、交付速度和创新速度。
高阳:比如SayCan是第一个将大模型引入机器人领域的论文,一举解决了约一半的“测试与运动规划”(Test and Motion Planning,TEMP)问题。李飞飞老师的VoxPoser工作,采用了创新方法并取得了不错的效果。此外,宋淑然老师的Diffusion Policy,也是非常扎实的工作,在机器人领域达到了相当高的水准。当然,还有很多精彩的研究我可能一时想不起来。但这些进展确实让人振奋。
ZP:通过哪些渠道学习?
高阳:在学术方面,我觉得还是要依赖持续积累。我每年大概会看上千篇论文,虽然听起来很多,但如果每天看三篇论文,一年就能达到这个数量。
另外,我也会在某个阶段进行"闭关式"的思考。我每次坐长途飞机,会提前计划好要思考的问题,没有网络干扰专注的做整理和推演,经常能得到一些深刻的结论。
ZP:最近一次在飞机上想的问题是什么?
高阳:我最近一次在飞机上思考的是人形机器人全身协作的问题。
这个话题非常有意思,你想一下,即使只有一个机械臂,机器人也能完成复杂操作;如果有两个机械臂,这种能力还能进一步提升。那么,全身协作又会带来什么样的突破呢?
我认为人形机器人的特别之处在于它不仅能用双手操作,还能协调全身。比如,我们开门时会用一只手拉门,同时用另一条腿支撑身体。这种全身协作的能力很独特,值得深入研究。
ZP:在公司做科研和在学术界做科研有什么不同的感受?
高阳:学术领域和公司环境的研究重点是很不一样的。在学术界,我们更看重长远目标和创新性。你的工作是否是前人未做过的?是否有突破性的发现或理论?这些才是学术研究的核心。
相比之下,公司更关心解决现实问题。他们喜欢用已验证的方法,特别是那些实践证明有效的方案。公司不太追求全新的、未经验证的想法,而是更注重能立即应用的解决方案。
ZP:期待什么样的同学加入千寻?
高阳:我期待的团队成员有四个主要特质:兴趣、技术能力和学习态度以及团队协同作战能力。
我期待的首先是那些对人形机器人技术以及它潜在应用感兴趣的人,因为兴趣是推动你将事情做好的最原始动力。无论是技术层面,还是应用场景,兴趣是最好的老师,只有真正感兴趣,才有可能全力以赴。
其次,我希望找到那些对神经网络、深度学习、机器人学习等前沿技术有强烈学习欲望和深刻理解的同学。这些技术是当下技术浪潮中最核心的部分,也是最有趣的部分。我相信具备这些技术能力的人才会在这波浪潮中走得更远。
另外,我希望加入我们团队的人要有突破自我、愿意学习的心态。因为在这个领域,除了我们这些有研究经验的人之外,大部分人可能并没有太多直接的经验。因此,愿意保持开放心态,快速吸取新知识,是非常重要的能力。
最后,是团队配合协同的能力,在具身智能领域,团队协作和跨学科知识融合的能力至关重要。机器人技术和人工智能虽然分属不同领域,但要实现具身智能的卓越表现,就需要在多方面进行深入合作和知识整合。无论是构建跨学科的知识体系、持续学习新知,还是在日常团队协作中不断磨练,这些都是推动具身智能整体发展水平提升的关键因素。
文章来自于“Z Potentials”,作者“Z Potentials”。
【免费】cursor-auto-free是一个能够让你无限免费使用cursor的项目。该项目通过cloudflare进行托管实现,请参考教程进行配置。
视频教程:https://www.bilibili.com/video/BV1WTKge6E7u/
项目地址:https://github.com/chengazhen/cursor-auto-free?tab=readme-ov-file
【开源免费】XTuner 是一个高效、灵活、全能的轻量化大模型微调工具库。它帮助开发者提供一个简单易用的平台,可以对大语言模型(LLM)和多模态图文模型(VLM)进行预训练和轻量级微调。XTuner 支持多种微调算法,如 QLoRA、LoRA 和全量参数微调。
项目地址:https://github.com/InternLM/xtuner