ChatGPT 人工智能 GPT4 伦理 生成式 医疗 监管 安全 机器学习 深度学习 神经网络 计算机视觉 强化学习 模型 算法 应用 开发 研究 工具 平台 框架 数据集 训练 部署 安全 合规 培训 投资 LLM,llm AI,ai,Ai 大模型 大语言模型 制图 生图 绘图 文生图 文生视频 生成式AI AGI 世界模型 sora chatGPT,chatgpt,ChatGpt claude openai Llama deepseek midjourney 红熊猫模型 Red panda,panda Stable Diffusion,StableDiffusion,stable DALL- E 3 DALL E DALL Flux,flux 扩散模型 混元大模型 文心一言 通义千问 可灵 Pika PixelDance 豆包 月之暗面 零一万物 阶跃星辰 搜索增强 MiniMax Talkie Agent prompt fastai LangChain TTS 微调 提示词 知识库 智能体
# 热门搜索 #
搜索
清华团队破解具身智能Scaling Law,GPT时刻在即!宁德时代联创终于出手
2290点击    2024-11-11 15:05

最近,我们意外发现,具身智能领域的明星初创公司千寻智能,悄悄完成了工商变更。


根据工商信息显示,本轮融资由柏睿资本独家投资。至此,千寻智能已经在半年多时间里获得了三次大额融资,一跃成为具身智能领域明星公司之一。


值得一提的是,柏睿资本是宁德时代联合创始人,副董事长李平创立的产业投资基金。


全国具身智能领域多家明星,为何首次下场便独独选中了千寻智能?


从下面这些demo中,便可窥见一斑。


仔细看,桌面上撒满了五颜六色形状各异的糖豆。如何将这些不同颜色和大小的物体进行分类,可不是件容易的事。


只见,在极其强大的识别和精准操作能力的加持下,千寻智能的机器人用灵巧的手指轻松地将糖豆捏起,并准确地放入指定的碗里。


(实拍原速)

不仅如此,它还可以一手拿起桌上透明的玻璃杯,一手从满满一筐鸡蛋中抓出一个并准确无误地放进杯中。


(实拍原速)

甚至,它还能接过手中的文件并进行装订,然后再交还给人类。


在这个过程中,AI基于视觉大模型的任务理解与规划,实现了人机交互及协同作业。


(实拍原速)

具身智能行业,到底在卷什么


其实,如今的具身智能领域可谓是百花齐放,各种酷炫的演示demo层出不穷。但对于不懂的外行人来说,只能看个热闹,很难理解背后真正的技术边界是怎么样的。


同一个动作,是提前编程好的,还是机器人自主完成的?机器人只能在特定的某个位置、某个光照做一件事,还是能够真正泛化到各个条件、各个场景?


看似相差不多的demo下,背后的技术能力实则相差甚远。


不过,对于未来的技术走向,业界的认知正在逐渐清晰——最核心的还是大脑的能力。


随着时间的发展,可能再过一两年,竞争就会回到这个本质,因为唯有大脑,才能决定具身智能能在什么场景落地。


目前,大语言模型赛道已经接近后期,投资人开始关注回报的问题,但相比之下,机器人赛道可以说才刚刚开始。尤其涉及到软硬结合,以及整套系统的复杂度,赛道周期显然会更长。


在这样的背景下,柏睿资本的此次下场,显然是经过了深思熟虑。


宁德时代联创首次出手


自创立之初,柏睿资本就专注于人工智能、具身智能领域的发展,且一直非常看好这一技术将带来的一系列变革。


具体到千寻智能,柏睿资本看重的正是其团队在AI、硬件、商业化三个方面的综合优势。


首先,针对高阳在算法和模型方面的持续创新和产出能力,柏睿资本抱有极大的信心;其次,千寻智能的创始团队在硬件领域有着扎实的背景和积累;第三则是多达上百个场景、数万台机器人的商业化落地经验。


作为柏睿资本投资的首家具身智能企业,千寻智能将借助柏睿资本和背后的产投资源,快速切入市场化落地并进行具身智能泛化性作业验证,成为国内首家实现具身智能商业化的公司。


把水壶里的水倒进玻璃杯,并让水位达到指定的刻度(实拍原速)


纵观当下机器人领域的现状,各种技术的理论验证基本都已完成,但工程化却还在起步阶段。


怎样一条途径是最优方案,率先做到在工程上可行?


从Physical Intelligence、Skild AI等优秀的国外先行者身上,我们可以隐约窥见一条逼近真理的技术路径。


端到端就是下一个前沿


最近,成立仅8个月的初创Physical Intelligence(Pi)发布了一款通用机器人基础模型π0


这个在8个机器人平台上,完成训练的3B模型,能够执行各种灵巧的任务,包括洗衣服、收纳整理......



与LLM不同的是,π0跨越了视觉、语言、动作(VLA),并通过训练机器人的具身经验中,获得物理智能。


它基于3B VLM完成的预训练,随后又根据灵巧任务(洗衣服、组装盒子、桌面任务)进行了微调。


VLM的优势在于能够集成互联网规模的语义知识和视觉理解,有助于动作预测


Pi联创之一,也是UC伯克利副教授Sergey Levine看到,如今的机器人是一种狭隘的专家系统。比如,工业机器人通过编程,在装配线上同个地点进行重复的工作。


即便是这样简单的行为,也需要耗费大量的人工编程,更不用提在复杂环境(家庭等)中的应用了。


有了大模型,就很容易让机器人做到这点。然而这一切实现的前提是——数据。


就像人类可以凭借经验快速学习新技能一样,模型也仅需少量数据,就能适应新的任务。


这便是π0的核心思想。



另一家由CMU大牛Deepak Pathak(博士出身是UC伯克利)创立的Skild AI,也遵循了同样的技术路线。


他们打造出了一款能够泛化的机器人基础模型「Skild Brain」,背后用到的训练数据是竞争对手的1000倍,可以适用到任何机器人本体和任务中。



从以上伯克利系大牛们所做的研究来看,端到端架构已成为具身智能的主要技术路线。


无独有偶,国内的千寻智能也在技术路线上与这两家美国的具身智能顶尖初创,不谋而合。


在读博士、博士后期间,千寻智能团队的首席科学家高阳,还曾与Sergey Levine和Pieter Abbeel教授展开深入合作。


尤其是,他们的模型可以在训练过程中,同时利用监督微调、强化学习、模拟学习等技术,并将Sim2Real数据作为补充。


结果就是,刚成立半年多的千寻智能,就已经能实现业内Top的灵巧手操作了。


(实拍原速)

伯克利系称霸具身智能


毫不夸张地说,UC伯克利已被公认为是最近这波具身智能浪潮的主要发源地。而Sergey、Pieter这些教授,是当之无愧的机器人学习领域最近十年的领头人。


同时,出身伯克利系的高徒们,如今已经在各个相关领域散作满天星,不断推高业界前沿的技术水平。


比如,千寻智能联合创始人高阳在攻读计算机视觉博士学位期间,便是师从Trevor Darrell教授,和Deepak Pathak同组。



最近,高阳带领团队发现了具身智能领域的「圣杯」——Data Scaling Laws,堪称机器人的ChatGPT时刻。


而且,在CoRL 2024上,这项研究荣获X-Embodiment workshop最佳论文奖!



这一方法让机器人实现了真正的零样本泛化,也就意味着无需任何微调,就能泛化到全新场景中,彻底改变了开发通用机器人的方式。


论文地址:https://arxiv.org/abs/2410.18647



就连谷歌DeepMind大牛Ted Xiao也对这项研究赞赏有加,称其对机器人大模型时代具有里程碑意义。



这位具身智能领域大咖,有着怎样的学术背景?


2014年,高阳获得了清华计算机科学本科学位,师从国内ML领域享有盛誉的著名学者朱军教授。


在大二的时候,也正是深度学习(2012年)爆发之际,高阳做的了很多关于传统ML的研究。


凭借出色的成绩,他成为了计算机系的第二位大神。


到了大三,高阳拿到了去斯坦福做交换的暑期学习资格,导师是David L. Dill教授。



本科毕业前,得益于老师的推荐信,以及自身各方面优异表现,高阳最终收获了美国多所顶尖高校的offer。


面对这些同样优秀的学府,他决定亲赴美国实地考察,做出最适合自己的选择。


在走访过程中,UC伯克利给他留下了深刻的印象。作为四大名校之一,这所学校具备了浓厚的学术氛围。


再加上,自身专攻机器学习领域的原因,UC伯克利最适合不过了。


作为一名机器学习领域的学生,他对UC伯克利格外青睐,很大程度上还因为引领ML时代技术的Michael Jordan教授的存在。



原本初到伯克利时,高阳计划跟随Michael Jordan开展研究。然而,再参加了几次他的组会,并与其学生交流后,他发现Michael研究方向与自己的与其有所差异。


因为,Michael Jordan的工作更加偏重数学理论,组会多围绕数学公式推导,这与高阳所期待的实践导向研究路径不尽相同。


在探索其他可能性过程中,他意外接触到了Trevor Darrell教授的研究组。


Trevor专注于计算机视觉领域,其魅力在于直观性——可以清晰看到输入的图片,观察神经网络训练过程,并得到可视化结果。



值得一提的是,当时深度学习的浪潮已经持续了大约2年的时间,业界也普遍认可了这项技术的卓越性。


也是基于这些原因,更加坚定了高阳在这一方向上深耕的原因。


在他的博士生涯初期,跟随Trevor教授做了很多在纯视觉领域的研究。


直到博士二年级下学期开始,高阳的研究兴趣发生了微妙的转变。


这一转变源于,实验室内部一系列关于人类智能起源的深度探讨。


而令他印象深刻的是CV圈里另一位大咖Jitendra Malik观点:他从进化角度提出,人类智能本质与灵巧的双手密不可分。



正是因为拥有了精细的手部动作能力,人类才得以完成更为复杂的任务,反过来推动了大脑的进化,使得智力水平得以适应更复杂的活动需求。


再到猫狗之间对于人类指令理解力的差别,说明了狗的群居特性,使得它们沟通协调力强于猫。


最终,他们在智能本质讨论中,逐渐达成共识:机器视觉的终极发展方向,应该由具身智能体驱动。


自然而然地,高阳开始将研究中心转向了具身智能领域。


他认为,具身智能与视觉、强化学习有着密切的联系,这种联系可以类比人类的认知过程。


即通过视觉感知环境,理解周围状况,继而做出相应的行为。


基于这种认识,高阳开始与Sergey Levine教授展开合作,深入去研究具身智能的形成机制。


得益于前期在计算机视觉领域的积累,在实际研究中,高阳能够很好地将CV技术与RL结合起来,并交出了硕果累累的成绩单。


在机器人研究领域的顶级学术会议CoRL 2024中,团队更是连中了4篇论文。


论文地址:https://arxiv.org/abs/2310.02635


论文地址:https://arxiv.org/abs/2310.08809


论文地址:https://arxiv.org/abs/2401.11439


论文地址:https://arxiv.org/abs/2406.10615


回到北美,如今头部的具身智能创业公司,除了Figure AI之外,创始人都属于伯克利系。


比如,Physical Intelligence的联创Sergey Levine,便是UC伯克利电气工程与计算机科学系的副教授。




Pi的另一位联创Chelsea Finn,也是UC伯克利的博士。


Skild AI的联创Deepak Pathak,同样是在UC伯克利获得的博士学位,师从国际计算机视觉大师Trevor Darrell教授(曾培养了包括贾扬清在内的多位视觉领域知名学者)。




随后,Pathak继续在UC伯克利做博士后研究,导师是机器人学习领域的顶尖学者Pieter Abbeel——扩散模型(Sora、SD背后核心技术)的提出者之一。


爆火AI搜索初创Perplexity AI的创始人Aravind Srinivas,以及前OpenAI联创John Schulman,皆是他的学生。


博士研究期间,Pathak开发了一种向机器人灌输「好奇心」方法。具体做法是,当系统无法预测其行动结果时,系统反而会因未知结果而获得奖励。


这种方法驱使AI去探索更多场景,并收集更多数据。


论文地址:https://pathak22.github.io/large-scale-curiosity/resources/largeScaleCuriosity2018.pdf


其实回看2014到2016年这段时间,无论机器狗还是双足机器人,在业内的进展都比较缓慢。


虽然当时的人形机器人已经可以跑酷、跳桩,但其中使用的技术栈其实非常传统,是基于传统的MPC、WPC这类手工控制器去做的。


也就是说,并不是基于机器学习这条路线。


在2017年左右,Pieter Abbeel和三个学生一起创立了Covariant(原名Embodied Intelligence),可以说是体现了具身智能的缩影。


在当年,大语言模型并没有出现,因此即使这个公司早于时代,也依然像今天的非端到端自动驾驶一样,技术栈并没有特别大的进步。


而随后大模型的出现,才终于让具身智能的推理能力、多模态感知融合、自主学习和知识迁移能力等得到了显著提升,翻开了全新的篇章。


如今,具身智能技术已经走向了深度融合和迭代优化的新阶段。拥有技术领先性和应用场景积累的企业,将迎来大展拳脚的机会。


而千寻智能,恰恰有着清晰的端到端技术路线,有顶尖人才、有应用场景。


具身智能这盘大棋,接下来就看千寻智能如何交卷了。


文章来自于微信公众号“新智元”


AITNT资源拓展
根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考
1
智能体

【开源免费】AutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。

项目地址:https://github.com/Significant-Gravitas/AutoGPT


【开源免费】MetaGPT是一个“软件开发公司”的智能体项目,只需要输入一句话的老板需求,MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色,包括产品经理 / 架构师 / 项目经理 / 工程师,MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。

项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md

2
AI搜索

【开源免费】MindSearch是一个模仿人类思考方式的AI搜索引擎框架,其性能可与 Perplexity和ChatGPT-Web相媲美。

项目地址:https://github.com/InternLM/MindSearch

在线使用:https://mindsearch.openxlab.org.cn/


【开源免费】Morphic是一个由AI驱动的搜索引擎。该项目开源免费,搜索结果包含文本,图片,视频等各种AI搜索所需要的必备功能。相对于其他开源AI搜索项目,测试搜索结果最好。

项目地址:https://github.com/miurla/morphic/tree/main

在线使用:https://www.morphic.sh/

3
微调

【开源免费】XTuner 是一个高效、灵活、全能的轻量化大模型微调工具库。它帮助开发者提供一个简单易用的平台,可以对大语言模型(LLM)和多模态图文模型(VLM)进行预训练和轻量级微调。XTuner 支持多种微调算法,如 QLoRA、LoRA 和全量参数微调。

项目地址:https://github.com/InternLM/xtuner