独家|两位清华教授联手创业,要打造以人为中心的具身模型范式

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
独家|两位清华教授联手创业,要打造以人为中心的具身模型范式
5756点击    2026-05-11 16:49

独家|两位清华教授联手创业,要打造以人为中心的具身模型范式


2026 年,机器人正在准备走进家庭,和人类同处一个屋檐下。


但在这背后,一个难以忽略的现实是:当前几乎所有具身智能模型的训练中,“人”是缺席的。


模型已经学会了抓取水杯、折叠衣物、执行一条条指令,却几乎无法理解坐在沙发上的人此刻是疲惫还是焦躁。然而对于人类来说,有时递过一杯水的时机与方式,可能比“递水”这个动作本身更重要。


这个问题吸引了两位学者:冯瑶和刘淼的注意。在他们看来,具身智能要真正落地生活场景,必须把对“人”的理解加入模型。对物体的操作能力和对人的理解需要同步推进,而非先后分离。


冯瑶目前是斯坦福大学的博士后,明年即将入职清华人工智能学院任教。她在博士阶段师从计算机视觉领域的重要学者 Michael J. Black,在德国马普所专注"人"的数字化建模,用算法重建人体的三维形态、动作与姿态,让机器理解人类身体如何在空间中移动、交互。到斯坦福后转入机器人方向,试图把对人的理解带进物理世界。


而刚从海外回国的刘淼,目前担任清华大学人工智能学院的助理教授。他在过去三年在 Meta GenAI 参与了 Llama 3 与 Llama 4 等多模态大模型的研发,博士期间在佐治亚理工学院研究第一视角视觉与具身感知。


虽然两人的研究路径不同,但他们看到了同一块缺失:当前的具身智能训练中,"人"并没有被放在一个重要的位置。无论是对人体进行三维建模,还是用第一视角数据训练模型,画面中的"人"往往只是背景而非交互主体。模型学会了识别场景中的一切物体,却读不懂对面那个人的状态、意图与需求。


于是他们决定一起创业——打造一种以人为中心(Human-Centric)的全新具身模型范式,让机器人真正理解“人”的行为、意图、记忆与偏好,并最终在真实的共处场景中建立信任。


在这场对话中,我们的问题始终围绕“人”展开:机器人该如何捕捉需求、推断意图,进而赢得信任?答案可能藏在尚未成型的数据范式里,可能指向仍在探索的模型架构,也可能依赖一套需要彻底重构的评测体系……


一切还在探索之中。


以下是我们的对话:


为什么是“人”?从大模型到具身智能的转向


DeepTech:两位为什么会选择具身智能这个方向进行研究?


刘淼:其实我在博士阶段做的就是机器人方向,比如基于第一视角视觉(egocentric vision),结合 learning from demonstration 或 imitation learning,让机器人通过模仿学习去完成更接近人类的操作任务。


当时受限于项目条件,我们更多只能做一些偏“纯视觉”的研究。后来在 Meta 工作期间,由于研究方向相对自上而下(top-down),个人能够选择的空间比较有限,这条路径依然没有被系统性推进。


但我心里其实一直没有放下具身智能。我始终希望有机会把“让机器人真正像人一样在物理世界中行动”这件事做好。


冯瑶:我的路径和刘淼有些不同。我的出发点就是“人”,在博士阶段,我在德国主要的工作是做“人”的建模,比如什么是好的 human representation(人体表征),以及如何从网络数据中理解人类行为。我也尝试过结合大模型做行为理解,但这些大多在“数字世界”里完成。


但纯数字环境的问题在于缺乏真实的交互感,也很难评估模型是否真的“理解了人”。因为缺少可靠的 benchmark。


后来我去了斯坦福,加入机器人团队,把这些关于“人”的建模放到物理世界中验证。我逐渐意识到:只有当模型既能理解人类行为,又能驱动一个实体在真实世界中与人交互时,我们才真正有机会判断它是否“做对了”。


而机器人就像一个天然的测试平台。你让它去行动、去互动,很多问题会立刻暴露出来,推动研究从“看起来有效”转向“真正可用”。


DeepTech:刘淼老师之前在 Meta GenAI 参与过 Llama 3/4 等大模型训练,那是纯粹的数字世界;但具身智能需要处理复杂的物理世界。除了热爱,这种转变背后还有什么原因?


刘淼:费曼有一句很有名的话:“What I cannot create, I do not understand.”(我无法创造的东西,我就无法真正理解。)


但在今天这个时代,这句话其实可以被“反过来”看。一个模型即使能够生成文本、图像甚至视频,也不意味着它真正理解了物理世界。


什么才算真正的理解?一个标准是:它能否在物理世界中行动,并理解行动带来的后果。包括物理规律、因果关系,以及“动作如何改变环境”。这正是具身智能被重视的原因:只有进入真实世界、与环境交互,模型才可能形成类似人类的“世界模型”。


更重要的是,现实世界不只是由物体构成的,它更是一个“有人存在的世界”。当前的大模型在“理解人”上很有限。它们能识别动作、服饰、年龄,但很难理解情绪、意图,以及“心智理论”。


如果把这些模型直接放进真实环境与人类互动,它们很难稳定工作。这个世界从来不是空的物理空间,而是充满人的世界。忽略这一点,具身智能走不远。这也是我在 Meta 时逐渐意识到的局限,所以我回国后,希望在这些方向上继续探索。


DeepTech:相比海量的第三视角数据,你所研究的第一视角数据的不可替代性在哪里?


刘淼:第一视角最核心的独特性是“具身性”(embodiment):感知和动作紧密耦合。感知驱动动作、动作改变环境、环境反过来影响下一步的观测。这种闭环是第一视角天然具备的,也更符合人类的感知和行为方式。


另外,长时间的第一视角视频还隐含了人类的认知层级:它记录了你的意图(视线主动聚焦在哪里)、探索路径(如何寻找目标),以及到达目标后如何利用环境完成任务。


这对应了机器学习中的“探索与利用”的权衡(exploration vs. exploitation)。第一视角数据天然把两者结合在了一起,对机器人学习非常有价值。


DeepTech:如果放在一个具体任务中,基于第一视角和第三视角的数据,机器人实际表现会有什么差别?


刘淼:以厨房场景为例,比如洗菜或切菜。从第三视角看,你能大致判断这个人在做什么。是站在水池边或案板前,知道是洗菜或切菜。


但很多关键细节是捕捉不到的:具体洗到哪个位置、哪只手握菜、哪只手开水龙头,或者切菜时的角度、双手配合、切到哪一步。这些细粒度的动作信息,第三视角很难获取。


而第一视角能直接对齐“手—眼—动作”的关系,这对机器人学习可执行的操作策略非常关键。


DeepTech:冯瑶老师,从 DECA、PIXIE 这样的人体重建工作,到语言模型相关研究,再到近一两年的人形机器人控制,这条路径其实跨度很大。你的研究思路是怎样的?


冯瑶:我一直想构建一个真正的“实体智能体”,它能够像人一样存在和行动。


从这个目标往回看,第一步一定是理解“人本身”。早期的工作,比如 DECA、PIXIE,关注的是如何在数字世界中重建人,也就是学习一个有效的 human representation,以及从大规模互联网数据中提取人的行为模式。


但一个很自然的问题是:学到这些表示之后,下一步该做什么?大约在 2022 年,大模型的出现让我很快意识到,这类模型在建模和推理能力上是一个非常关键的突破。于是我们开始尝试把大模型和此前的人体表示结合起来,让模型不仅能“看到人”,还能在语义层面理解人类行为。


再往前走,就遇到了一个很现实的问题:我们很难判断模型是否真的理解了人类。即使构建各种数据集和 benchmark,也很难覆盖复杂、多变的真实行为。所以我后来去了斯坦福,进入机器人方向,把模型放到真实的物理系统中,让它和人发生交互。


在这个过程中也发现,传统强化学习(RL)往往更关注任务成功率或精度,但与人交互时,柔顺性(compliance)、安全性等因素同样重要,这些在过去的算法设计中是被低估的。因此,后续的工作也会更多关注这些维度。


DeepTech:如果用一句话定义,你们理想中的 human-centric(以人为中心)的具身基础模型是什么样的?


刘淼:我希望这个模型能够通过理解世界中的“人”,从而获得对世界更完整的认知。


冯瑶:我会觉得是通过理解人、以及人与人之间的交互,让机器人更像“人”。


端到端还是模块化?以及具身智能的“陷阱”


DeepTech:目前行业里存在端到端和模块化的路线之争。两位设想中的具身基础模型是怎样的?会只选择其中一种路线吗?? 


冯瑶:我觉得“端到端 vs 模块化”某种程度上是个伪命题。关键在于:在系统的哪一层引入可解释性,哪一层做语义介入。比如叠衣服任务,机器人不能只是“看到衣服就叠”,而是要先理解指令(“帮我把衣服叠一下”),找到衣服,执行。


更关键的是,任务会动态变化。如果叠到一半,你说马上要穿,它就得中止并切换任务。这就要求系统能在中间层插入语义理解与决策。


另外,可解释性也很重要。如果机器人递水失败了,要知道是意图理解错了、抓取失败了,还是递交位置不对。这些都需要分层语义表达。


所以我们的思路是:高层保留明确的语义结构和可解释性,底层控制(如抓取)采用更接近端到端的优化方式,兼顾效率。这有点像人类神经系统。把“缓慢的社会认知”与“快速的本能控制”解耦,避免用一个庞大网络同时处理极难和极简单的问题。


刘淼:我觉得现在之所以有“端到端 vs 模块化”的讨论,是因为目前任务还比较简单。放到复杂场景(比如既要对话又要同时做饭),很难用一个统一模型同时输出语言和动作策略。


所以架构的选择,本质上是由任务需求决定的。如果是高度结构化、重复性的工业场景,比如“抓—取—放”,做成端到端系统是有可能的;但在开放环境中,尤其是涉及人机交互的复杂任务,就很难用单一架构覆盖。换句话说,不太可能存在一个统一的框架适用于所有场景,系统结构会随着任务复杂度和能力边界不断演化。


DeepTech:听起来你们的方案中有很多“语义插入”和动态决策的设计,这件事最大的困难在哪里? 


冯瑶:这条路线的难点在于它对“人”的理解要求更高。比如语义插入不仅仅是理解一句话的表层含义,还涉及对用户的长期建模:包括记忆(memory)、行为模式,以及具体情境。  


举个例子:用户说“这件衣服不用叠了”,系统需要理解原因。可能是这件衣服刚穿过,需要放去清洗;也可能是马上要穿,需要直接递给用户。这背后其实是一个复杂的决策过程,需要结合历史信息、用户习惯以及当前状态。因此,这不仅是一个感知或控制问题,更是一个关于“人类建模”的问题,需要多模态信息融合和长期记忆机制的支持。


从技术角度看,这一整套系统的复杂度是比较高的。  不仅是架构复杂,更是数据壁垒。工业操作数据可以靠人工遥控在工厂里大规模刷出来,但‘人机真实交互的信任数据’是无法在实验室里靠遥控演出来的,它必须通过真实用户的长期日常使用才能自然生长。


刘淼:从行业角度来说,过去很多团队没有优先做这件事情,也有现实原因:是技术成熟度还不够,另一方面大家普遍认为“机器人进入家庭”还比较遥远,所以更倾向于先把基础能力做好,比如抓取和操作。


但现在我们判断,这个时间点正在发生变化。虽然真正进入家庭可能还需要几年,但已经不再是一个很遥远的目标了。在这个阶段,如果仍然只关注“抓取效率”或“操作精度”,其实是不够的。因为一个机器人如果不能理解人,就很难安全、可靠地和人共处。至少从用户角度来看,很难信任这样一个系统。


所以我们更多是从“人”的视角出发,把“理解人”作为具身智能进入现实场景的一个前提条件,而不仅仅是把任务完成好。


冯瑶:像今年一些 AI agent 产品(比如可以操作电脑的系统),一开始用户其实是不太愿意把个人信息交给它的。但随着使用过程,你会先通过对话建立信任,确认它真的理解你的需求,然后才逐步开放更多权限。读取文件、处理邮件、甚至帮你完成复杂任务。


这个过程本质上是“逐步建立信任”。  我认为机器人进入家庭也是类似的路径:它需要先理解人、获得信任,然后再逐渐扩展能力,而不是一开始就承担所有任务。用户也更倾向于持续使用同一个系统,而不是频繁更换。因为其中已经建立了一种“关系”。


DeepTech:如果从更客观的技术指标来看,两位认为衡量一个具身模型优劣的根本标准是什么?比如推理延迟、操作成功率,还是泛化能力?


刘淼:这是很关键的问题。我最近一直在反思:评测本身可能成为具身智能最大的“陷阱”之一。


多模态大模型有相对成熟的评测体系:自动化 benchmark(如 MMLU)加上人工评测。但具身智能完全不同。由于硬件形态不统一,实验平台各异,所以没有公认的标准化 benchmark。常见的做法是在真实机器人上做简单任务(如 zero-shot 抓取),但成本极高、可复现性很差。


大家常说数据最重要,但我越来越觉得,评测体系的不完善本身,可能是一个很大的瓶颈,甚至会误导技术路线。


冯瑶:我非常同意这一点。所以现在很多研究者开始更主动地和工业界结合,因为当一个系统真正进入用户场景之后,用户才是最好的评测者。


不管机器人是什么形态。是陪伴型、护理型,还是家庭助手;是轮式还是腿式,单臂还是双臂。这些都不是最核心的。关键在于:当它被用户实际使用时,用户的反馈是什么,他们是否愿意持续使用。


从这个角度看,真实用户反馈可能才是唯一的黄金标准。而系统需要根据这些反馈不断调整自身,无论是模型能力还是机器人形态。


DeepTech:有没有一种可能是,现在真实反馈还不够多,所以还无法形成统一标准?


刘淼:我觉得不只是“数量不够”,而是“数据本身不对”。很多现有数据像“糖水”而不是“牛奶”。来自过于干净、简单的环境(比如桌面抓取),与真实家庭环境差距很大。


如果模型在这种“假分布”上训练和评测,就会学到错误的模式,甚至带偏技术路线。本质上,模型是在拟合数据分布。如果分布本身偏离真实世界,再好的模型设计也会被带偏。


所以我们更关心的是如何获得“真实世界”的数据。如果机器人能更好地理解人,即使功能还不够全面,用户也更可能接受它、愿意使用它。这样我们才能以更可扩展(scalable)的方式获取高质量数据,而不是依赖“数据采集工厂”。


DeepTech:但现实问题是,第一视角和人机交互数据的获取成本非常高,甚至互联网里几乎没有现成数据。未来你们打算怎么构建一个低成本、可规模化的数据闭环?


冯瑶:这是一个很好的问题。我先说结论:互联网数据其实是可以用的,而且会是一个非常重要的数据来源。关键在于“重建能力”。如果你能把视频中的人体行为高精度重建出来,它本质上就可以转化为可学习的数据。包括姿态、动作、手部操作等 3D 行为信息。


这部分其实是我的一个长期研究方向,也和人体重建、行为建模是直接相关的。中间会涉及一些关键技术,比如人体动作 prior、3D 重建优化等。


在这个基础上,我们会做两件事:第一,利用互联网视频数据作为最大规模的数据源;第二,在此基础上进行低成本的真实数据采集,由我们自己设计采集环境和硬件系统,再通过算法保证高质量重建。


另外,合成数据(simulation)我认为是一个重要的“增强器”。它更像是一种数据 augmentation 的工具,而不是凭空生成数据的来源。比如,我们可以把多个短视频片段进行组合,在物理约束下进行重建和补全,从而生成更长的行为序列。这一类方法可以帮助模型学习更长时序的行为结构。


刘淼:如果你上周问我,我可能会说我不太信任合成数据。但现在不一样了,比如 GPT-image2 能力已经提升很快,从肉眼来看,很多情况下已经很难区分真实和合成数据。


所以这件事其实是动态演化的:当合成数据的质量和成本达到一个临界点,它就会自然进入训练体系。但更重要的一点不是“用不用合成数据”,而是“如何更合理地使用数据”。包括如何利用真实数据和合成数据之间的互补关系,这里其实还有很多没有被充分探索的空间。


从学术到创业:为什么选择家庭场景?


DeepTech:听说两位有计划从学术走向创业?你们是如何相识,并最终决定在具身智能这个方向上展开合作的?


冯瑶:其实我和刘淼很早就认识了,但之前一直觉得我们在做不同方向的事情。我长期聚焦在人本身。包括人体表征、人类行为理解以及机器人控制;而刘老师更多是从多模态学习、以模型为中心(model-centric)的视角来推进相关问题。


直到前段时间我们有了比较深入的交流,才发现我们在“具身智能大脑”这个问题上,其实有一个很一致的判断:如果要构建一个能够与人长期共处的具身系统,它既需要强大的多模态感知能力,也必须真正理解“人”本身。这两件事情是缺一不可的。所以我们会觉得,这种结合其实是比较自然的。而且从个人层面来说,能找到一个在技术上互补、同时也值得信任的合作伙伴,是一件挺难得的事情。


另外一个很现实的原因是,前面也提到,这一类系统的迭代高度依赖真实世界的数据和用户反馈。要做到这一点,就必须有大规模的真实部署,而这在工程复杂度、资金、算力等方面的要求,已经超出了一个学术实验室所能承担的范围。从这个角度看,走向创业其实是一个比较自然、甚至可以说是“必经”的路径。只有进入真实用户场景,才能完成模型的闭环迭代。


刘淼:我和冯瑶也算是“相识于微时”。我当时去她导师 Michael Black 的团队访问过一段时间。


虽然那时候我们的研究方向不完全一样,但有一个共同的关注点。“人”在系统中的角色。无论是从人的视角去感知世界,还是去理解环境中的人,本质上都是围绕“人”展开的。当时其实没有想到,未来会一起做产业化。但现在回过头来看,这种结合是有一定内在逻辑的。后来冯老师回国,我们才有机会更深入地讨论这些问题,也逐渐发现双方在技术上是高度互补的。


简单来说,她更多是在做偏底层的 human behavior understanding,比如运动信号、动作层面的建模;我则更偏向认知层,比如 memory、intention、attention,以及多模态融合。这两部分正好可以形成一个比较完整的闭环。


DeepTech:那从学术走向产业的过程中,你们有没有遇到一些落差或挑战?毕竟学术研究往往更偏理想化。


刘淼:我们其实都不算完全“纯学术”的路径。我之前在 Meta 工作过几年,对产业侧还是有一定了解的,也很清楚“写论文”和“做产品”之间的差别。但我个人的一个判断是:在某个阶段,确实需要考虑商业化,这是不可避免的;但模型本身的迭代逻辑,仍然应该以研究为主导,而不是完全由产品需求驱动。否则很容易出现方向性的偏差。


冯瑶:我其实也接触过不少产业环境。早期我在 Horizon Robotics、CloudWalk Technology 实习,后来也在 Meta 有过经历。再往后,我还参与过我博士导师的创业公司,开始接触一些更核心的决策问题。那段经历对我影响挺大的。你会发现,一个团队里不仅有研究者,还有 3D 艺术家、前后端工程师、以及业务和销售团队。不同角色会带来完全不同的视角,这些视角反过来会帮助我们把研究真正落地。


我自己一直比较在意的一点是:无论是研究还是产品,最终都应该被人使用。如果一个技术只是停留在论文里,它的价值是有限的。从这个角度来说,我也比较幸运。之前做的一些开源项目,在社区里有比较多的使用和反馈,这让我更坚定了一个想法:技术只有进入真实世界,才会真正“长出来”。


DeepTech:回到路线选择的问题。现在很多具身公司一开始会选择工业场景,比如工厂或仓库。但你们更强调家庭环境和人机共融,为什么一开始就没有选择工业路径?


冯瑶:本质的原因还是愿景不同。我们更希望做的是进入家庭、进入日常生活,让更多普通人可以使用。另外,工业场景在某种程度上是“结构化的”,人的参与较少,行为也更可预测。但我们关注的恰恰是人本身,所以方向自然不同。


刘淼:对。我回国之后,其实也有很多工业落地的合作机会,但我觉得这和我们想做的 human-centric AI 不是一件事。工业环境里,人是弱存在的,行为模式也比较固定。但如果目标是让机器人进入人类生活空间,那它必须先理解“人”,否则我个人是很难信任它和我共处在一个空间里的。所以这更多是一个价值选择的问题,而不是单纯的技术路线选择。


DeepTech:从时间尺度上看,两位觉得具身智能目前处在什么阶段?距离理想状态大概还有多久?


冯瑶:我觉得可以分两条路径来看。如果是传统“任务驱动”的路线,比如只做抓取、叠衣服这种能力,那进入家庭可能还需要较长时间,因为用户接受“机器进入生活空间”本身就需要一个过程。但如果是我们这条“以理解人为核心”的路线,我认为进入家庭的时间会更短。可能在一到两年内,就可以先以“有限功能 + 建立信任”的形式进入家庭,然后逐步迭代能力。


刘淼:我整体判断是类似的。短期来看,一到两年内,确实会出现一些“初级可用”的家庭机器人,它们可能已经开始进入真实家庭,但功能仍然比较有限,甚至有点“实验性”,可能会出现大家说的“买回去吃灰”的情况。


所以如果沿着当前的技术路线发展,目标是一个真正意义上的“家庭智能体”。类似可以长期陪伴、理解需求、承担多任务的系统。我认为至少还需要五年以上。这个差距主要不在硬件,而在于对“人”的理解能力,以及在复杂家庭环境中的长期学习能力。这也是为什么我想探索一种新的具身模型范式。


文章来自于"DeepTech深科技",作者 "张锦怡"。

AITNT-国内领先的一站式人工智能新闻资讯网站
AITNT资源拓展
根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考
1
AI代理

【开源免费】Browser-use 是一个用户AI代理直接可以控制浏览器的工具。它能够让AI 自动执行浏览器中的各种任务,如比较价格、添加购物车、回复各种社交媒体等。

项目地址:https://github.com/browser-use/browser-use


2
智能体

【开源免费】AutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。

项目地址:https://github.com/Significant-Gravitas/AutoGPT


【开源免费】MetaGPT是一个“软件开发公司”的智能体项目,只需要输入一句话的老板需求,MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色,包括产品经理 / 架构师 / 项目经理 / 工程师,MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。

项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md