独家｜两位清华教授联手创业，要打造以人为中心的具身模型范式

5756点击 2026-05-11 16:49

2026 年，机器人正在准备走进家庭，和人类同处一个屋檐下。

但在这背后，一个难以忽略的现实是：当前几乎所有具身智能模型的训练中，“人”是缺席的。

模型已经学会了抓取水杯、折叠衣物、执行一条条指令，却几乎无法理解坐在沙发上的人此刻是疲惫还是焦躁。然而对于人类来说，有时递过一杯水的时机与方式，可能比“递水”这个动作本身更重要。

这个问题吸引了两位学者：冯瑶和刘淼的注意。在他们看来，具身智能要真正落地生活场景，必须把对“人”的理解加入模型。对物体的操作能力和对人的理解需要同步推进，而非先后分离。

冯瑶目前是斯坦福大学的博士后，明年即将入职清华人工智能学院任教。她在博士阶段师从计算机视觉领域的重要学者 Michael J. Black，在德国马普所专注"人"的数字化建模，用算法重建人体的三维形态、动作与姿态，让机器理解人类身体如何在空间中移动、交互。到斯坦福后转入机器人方向，试图把对人的理解带进物理世界。

而刚从海外回国的刘淼，目前担任清华大学人工智能学院的助理教授。他在过去三年在 Meta GenAI 参与了 Llama 3 与 Llama 4 等多模态大模型的研发，博士期间在佐治亚理工学院研究第一视角视觉与具身感知。

虽然两人的研究路径不同，但他们看到了同一块缺失：当前的具身智能训练中，"人"并没有被放在一个重要的位置。无论是对人体进行三维建模，还是用第一视角数据训练模型，画面中的"人"往往只是背景而非交互主体。模型学会了识别场景中的一切物体，却读不懂对面那个人的状态、意图与需求。

于是他们决定一起创业——打造一种以人为中心（Human-Centric）的全新具身模型范式，让机器人真正理解“人”的行为、意图、记忆与偏好，并最终在真实的共处场景中建立信任。

在这场对话中，我们的问题始终围绕“人”展开：机器人该如何捕捉需求、推断意图，进而赢得信任？答案可能藏在尚未成型的数据范式里，可能指向仍在探索的模型架构，也可能依赖一套需要彻底重构的评测体系……

一切还在探索之中。

以下是我们的对话：

为什么是“人”？从大模型到具身智能的转向

DeepTech：两位为什么会选择具身智能这个方向进行研究？

刘淼：其实我在博士阶段做的就是机器人方向，比如基于第一视角视觉（egocentric vision），结合 learning from demonstration 或 imitation learning，让机器人通过模仿学习去完成更接近人类的操作任务。

当时受限于项目条件，我们更多只能做一些偏“纯视觉”的研究。后来在 Meta 工作期间，由于研究方向相对自上而下（top-down），个人能够选择的空间比较有限，这条路径依然没有被系统性推进。

但我心里其实一直没有放下具身智能。我始终希望有机会把“让机器人真正像人一样在物理世界中行动”这件事做好。

冯瑶：我的路径和刘淼有些不同。我的出发点就是“人”，在博士阶段，我在德国主要的工作是做“人”的建模，比如什么是好的 human representation（人体表征），以及如何从网络数据中理解人类行为。我也尝试过结合大模型做行为理解，但这些大多在“数字世界”里完成。

但纯数字环境的问题在于缺乏真实的交互感，也很难评估模型是否真的“理解了人”。因为缺少可靠的 benchmark。

后来我去了斯坦福，加入机器人团队，把这些关于“人”的建模放到物理世界中验证。我逐渐意识到：只有当模型既能理解人类行为，又能驱动一个实体在真实世界中与人交互时，我们才真正有机会判断它是否“做对了”。

而机器人就像一个天然的测试平台。你让它去行动、去互动，很多问题会立刻暴露出来，推动研究从“看起来有效”转向“真正可用”。

DeepTech：刘淼老师之前在 Meta GenAI 参与过 Llama 3/4 等大模型训练，那是纯粹的数字世界；但具身智能需要处理复杂的物理世界。除了热爱，这种转变背后还有什么原因？

刘淼：费曼有一句很有名的话：“What I cannot create, I do not understand.”（我无法创造的东西，我就无法真正理解。）

但在今天这个时代，这句话其实可以被“反过来”看。一个模型即使能够生成文本、图像甚至视频，也不意味着它真正理解了物理世界。

什么才算真正的理解？一个标准是：它能否在物理世界中行动，并理解行动带来的后果。包括物理规律、因果关系，以及“动作如何改变环境”。这正是具身智能被重视的原因：只有进入真实世界、与环境交互，模型才可能形成类似人类的“世界模型”。

更重要的是，现实世界不只是由物体构成的，它更是一个“有人存在的世界”。当前的大模型在“理解人”上很有限。它们能识别动作、服饰、年龄，但很难理解情绪、意图，以及“心智理论”。

如果把这些模型直接放进真实环境与人类互动，它们很难稳定工作。这个世界从来不是空的物理空间，而是充满人的世界。忽略这一点，具身智能走不远。这也是我在 Meta 时逐渐意识到的局限，所以我回国后，希望在这些方向上继续探索。

DeepTech：相比海量的第三视角数据，你所研究的第一视角数据的不可替代性在哪里？

刘淼：第一视角最核心的独特性是“具身性”（embodiment）：感知和动作紧密耦合。感知驱动动作、动作改变环境、环境反过来影响下一步的观测。这种闭环是第一视角天然具备的，也更符合人类的感知和行为方式。

另外，长时间的第一视角视频还隐含了人类的认知层级：它记录了你的意图（视线主动聚焦在哪里）、探索路径（如何寻找目标），以及到达目标后如何利用环境完成任务。

这对应了机器学习中的“探索与利用”的权衡（exploration vs. exploitation）。第一视角数据天然把两者结合在了一起，对机器人学习非常有价值。

DeepTech：如果放在一个具体任务中，基于第一视角和第三视角的数据，机器人实际表现会有什么差别？

刘淼：以厨房场景为例，比如洗菜或切菜。从第三视角看，你能大致判断这个人在做什么。是站在水池边或案板前，知道是洗菜或切菜。

但很多关键细节是捕捉不到的：具体洗到哪个位置、哪只手握菜、哪只手开水龙头，或者切菜时的角度、双手配合、切到哪一步。这些细粒度的动作信息，第三视角很难获取。

而第一视角能直接对齐“手—眼—动作”的关系，这对机器人学习可执行的操作策略非常关键。

DeepTech：冯瑶老师，从 DECA、PIXIE 这样的人体重建工作，到语言模型相关研究，再到近一两年的人形机器人控制，这条路径其实跨度很大。你的研究思路是怎样的？

冯瑶：我一直想构建一个真正的“实体智能体”，它能够像人一样存在和行动。

从这个目标往回看，第一步一定是理解“人本身”。早期的工作，比如 DECA、PIXIE，关注的是如何在数字世界中重建人，也就是学习一个有效的 human representation，以及从大规模互联网数据中提取人的行为模式。

但一个很自然的问题是：学到这些表示之后，下一步该做什么？大约在 2022 年，大模型的出现让我很快意识到，这类模型在建模和推理能力上是一个非常关键的突破。于是我们开始尝试把大模型和此前的人体表示结合起来，让模型不仅能“看到人”，还能在语义层面理解人类行为。

再往前走，就遇到了一个很现实的问题：我们很难判断模型是否真的理解了人类。即使构建各种数据集和 benchmark，也很难覆盖复杂、多变的真实行为。所以我后来去了斯坦福，进入机器人方向，把模型放到真实的物理系统中，让它和人发生交互。

在这个过程中也发现，传统强化学习（RL）往往更关注任务成功率或精度，但与人交互时，柔顺性（compliance）、安全性等因素同样重要，这些在过去的算法设计中是被低估的。因此，后续的工作也会更多关注这些维度。

DeepTech：如果用一句话定义，你们理想中的 human-centric（以人为中心）的具身基础模型是什么样的？

刘淼：我希望这个模型能够通过理解世界中的“人”，从而获得对世界更完整的认知。

冯瑶：我会觉得是通过理解人、以及人与人之间的交互，让机器人更像“人”。

端到端还是模块化？以及具身智能的“陷阱”

DeepTech：目前行业里存在端到端和模块化的路线之争。两位设想中的具身基础模型是怎样的？会只选择其中一种路线吗？？

冯瑶：我觉得“端到端 vs 模块化”某种程度上是个伪命题。关键在于：在系统的哪一层引入可解释性，哪一层做语义介入。比如叠衣服任务，机器人不能只是“看到衣服就叠”，而是要先理解指令（“帮我把衣服叠一下”），找到衣服，执行。

更关键的是，任务会动态变化。如果叠到一半，你说马上要穿，它就得中止并切换任务。这就要求系统能在中间层插入语义理解与决策。

另外，可解释性也很重要。如果机器人递水失败了，要知道是意图理解错了、抓取失败了，还是递交位置不对。这些都需要分层语义表达。

所以我们的思路是：高层保留明确的语义结构和可解释性，底层控制（如抓取）采用更接近端到端的优化方式，兼顾效率。这有点像人类神经系统。把“缓慢的社会认知”与“快速的本能控制”解耦，避免用一个庞大网络同时处理极难和极简单的问题。

刘淼：我觉得现在之所以有“端到端 vs 模块化”的讨论，是因为目前任务还比较简单。放到复杂场景（比如既要对话又要同时做饭），很难用一个统一模型同时输出语言和动作策略。

所以架构的选择，本质上是由任务需求决定的。如果是高度结构化、重复性的工业场景，比如“抓—取—放”，做成端到端系统是有可能的；但在开放环境中，尤其是涉及人机交互的复杂任务，就很难用单一架构覆盖。换句话说，不太可能存在一个统一的框架适用于所有场景，系统结构会随着任务复杂度和能力边界不断演化。

DeepTech：听起来你们的方案中有很多“语义插入”和动态决策的设计，这件事最大的困难在哪里？

冯瑶：这条路线的难点在于它对“人”的理解要求更高。比如语义插入不仅仅是理解一句话的表层含义，还涉及对用户的长期建模：包括记忆（memory）、行为模式，以及具体情境。

举个例子：用户说“这件衣服不用叠了”，系统需要理解原因。可能是这件衣服刚穿过，需要放去清洗；也可能是马上要穿，需要直接递给用户。这背后其实是一个复杂的决策过程，需要结合历史信息、用户习惯以及当前状态。因此，这不仅是一个感知或控制问题，更是一个关于“人类建模”的问题，需要多模态信息融合和长期记忆机制的支持。

从技术角度看，这一整套系统的复杂度是比较高的。不仅是架构复杂，更是数据壁垒。工业操作数据可以靠人工遥控在工厂里大规模刷出来，但‘人机真实交互的信任数据’是无法在实验室里靠遥控演出来的，它必须通过真实用户的长期日常使用才能自然生长。

刘淼：从行业角度来说，过去很多团队没有优先做这件事情，也有现实原因：是技术成熟度还不够，另一方面大家普遍认为“机器人进入家庭”还比较遥远，所以更倾向于先把基础能力做好，比如抓取和操作。

但现在我们判断，这个时间点正在发生变化。虽然真正进入家庭可能还需要几年，但已经不再是一个很遥远的目标了。在这个阶段，如果仍然只关注“抓取效率”或“操作精度”，其实是不够的。因为一个机器人如果不能理解人，就很难安全、可靠地和人共处。至少从用户角度来看，很难信任这样一个系统。

所以我们更多是从“人”的视角出发，把“理解人”作为具身智能进入现实场景的一个前提条件，而不仅仅是把任务完成好。

冯瑶：像今年一些 AI agent 产品（比如可以操作电脑的系统），一开始用户其实是不太愿意把个人信息交给它的。但随着使用过程，你会先通过对话建立信任，确认它真的理解你的需求，然后才逐步开放更多权限。读取文件、处理邮件、甚至帮你完成复杂任务。

这个过程本质上是“逐步建立信任”。我认为机器人进入家庭也是类似的路径：它需要先理解人、获得信任，然后再逐渐扩展能力，而不是一开始就承担所有任务。用户也更倾向于持续使用同一个系统，而不是频繁更换。因为其中已经建立了一种“关系”。

DeepTech：如果从更客观的技术指标来看，两位认为衡量一个具身模型优劣的根本标准是什么？比如推理延迟、操作成功率，还是泛化能力？

刘淼：这是很关键的问题。我最近一直在反思：评测本身可能成为具身智能最大的“陷阱”之一。

多模态大模型有相对成熟的评测体系：自动化 benchmark（如 MMLU）加上人工评测。但具身智能完全不同。由于硬件形态不统一，实验平台各异，所以没有公认的标准化 benchmark。常见的做法是在真实机器人上做简单任务（如 zero-shot 抓取），但成本极高、可复现性很差。

大家常说数据最重要，但我越来越觉得，评测体系的不完善本身，可能是一个很大的瓶颈，甚至会误导技术路线。

冯瑶：我非常同意这一点。所以现在很多研究者开始更主动地和工业界结合，因为当一个系统真正进入用户场景之后，用户才是最好的评测者。

不管机器人是什么形态。是陪伴型、护理型，还是家庭助手；是轮式还是腿式，单臂还是双臂。这些都不是最核心的。关键在于：当它被用户实际使用时，用户的反馈是什么，他们是否愿意持续使用。

从这个角度看，真实用户反馈可能才是唯一的黄金标准。而系统需要根据这些反馈不断调整自身，无论是模型能力还是机器人形态。

DeepTech：有没有一种可能是，现在真实反馈还不够多，所以还无法形成统一标准？

刘淼：我觉得不只是“数量不够”，而是“数据本身不对”。很多现有数据像“糖水”而不是“牛奶”。来自过于干净、简单的环境（比如桌面抓取），与真实家庭环境差距很大。

如果模型在这种“假分布”上训练和评测，就会学到错误的模式，甚至带偏技术路线。本质上，模型是在拟合数据分布。如果分布本身偏离真实世界，再好的模型设计也会被带偏。

所以我们更关心的是如何获得“真实世界”的数据。如果机器人能更好地理解人，即使功能还不够全面，用户也更可能接受它、愿意使用它。这样我们才能以更可扩展（scalable）的方式获取高质量数据，而不是依赖“数据采集工厂”。

DeepTech：但现实问题是，第一视角和人机交互数据的获取成本非常高，甚至互联网里几乎没有现成数据。未来你们打算怎么构建一个低成本、可规模化的数据闭环？

冯瑶：这是一个很好的问题。我先说结论：互联网数据其实是可以用的，而且会是一个非常重要的数据来源。关键在于“重建能力”。如果你能把视频中的人体行为高精度重建出来，它本质上就可以转化为可学习的数据。包括姿态、动作、手部操作等 3D 行为信息。

这部分其实是我的一个长期研究方向，也和人体重建、行为建模是直接相关的。中间会涉及一些关键技术，比如人体动作 prior、3D 重建优化等。

在这个基础上，我们会做两件事：第一，利用互联网视频数据作为最大规模的数据源；第二，在此基础上进行低成本的真实数据采集，由我们自己设计采集环境和硬件系统，再通过算法保证高质量重建。

另外，合成数据（simulation）我认为是一个重要的“增强器”。它更像是一种数据 augmentation 的工具，而不是凭空生成数据的来源。比如，我们可以把多个短视频片段进行组合，在物理约束下进行重建和补全，从而生成更长的行为序列。这一类方法可以帮助模型学习更长时序的行为结构。

刘淼：如果你上周问我，我可能会说我不太信任合成数据。但现在不一样了，比如 GPT-image2 能力已经提升很快，从肉眼来看，很多情况下已经很难区分真实和合成数据。

所以这件事其实是动态演化的：当合成数据的质量和成本达到一个临界点，它就会自然进入训练体系。但更重要的一点不是“用不用合成数据”，而是“如何更合理地使用数据”。包括如何利用真实数据和合成数据之间的互补关系，这里其实还有很多没有被充分探索的空间。

从学术到创业：为什么选择家庭场景？

DeepTech：听说两位有计划从学术走向创业？你们是如何相识，并最终决定在具身智能这个方向上展开合作的？

冯瑶：其实我和刘淼很早就认识了，但之前一直觉得我们在做不同方向的事情。我长期聚焦在人本身。包括人体表征、人类行为理解以及机器人控制；而刘老师更多是从多模态学习、以模型为中心（model-centric）的视角来推进相关问题。

直到前段时间我们有了比较深入的交流，才发现我们在“具身智能大脑”这个问题上，其实有一个很一致的判断：如果要构建一个能够与人长期共处的具身系统，它既需要强大的多模态感知能力，也必须真正理解“人”本身。这两件事情是缺一不可的。所以我们会觉得，这种结合其实是比较自然的。而且从个人层面来说，能找到一个在技术上互补、同时也值得信任的合作伙伴，是一件挺难得的事情。

另外一个很现实的原因是，前面也提到，这一类系统的迭代高度依赖真实世界的数据和用户反馈。要做到这一点，就必须有大规模的真实部署，而这在工程复杂度、资金、算力等方面的要求，已经超出了一个学术实验室所能承担的范围。从这个角度看，走向创业其实是一个比较自然、甚至可以说是“必经”的路径。只有进入真实用户场景，才能完成模型的闭环迭代。

刘淼：我和冯瑶也算是“相识于微时”。我当时去她导师 Michael Black 的团队访问过一段时间。

虽然那时候我们的研究方向不完全一样，但有一个共同的关注点。“人”在系统中的角色。无论是从人的视角去感知世界，还是去理解环境中的人，本质上都是围绕“人”展开的。当时其实没有想到，未来会一起做产业化。但现在回过头来看，这种结合是有一定内在逻辑的。后来冯老师回国，我们才有机会更深入地讨论这些问题，也逐渐发现双方在技术上是高度互补的。

简单来说，她更多是在做偏底层的 human behavior understanding，比如运动信号、动作层面的建模；我则更偏向认知层，比如 memory、intention、attention，以及多模态融合。这两部分正好可以形成一个比较完整的闭环。

DeepTech：那从学术走向产业的过程中，你们有没有遇到一些落差或挑战？毕竟学术研究往往更偏理想化。

刘淼：我们其实都不算完全“纯学术”的路径。我之前在 Meta 工作过几年，对产业侧还是有一定了解的，也很清楚“写论文”和“做产品”之间的差别。但我个人的一个判断是：在某个阶段，确实需要考虑商业化，这是不可避免的；但模型本身的迭代逻辑，仍然应该以研究为主导，而不是完全由产品需求驱动。否则很容易出现方向性的偏差。

冯瑶：我其实也接触过不少产业环境。早期我在 Horizon Robotics、CloudWalk Technology 实习，后来也在 Meta 有过经历。再往后，我还参与过我博士导师的创业公司，开始接触一些更核心的决策问题。那段经历对我影响挺大的。你会发现，一个团队里不仅有研究者，还有 3D 艺术家、前后端工程师、以及业务和销售团队。不同角色会带来完全不同的视角，这些视角反过来会帮助我们把研究真正落地。

我自己一直比较在意的一点是：无论是研究还是产品，最终都应该被人使用。如果一个技术只是停留在论文里，它的价值是有限的。从这个角度来说，我也比较幸运。之前做的一些开源项目，在社区里有比较多的使用和反馈，这让我更坚定了一个想法：技术只有进入真实世界，才会真正“长出来”。

DeepTech：回到路线选择的问题。现在很多具身公司一开始会选择工业场景，比如工厂或仓库。但你们更强调家庭环境和人机共融，为什么一开始就没有选择工业路径？

冯瑶：本质的原因还是愿景不同。我们更希望做的是进入家庭、进入日常生活，让更多普通人可以使用。另外，工业场景在某种程度上是“结构化的”，人的参与较少，行为也更可预测。但我们关注的恰恰是人本身，所以方向自然不同。

刘淼：对。我回国之后，其实也有很多工业落地的合作机会，但我觉得这和我们想做的 human-centric AI 不是一件事。工业环境里，人是弱存在的，行为模式也比较固定。但如果目标是让机器人进入人类生活空间，那它必须先理解“人”，否则我个人是很难信任它和我共处在一个空间里的。所以这更多是一个价值选择的问题，而不是单纯的技术路线选择。

DeepTech：从时间尺度上看，两位觉得具身智能目前处在什么阶段？距离理想状态大概还有多久？

冯瑶：我觉得可以分两条路径来看。如果是传统“任务驱动”的路线，比如只做抓取、叠衣服这种能力，那进入家庭可能还需要较长时间，因为用户接受“机器进入生活空间”本身就需要一个过程。但如果是我们这条“以理解人为核心”的路线，我认为进入家庭的时间会更短。可能在一到两年内，就可以先以“有限功能 + 建立信任”的形式进入家庭，然后逐步迭代能力。

刘淼：我整体判断是类似的。短期来看，一到两年内，确实会出现一些“初级可用”的家庭机器人，它们可能已经开始进入真实家庭，但功能仍然比较有限，甚至有点“实验性”，可能会出现大家说的“买回去吃灰”的情况。

所以如果沿着当前的技术路线发展，目标是一个真正意义上的“家庭智能体”。类似可以长期陪伴、理解需求、承担多任务的系统。我认为至少还需要五年以上。这个差距主要不在硬件，而在于对“人”的理解能力，以及在复杂家庭环境中的长期学习能力。这也是为什么我想探索一种新的具身模型范式。

文章来自于"DeepTech深科技"，作者 "张锦怡"。

关键词: AI新闻 , 具身智能 , Human-Centric , 人工智能

AITNT资源拓展

根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考

AI代理

【开源免费】Browser-use 是一个用户AI代理直接可以控制浏览器的工具。它能够让AI 自动执行浏览器中的各种任务，如比较价格、添加购物车、回复各种社交媒体等。
项目地址：https://github.com/browser-use/browser-use

智能体

【开源免费】AutoGPT是一个允许用户创建和运行智能体的（AI Agents）项目。用户创建的智能体能够自动执行各种任务，从而让AI有步骤的去解决实际问题。
项目地址：https://github.com/Significant-Gravitas/AutoGPT

﻿【开源免费】MetaGPT是一个“软件开发公司”的智能体项目，只需要输入一句话的老板需求，MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色，包括产品经理 / 架构师 / 项目经理 / 工程师，MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。
项目地址：https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md