RSS2026 | 强泛化强迁移VLA，上海创智学院×上海交大提出MINT：让VLA从模仿轨迹走向理解意图

5951点击 2026-06-10 14:40

机器人视觉语言动作（Vision-Language-Action, VLA）模型越来越多地开始展示叠衣服、倒茶、做咖啡等复杂操作。但是，今天的大多数 VLA 更像 “展台机器人”。它们在固定场景、固定布局、固定光照下表现惊艳，可一旦真正进入开放环境，就立刻暴露其泛化性问题：物体位置变一点、背景换一下、光照改变一些，VLA 的成功率就会暴跌。对于新任务，往往需要重新收集大量示教轨迹（demonstration），才能让 VLA 学会。

但这些其实只是表面困境。真正困难的，也是 VLA 走向实际应用场景真正需要的，其实是：

组合泛化（Compositional Generalization）：VLA 学会 A、B、C 技能之后，能否自动组合出 A→B、B→C、C→A 等技能？即能否通过组合串联技能，执行长程、复杂的任务？
小样本迁移（Few-shot / One-shot Transfer）：学习新任务是否需要成百上千条演示？能不能像人类一样，看几次示教、甚至只看一次示教，就掌握一个新技能？

主流范式往往过度对齐原始轨迹本身，却缺少对 “轨迹背后意图” 的显式表征与推理，从而在泛化与迁移上受限。

针对上述问题，上海创智学院 × 上海交通大学 x 智动未来提出：

RSS2026 | 强泛化强迁移VLA，上海创智学院×上海交大提出MINT：让VLA从模仿轨迹走向理解意图

项目主页：https://renming-huang.github.io/MINT/
Github 链接：https://github.com/RenMing-Huang/MINT
论文链接：https://arxiv.org/abs/2602.08602

MINT 是一种面向强泛化、强迁移的 VLA 架构与训练范式。它的核心思想是：机器人不应该只模仿 “动作轨迹”，而应该分层次地理解：

「在什么情形应当触发什么抽象行为 “意图”」
「如何根据当前场景，动态地 “执行” 行为意图」

一旦 VLA 能显式理解和表征抽象的行为意图，长期困扰 VLA 的泛化性和迁移性问题，就可以打开新的解法。

频谱分解动作词元化（Spectrally Disentangled Action Tokenization）

RSS2026 | 强泛化强迁移VLA，上海创智学院×上海交大提出MINT：让VLA从模仿轨迹走向理解意图

MINT 的关键技术来自一个信号处理视角：动作轨迹可以被看作时间信号，天然具备频谱结构。

SDAT 把动作表征映射到多个尺度的词元：

最粗粒度词元（S1 尺度）：主要表征低频信号，对应全局行为意图，论文称做 “Intent token”
更细粒度的词元（S2-SK 尺度）：逐步补充高频执行细节，论文称做”Execution tokens”

S1-SK 尺度的词元数逐步增多，形成金字塔形状的词元表征体系。

那么，不同尺度的词元是如何与低频和高频信号建立对应关系的呢？

MINT 应用了如下技术：

残差学习（residual learning）：细尺度的词元只学习未被粗尺度词元捕捉的残差信息
由粗到细多尺度重建（coarse-to-fine multi-scale reconstruction）：各个尺度的前缀（prefix）词元集合，都会分别被用来进行轨迹重建，保障尽可能完整地表征轨迹信息。
频域重建（frequency-domain reconstruction）：MINT 在「频域空间」中计算轨迹重建损失，这使得低频、高频信号能被显式地拆解开来，按需融入到不同尺度的词元内。

如此，使得粗尺度词元专注于学习轨迹的大体形态，而细尺度词元则专注于补充轨迹细节。

策略学习：“意图→执行” 的逐步推理

RSS2026 | 强泛化强迁移VLA，上海创智学院×上海交大提出MINT：让VLA从模仿轨迹走向理解意图

在策略层面，MINT 采用 “Intent → Execution” 的分层生成：

先预测 Intent Token-> 再逐层生成 Execution Tokens-> 最后将多尺度词元解码为连续控制轨迹

这个由粗到细的过程相当于在词元空间里进行分步推理：先确定要执行的行为意图，再补上达到该意图所需的控制细节。这种方式可以提升学习效率，并在长程任务中带来更稳定的执行表现。

策略迁移：通过一次示教学会新任务

RSS2026 | 强泛化强迁移VLA，上海创智学院×上海交大提出MINT：让VLA从模仿轨迹走向理解意图

MINT 最有意思的部分来了：Intent Token 可以直接用于策略迁移。

既然 Intent Token 表示的是抽象 “行为意图”，那它就可以直接替代语言，作为「任务表达（task specification）」。

这意味着，对于一个全新任务，模型不需要重新训练：只要提供一条示教轨迹，提取其 Intent Token，并将该 Token 注入到策略的生成过程中，模型就能在相同的推理框架下生成对应的执行细节并完成任务。

由于注入的是更抽象的意图而不是整段轨迹细节，这种迁移方式在跨任务、跨场景时更容易保持稳定。论文将这一能力称为：「One-shot Transfer via Intent Token Injection」而这也是 MINT 最重要的创新之一。

实验结果

一、基准任务性能：全面超越 SOTA 方法

RSS2026 | 强泛化强迁移VLA，上海创智学院×上海交大提出MINT：让VLA从模仿轨迹走向理解意图

在 LIBERO、CALVIN 和 MetaWorld 三个基准上，MINT 的性能全面超越了当前的 SOTA 方法：

在 LIBERO 上，30M 参数的 MINT-30M（不包含预训练 VLM）平均任务成功率达到 97.1%，大幅超越 SmolVLA 的 88.8%；4B 参数的 MINT-4B（有预训练 VLM）平均成功率达到 98.3%，超越了 π₀.₅ 的 96.9%；
在 CALVIN 上，MINT-4B 在长序列任务中表现尤其出色，性能显著超过 SOTA，验证了其长程执行稳定性；
在 MetaWorld 的 “极难” 类任务上，MINT-4B 的成功率接近 π₀ 的三倍，展现出在复杂长程任务中的显著优势。

二、泛化性：对抗分布外强扰动

RSS2026 | 强泛化强迁移VLA，上海创智学院×上海交大提出MINT：让VLA从模仿轨迹走向理解意图

在更强调分布外鲁棒性的测试中，作者在 LIBERO 上训练、并在分布更广的 LIBERO-Plus 上评估，考察相机视角、初始姿态、光照、背景纹理与视觉噪声等多类强扰动。

面对相机视角变化时，MINT 的性能损失远小于 OpenVLA、π₀.₅ 等主流方法。
面对背景、布局、光照、视觉噪声等强干扰时，MINT 依然维持了 84.6%-96.6% 的高任务完成率。

这些结果都印证了：“行为意图认知” 对于提升 VLA 泛化性的关键作用。

三、技能迁移：只需要演示一次

RSS2026 | 强泛化强迁移VLA，上海创智学院×上海交大提出MINT：让VLA从模仿轨迹走向理解意图

现有的迁移方法无论是通过微调（fine-tuning）还是重扩散（re-diffusion），在只有单条示教轨迹的条件下，都很难完成迁移。而 MINT 通过 Intent Token Injection，能稳定完成新任务迁移、新场景迁移：

对于新任务，MINT 用一条示教轨迹，就能达到 90% 的任务成功率，而通过微调迁移的成功率只有 42%。
MINT 展现出组合泛化（Compositional Generalization）的潜力。例如，训练中只见过 A 和 B 两个技能，但通过一次演示，MINT 能直接完成 A→B 这样的组合任务。这也是当前 VLA 极少展示出的能力。

四、真机验证：物理世界的高效落地

研究团队进一步在真实的 Piper-X 6DoF 机械臂上进行了真机实验。训练任务包括抓放香蕉、堆叠积木、插马克笔等，各提供了仅 20 条示教轨迹供模型后训练。测试任务还包含了从未见过的叠杯子任务，用以测试零样本泛化。

RSS2026 | 强泛化强迁移VLA，上海创智学院×上海交大提出MINT：让VLA从模仿轨迹走向理解意图

结果显示：

MINT-4B 的整体成功率相比 π₀.₅ 等主流 VLA 模型提升了 29%；
MINT-4B 在叠积木、插马克笔等任务中表现出更强的精确操作能力；
MINT 能够把 “堆叠” 这一抽象意图，从叠积木任务迁移到从未见过的叠杯子任务上。而 π₀ 等方法则几乎无法完成该未见任务。

这些真机结果进一步证明：MINT 学到的，已经不是单纯的轨迹，而是真正可迁移的行为结构。

文章来自于"机器之心"，作者 "机器之心"。

关键词: AI新闻 , 模型训练 , MINT , 人工智能

AITNT资源拓展

根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考

微调

【开源免费】XTuner 是一个高效、灵活、全能的轻量化大模型微调工具库。它帮助开发者提供一个简单易用的平台，可以对大语言模型（LLM）和多模态图文模型（VLM）进行预训练和轻量级微调。XTuner 支持多种微调算法，如 QLoRA、LoRA 和全量参数微调。
项目地址：https://github.com/InternLM/xtuner