关于具身智能「触觉」，你想知道的都在这篇综述里了

6559点击 2026-04-08 09:14

在具身智能的感知拼图中，触觉一直扮演着不可或缺却难以被完美量化的角色。它提供了视觉等远程传感器无法替代的关于接触几何、材料特性和交互动态的直接反馈。

随着大语言模型（LLM）、世界动作模型（WAM）和视觉 - 语言 - 动作（VLA）大模型的爆发，将触觉与视觉、语言相融合，以弥合物理交互与高级语义推理之间的鸿沟，已成为机器人领域的必然趋势。

本文由香港科技大学（广州）熊辉教授团队牵头，联合灵心巧手（LinkerBot）以及西安交通大学、复旦大学、北京邮电大学、南京大学等，以《Tactile-based Multimodal Fusion in Embodied Intelligence: A Survey of Vision, Language, and Contact-Driven Paradigms》为主题，全面梳理并分析截至 2026 年第一季度的前沿研究，提出了一个涵盖多模态数据集、模型方法、传感器硬件和评估体系的层次分类法。本文将带你全面拆解这篇重磅综述的核心干货。

论文题目：Tactile-based Multimodal Fusion in Embodied Intelligence: A Survey of Vision, Language, and Contact-Driven Paradigms
作者单位：香港科技大学（广州）、灵心巧手、西安交大、复旦、南大、北邮、武大等
论文地址：https://www.researchgate.net/publication/403306640_Tactile-based_Multimodal_Fusion_in_Embodied_Intelligence_A_Survey_of_Vision_Language_and_Contact-Driven_Paradigms
GitHub 仓库：https://github.com/Wayne-coding/Multimodal-Tactile-Sensing-and-Fusion

关于具身智能「触觉」，你想知道的都在这篇综述里了

图 1. 多模态触觉融合综述的结构概述

一、为什么具身智能不可缺少触觉？

与视觉等远端模态不同，触觉提供了表面纹理、材料属性和接触动态的直接、近端反馈，这对于解决视觉模糊性至关重要。对于具身智能体而言，触觉反馈不仅仅是一种辅助模态，更是感知 - 行动闭环中的基本组成部分，触觉作为连接被动观察与主动物理交互的桥梁，能够提供关于物体几何形状、材质属性以及接触动力学最直接的反馈，这是远距离传感器无法替代的。在充满物理接触的环境中，这种多传感器线索的协同作用（尤其是视觉与触觉的协同），是构建稳健的感知和控制系统、使智能体能够真正在物理世界中进行精确操作和稳定抓取的关键。

关于具身智能「触觉」，你想知道的都在这篇综述里了

图 2. 多模态触觉融合的代表性数据集和方法综述

二、底层逻辑：多模态触觉融合的四阶段 Pipeline

与视觉或语言不同，触觉信号是接触驱动的，只有在物理交互发生时才会产生。综述指出，现有的多模态触觉融合系统在底层基本都遵循一个严谨的四阶段处理流程：

物理转导与时空观察：传感器将形变、力或振动等物理刺激转化为数字信号（如高维矩阵或图像串）。
特定模态表征学习：针对不同模态使用专属的编码器（如用于视觉 / 触觉编码的 ResNet 或 ViT，用于自然语言编码的 OpenCLIP），将其转化为统一维度的潜在特征向量。
跨模态融合：通过特征拼接、交叉注意力机制或对比学习对齐，将单模态特征融合成共享的联合表征。
具身解码与任务执行：将融合后的特征输出为最终结果，比如物体类别、生成的文本描述或机器人的控制动作。

三、多模态触觉融合的全景蓝图

本综述创新性地提出了一个层次化分类体系，将多模态触觉融合系统地划分为三大支柱：多模态数据集、多模态方法和触觉传感器。

关于具身智能「触觉」，你想知道的都在这篇综述里了

图 3. 2015 - 2026 年多模态触觉融合论文发表趋势。

1. 数据集篇：从实验室单一配对走向真实世界的丰富语义

关于具身智能「触觉」，你想知道的都在这篇综述里了

图 4. 基于触觉的多模态融合数据集的比较总结

数据集是跨模态学习的 “燃料”。文章根据模态组成，将现有数据集的发展脉络划分为四大阶段：

触觉 - 视觉 (T-V) 数据集：早期（如 VT Dataset）主要关注受控环境下的机器人抓取；近期则向无约束的野外环境（如 Touch in the Wild）和复杂形变物体（如 TouchClothing）发展。
触觉 - 语言 (T-L) 数据集：旨在建立触觉与人类认知的桥梁。例如 PhysiCLEAR 记录了物体的软硬、粗糙度，而最新的 STOLA 则支持开放式的触觉常识推理，打破了过去只能依赖视觉进行语义接地的局限。
触觉 - 视觉 - 语言 (T-V-L) 数据集：迎合当前大模型趋势的终极形态。比如 Touch100k 包含了超 10 万个三模态对齐样本，不仅有短语标签，还有长文本自然语言描述，完美支持跨模态对齐。
触觉 - 视觉 - 其他 (T-V-O) 数据集：引入了动作、音频或本体感觉。著名的 ObjectFolder 系列结合了撞击音频；而 OmniViTac 等数据集则加入了动作序列，支持端到端的接触丰富型操作策略学习。

2. 方法论的三大范式：感知、生成与控制的全面进化

在算法层面，综述将数百篇前沿工作结构化为三个核心方向，并对其进行了详细的子任务拆解：

关于具身智能「触觉」，你想知道的都在这篇综述里了

图 5. 多模态触觉融合与下游任务的一般范例

（1）多模态感知与识别

这是目前研究最广泛的范式，核心在于理解，具体包括四个子任务：

多模态物体识别：结合全局视觉和局部触觉，通过早期特征拼接或最新的 Transformer 联合查询机制（如 VHTformer），在视觉模糊（如透明物体）时依然能准确识别物体。
属性与材料识别：从早期的监督学习分类，进化到如今基于 CLIP 等大模型的零样本（Zero-shot）识别。模型（如 UniTouch）可以通过语言文本提示，直接推断物理材质。
抓取成功 / 失败预测：区别于抓取前的视觉规划，它利用接触后的实时触觉反馈（如滑动、受力分布）来判断抓取是否稳定，是机器人闭环控制的关键一环。
跨模态检索与匹配：作为评估表征对齐质量的标准任务，测试模型能否用一段触觉数据搜出对应的视觉图片或文字描述。

关于具身智能「触觉」，你想知道的都在这篇综述里了

图 6. 多模态感知和识别的分类，包括多模态物体识别、多模态属性和材质识别、抓取成功或失败预测以及跨模态检索和匹配

（2）跨模态生成与转换

不再局限于识别，而是让模型拥有跨感官的合成能力：

视 - 触双向生成：看到粗糙的岩石照片，模型能生成对应的触觉形变图；摸到材质，能反推物体的视觉纹理。
语言 - 触觉翻译：包含 “触觉转语言”（为接触生成自然语言 Caption，如 VTV-LLM）以及极具挑战的 “文本生成触觉”（Text-to-Tactile，仅靠一段文字描述合成物理触感数据）。

关于具身智能「触觉」，你想知道的都在这篇综述里了

图 7. 多模态跨模态生成和转换的分类，包括视觉 - 触觉生成和翻译和语言 - 触觉生成和翻译

（3）多模态交互与操作

将感知直接与物理控制耦合，分为两大路径：

多模态感知驱动的机器人操作：结合触觉反馈进行精细装配（如插孔任务）或维持稳定抓取。例如，DexTac 利用精确的接触区域提示来完成注射器操作等高精度任务。
语言指令下的多模态操作：融合大语言模型的终极形态（VLA）。人类下达抽象指令（如 “轻轻抓住那个软物体”），系统联合语言语义、视觉几何与触觉实时反馈来生成连续动作。

关于具身智能「触觉」，你想知道的都在这篇综述里了

图 8. 多模态交互和操作的分类，包括具有多模态感知的机器人操作和语言指令下的多模态操作

关于具身智能「触觉」，你想知道的都在这篇综述里了

图 9. 2026 年第一季度之前发表的多模态触觉融合方法综述

3. 硬件篇：触觉传感器的多样化形态

触觉信号的质量直接受制于硬件设计与物理交互界面的形态。文章将触觉传感平台分为四类：

可穿戴触觉系统：主要用于捕捉人类交互先验，支持可扩展的数据收集和向机器人的技能转移。
手持与指尖传感器：提供局部高分辨率的接触感知，紧凑的体积使其非常适合直接集成到机器人末端执行器中。
机器皮肤与多模态传感器贴片：强调大面积可扩展性、机械顺应性和分布式感知，以支持机器人的全身接触感知。
夹爪安装与集成传感器：直接在操作界面集成感知能力，为闭环控制提供紧凑且共址的实时多模态反馈。

关于具身智能「触觉」，你想知道的都在这篇综述里了

图 10. 具有代表性的触觉传感器

四、尚未统一的大考：评估指标与基准

尽管发展迅速，但多模态触觉融合仍缺乏统一的基准，现有的评估协议高度依赖于特定任务。文章尖锐地指出了当前领域面临的四大核心挑战：

数据碎片化与可扩展性瓶颈：现有数据集往往是任务定制且依赖特定传感器的，规模远小于视觉 - 语言资源，这限制了基础模型的零样本迁移能力。
模态不对齐与噪声干扰：稀疏触觉输入与密集视觉 / 语言输入之间存在固有的时空不对齐，传感器漂移和视觉遮挡等现实问题会进一步削弱对齐的可靠性。
软硬件集成壁垒：触觉传感器形态各异且缺乏标准接口，其耐久性和功耗限制了与大型视觉 - 语言模型在具身系统中的实时闭环融合。
评估与基准的不一致性：指标碎片化，缺乏端到端的具身基准，难以综合评估模型在实际物理交互中的安全性和鲁棒性。

关于具身智能「触觉」，你想知道的都在这篇综述里了

图 11. 多模态触觉融合评价指标综述

五、挑战与未来：通往通用具身智能之路

尽管进展迅速，多模态触觉融合仍面临着诸多亟待突破的瓶颈。目前的数据规模与大型语言模型的训练需求相比仍有巨大差距，且异构传感器之间缺乏统一的数据标准。同时在非结构化环境中，稀疏的触觉输入与密集的视觉或语言信息之间经常出现空间和时间上的不对齐。此外现有的评估指标往往局限于特定任务，缺乏一个能全面衡量触觉真实性、语义一致性和控制有效性的统一端到端基准测试。

对于未来，构建统一且可扩展的大规模数据集是打破发展瓶颈的关键所在。算法层面需要向层次化的融合架构演进，将触觉作为多模态推理的底层支撑。在硬件端，柔性、耐用且具备端侧处理能力的仿生触觉皮肤将极大拓展机器人的感知边界。通过将触觉反馈作为连续的监督信号直接嵌入决策闭环，具身智能系统必将从受控的实验室环境稳步迈向复杂多变的人类生活空间。

文章来自于"机器之心"，作者 "机器之心"。

关键词: AI , 模型训练 , 具身智能 , AI机器人

AITNT资源拓展

根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考

AI代理

【开源免费】Browser-use 是一个用户AI代理直接可以控制浏览器的工具。它能够让AI 自动执行浏览器中的各种任务，如比较价格、添加购物车、回复各种社交媒体等。
项目地址：https://github.com/browser-use/browser-use

智能体

【开源免费】AutoGPT是一个允许用户创建和运行智能体的（AI Agents）项目。用户创建的智能体能够自动执行各种任务，从而让AI有步骤的去解决实际问题。
项目地址：https://github.com/Significant-Gravitas/AutoGPT

﻿【开源免费】MetaGPT是一个“软件开发公司”的智能体项目，只需要输入一句话的老板需求，MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色，包括产品经理 / 架构师 / 项目经理 / 工程师，MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。
项目地址：https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md

RAG

【开源免费】graphrag是微软推出的RAG项目，与传统的通过 RAG 方法使用向量相似性作为搜索技术不同，GraphRAG是使用知识图谱在推理复杂信息时大幅提高问答性能。
项目地址：https://github.com/microsoft/graphrag

【开源免费】Dify是最早一批实现RAG，Agent，模型管理等一站式AI开发的工具平台，并且项目方一直持续维护。其中在任务编排方面相对领先对手，可以帮助研发实现像字节扣子那样的功能。
项目地址：https://github.com/langgenius/dify

【开源免费】RAGFlow是和Dify类似的开源项目，该项目在大文件解析方面做的更出色，拓展编排方面相对弱一些。
项目地址：https://github.com/infiniflow/ragflow/tree/main

【开源免费】phidata是一个可以实现将数据转化成向量存储，并通过AI实现RAG功能的项目
项目地址：https://github.com/phidatahq/phidata

【开源免费】TaskingAI 是一个提供RAG，Agent，大模型管理等AI项目开发的工具平台，比LangChain更强大的中间件AI平台工具。
项目地址：https://github.com/TaskingAI/TaskingAI

关于具身智能「触觉」，你想知道的都在这篇综述里了

一、 为什么具身智能不可缺少触觉？

二、底层逻辑：多模态触觉融合的四阶段 Pipeline

三、多模态触觉融合的全景蓝图

四、 尚未统一的大考：评估指标与基准

五、挑战与未来：通往通用具身智能之路

一、为什么具身智能不可缺少触觉？

四、尚未统一的大考：评估指标与基准