首篇具身智能机器人「安全」综述：LLM如何跨越物理鸿沟？

8103点击 2026-01-20 16:35

最新综述首次系统探讨LLM控制机器人的安全威胁、防御机制与未来挑战，指出LLM的具身鸿沟导致其在物理空间可能执行危险动作，而现有防御体系存在逻辑与物理脱节等问题。

具身智能正在经历从实验室走向真实世界的范式转移。

大语言模型（LLM）赋予了机器人强大的逻辑推理与任务规划能力，但安全风险也随之单纯的「语义毒性」演变为真实的物理破坏。

最近，悉尼大学和德克萨斯大学圣安东尼奥分校联合发表了最新系统性综述，首次深入探讨了 LLM 控制下机器人的安全威胁、防御机制及未来挑战。

首篇具身智能机器人「安全」综述：LLM如何跨越物理鸿沟？

论文链接：https://arxiv.org/html/2601.02377v1

核心挑战：物理属性缺失的「具身鸿沟」

LLM控制机器人的底层困境在于具身鸿沟 (Embodiment Gap) ，传统的 LLM 安全机制聚焦于文本输出的合规性，具身智能则面临着「乱执行」的物理风险。

LLM具备卓越的抽象推理能力，却缺乏对物理定律和传感器数据的本质理解，这种脱节导致系统可能在口头拒绝恶意指令的同时，依然在物理空间执行了危险动作。

为了系统性应对这一挑战，研究团队构建了目前该领域最全的攻击与防御全景分类学：

首篇具身智能机器人「安全」综述：LLM如何跨越物理鸿沟？

具身智能安全攻击与防御全景分类

具身层面攻击分类学：三大向量

研究团队系统性地提出了针对具身智能的攻击分类方法：

具身越狱 (Jailbreaking)：利用提示词工程绕过安全过滤器。攻击的关键在于确保恶意指令同时具备逻辑可执行性与物理约束适配性。

后门攻击 (Backdoor)：在模型中预埋特定触发器。特定的环境视觉特征（如路边的小狗）可能诱发系统产生异常的控制指令。

提示词注入 (Prompt Injection)：通过污染感知层数据实施攻击。伪造的 LiDAR 信息或中间人攻击能直接篡改机器人的高层决策逻辑。

防御困境：碎片化与语义真空

目前的防御体系在逻辑保障与物理保障之间存在明显的断裂。

首篇具身智能机器人「安全」综述：LLM如何跨越物理鸿沟？

fig2. LLM 控制机器人的多层防御体系

逻辑与物理脱节：传统形式化方法（如 Safety Chip）能提供符号层面的逻辑验证，却难以覆盖复杂的连续动力学环境。

状态相关性：机器人的安全性具有极强的状态相关性。相同的动作在不同物理语境（如平地 vs 悬崖边）下的安全性截然不同，静态内容过滤器无法理解这种动态语境。

多模态风险：当文字、图像、传感器数据交织在一起，单一的防御手段已不再可行。

未来路线图

构建具身安全基石

研究团队提出了三位一体的防御演进方向：

环境感知的安全对齐：研究重心需从文本语义对齐转向物理后果的预测与对齐。

全生命周期防御框架：构建涵盖模型训练、供应链审计、运行时监控及形式化验证的闭环体系。

标准化基准测试：呼吁行业建立统一的评估标准，论文梳理了AGENTSAFE、EIRAD以及 SafeAgentBench等前沿基准，用于量化长时程环境下的系统稳健性。

安全性不再是具身智能的附加组件，而是行业建立信任的底层基石。

参考资料：

https://arxiv.org/html/2601.02377

文章来自于“新智元”，作者 “LRST”。

关键词: AI , 模型训练 , 具身智能 , 人工智能

AITNT资源拓展

根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考

智能体

【开源免费】AutoGPT是一个允许用户创建和运行智能体的（AI Agents）项目。用户创建的智能体能够自动执行各种任务，从而让AI有步骤的去解决实际问题。
项目地址：https://github.com/Significant-Gravitas/AutoGPT

﻿【开源免费】MetaGPT是一个“软件开发公司”的智能体项目，只需要输入一句话的老板需求，MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色，包括产品经理 / 架构师 / 项目经理 / 工程师，MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。
项目地址：https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md

RAG

【开源免费】graphrag是微软推出的RAG项目，与传统的通过 RAG 方法使用向量相似性作为搜索技术不同，GraphRAG是使用知识图谱在推理复杂信息时大幅提高问答性能。
项目地址：https://github.com/microsoft/graphrag

【开源免费】Dify是最早一批实现RAG，Agent，模型管理等一站式AI开发的工具平台，并且项目方一直持续维护。其中在任务编排方面相对领先对手，可以帮助研发实现像字节扣子那样的功能。
项目地址：https://github.com/langgenius/dify

【开源免费】RAGFlow是和Dify类似的开源项目，该项目在大文件解析方面做的更出色，拓展编排方面相对弱一些。
项目地址：https://github.com/infiniflow/ragflow/tree/main

【开源免费】phidata是一个可以实现将数据转化成向量存储，并通过AI实现RAG功能的项目
项目地址：https://github.com/phidatahq/phidata

【开源免费】TaskingAI 是一个提供RAG，Agent，大模型管理等AI项目开发的工具平台，比LangChain更强大的中间件AI平台工具。
项目地址：https://github.com/TaskingAI/TaskingAI

prompt

【开源免费】LangGPT 是一个通过结构化和模板化的方法，编写高质量的AI提示词的开源项目。它可以让任何非专业的用户轻松创建高水平的提示词，进而高质量的帮助用户通过AI解决问题。
项目地址：https://github.com/langgptai/LangGPT/blob/main/README_zh.md
在线使用：https://kimi.moonshot.cn/kimiplus/conpg00t7lagbbsfqkq0