摘要
本申请实施例提供了一种基于大模型的机械臂操控方法和装置、设备及存储介质,属于人工智能技术领域。该方法包括:响应于操作任务请求,获取多模态信息,所述多模态信息包括原始视觉信息和语言指令信息;通过视觉编码器对原始视觉信息进行视觉编码,得到视觉特征向量;通过语言编码器对所述语言指令信息进行语义编码,得到语义特征向量;对所述视觉特征向量和所述语义特征向量进行特征融合,得到多模态融合特征;通过动作解码器对所述多模态融合特征进行解码,得到用于对机械臂进行操控的控制指令信息。本申请可以应用于金融科技与健康医疗等需要大量数据的业务系统中,能够提高机械臂操控的准确性。