摘要
本发明涉及人工智能技术领域,可应用于机器人智能体决策、金融科技及医疗健康等业务场景中,公开了一种基于多模态协同优化的决策方法、装置、设备及介质,包括:获取视觉、文本、声音和触觉数据,并通过图像编码器、文本编码器、听觉编码器和触觉编码器生成相应特征。通过正负样本图像对和文本对优化视觉和文本编码特征,基于跨模态相似度分配融合权重,并应用权重加权处理各模态特征,生成协同决策特征,最终通过动作解码器生成动作决策组。本发明通过融合多模态感知信息优化决策特征生成方式,提升执行精度和可靠性。跨模态相似度优化与合理权重分配,提升了复杂环境下任务执行的精确性与高效性。