一种基于多模态大模型的视觉语言交互方法及系统

申请号：CN202511174043

申请日期：2025-08-21

公开号：CN121009505A

公开日期：2025-11-25

类型：发明专利

摘要

本发明公开一种基于多模态大模型的视觉语言交互方法及系统，涉及视觉语言交互技术领域，方法包括：收集多模态数据并进行预处理；构建多模态大模型，在大模型增设多模态融合模块，该模块采用注意力机制，能够使大模型自动学习不同模态数据之间的重要程度，实现多模态信息的有效融合；将预处理后的多模态数据输入大模型，训练优化大模型，使大模型能够更好地处理多模态数据；向大模型输入多模态信息，大模型具体执行如下操作：对多模态信息进行特征提取，通过多模态融合模块将不同模态的特征进行融合，挖掘其中的语义关联，根据融合后的特征生成交互响应，并按照预设的输出形式呈现给用户。本发明可以满足不同场景下的视觉语言交互体验。

技术关键词

语言交互方法语言交互系统多模态信息数据可视化模块语义注意力机制跨模态分析奠定基础修正错别字消除噪声干扰视觉音频输出设备文本特征向量图像特征向量语音识别技术