一种基于多模态大模型的视觉语言交互方法及系统

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
一种基于多模态大模型的视觉语言交互方法及系统
申请号:CN202511174043
申请日期:2025-08-21
公开号:CN121009505A
公开日期:2025-11-25
类型:发明专利
摘要
本发明公开一种基于多模态大模型的视觉语言交互方法及系统,涉及视觉语言交互技术领域,方法包括:收集多模态数据并进行预处理;构建多模态大模型,在大模型增设多模态融合模块,该模块采用注意力机制,能够使大模型自动学习不同模态数据之间的重要程度,实现多模态信息的有效融合;将预处理后的多模态数据输入大模型,训练优化大模型,使大模型能够更好地处理多模态数据;向大模型输入多模态信息,大模型具体执行如下操作:对多模态信息进行特征提取,通过多模态融合模块将不同模态的特征进行融合,挖掘其中的语义关联,根据融合后的特征生成交互响应,并按照预设的输出形式呈现给用户。本发明可以满足不同场景下的视觉语言交互体验。
技术关键词
语言交互方法 语言交互系统 多模态信息 数据 可视化模块 语义 注意力机制 跨模态 分析奠定基础 修正错别字 消除噪声干扰 视觉 音频输出设备 文本特征向量 图像特征向量 语音识别技术