一种基于视觉语言大模型的图像分类方法及系统

申请号：CN202510313238

申请日期：2025-03-17

公开号：CN120164034A

公开日期：2025-06-17

类型：发明专利

摘要

本发明涉及图像分类技术领域，具体为一种基于视觉语言大模型的图像分类方法及系统，其中图像分类方法包括如下步骤：1、获取多张原始图像，并构建图像分类网络；2、从多张原始图像选择一张原始图像输入到图像分类网络中，最终得到类别预测结果；3、利用类别预测结果与真实类别构建损失函数；4、循环2和3，最小化损失函数，直至损失函数收敛或者迭代次数达到设定次数，并更新图像分类网络的权重，得到训练后的图像分类网络；5、将训练后的图像分类网络部署到设备端上，利用设备端对图像进行分类，得到分类结果。本发明解决了传统单模态分类方法中全局信息捕获不足、视觉与语言信息融合效率低的问题，实现了更高的分类精度和任务泛化能力。

技术关键词

图像分类网络图像分类方法视觉特征适配器投影模块图像特征提取融合特征编码模块多层感知机语义向量图像分类系统图像分类技术计算机设备文本编码器采集设备