摘要
本发明涉及图像分类技术领域,具体为一种基于视觉语言大模型的图像分类方法及系统,其中图像分类方法包括如下步骤:1、获取多张原始图像,并构建图像分类网络;2、从多张原始图像选择一张原始图像输入到图像分类网络中,最终得到类别预测结果;3、利用类别预测结果与真实类别构建损失函数;4、循环2和3,最小化损失函数,直至损失函数收敛或者迭代次数达到设定次数,并更新图像分类网络的权重,得到训练后的图像分类网络;5、将训练后的图像分类网络部署到设备端上,利用设备端对图像进行分类,得到分类结果。本发明解决了传统单模态分类方法中全局信息捕获不足、视觉与语言信息融合效率低的问题,实现了更高的分类精度和任务泛化能力。