一种基于视觉语言大模型的图像分类方法及系统

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
一种基于视觉语言大模型的图像分类方法及系统
申请号:CN202510313238
申请日期:2025-03-17
公开号:CN120164034A
公开日期:2025-06-17
类型:发明专利
摘要
本发明涉及图像分类技术领域,具体为一种基于视觉语言大模型的图像分类方法及系统,其中图像分类方法包括如下步骤:1、获取多张原始图像,并构建图像分类网络;2、从多张原始图像选择一张原始图像输入到图像分类网络中,最终得到类别预测结果;3、利用类别预测结果与真实类别构建损失函数;4、循环2和3,最小化损失函数,直至损失函数收敛或者迭代次数达到设定次数,并更新图像分类网络的权重,得到训练后的图像分类网络;5、将训练后的图像分类网络部署到设备端上,利用设备端对图像进行分类,得到分类结果。本发明解决了传统单模态分类方法中全局信息捕获不足、视觉与语言信息融合效率低的问题,实现了更高的分类精度和任务泛化能力。
技术关键词
图像分类网络 图像分类方法 视觉特征 适配器 投影模块 图像特征提取 融合特征 编码模块 多层感知机 语义向量 图像分类系统 图像分类技术 计算机设备 文本编码器 采集设备