摘要
本申请提供一种基于视觉语言模型的印章识别方法、设备、介质和产品,涉及金融科技领域以及大模型在金融科技领域的应用。该方法通过确定待识别图像内的多个印章图像块,对多个印章图像块进行特征提取,基于提取到的特征,确定对应的印章候选框,确定该印章候选框的类型信息以及提示词;进而将提示词以及多个印章图像块输入至视觉语言模型中,得到每个印章候选框对应的印章识别结果;该方法基于提取到的特征确定对应的印章候选框,且基于视觉信息和语言信息,来共同对印章进行识别,确保了印章识别准确度,也显著提升了金融场景中微小、模糊、遮挡或复杂背景下印章的检测和识别精度,解决了现有技术中存在的小目标信息丢失的难题。