基于图像和文本的推理方法、装置、设备及介质

申请号：CN202511187467

申请日期：2025-08-22

公开号：CN120930804A

公开日期：2025-11-11

类型：发明专利

摘要

本申请提供一种基于图像和文本的推理方法、装置、计算机设备及存储介质，应用于智慧医疗和金融领域，方法包括：接收客户端输入的包含图像和文本的问题数据，将问题数据输入至预设的推理模型；推理模型根据问题数据进行推理以生成推理链，其中，推理链包括文本推理数据和边界框坐标数据；推理模型根据文本推理数据生成目标答案。本申请通过推理模型生成包含有文本推理数据和边界框坐标数据的推理链，实现问题和图像的协同思考，提高推理链和视觉输入的关联性，在需要结合图像内容进行逻辑推理的场景中，能更准确得知推理过程和推理答案，提高推理的真实可靠性和准确性；且推理模型在推理过程中无需依赖提示工程或辅助模块，提高推理模型的适用性。

技术关键词

文本数据坐标推理方法推理平台图像计算机设备答案训练集客户端推理装置处理器存储器算法程序指令金融格式视觉场景