摘要
本申请提供一种基于图像和文本的推理方法、装置、计算机设备及存储介质,应用于智慧医疗和金融领域,方法包括:接收客户端输入的包含图像和文本的问题数据,将问题数据输入至预设的推理模型;推理模型根据问题数据进行推理以生成推理链,其中,推理链包括文本推理数据和边界框坐标数据;推理模型根据文本推理数据生成目标答案。本申请通过推理模型生成包含有文本推理数据和边界框坐标数据的推理链,实现问题和图像的协同思考,提高推理链和视觉输入的关联性,在需要结合图像内容进行逻辑推理的场景中,能更准确得知推理过程和推理答案,提高推理的真实可靠性和准确性;且推理模型在推理过程中无需依赖提示工程或辅助模块,提高推理模型的适用性。