摘要
本申请提供了一种基于大语言模型的科技文献表格知识链生成方法,涉及语义处理技术领域,所述方法包括:接收源自科技文献的表格图像、PDF提取区域和结构化源码,结合表格上下文信息生成初始输入信息;调用多模态大语言模型进行表格内容识别和结构化处理;基于初始HTML结构表示与原始表格图像及表格上下文信息执行迭代自校正;基于预设科学实体本体,对高保真HTML结构表示进行语义信息抽取;根据预设逻辑范式和实体抽取结果,组织成知识链。通过本申请可以解决现有技术中由于在处理复杂和非规范化表格时易出现识别错误,且深度逻辑关系挖掘能力不足,导致内容识别精度不足的技术问题,提高了表格内容识别和结构解析的精度。