摘要
本发明涉及文档处理与数据提取领域,具体公开了一种基于大语言模型的PDF文本提取方法及系统,本发明对目标PDF文档各页内容定位标记得到第一待识别区域以及第二待识别区域,剔除待识别区域的噪声干扰特征;制定多层次文本逻辑重构策略完成对目标PDF文档逻辑顺序的重构,初步输出一级PDF文档,并进行一次图文关联程度分析输出第一关联强度;通过大语言模型对一级PDF文档的内容,进行语义结构上的智能异常识别并修正得到二级PDF文档,输出第二关联强度;基于第一关联强度以及第二关联强度判断二级PDF文档是否合格;本发明有助于恢复文档的逻辑顺序与语义完整性,提升文本纯净度与结构完整性。