一种基于大语言模型的PDF文本提取方法及系统

申请号：CN202511115421

申请日期：2025-08-11

公开号：CN120599643B

公开日期：2025-10-17

类型：发明专利

摘要

本发明涉及文档处理与数据提取领域，具体公开了一种基于大语言模型的PDF文本提取方法及系统，本发明对目标PDF文档各页内容定位标记得到第一待识别区域以及第二待识别区域，剔除待识别区域的噪声干扰特征；制定多层次文本逻辑重构策略完成对目标PDF文档逻辑顺序的重构，初步输出一级PDF文档，并进行一次图文关联程度分析输出第一关联强度；通过大语言模型对一级PDF文档的内容，进行语义结构上的智能异常识别并修正得到二级PDF文档，输出第二关联强度；基于第一关联强度以及第二关联强度判断二级PDF文档是否合格；本发明有助于恢复文档的逻辑顺序与语义完整性，提升文本纯净度与结构完整性。

技术关键词

文本提取方法大语言模型重构策略干扰特征识别策略空间定位信息图文语义结构逻辑定位标记多层次智能识别模块强度生成文档位置识别页面元素剔除噪声