一种基于大语言模型的PDF文本提取方法及系统

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
一种基于大语言模型的PDF文本提取方法及系统
申请号:CN202511115421
申请日期:2025-08-11
公开号:CN120599643B
公开日期:2025-10-17
类型:发明专利
摘要
本发明涉及文档处理与数据提取领域,具体公开了一种基于大语言模型的PDF文本提取方法及系统,本发明对目标PDF文档各页内容定位标记得到第一待识别区域以及第二待识别区域,剔除待识别区域的噪声干扰特征;制定多层次文本逻辑重构策略完成对目标PDF文档逻辑顺序的重构,初步输出一级PDF文档,并进行一次图文关联程度分析输出第一关联强度;通过大语言模型对一级PDF文档的内容,进行语义结构上的智能异常识别并修正得到二级PDF文档,输出第二关联强度;基于第一关联强度以及第二关联强度判断二级PDF文档是否合格;本发明有助于恢复文档的逻辑顺序与语义完整性,提升文本纯净度与结构完整性。
技术关键词
文本提取方法 大语言模型 重构策略 干扰特征 识别策略 空间定位信息 图文 语义结构 逻辑 定位标记 多层次 智能识别模块 强度 生成文档 位置识别 页面 元素 剔除噪声
系统为您推荐了相关专利信息
大语言模型 数据 气候 综合性 气象
视频帧特征 视频生成方法 序列 大语言模型 噪声图像
样本 文本 质检方法 计算机设备 可读存储介质
数据知识库 大语言模型 生成数据源 关键词 文本