一种非结构化PDF文档智能解析方法、装置、设备及介质

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
一种非结构化PDF文档智能解析方法、装置、设备及介质
申请号:CN202511248022
申请日期:2025-09-03
公开号:CN120747992B
公开日期:2025-11-14
类型:发明专利
摘要
本申请公开了一种非结构化PDF文档智能解析方法、装置、设备及介质,涉及文档解析领域,该方法包括:获取待解析的PDF文档,并解析PDF文档中的页面元素,生成文档元数据字典;若PDF文档中未包含可提取文本,则将PDF文档转换为图像并进行光学字符识别,生成第一结构化数据;若PDF文档中包含可提取文本,则判断PDF文档中是否包含表格;若PDF文档中不包含表格,则采用PDFMiner提取文本,生成第二结构化数据;若PDF文档中包含表格,则根据文档元数据字典对PDF文档进行多模态特征提取及特征融合,得到多模态融合特征,并根据多模态融合特征生成第三结构化数据;本申请提高了PDF文档的解析精度及效率。
技术关键词
智能解析方法 预处理图像数据 文本 多模态 融合特征 字典 语义向量 生成文档 表格 光学字符识别 深度学习算法 坐标 元素 视觉方法 页面 交叉注意力机制 视觉特征提取