PDF文档内容处理方法、装置、设备、存储介质及程序产品
申请号:CN202511468366
申请日期:2025-10-15
公开号:CN120930593B
公开日期:2025-12-26
类型:发明专利
摘要
本申请公开了一种PDF文档内容处理方法、装置、设备、存储介质及程序产品,涉及文档结构化处理技术领域,方法包括:获取PDF文档;对PDF文档进行预处理,获得与PDF文档的各个页面所对应的待处理数据集;基于所有待处理数据集和PDF文档各页面的图像,确定PDF文档各页面的页面类型;基于各目录页对应的待处理数据集和目录页的图像,提取目录页中各标题数据的层级结构关系,构建目录树。基于目录页的标题数据和非目录页的标题数据之间的语义相似度和文本相似度,对目录页的标题数据和非目录页的标题数据进行匹配,根据匹配结果,将内容数据对应填充至目录树的各标题节点下,获得PDF文档的结构化表示结果。本申请提升了PDF文档的语义还原度和结构化质量。
技术关键词
目录
数据
页面
序列
层级
语义
计算机程序产品
图像
文本
列表
节点
处理器
关系
匹配模块
标记
可读存储介质
视觉
存储器
密度