面向非结构化PDF文档的多模态语义理解方法及系统

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
面向非结构化PDF文档的多模态语义理解方法及系统
申请号:CN202511430775
申请日期:2025-10-09
公开号:CN120975098A
公开日期:2025-11-18
类型:发明专利
摘要
本发明公开了面向非结构化PDF文档的多模态语义理解方法及系统,涉及数据处理相关领域,该方法包括:调取关系型知识表示预案对目标PDF文档进行分析,得到目标关系框架,并对目标关系框架进行跨模态对齐处理,得到目标对齐框架;对目标对齐框架进行多模态交互分析,得到目标融合信息;基于目标融合信息对目标PDF文档进行重构处理,得到目标重构文档;将目标重构文档的语义信息作为目标PDF文档的多模态语义理解。解决了现有面向非结构化PDF文档的多模态语义理解存在的模态语义关联缺失与交互不足,导致语义理解精度不足的技术问题,达到了通过整合文档中的多模态信息,提高语义理解精度的技术效果。
技术关键词
语义理解方法 框架 多模态交互 跨模态 实体 文本 关系建模 视觉 图像超分辨率重构 字符 语义理解系统 依赖特征 金字塔池化 图文混排 多尺度 策略