摘要
本申请提供了利用深度学习实现PDF内文的高效语义理解方法,涉及语义理解技术领域,包括:解析建筑行业PDF多模态数据,学习模态结构化信息,构建分割提取模块,分割提取模块用于解析PDF模态分布并进行结构化信息提取;建立多模态结构化信息之间的对应识别关系,学习跨模态语义关联特征;根据跨模态语义关联特征,建立协同搜索关系,当协同搜索关系中的任一特征被触发时,根据协同搜索关系进行PDF内文搜索,并将搜索结果进行整合反馈。通过本申请可以解决现有技术中存在建筑行业PDF文档中多模态信息难以准确解析的技术问题,实现精准解析PDF文档中多模态信息的技术目标,达到提高信息查找和提取效率及准确度的技术效果。