摘要
本发明涉及信息处理技术领域,公开了一种文件处理方法及装置,该方法包括:获取目标文件;目标文件包括若干个内容单元;内容单元的类型包括结构化数据和非结构化数据;对若干个内容单元分别进行语义提取,并对应生成多个内容单元之间的关联特征;基于关联特征对目标文件进行分类,生成至少一个分类标签;根据分类标签,从关联特征中提取领域信息;基于领域信息、分类标签以及多个内容单元之间的关联特征,生成目标文件的摘要。解决了传统方法在文件分类模糊、信息提取分散及摘要灵活性不足的问题。例如,可应用于招投标文件处理,精准识别技术参数与商务条款的关联性,生成结构化摘要,同时适用于合同审查、技术文档分析等场景。