摘要
本发明公开了一种基于稀疏缩放网络和多重超图的知识图谱构建方法,属于信息抽取技术领域。包括:首先,对语料库中的文本进行预处理;其次,对文本中可能存在的实体进行边界识别,生成实体的边界候选标记;接着,对每个词或字符进行标注,从前向/后向/左向/右向四个方向上生成多重的局部超图表示;然后,对多重的局部超图进行解码,识别嵌套命名实体;最后,使用基于多层感知机的模型来学习从实体语法特征到实体对关系类型的映射。本发明通过基于稀疏缩放网络的冗余信息处理,能够减少冗余信息,更加精确地捕获文本中的关键语义特征;通过基于多重超图的嵌套命名实体识别方法,提高了知识图谱构建的性能。