摘要
本发明涉及一种基于联合优化训练的越南语依存句法树库构建方法,属自然语言处理领域。本发明包括:利用中文、英文和越南语实验数据分别训练出三个双仿射依存句法分析模型,分别为中文模型、英文模型和越南语模型。利用训练好的三个双仿射依存句法分析模型解析出越南语无标注文本对应的依存句法树,并将越南语模型解析的结果作为参考标准,对中文模型、英文模型解析结果进行筛选。利用筛选的数据重新迭代优化三个双仿射依存句法分析模型并进行进一步的数据改选,从而构建高质量的越南语依存句法树库。该方法可以缓解越南语依存句法数据稀缺的问题,从而显著提升越南语依存句法分析的性能。