摘要
本发明揭示了一种基于少量标签的文章文本分类方法,在准备阶段依次完成制备文章文本、制备文本类别对、制备抽取式文本摘要模型,制备文本摘要相似度模型,制备句子集相似度模型,生成文本的表征向量,制备文章类型标签。而在预测阶段对待分类文章处理得文本、文章结构、句子数据,并利用抽取式摘要模型和摘要相似度模型处理得到文章结构各部分的摘要,再处理得到各部分的表征向量后计算与对应项目的相似度,通过加权和计算和设定阈值完成类别归属。本发明在文章文本分类过程中充分考虑文章题目、结构及内容相关性对类别确定的影响,突出文章中关键句的重要性,提升了分类准确性;有利于快速增加新分类且降低了成本。