摘要
本发明公开了一种基于集成学习的档案特征提取方法、设备及介质,属于档案信息处理技术领域,用于解决传统的特征分类方法,如逻辑回归、决策树等,在处理如档案这种复杂、高维数据时,容易陷入过拟合问题,影响档案分类效果的技术问题。方法包括:对待处理档案进行关键特征提取以及数据预处理,得到标准化档案特征;采用多层感知器结构,构建档案特征分类模型;基于交叉熵损失函数,对所述档案特征分类模型进行训练;在训练过程中,对档案特征分类模型进行过拟合监测,并根据监测结果优化所述档案特征分类模型;将所述标准化档案特征输入优化完成的档案特征分类模型中进行分类。