摘要
本申请提供一种视频分割方法、服务器、存储介质及程序产品,本申请的方法,通过将待分割的视频数据切分成多个数据片段,通过视频主题分割模型分别提取各数据片段的单一模态的特征,包括文本模态的文本特征和视觉模态的视觉特征,将各数据片段的文本特征和视觉特征融合,可以在中间表示级别进行多模态信息的融合,可以更好地捕捉不同模态之间的关系和交互,获得各数据片段的更高质量的多模态融合特征;进一步地,根据各所述数据片段的多模态融合特征,预测各所述数据片段是否为主题边界,可以精准地预测视频数据的主题边界,提升了主题边界识别的精准度,从而提升了视频主题分割结果的精准度和质量。