摘要
本公开涉及计算机视觉领域,提出一种视频封面的选择方法、装置、电子设备及存储介质。所述方法包括:使用多模态大模型对多个候选视频帧进行聚类,得到多个视频帧分组;使用姿态检测模型和多模态大模型,从每个视频帧分组中筛选视频帧,筛选出的视频帧包括目标角色且目标角色的姿态满足第一预设条件;对筛选出的视频帧进行质量评估,按照各视频帧的质量指标对视频帧进行分类,第一类视频帧的质量高于第二类视频帧的质量;从第一类视频帧中选择多个视频帧作为所述待处理视频的封面。该方法利用了多模态大模型泛化性高的特点,可以灵活地适配到多种应用场景,且不需要大量人工标注,可进一步降低人工成本,并保证封面的质量。