摘要
本申请涉及数据评估技术领域,公开一种用于数据集语义质量评估的方法及装置、电子设备,其中,方法包括:对待评估数据集中的多个文本数据进行深度语义特征提取,获得每个文本数据对应的语义向量;根据语义向量进行多维度语义质量评估,获得多个评估得分;多维度语义质量评估的评估维度包括语义一致性评估、语义丰富性评估和语义偏见评估中的多种;根据多个评估得分,确定综合语义质量评分,并生成可视化报告。对多个文本数据进行语义特征提取,所生成的语义向量能够捕捉文本的复杂语义信息,提供丰富的语义表示。然后从多个维度对待评估数据集进行评估,全面客观的评估数据集的语义质量,实现更深层次的质量评估,提高对数据集的质量评估效果。