摘要
本申请公开了一种领域数据收集方法、装置、电子设备及存储介质,涉及数据处理技术领域,包括:获取开源语料库中的开源数据集,并对开源数据集中各数据进行领域相关性标注,得到标注数据集;根据标注的领域相关性对标注数据集进行筛选,得到与目标领域相关的标注数据子集;对标注数据子集中各数据进行合规性注释,得到注释数据子集;根据注释的合规性对注释数据子集进行筛选,得到目标领域数据。本申请实现了从大量开源语料库中高效提取出既具有金融领域相关性又符合合规要求的专业语料数据,确保了目标领域数据的数量和质量,为金融领域大模型的预训练提供了可靠的数据基础,从而提升了模型在金融领域的理解能力和表达准确性。