Meta 联合纽约大学和华盛顿大学提出MetaCLIP，带你揭开CLIP的高质量数据之谜。

11730点击 2024-05-02 17:54

自2021年诞生，CLIP已在计算机视觉识别系统和生成模型上得到了广泛的应用和巨大的成功。我们相信CLIP的创新和成功来自其高质量数据（WIT400M），而非模型或者损失函数本身。虽然3年来CLIP有大量的后续研究，但并未有研究通过对CLIP进行严格的消融实验来了解数据、模型和训练的关系。

CLIP原文仅有简短的数据处理描述，而后续工作依靠已经训练好的CLIP来重新过滤数据去训练CLIP（学生）模型。更广泛地说，虽然目前的开源着重强调已训练模型权重的公开，而训练数据以及如何从低质量数据获得高质量数据的技巧的公开度却往往并不那么高。

本文带你揭开CLIP的数据质量之谜，为开源社区带来元数据导向的CLIP预训练（MetaCLIP)。

MetaCLIP数据质量

MetaCLIP根据CLIP原文对数据处理的描述，提出可扩展到整个CommonCrawl上的数据算法。该算法接受原始互联网数据分布，产生在元数据上平衡的高质量训练数据分布。

MetaCLIP产生的数据质量源自两个部分：

（1）通过元数据字符串匹配来抓取高质量人类监督文本；

（2）通过平衡数据在元数据上的分布来最大限度保留长尾数据的信号、弱化噪声以及头部分布的冗余信息。MetaCLIP的元数据来自50万个WordNet和维基百科的视觉概念（visual concept），它们使被匹配的alt文本包含超越人类平均认知水平的监督质量（superhuman level supervision）。

我们的实验严格遵循CLIP设定来控制研究数据分布对结果的影响。整个数据提取，训练无需已训练CLIP来过滤数据以及潜在未知的来自OpenAI CLIP的数据偏见。

相反的是，MetaCLIP数据算法同时输出训练数据分布。这使得训练数据更加透明，以方便调试模型。MetaCLIP在400M训练数据上达到ViT-B 70.8%的零样本ImageNet分类精度；使用1B训练数据上达到72.4%；在2.5B训练数据上使用ViT-bigG模型达到82.1%，而整个模型和训练参数并未进行任何更改（比如学习率或批样本量）。

Meta 联合纽约大学和华盛顿大学提出MetaCLIP，带你揭开CLIP的高质量数据之谜。