如今一场席卷人工智能圈的“石油危机”已经出现,几乎每一家AI厂商都在竭力寻求新的语料来源,但再多的数据似乎也填不满AI大模型的胃口。更何况越来越多的内容平台意识到了手中数据的价值,纷纷开始敝帚自珍。为此,“合成数据”也成为了整个AI行业探索的新方向。
只不过在相当长的一段时间里,合成数据是否可堪一用都是未知的,直到日前Meta的AI研究员Thomas Scialom博士给出了这个问题的答案。据他透露,Meta的Llama 3开源大模型在训练中并没有依赖任何人类编写的答案,而是完全基于Llama 2生成的合成数据。
Thomas Scialom在介绍Llama 3的训练细节时,提及了合成数据在大模型不同场景的应用,诸如代码执行的反馈、编程语言的翻译、文档的反向翻译,长文本的问答、长文档摘要、代码库推理等领域都大量使用了合成数据。而这,也解释了Meta在今年春季推出的Llama 3大模型规模是如何超过4000亿参数,并实现七倍于Llama 2的训练数据量。
合成数据一般指的是通过算法模仿真实世界数据的特征产出新的数据,那么这种“左脚踩右脚上天”的操作又是如何实现呢?由Meta和微软的相关团队分别公布的两篇论文,就能为我们揭示使用合成数据训练大模型的秘密。其中,Meta将使用合成数据进行训练的大模型称为“自我奖励语言模型”,也就是大模型本身生成训练数据,并评估这些数据的质量,然后用这些数据来自己训练自己。
自我奖励语言模型实际上就是所谓AI反馈强化学习(RLAIF)的应用,Meta的具体操作是先基于少量人工标注数据预训练一个初始模型,然后再让初始模型基于问题生成多个候选回复,并使用吴恩达博士提出的LLM-as-a-Judge方式,让大语言模型对自己生成的回复打分,并根据打分形成新的训练数据,从而继续训练模型。
在这一过程中,最重要的就是让大模型能够按照示例生成和评估新指令,再添加到自己的训练集中。由于计算机使用的二进制语言和人类语言不同,研究人员需要将人类语言转换成计算机能理解的形式,这就是所谓的“文本嵌入”。比如微软的研究团队就通过定义一系列文本嵌入任务,并为这些任务设计了特定的提示,来指导大语言模型生成特定数据。
研究人员创建的特定提示会包括两个关键要素,即问题和角色,然后再进行排列组合。比如司机和数学问题结合,就可以生成中小学阶段的题目,引导大语言模型以相应的视角合成数据,这就是自我奖励语言模型的秘密。紧接着研究人员只需将生成的数据进行清洗和格式化,去除重复内容、修正格式错误,以确保它们符合训练的需要。
合成数据的优势,是能够在数学和物理意义上反映真实数据的属性,并且由于无需人工标注,所以也大幅减少了因数据采集流转流程以及人为标准不一致所带来的人为误差。那么问题就来了,既然合成数据可以成为解决训练数据稀缺以及衍生而来的高成本问题,为什么大量AI厂商还是倾向于挖掘或购买人类生成的数据呢?
其中最关键的原因,就是尽管采用了精心设计的prompt和有监督训练,但大语言模型固有的偏差和幻觉等问题仍可能会给数据集引入噪声,而在错误的、有幻觉的或有偏见的合成数据基础上训练的大语言模型,会无法泛化到现实世界场景。建立在合成数据基础上的大语言模型需要避免被机器学习“污染”,而训练数据中合成数据的占比越大,自然语言理解能力就越不容易提升。
比如斯坦福教授Percy Liang就指出,合成数据缺乏珍贵的“人性”,以至于基于合成数据训练的大模型并不足以达到AGI。更为重要的是,合成数据可以用来验证或扩展人类已经的领域,却无法揭示初始数据集中不存在的领域,它的边界就是初始数据集的边界。
故而,Meta基于Llama 2生成的合成数据训练了Llama 3在理论上是有一定可能性的,只不过他们并没有告诉大家,这一过程到底花费了多少人力、多少时间。尽管合成数据确实会比真实数据更便宜,但剔除不合格的合成数据到底需要花费多少成本还是未知数。
如果合成数据真的在各方面都比真实数据便宜,即使顶着幻觉和AI伦理的问题,各大AI厂商也没道理继续盯着由人类生成的数据了。
本文来自微信公众号“三易生活”(ID:IT-3eLife),作者:三易菌