ChatGPT 人工智能 GPT4 伦理 生成式 医疗 监管 安全 机器学习 深度学习 神经网络 计算机视觉 强化学习 模型 算法 应用 开发 研究 工具 平台 框架 数据集 训练 部署 安全 合规 培训 投资 LLM,llm AI,ai,Ai 大模型 大语言模型 制图 生图 绘图 文生图 文生视频 生成式AI AGI 世界模型 sora chatGPT,chatgpt,ChatGpt claude openai Llama deepseek midjourney 红熊猫模型 Red panda,panda Stable Diffusion,StableDiffusion,stable DALL- E 3 DALL E DALL Flux,flux 扩散模型 混元大模型 文心一言 通义千问 可灵 Pika PixelDance 豆包 月之暗面 零一万物 阶跃星辰 搜索增强 MiniMax Talkie Agent prompt fastai LangChain TTS 微调 提示词 知识库 智能体
# 热门搜索 #
搜索
Meta的Llama 3是合成数据训练?数据荒了解一下
6762点击    2024-08-05 12:23

如今一场席卷人工智能圈的“石油危机”已经出现,几乎每一家AI厂商都在竭力寻求新的语料来源,但再多的数据似乎也填不满AI大模型的胃口。更何况越来越多的内容平台意识到了手中数据的价值,纷纷开始敝帚自珍。为此,“合成数据”也成为了整个AI行业探索的新方向。



只不过在相当长的一段时间里,合成数据是否可堪一用都是未知的,直到日前Meta的AI研究员Thomas Scialom博士给出了这个问题的答案。据他透露,Meta的Llama 3开源大模型在训练中并没有依赖任何人类编写的答案,而是完全基于Llama 2生成的合成数据。


Thomas Scialom在介绍Llama 3的训练细节时,提及了合成数据在大模型不同场景的应用,诸如代码执行的反馈、编程语言的翻译、文档的反向翻译,长文本的问答、长文档摘要、代码库推理等领域都大量使用了合成数据。而这,也解释了Meta在今年春季推出的Llama 3大模型规模是如何超过4000亿参数,并实现七倍于Llama 2的训练数据量。



合成数据一般指的是通过算法模仿真实世界数据的特征产出新的数据,那么这种“左脚踩右脚上天”的操作又是如何实现呢?由Meta和微软的相关团队分别公布的两篇论文,就能为我们揭示使用合成数据训练大模型的秘密。其中,Meta将使用合成数据进行训练的大模型称为“自我奖励语言模型”,也就是大模型本身生成训练数据,并评估这些数据的质量,然后用这些数据来自己训练自己。


自我奖励语言模型实际上就是所谓AI反馈强化学习(RLAIF)的应用,Meta的具体操作是先基于少量人工标注数据预训练一个初始模型,然后再让初始模型基于问题生成多个候选回复,并使用吴恩达博士提出的LLM-as-a-Judge方式,让大语言模型对自己生成的回复打分,并根据打分形成新的训练数据,从而继续训练模型。



在这一过程中,最重要的就是让大模型能够按照示例生成和评估新指令,再添加到自己的训练集中。由于计算机使用的二进制语言和人类语言不同,研究人员需要将人类语言转换成计算机能理解的形式,这就是所谓的“文本嵌入”。比如微软的研究团队就通过定义一系列文本嵌入任务,并为这些任务设计了特定的提示,来指导大语言模型生成特定数据。


研究人员创建的特定提示会包括两个关键要素,即问题和角色,然后再进行排列组合。比如司机和数学问题结合,就可以生成中小学阶段的题目,引导大语言模型以相应的视角合成数据,这就是自我奖励语言模型的秘密。紧接着研究人员只需将生成的数据进行清洗和格式化,去除重复内容、修正格式错误,以确保它们符合训练的需要。



合成数据的优势,是能够在数学和物理意义上反映真实数据的属性,并且由于无需人工标注,所以也大幅减少了因数据采集流转流程以及人为标准不一致所带来的人为误差。那么问题就来了,既然合成数据可以成为解决训练数据稀缺以及衍生而来的高成本问题,为什么大量AI厂商还是倾向于挖掘或购买人类生成的数据呢?


其中最关键的原因,就是尽管采用了精心设计的prompt和有监督训练,但大语言模型固有的偏差和幻觉等问题仍可能会给数据集引入噪声,而在错误的、有幻觉的或有偏见的合成数据基础上训练的大语言模型,会无法泛化到现实世界场景。建立在合成数据基础上的大语言模型需要避免被机器学习“污染”,而训练数据中合成数据的占比越大,自然语言理解能力就越不容易提升。



比如斯坦福教授Percy Liang就指出,合成数据缺乏珍贵的“人性”,以至于基于合成数据训练的大模型并不足以达到AGI。更为重要的是,合成数据可以用来验证或扩展人类已经的领域,却无法揭示初始数据集中不存在的领域,它的边界就是初始数据集的边界。


故而,Meta基于Llama 2生成的合成数据训练了Llama 3在理论上是有一定可能性的,只不过他们并没有告诉大家,这一过程到底花费了多少人力、多少时间。尽管合成数据确实会比真实数据更便宜,但剔除不合格的合成数据到底需要花费多少成本还是未知数。



如果合成数据真的在各方面都比真实数据便宜,即使顶着幻觉和AI伦理的问题,各大AI厂商也没道理继续盯着由人类生成的数据了。


本文来自微信公众号“三易生活”(ID:IT-3eLife),作者:三易菌


AITNT资源拓展
根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考
1
prompt

【开源免费】LangGPT 是一个通过结构化和模板化的方法,编写高质量的AI提示词的开源项目。它可以让任何非专业的用户轻松创建高水平的提示词,进而高质量的帮助用户通过AI解决问题。

项目地址:https://github.com/langgptai/LangGPT/blob/main/README_zh.md

在线使用:https://kimi.moonshot.cn/kimiplus/conpg00t7lagbbsfqkq0