ChatGPT 人工智能 GPT4 伦理 生成式 医疗 监管 安全 机器学习 深度学习 神经网络 计算机视觉 强化学习 模型 算法 应用 开发 研究 工具 平台 框架 数据集 训练 部署 安全 合规 培训 投资 LLM,llm AI,ai,Ai 大模型 大语言模型 制图 生图 绘图 文生图 文生视频 生成式AI AGI 世界模型 sora chatGPT,chatgpt,ChatGpt claude openai Llama deepseek midjourney 红熊猫模型 Red panda,panda Stable Diffusion,StableDiffusion,stable DALL- E 3 DALL E DALL Flux,flux 扩散模型 混元大模型 文心一言 通义千问 可灵 Pika PixelDance 豆包 月之暗面 零一万物 阶跃星辰 搜索增强 MiniMax Talkie Agent prompt fastai LangChain TTS 微调 提示词 知识库 智能体
# 热门搜索 #
搜索
华为改进Transformer架构!盘古-π解决特征缺陷问题,同规模性能超LLaMA
4367点击    2024-01-02 14:34

华为盘古系列,带来架构层面上新!


量子位获悉,华为诺亚方舟实验室等联合推出新型大语言模型架构:盘古-π


它通过增强非线性,在传统Transformer架构上做出改进,由此可以显著降低特征塌陷问题。


带来的直接效果就是模型输出表达能力更强。


在使用相同数据训练的情况下,盘古-π(7B)在多任务上超越LLaMA 2等同规模大模型,并能实现10%的推理加速。


在1B规模上可达SOTA


同时还基于这一架构炼出了一个金融法律大模型“云山”。


该工作由AI大牛陶大程领衔。


具体如何实现?一起来看。


利用非线性解决特征塌陷


目前常见大模型基本都采用Transformer架构,比如GPT、LLaMA等。


它的核心构成包括多头自注意力机制(MSA)和前馈网络(FFN)。



MSA的主要功能是计算输入序列中每个token和其他所有token之间的相关性,通过学习输入序列中的依赖关系,可以增强对语言的理解能力。FFN主要对输入进行非线性转换,增强模型表达能力,使其可以逼近更复杂的函数。


不过,华为诺亚方舟实验室发现,特征崩溃(feature collapse)会影响Transformer架构的表现,降低其表达能力,使模型难以区分不同输入。


以LLaMA为例,在更深层的神经网络上,特征等级显著降低,导致了所有token之间的相似性更强。


从机制上来看,自注意力模块可以看做在完全图上进行信息聚合,连续堆叠多层注意力就像连续多层图卷积一样,会产生过度特征平滑效应


另一方面,多层感知器(MLP)中的激活函数提供的非线性还不够,抑制特征崩溃的作用有限。


由此,团队想要提高模型的非线性表达能力,避免特征崩溃,进而提出了本次工作盘古-π


如下是盘古-π的结构示意:



在FFN中加入串联激活函数,在MSA中集成一种增强快捷连接(Aug-S),可以更有效地在Transformer架构中引入更多非线性。



使用了增强快捷连接(Aug-S)的MSA,能将每个token的特征转换为不同表示形式。


基于这一新架构,通过大规模训练和微调,研究团队开发了一个盘古-π基础模型


实验结果显示,该模型在多任务中表现超越其他同规模模型(分别测试了7B和1B规模)。


而且盘古-π-7B可以达到约10%的推理加速。



同时团队还以此为基础开发了一个金融法律领域大模型“云山”,它同样在多个benchmark中成绩超越其他模型。



通讯作者为陶大程


值得关注的是,本项研究的团队阵容也非常亮眼。


通讯作者为陶大程。


他是欧洲科学院外籍院士、澳大利亚科学院院士。本科就读于中科大,说是毕业于港中文MMLab、师从汤晓鸥。


2007年从英国博士毕业后,先后在中国香港理工大学、新加坡南洋理工大学,澳大利亚悉尼科技大学、悉尼大学任教。目前是清华大学智能产业研究院AIR团队卓越访问教授。


与此同时,他还先后加盟过优必选、京东,曾是京东最高级别AI科学家、担任京东探索研究院院长。



一作为王云鹤。


他是2012实验室诺亚方舟实验室高级研究员,现任华为算法应用部部长。


王云鹤在华为负责高效AI算法的创新研发以及在华为业务中的应用。他和团队开发了高效AI算法,其衍生应用在中国天眼FAST观测工作中,协助中科院国家天文台专家找到了数百个新的快速射电暴样本。



论文地址:


http://arxiv.org/abs/2312.17276


文章来自于微信公众号“量子位”(ID: QbitAI),作者 “明敏”
AITNT资源拓展
根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考
1
微调

【开源免费】XTuner 是一个高效、灵活、全能的轻量化大模型微调工具库。它帮助开发者提供一个简单易用的平台,可以对大语言模型(LLM)和多模态图文模型(VLM)进行预训练和轻量级微调。XTuner 支持多种微调算法,如 QLoRA、LoRA 和全量参数微调。

项目地址:https://github.com/InternLM/xtuner