ChatGPT 人工智能 GPT4 伦理 生成式 医疗 监管 安全 机器学习 深度学习 神经网络 计算机视觉 强化学习 模型 算法 应用 开发 研究 工具 平台 框架 数据集 训练 部署 安全 合规 培训 投资 LLM,llm AI,ai,Ai 大模型 大语言模型 制图 生图 绘图 文生图 文生视频 生成式AI AGI 世界模型 sora chatGPT,chatgpt,ChatGpt claude openai Llama deepseek midjourney 红熊猫模型 Red panda,panda Stable Diffusion,StableDiffusion,stable DALL- E 3 DALL E DALL Flux,flux 扩散模型 混元大模型 文心一言 通义千问 可灵 Pika PixelDance 豆包 月之暗面 零一万物 阶跃星辰 搜索增强 MiniMax Talkie Agent prompt fastai LangChain TTS 微调 提示词 知识库 智能体
# 热门搜索 #
搜索
一块钱100万token,超强MoE模型开源,性能直逼GPT-4-Turbo
9716点击    2024-05-07 18:24

开源大模型领域,又迎来一位强有力的竞争者。


近日,探索通用人工智能(AGI)本质的 DeepSeek AI 公司开源了一款强大的混合专家 (MoE) 语言模型 DeepSeek-V2,主打训练成本更低、推理更加高效。




  • 项目地址:https://github.com/deepseek-ai/DeepSeek-V2
  • 论文标题:DeepSeek-V2: A Strong, Economical, and Efficient Mixture-of-Experts Language Model


DeepSeek-V2 参数量达 236B,其中每个 token 激活 21B 参数,支持 128K token 的上下文长度。



与 DeepSeek 67B (该模型去年上线)相比,DeepSeek-V2 实现了更强的性能,同时节省了 42.5% 的训练成本,减少了 93.3% 的 KV 缓存,并将最大生成吞吐量提升 5.76 倍。



DeepSeek-V2 的模型表现非常亮眼:在 AlignBench 基准上超过 GPT-4,接近 GPT-4- turbo;在 MT-Bench 中与 LLaMA3-70B 相媲美,并优于 Mixtral 8x22B;擅长数学、代码和推理。



下面是 DeepSeek-V2 与 LLaMA 3 70B、Mixtral 8x22B、DeepSeek V1 (Dense-67B) 对比结果:



在大海捞针(NEEDLE IN A HAYSTACK)任务中,DeepSeek-V2 在上下文窗口达 128K 时表现良好。



在 LiveCodeBench (0901-0401「一个专为实时编码挑战而设计的基准」) 上,DeepSeek-V2 获得了较高的 Pass@1 分数。



DeepSeek-V2 与不同模型在中文推理、中文语言上的表现:



在价格方面,DeepSeek-V2 API 的定价如下:每百万 token 输入 0.14 美元(约 1 元人民币)、输出 0.28 美元(约 2 元人民币,32K 上下文),与 GPT-4-Turbo 定价相比,价格仅为后者的近百分之一。



模型介绍


DeepSeek-V2 采用 Transformer 架构,其中每个 Transformer 块由一个注意力模块和一个前馈网络(FFN)组成。然而,对于注意力模块和 FFN,研究团队设计并采用了创新的架构。


一方面,该研究设计了 MLA,利用低秩键值联合压缩来消除推理时键值缓存的瓶颈,从而支持高效推理。


另一方面,对于 FFN,该研究采用高性能 MoE 架构 —— DeepSeekMoE,以经济的成本训练强大的模型。 


在一些细节上,DeepSeek-V2 遵循 DeepSeek 67B 的设置,DeepSeek-V2 的架构如下图所示:



研究团队构建了由 8.1T token 组成的高质量、多源预训练语料库。与 DeepSeek 67B 使用的语料库相比,该语料库的数据量特别是中文数据量更大,数据质量更高。


该研究首先在完整的预训练语料库上预训练 DeepSeek-V2,然后再收集 150 万个对话,涵盖数学、代码、写作、推理、安全等各个领域,以便为 DeepSeek-V2 Chat 执行监督微调(SFT)。最后,该研究遵循 DeepSeekMath 采用群组相对策略优化 (GRPO) 进一步使模型与人类偏好保持一致。


DeepSeek-V2 基于高效且轻量级的框架 HAI-LLM 进行训练,采用 16-way zero-bubble pipeline 并行、8-way 专家并行和 ZeRO-1 数据并行。鉴于 DeepSeek-V2 的激活参数相对较少,并且重新计算部分算子以节省激活内存,无需张量并行即可训练,因此 DeepSeek-V2 减少了通信开销。


此外,为了进一步提高训练效率,该研究将计算和通信重叠,并为专家之间的通信、路由算法和线性融合计算定制了更快的 CUDA 内核。


实验结果


该研究在多种英文和中文基准上对 DeepSeek-V2 进行了评估,并将其与代表性的开源模型进行了比较。评估结果显示,即使只有 21B 个激活参数,DeepSeek-V2 仍然达到了开源模型中顶级的性能,成为最强的开源 MoE 语言模型。


值得注意的是,与基础版本相比,DeepSeek-V2 Chat (SFT) 在 GSM8K、MATH 和 HumanEval 评估方面表现出显著改进。此外,DeepSeek-V2 Chat (RL) 进一步提升了数学和代码基准测试的性能。



开放式生成的评估。研究团队继续在开放式对话基准上对模型进行额外评估。其中对于英文开放式对话生成,他们使用 MT-Bench 和 AlpacaEval 2.0 作为基准。表 4 中的评估结果表明, DeepSeek-V2 Chat (RL) 相对于 DeepSeek-V2 Chat (SFT) 具有显著的性能优势。这一结果展示了强化学习训练在改进一致性方面的有效性。


与其他开源模型相比,DeepSeek-V2 Chat (RL) 在两个基准的测试中均优于 Mistral 8x22B Instruct 和 Qwen1.5 72B Chat。与 LLaMA3 70B Instruct 相比,DeepSeek-V2 Chat (RL) 在 MT-Bench 上展现出具有竞争力的性能,并在 AlpacaEval 2.0 上的表现明显胜出。


这些结果凸显出了 DeepSeek-V2 Chat (RL) 在生成高质量且上下文相关的响应方面具有强大性能,尤其是在基于指令的对话任务中。



研究团队基于 AlignBench 评估了中文大模型社区的开放式生成能力。如表 5 所示,DeepSeek-V2 Chat (RL) 比 DeepSeek-V2 Chat (SFT) 稍有优势。尤其值得关注的是,DeepSeek-V2 Chat(SFT)大幅超越了所有开源中文模型,它在中文推理和语言方面都显著优于第二好的开源模型 Qwen1.5 72B Chat。


此外,DeepSeek-V2 Chat (SFT) 和 DeepSeek-V2 Chat (RL) 的性能均优于 GPT-4-0613 和 ERNIEBot 4.0,巩固了自家的模型在支持中文方面的顶级 LLM 地位。具体来说,DeepSeek-V2 Chat(RL)在中文理解方面表现出色,优于包括 GPT-4-Turbo-1106-Preview 在内的所有模型。不过 DeepSeek-V2 Chat(RL)的推理能力仍然落后于 Erniebot-4.0 和 GPT-4 等巨型模型。



本文来自微信公众号“机器之心”



AITNT资源拓展
根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考
1
微调

【开源免费】XTuner 是一个高效、灵活、全能的轻量化大模型微调工具库。它帮助开发者提供一个简单易用的平台,可以对大语言模型(LLM)和多模态图文模型(VLM)进行预训练和轻量级微调。XTuner 支持多种微调算法,如 QLoRA、LoRA 和全量参数微调。

项目地址:https://github.com/InternLM/xtuner