AI资讯新闻榜单内容搜索-MoE大模型

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
搜索: MoE大模型
每2秒吃透一道高数大题!华为终于揭秘准万亿MoE昇腾训练系统全流程

每2秒吃透一道高数大题!华为终于揭秘准万亿MoE昇腾训练系统全流程

每2秒吃透一道高数大题!华为终于揭秘准万亿MoE昇腾训练系统全流程

现在,请大家一起数一下“1”、“2”。OK,短短2秒钟时间,一个准万亿MoE大模型就已经吃透如何解一道高等数学大题了!而且啊,这个大模型还是不用GPU来训练,全流程都是大写的“国产”的那种。

来自主题: AI技术研报
7514 点击    2025-05-31 14:11
还得是华为!Pangu Ultra MoE架构:不用GPU,你也可以这样训练准万亿MoE大模型

还得是华为!Pangu Ultra MoE架构:不用GPU,你也可以这样训练准万亿MoE大模型

还得是华为!Pangu Ultra MoE架构:不用GPU,你也可以这样训练准万亿MoE大模型

Pangu Ultra MoE 是一个全流程在昇腾 NPU 上训练的准万亿 MoE 模型,此前发布了英文技术报告[1]。最近华为盘古团队发布了 Pangu Ultra MoE 模型架构与训练方法的中文技术报告,进一步披露了这个模型的细节。

来自主题: AI技术研报
7773 点击    2025-05-29 16:47
Dense与MoE大模型架构后续发展解读

Dense与MoE大模型架构后续发展解读

Dense与MoE大模型架构后续发展解读

过去十年,自然语言处理领域经历了从统计语言模型到大型语言模型(LLMs)的飞速发展。

来自主题: AI技术研报
9310 点击    2025-03-28 09:45
猎户星空发布MoE大模型,推出AI数据宝AirDS

猎户星空发布MoE大模型,推出AI数据宝AirDS

猎户星空发布MoE大模型,推出AI数据宝AirDS

11月27日,猎户星空联合聚云科技举办了题为《Data Ready for Al,MoE大模型发布暨商业闭环分享》媒体见面会。猎户星空正式发布了自主研发的Orion-MoE 8×7B大模型,并携手聚云科技推出了基于该大模型的数据服务—AI数据宝AirDS(AI-Ready Data Service)。

来自主题: AI资讯
8154 点击    2024-11-28 10:12
专家模型不要专家并行!微软开源MoE新路径

专家模型不要专家并行!微软开源MoE新路径

专家模型不要专家并行!微软开源MoE新路径

近日,来自微软的研究人员开源了使用全新方法训练的MoE大模型,不走寻常路,且编码和数学表现出色。

来自主题: AI技术研报
6195 点击    2024-11-11 15:15
第一个100%开源的MoE大模型,7B的参数,1B的推理成本

第一个100%开源的MoE大模型,7B的参数,1B的推理成本

第一个100%开源的MoE大模型,7B的参数,1B的推理成本

训练代码、中间 checkpoint、训练日志和训练数据都已经开源。

来自主题: AI技术研报
8163 点击    2024-09-05 22:02
马斯克烧60亿美元难题,国内大厂有解?开源MoE模算效率黑马登场,3.7B参数单挑Llama 3-70B

马斯克烧60亿美元难题,国内大厂有解?开源MoE模算效率黑马登场,3.7B参数单挑Llama 3-70B

马斯克烧60亿美元难题,国内大厂有解?开源MoE模算效率黑马登场,3.7B参数单挑Llama 3-70B

马斯克最近哭穷表示,xAI需要部署10万个H100才能训出Grok 3,影响全球的大模型算力荒怎么解?昨天开源的这款MoE大模型,只用了1/19算力、1/19激活参数,性能就直接全面对标Llama 3-70B!

来自主题: AI技术研报
7433 点击    2024-05-29 15:14
国内首个音乐版「ChatGPT」来了!Sora同款架构,唱作技巧全面发展,还剧透了全新MoE大模型

国内首个音乐版「ChatGPT」来了!Sora同款架构,唱作技巧全面发展,还剧透了全新MoE大模型

国内首个音乐版「ChatGPT」来了!Sora同款架构,唱作技巧全面发展,还剧透了全新MoE大模型

AI音乐大模型最近有多火,不用多介绍了吧?不过,海外版应用别的先不说,奇奇怪怪的中文AI发音就能把人难受死……好在卷应用嘛,国产大模型厂商没在怕的,这不,国产版音乐“ChatGPT”这就来了~

来自主题: AI资讯
8236 点击    2024-04-03 14:17