AI资讯新闻榜单内容搜索-MoE架构

# 热门搜索 #

大模型

人工智能

openai

融资

chatGPT

搜索: MoE架构

刚刚！华为首个开源大模型来了

刚刚！华为首个开源大模型来了

刚刚！华为首个开源大模型来了

刚刚，华为正式宣布开源盘古 70 亿参数的稠密模型、盘古 Pro MoE 720 亿参数的混合专家模型（参见机器之心报道：华为盘古首次露出，昇腾原生72B MoE架构，SuperCLUE千亿内模型并列国内第一）和基于昇腾的模型推理技术。

来自主题: AI资讯

10019 点击 2025-06-30 09:19

还得是华为！Pangu Ultra MoE架构：不用GPU，你也可以这样训练准万亿MoE大模型

还得是华为！Pangu Ultra MoE架构：不用GPU，你也可以这样训练准万亿MoE大模型

还得是华为！Pangu Ultra MoE架构：不用GPU，你也可以这样训练准万亿MoE大模型

Pangu Ultra MoE 是一个全流程在昇腾 NPU 上训练的准万亿 MoE 模型，此前发布了英文技术报告[1]。最近华为盘古团队发布了 Pangu Ultra MoE 模型架构与训练方法的中文技术报告，进一步披露了这个模型的细节。

来自主题: AI技术研报

9522 点击 2025-05-29 16:47

深夜突袭，阿里Qwen3登顶全球开源王座！暴击DeepSeek-R1，2小时狂揽17k星

深夜突袭，阿里Qwen3登顶全球开源王座！暴击DeepSeek-R1，2小时狂揽17k星

深夜突袭，阿里Qwen3登顶全球开源王座！暴击DeepSeek-R1，2小时狂揽17k星

阿里Qwen3凌晨开源，正式登顶全球开源大模型王座！它的性能全面超越DeepSeek-R1和OpenAI o1，采用MoE架构，总参数235B，横扫各大基准。这次开源的Qwen3家族，8款混合推理模型全部开源，免费商用。

来自主题: AI资讯

10323 点击 2025-04-29 08:49

刚刚，商汤发布第六代大模型：6000亿参数多模态MoE，中长视频直接可推理

刚刚，商汤发布第六代大模型：6000亿参数多模态MoE，中长视频直接可推理

刚刚，商汤发布第六代大模型：6000亿参数多模态MoE，中长视频直接可推理

商汤最新升级的日日新SenseNova V6解锁的新能力—— 原生多模态通用大模型，采用6000亿参数MoE架构，实现文本、图像和视频的原生融合。从性能评测来看，SenseNova V6已经在纯文本任务和多模态任务中，多项指标均已超越GPT-4.5、Gemini 2.0 Pro，并全面超越DeepSeek V3：

来自主题: AI资讯

9352 点击 2025-04-10 23:17

Kimi 16B胜GPT-4o！开源视觉推理模型：MoE架构，推理时仅激活2.8B

Kimi 16B胜GPT-4o！开源视觉推理模型：MoE架构，推理时仅激活2.8B

Kimi 16B胜GPT-4o！开源视觉推理模型：MoE架构，推理时仅激活2.8B

刚刚，Kimi团队上新了！

来自主题: AI技术研报

7780 点击 2025-04-10 16:25

LIama 4发布重夺开源第一！DeepSeek同等代码能力但参数减一半，一张H100就能跑，还有两万亿参数超大杯

LIama 4发布重夺开源第一！DeepSeek同等代码能力但参数减一半，一张H100就能跑，还有两万亿参数超大杯

LIama 4发布重夺开源第一！DeepSeek同等代码能力但参数减一半，一张H100就能跑，还有两万亿参数超大杯

AI不过周末，硅谷也是如此。大周日的，Llama家族上新，一群LIama 4就这么突然发布了。这是Meta首个基于MoE架构模型系列，目前共有三个款：Llama 4 Scout、Llama 4 Maverick、Llama 4 Behemoth。

来自主题: AI资讯

10135 点击 2025-04-06 12:15

推理成本比MoE直降83%！字节最新大模型架构入围ICLR 2025

推理成本比MoE直降83%！字节最新大模型架构入围ICLR 2025

推理成本比MoE直降83%！字节最新大模型架构入围ICLR 2025

字节出了个全新架构，把推理成本给狠狠地打了下去！推理速度相比MoE架构提升2-6倍，推理成本最高可降低83%。

来自主题: AI技术研报

7191 点击 2025-02-12 11:37

Grok祭出首款生图模型Aurora！两位95后华人立大功，耗时6月自研MoE

Grok祭出首款生图模型Aurora！两位95后华人立大功，耗时6月自研MoE

Grok祭出首款生图模型Aurora！两位95后华人立大功，耗时6月自研MoE

消失一天后的Aurora，正式上线了。一大早，马斯克官宣了Grok集成了自研图像新模型Aurora，MoE架构自回归模型，直接将生成编辑能力一统。在人物肖像生成上，已经逼真到肉眼无法辨别。

来自主题: AI技术研报

6458 点击 2024-12-10 16:22

清华团队革新MoE架构！像搭积木一样构建大模型，提出新型类脑稀疏模块化架构

清华团队革新MoE架构！像搭积木一样构建大模型，提出新型类脑稀疏模块化架构

清华团队革新MoE架构！像搭积木一样构建大模型，提出新型类脑稀疏模块化架构

探索更高效的模型架构， MoE是最具代表性的方向之一。 MoE架构的主要优势是利用稀疏激活的性质，将大模型拆解成若干功能模块，每次计算仅激活其中一小部分，而保持其余模块不被使用，从而大大降低了模型的计算与学习成本，能够在同等计算量的情况下产生性能优势。

来自主题: AI技术研报

4237 点击 2024-11-01 17:11

颜水成袁粒提出新一代MoE架构：专家吞吐速度最高提升2.1倍！

颜水成袁粒提出新一代MoE架构：专家吞吐速度最高提升2.1倍！

颜水成袁粒提出新一代MoE架构：专家吞吐速度最高提升2.1倍！

比传统MoE推理速度更快、性能更高的新一代架构，来了！这个通用架构叫做MoE++，由颜水成领衔的昆仑万维2050研究院与北大袁粒团队联合提出。

来自主题: AI技术研报

5065 点击 2024-10-21 11:22

上一页当前第2页,共3页下一页