AI资讯新闻榜单内容搜索-MoE

DeepSeek 再开源：发布 3B MoE OCR 模型，视觉压缩高达20倍

刚刚，DeepSeek 推出了全新的视觉文本压缩模型 DeepSeek-OCR。该模型最大的突破在于极高的压缩效率： 20 个节点每天可处理 3300 万页数据，硬件要求仅为 A100-40G。

来自主题: AI资讯

10105 点击 2025-10-20 16:30

小米最新大模型成果！罗福莉现身了

小米的最新大模型科研成果，对外曝光了。就在最近，小米AI团队携手北京大学联合发布了一篇聚焦MoE与强化学习的论文。而其中，因为更早之前在DeepSeek R1爆火前转会小米的罗福莉，也赫然在列，还是通讯作者。

来自主题: AI技术研报

7260 点击 2025-10-17 16:44

清华&巨人网络首创MoE多方言TTS框架，数据代码方法全开源

无论是中文的粤语、闽南话、吴语，还是欧洲的荷兰比尔茨语方言、法国奥克语，亦或是非洲和南美的地方语言，方言都承载着独特的音系与文化记忆，是人类语言多样性的重要组成部分。然而，许多方言正在快速消失，语音技术如果不能覆盖这些语言，势必加剧数字鸿沟与文化失声。

来自主题: AI技术研报

7176 点击 2025-10-16 12:08

为MoE解绑：全新「专家即服务」推理架构发布，超细粒度扩展锐减37.5%成本

近年来，大型语言模型的参数规模屡创新高，随之而来的推理开销也呈指数级增长。如何降低超大模型的推理成本，成为业界关注的焦点之一。Mixture-of-Experts (MoE，混合专家) 架构通过引入大量 “专家” 子模型，让每个输入仅激活少数专家，从而在参数规模激增的同时避免推理计算量同比增长。

来自主题: AI技术研报

7540 点击 2025-10-13 15:49

破解MoE模型“规模越大，效率越低”困境！中科院自动化所提出新框架

大模型参数量飙升至千亿、万亿级，却陷入“规模越大，效率越低” 困境？中科院自动化所新研究给出破局方案——首次让MoE专家告别“静态孤立”，开启动态“组队学习”。

来自主题: AI技术研报

7419 点击 2025-10-13 10:26

LLM工业级自进化：北邮与腾讯AI Lab提出MoE-CL架构，解决大模型持续学习核心痛点

在工业级大语言模型（LLM）应用中，动态适配任务与保留既有能力的 “自进化” 需求日益迫切。真实场景中，不同领域语言模式差异显著，LLM 需在学习新场景合规规则的同时，不丢失旧场景的判断能力。这正是大模型自进化核心诉求，即 “自主优化跨任务知识整合，适应动态环境而无需大量外部干预”。

来自主题: AI技术研报

6791 点击 2025-09-30 15:36

华为盘古718B模型最新成绩：开源第二

就在最新一期的SuperCLUE中文大模型通用基准测评中，各个AI大模型玩家的成绩新鲜出炉。DeepSeek-V3.1-Terminus-Thinking openPangu-Ultra-MoE-718B Qwen3-235B-A22B-Thinking-2507

来自主题: AI资讯

7219 点击 2025-09-29 22:10

6.1B打平40B Dense模型，蚂蚁开源最新MoE模型Ling-flash-2.0

今天，蚂蚁百灵大模型团队正式开源其最新 MoE 大模型 ——Ling-flash-2.0。作为 Ling 2.0 架构系列的第三款模型，Ling-flash-2.0 以总参数 100B、激活仅 6.1B（non-embedding 激活 4.8B）的轻量级配置，在多个权威评测中展现出媲美甚至超越 40B 级别 Dense 模型和更大 MoE 模型的卓越性能。

来自主题: AI技术研报

8065 点击 2025-09-18 15:42

扩散语言模型有MoE版了！蚂蚁&人大从头训练LLaDA-MoE，将完全开源

挑战自回归的扩散语言模型刚刚迎来了一个新里程碑：蚂蚁集团和人大联合团队用 20T 数据，从零训练出了业界首个原生 MoE 架构扩散语言模型 LLaDA-MoE。该模型虽然激活参数仅 1.4B，但性能可以比肩参数更多的自回归稠密模型 Qwen2.5-3B，而且推理速度更快。这为扩散语言模型的技术可行性提供了关键验证。

来自主题: AI技术研报

7633 点击 2025-09-15 08:30

全新MoE架构！阿里开源Qwen3-Next，训练成本直降9成

训练、推理性价比创新高。大语言模型（LLM），正在进入 Next Level。周五凌晨，阿里通义团队正式发布、开源了下一代基础模型架构 Qwen3-Next。总参数 80B 的模型仅激活 3B ，性能就可媲美千问 3 旗舰版 235B 模型，也超越了 Gemini-2.5-Flash-Thinking，实现了模型计算效率的重大突破。

来自主题: AI资讯

10268 点击 2025-09-12 10:10