AI资讯新闻榜单内容搜索-MOE

# 热门搜索 #

大模型

人工智能

openai

融资

chatGPT

搜索: MOE

月之暗面Kimi的技术一点都不落后。

月之暗面Kimi的技术一点都不落后。

月之暗面Kimi的技术一点都不落后。

2 月 18 日，月之暗面发布了一篇关于稀疏注意力框架 MoBA 的论文。MoBA 框架借鉴了 Mixture of Experts（MoE）的理念，提升了处理长文本的效率，它的上下文长度可扩展至 10M。并且，MoBA 支持在全注意力和稀疏注意力之间无缝切换，使得与现有的预训练模型兼容性大幅提升。

来自主题: AI技术研报

8881 点击 2025-02-23 11:38

一次推理解决复合问题：基于MoE的大语言模型知识模块可扩展融合推理架构MeteoRA

一次推理解决复合问题：基于MoE的大语言模型知识模块可扩展融合推理架构MeteoRA

一次推理解决复合问题：基于MoE的大语言模型知识模块可扩展融合推理架构MeteoRA

在大语言模型领域中，预训练 + 微调范式已经成为了部署各类下游应用的重要基础。在该框架下，通过使用搭低秩自适应（LoRA）方法的大模型参数高效微调（PEFT）技术，已经产生了大量针对特定任务、可重用的 LoRA 适配器。

来自主题: AI技术研报

8026 点击 2025-02-22 13:57

起猛了，腾讯元宝接入DeepSeek了。

起猛了，腾讯元宝接入DeepSeek了。

起猛了，腾讯元宝接入DeepSeek了。

这应该是我知道的第一家有自己大模型的大厂，第一次在面向C端的AI助手应用中，第一次接入DeepSeek R1。这个意义影响还是非常深远的，腾讯在AI这一步上，好像走的格外的开放，从之前的批量开源MoE、混元绘图模型、混元视频模型、混元3D模型，还有今天这神之一手接入DeepSeek R1。

来自主题: AI资讯

9638 点击 2025-02-13 13:31

推理成本比MoE直降83%！字节最新大模型架构入围ICLR 2025

推理成本比MoE直降83%！字节最新大模型架构入围ICLR 2025

推理成本比MoE直降83%！字节最新大模型架构入围ICLR 2025

字节出了个全新架构，把推理成本给狠狠地打了下去！推理速度相比MoE架构提升2-6倍，推理成本最高可降低83%。

来自主题: AI技术研报

7216 点击 2025-02-12 11:37

国运级的创新？从 DeepSeek-V3 到 R1 的架构创新与误传的万字长文分析

国运级的创新？从 DeepSeek-V3 到 R1 的架构创新与误传的万字长文分析

国运级的创新？从 DeepSeek-V3 到 R1 的架构创新与误传的万字长文分析

DeepSeek 的最新模型 DeepSeek-V3 和 DeepSeek-R1 都属于 MoE（混合专家）架构，并在开源世界产生了较大的影响力。特别是 2025 年 1 月开源的 DeepSeek-R1，模型性能可挑战 OpenAI 闭源的 o1 模型。

来自主题: AI资讯

11136 点击 2025-02-09 22:14

完整的671B MoE DeepSeek R1怎么塞进本地化部署？详尽教程大放送！

完整的671B MoE DeepSeek R1怎么塞进本地化部署？详尽教程大放送！

完整的671B MoE DeepSeek R1怎么塞进本地化部署？详尽教程大放送！

过年这几天，DeepSeek 算是彻底破圈了，火遍大江南北，火到人尽皆知。虽然网络版和 APP 版已经足够好用，但把模型部署到本地，才能真正实现独家定制，让 DeepSeek R1 的深度思考「以你为主，为你所用」。

来自主题: AI技术研报

7314 点击 2025-02-04 19:57

阿里云通义大模型新技术：MoE模型训练专家平衡的关键细节

阿里云通义大模型新技术：MoE模型训练专家平衡的关键细节

阿里云通义大模型新技术：MoE模型训练专家平衡的关键细节

本周，在阿里云通义千问 Qwen 团队提交的一篇论文中，研究人员发现了目前最热门的 MoE（混合专家模型）训练中存在的一个普遍关键问题，并提出一种全新的方法——通过轻量的通信将局部均衡放松为全局均衡，使得 MoE 模型的性能和专家特异性都得到了显著的提升。

来自主题: AI技术研报

4346 点击 2025-01-26 11:12

Meta探索大模型记忆层，扩展至1280亿个参数，优于MoE

Meta探索大模型记忆层，扩展至1280亿个参数，优于MoE

Meta探索大模型记忆层，扩展至1280亿个参数，优于MoE

预训练语言模型通常在其参数中编码大量信息，并且随着规模的增加，它们可以更准确地回忆和使用这些信息。

来自主题: AI技术研报

8214 点击 2025-01-04 14:14

超越Claude 3.5紧追o1！DeepSeek-V3-Base开源，技术文档PDF全公开

超越Claude 3.5紧追o1！DeepSeek-V3-Base开源，技术文档PDF全公开

超越Claude 3.5紧追o1！DeepSeek-V3-Base开源，技术文档PDF全公开

在 2024 年底，探索通用人工智能（AGI）本质的 DeepSeek AI 公司开源了最新的混合专家（MoE）语言模型 DeepSeek-V3-Base。虽然，目前没有放出详细的模型卡，但官方开源了V3的技术文档PDF。

来自主题: AI资讯

8601 点击 2024-12-27 14:35

久等了，DeepSeek开源视觉模型DeepSeek-VL2来了

久等了，DeepSeek开源视觉模型DeepSeek-VL2来了

久等了，DeepSeek开源视觉模型DeepSeek-VL2来了

阔别九月，大家期待的 DeepSeek-VL2 终于来了！DeepSeek-MoE 架构配合动态切图，视觉能力再升级。从视觉定位到梗图解析，从 OCR 到故事生成，从 3B、16B 再到 27B，DeepSeek-VL2 正式开源。

来自主题: AI技术研报

11949 点击 2024-12-14 10:17

上一页当前第8页,共16页下一页