AI资讯新闻榜单内容搜索-moe

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
搜索: moe
「天工2.0」MoE大模型发布

「天工2.0」MoE大模型发布

「天工2.0」MoE大模型发布

「天工AI」国内首个MoE架构免费向C端用户开放的大语言模型应用全新问世。

来自主题: AI资讯
10541 点击    2024-02-06 12:48
打破MoE训练效率与性能瓶颈,华为盘古稀疏大模型全新架构LocMoE出炉

打破MoE训练效率与性能瓶颈,华为盘古稀疏大模型全新架构LocMoE出炉

打破MoE训练效率与性能瓶颈,华为盘古稀疏大模型全新架构LocMoE出炉

2023 年 12 月,首个开源 MoE 大模型 Mixtral 8×7B 发布,在多种基准测试中,其表现近乎超越了 GPT-3.5 和 LLaMA 2 70B,而推理开销仅相当于 12B 左右的稠密模型。为进一步提升模型性能,稠密 LLM 常由于其参数规模急剧扩张而面临严峻的训练成本。

来自主题: AI技术研报
9302 点击    2024-02-04 13:59
将多模态大模型稀疏化,3B模型MoE-LLaVA媲美LLaVA-1.5-7B

将多模态大模型稀疏化,3B模型MoE-LLaVA媲美LLaVA-1.5-7B

将多模态大模型稀疏化,3B模型MoE-LLaVA媲美LLaVA-1.5-7B

对于大型视觉语言模型(LVLM)而言,扩展模型可以有效提高模型性能。然而,扩大参数规模会显著增加训练和推理成本,因为计算中每个 token 都会激活所有模型参数。

来自主题: AI技术研报
6528 点击    2024-01-31 16:23
从零手搓MoE大模型,大神级教程来了

从零手搓MoE大模型,大神级教程来了

从零手搓MoE大模型,大神级教程来了

Hugging Face上有一位机器学习大神,分享了如何从头开始建立一套完整的MoE系统。

来自主题: AI技术研报
5096 点击    2024-01-29 16:30
大模型“四小龙”,能否跨越深渊?

大模型“四小龙”,能否跨越深渊?

大模型“四小龙”,能否跨越深渊?

一张名为《大模型的深渊》的图,在去年广为流行。吃瓜群众惊诧地发现,原来绝大多数大模型,都挤在深不见底的层级,“宣称自己快要落地的”“再等等决定啥时候落地的”“什么落地不落地的”“怎么还有这么多没听说过的大模型啊”……

来自主题: AI资讯
2172 点击    2024-01-27 12:36
顶流Mamba竟遭ICLR拒稿,学者集体破防变????,LeCun都看不下去了

顶流Mamba竟遭ICLR拒稿,学者集体破防变????,LeCun都看不下去了

顶流Mamba竟遭ICLR拒稿,学者集体破防变????,LeCun都看不下去了

一项ICLR拒稿结果让AI研究者集体破防,纷纷刷起小丑符号。争议论文为Transformer架构挑战者Mamba,开创了大模型的一个新流派。发布两个月不到,后续研究MoE版本、多模态版本等都已跟上。

来自主题: AI资讯
4983 点击    2024-01-27 10:57
MoE与Mamba强强联合,将状态空间模型扩展到数百亿参数

MoE与Mamba强强联合,将状态空间模型扩展到数百亿参数

MoE与Mamba强强联合,将状态空间模型扩展到数百亿参数

状态空间模型(SSM)是近来一种备受关注的 Transformer 替代技术,其优势是能在长上下文任务上实现线性时间的推理、并行化训练和强大的性能。而基于选择性 SSM 和硬件感知型设计的 Mamba 更是表现出色,成为了基于注意力的 Transformer 架构的一大有力替代架构。

来自主题: AI技术研报
10269 点击    2024-01-23 15:09
从Google Gemini到OpenAI Q*:生成式AI研究领域全面综述

从Google Gemini到OpenAI Q*:生成式AI研究领域全面综述

从Google Gemini到OpenAI Q*:生成式AI研究领域全面综述

这项综述性研究报告批判性地分析了生成式AI的发展现状和发展方向,并探究了谷歌Gemini和备受期待的OpenAI Q*等创新成果将如何改变多个领域的实际应用。

来自主题: AI资讯
5913 点击    2024-01-09 14:21
8x7B MoE与Flash Attention 2结合,不到10行代码实现快速推理

8x7B MoE与Flash Attention 2结合,不到10行代码实现快速推理

8x7B MoE与Flash Attention 2结合,不到10行代码实现快速推理

前段时间,Mistral AI 公布的 Mixtral 8x7B 模型爆火整个开源社区,其架构与 GPT-4 非常相似,很多人将其形容为 GPT-4 的「缩小版」。

来自主题: AI技术研报
5150 点击    2024-01-01 11:08