AI TNT— 让一部分先用AI实现商业化

这是迄今为止最强大的开源大语言模型，超越了 Llama 2、Mistral 和马斯克刚刚开源的 Grok-1。

来自主题: AI技术研报

9117 点击 2024-03-28 14:26

今年以来，苹果显然已经加大了对生成式人工智能（GenAI）的重视和投入。此前在 2024 苹果股东大会上，苹果 CEO 蒂姆・库克表示，今年将在 GenAI 领域实现重大进展。此外，苹果宣布放弃 10 年之久的造车项目之后，一部分造车团队成员也开始转向 GenAI。

来自主题: AI技术研报

8625 点击 2024-03-15 15:24

刚刚，我们经历了LLM划时代的一夜。谷歌又在深夜发炸弹，Gemini Ultra发布还没几天，Gemini 1.5就来了。卯足劲和OpenAI微软一较高下的谷歌，开始进入了高产模式。

来自主题: AI技术研报

9886 点击 2024-02-17 12:43

混合专家（MoE）架构已支持多模态大模型，开发者终于不用卷参数量了！北大联合中山大学、腾讯等机构推出的新模型MoE-LLaVA，登上了GitHub热榜。

来自主题: AI技术研报

3560 点击 2024-02-09 13:54

AI大模型并非越大越好？过去一个月，关于大模型变小的研究成为亮点，通过模型合并，采用MoE架构都能实现小模型高性能。

来自主题: AI技术研报

3789 点击 2024-02-09 12:11

MoE（混合专家）作为当下最顶尖、最前沿的大模型技术方向，MoE能在不增加推理成本的前提下，为大模型带来性能激增。比如，在MoE的加持之下，GPT-4带来的用户体验较之GPT-3.5有着革命性的飞升。

来自主题: AI资讯

8617 点击 2024-02-06 17:53

「天工AI」国内首个MoE架构免费向C端用户开放的大语言模型应用全新问世。

来自主题: AI资讯

9875 点击 2024-02-06 12:48

2023 年 12 月，首个开源 MoE 大模型 Mixtral 8×7B 发布，在多种基准测试中，其表现近乎超越了 GPT-3.5 和 LLaMA 2 70B，而推理开销仅相当于 12B 左右的稠密模型。为进一步提升模型性能，稠密 LLM 常由于其参数规模急剧扩张而面临严峻的训练成本。

来自主题: AI技术研报

8833 点击 2024-02-04 13:59

对于大型视觉语言模型（LVLM）而言，扩展模型可以有效提高模型性能。然而，扩大参数规模会显著增加训练和推理成本，因为计算中每个 token 都会激活所有模型参数。

来自主题: AI技术研报

5859 点击 2024-01-31 16:23

Hugging Face上有一位机器学习大神，分享了如何从头开始建立一套完整的MoE系统。

来自主题: AI技术研报

4674 点击 2024-01-29 16:30