AI资讯新闻榜单内容搜索-Mixtral

iPhone可跑2B小钢炮！谷歌Gemma 2来袭，最强显微镜剖解LLM大脑

谷歌DeepMind的小模型核弹来了，Gemma 2 2B直接击败了参数大几个数量级的GPT-3.5和Mixtral 8x7B！而同时发布的Gemma Scope，如显微镜一般打破LLM黑箱，让我们看清Gemma 2是如何决策的。

来自主题: AI技术研报

9445 点击 2024-08-01 15:32

英伟达开源3400亿巨兽，98%合成数据训出最强开源通用模型！性能对标GPT-4o

刚刚，英伟达全新发布的开源模型Nemotron-4 340B，有可能彻底改变训练LLM的方式！从此，或许各行各业都不再需要昂贵的真实世界数据集了。而且，Nemotron-4 340B直接超越了Mixtral 8x22B、Claude sonnet、Llama3 70B、Qwen 2，甚至可以和GPT-4掰手腕！

来自主题: AI技术研报

5009 点击 2024-06-15 15:58

Karpathy点赞，这份报告教你如何用 LLaMa 3创建高质量网络数据集

众所周知，对于 Llama3、GPT-4 或 Mixtral 等高性能大语言模型来说，构建高质量的网络规模数据集是非常重要的。然而，即使是最先进的开源 LLM 的预训练数据集也不公开，人们对其创建过程知之甚少。

来自主题: AI技术研报

9283 点击 2024-06-04 17:45

开源模型进展盘点：最新Mixtral、Llama 3、Phi-3、OpenELM到底有多好？

深度学习领域知名研究者、Lightning AI 的首席人工智能教育者 Sebastian Raschka 对 AI 大模型有着深刻的洞察，也会经常把一些观察的结果写成博客。在一篇 5 月中发布的博客中，他盘点分析了 4 月份发布的四个主要新模型：Mixtral、Meta AI 的 Llama 3、微软的 Phi-3 和苹果的 OpenELM。

来自主题: AI技术研报

9647 点击 2024-06-02 14:42