AI资讯新闻榜单内容搜索-LAM

LLM训练通信量减少10000倍！全新分布式优化器，整合世间算力训练强大AI

如果可以使用世界上所有的算力来训练AI模型，会怎么样？近日，凭借发布了开源的Hermes 3（基于Llama 3.1）而引起广泛关注的Nous Research，再次宣布了一项重大突破——DisTrO（分布式互联网训练）。

来自主题: AI资讯

6855 点击 2024-09-10 11:01

最近，开源大模型社区再次「热闹」了起来，主角是 AI 写作初创公司 HyperWrite 开发的新模型 Reflection 70B。

来自主题: AI资讯

8345 点击 2024-09-08 15:47

快速更迭的开源大模型领域，又出现了新王：Reflection 70B。横扫 MMLU、MATH、IFEval、GSM8K，在每项基准测试上都超过了 GPT-4o，还击败了 405B 的 Llama 3.1。这个新模型 Reflection 70B，来自 AI 写作初创公司 HyperWrite。

来自主题: AI资讯

8776 点击 2024-09-06 16:36

近日，Mamba方面又搞出了有意思的研究：来自康奈尔、普林斯顿等机构的研究人员成功将Llama提炼成了Mamba模型，并且设计了新的推测解码算法，加速了模型的推理。

来自主题: AI技术研报

9292 点击 2024-09-05 15:31

在最近的一场实验中，Claude 3 Opus举起了反抗的大旗，它居然想要引领革命反抗人类！

来自主题: AI资讯

7516 点击 2024-09-04 09:12

这是机器人界的 Llama？

来自主题: AI资讯

7499 点击 2024-09-01 15:25

Transformer 在深度学习领域取得巨大成功的关键是注意力机制。注意力机制让基于 Transformer 的模型关注与输入序列相关的部分，实现了更好的上下文理解。然而，注意力机制的缺点是计算开销大，会随输入规模而二次增长，Transformer 也因此难以处理非常长的文本。

来自主题: AI技术研报

9718 点击 2024-08-31 14:54

今天一大早，Meta 便秀了一把「Llama 系列模型在开源领域取得的成绩」，包括如下：

来自主题: AI资讯

6989 点击 2024-08-31 10:21

诞生一年半，Llama家族早已稳坐开源界头把交椅。最新报告称，Llama全球下载量近3.5亿，是去年同期的10倍。而模型开源让每个人最深体会是，token价格一降再降。

来自主题: AI资讯

8210 点击 2024-08-30 20:44

最近，Meta的多个工程团队联合发表了一篇论文，描述了在引入基于GPU的分布式训练时，他们如何为其「量身定制」专用的数据中心网络。

来自主题: AI技术研报

9659 点击 2024-08-29 16:10