AI资讯新闻榜单内容搜索-大模型训练

大模型训练成本降一半！厦大和vivo联合推出预训练新策略，给LLM降本增效

近年来，大语言模型（Large Language Models, LLMs）的研究取得了重大进展，并对各个领域产生了深远影响。然而，LLMs的卓越性能来源于海量数据的大规模训练，这导致LLMs的训练成本明显高于传统模型。

来自主题: AI技术研报

3658 点击 2024-11-01 10:15

内存占用小，训练表现也要好……大模型训练成功实现二者兼得。来自北理、北大和港中文MMLab的研究团队提出了一种满足低秩约束的大模型全秩训练框架——Fira，成功打破了传统低秩方法中内存占用与训练表现的“非此即彼”僵局。

来自主题: AI技术研报

3729 点击 2024-10-21 10:58

最近，大模型训练遭恶意攻击事件已经刷屏了。就在刚刚，Anthropic也发布了一篇论文，探讨了前沿模型的巨大破坏力，他们发现：模型遇到危险任务时会隐藏真实能力，还会在代码库中巧妙地插入bug，躲过LLM和人类「检查官」的追踪！

来自主题: AI技术研报

3779 点击 2024-10-19 16:24

FP8通过其独特的数值表示方式，能够在保持一定精度的同时，在大模型训练中提高训练速度、节省内存占用，最终降低训练成本。

来自主题: AI技术研报

3149 点击 2024-09-26 11:57

在 AI 领域，有两大场景对 GPU 的需求最大，一个是模型训练，另一个是 AI 推理任务。

来自主题: AI资讯

10155 点击 2024-09-24 12:32

越来越多人开始关注大模型，很多做工程开发的同学问我怎么入门大模型训练推理系统软件（俗称大模型Infra）。

来自主题: AI资讯

9584 点击 2024-08-16 20:52

大模型作为当下 AI 工业界和学术界当之无愧的「流量之王」，吸引了大批学者和企业投入资源去研究与训练。随着规模越做越大，系统和工程问题已经成了大模型训练中绕不开的难题。例如在 Llama3.1 54 天的训练里，系统会崩溃 466 次，平均 2.78 小时一次！

来自主题: AI技术研报

8429 点击 2024-08-05 14:04

HBM因AI大模型训练需求爆增，市场火热。

来自主题: AI资讯

5191 点击 2024-07-15 13:44

大模型训练推理神作，又更新了！

来自主题: AI资讯

8767 点击 2024-07-12 15:39

Anthropic首席执行官表示，当前AI模型训练成本是10亿美元，未来三年，这个数字可能会上升到100亿美元甚至1000亿美元。要知道，GPT-4o这个曾经最大的模型也只用了1亿美元。千亿美刀，究竟花在了哪里？

来自主题: AI资讯

8598 点击 2024-07-09 01:10