AI资讯新闻榜单内容搜索-训练大模型

Qwen&清华团队颠覆常识：大模型强化学习仅用20%关键token，比用全部token训练还好

近期arxiv最热门论文，Qwen&清华LeapLab团队最新成果：在强化学习训练大模型推理能力时，仅仅20%的高熵token就能撑起整个训练效果，甚至比用全部token训练还要好。

来自主题: AI技术研报

8084 点击 2025-06-06 11:08

刷新世界记录！40B模型+20万亿token，散户组团挑战算力霸权

全球网友用闲置显卡组团训练大模型。40B大模型、20万亿token，创下了互联网上最大规模的预训练新纪录！去中心化AI的反攻，正式开始。OpenAI等巨头的算力霸权，这次真要凉了？

来自主题: AI资讯

6794 点击 2025-05-26 14:42

清华&通院推出"绝对零"训练法，零外部数据大模型自我博弈解锁推理能力

不用引入外部数据，通过自我博弈（Self-play）就能让预训练大模型学会推理？

来自主题: AI技术研报

7873 点击 2025-05-12 15:18

GPU 维修那些事： H100 哪里容易坏？以 Llama3 训练大模型为例

根据去年2024年7月28日Meta公司在训练大模型（Llama 3）时使用“16384 个英伟达H100 GPU 集群”的经验，该显卡在高负载、大规模集群运行环境下容易出现以下故障点：

来自主题: AI技术研报

12563 点击 2025-04-07 09:17

蚂蚁国产GPU训练大模型细节曝光！Ling模型研发负责人回应：关于我们抠FLOPS的一些点滴

蚂蚁开源大模型的低成本训练细节，疑似曝光！

来自主题: AI资讯

5214 点击 2025-03-28 10:14

DeepSeek团队新作：把代码变成思维链，大模型推理各种能力全面提升

用代码训练大模型思考，其他方面的推理能力也能提升。

来自主题: AI技术研报

6158 点击 2025-02-18 10:40

诉讼频发，AI训练“盗用”版权内容，建立共享数据库迫在眉睫？

AI具备的能力，本质上来自算法和训练大模型所用的数据，数据的数量和质量会对大模型起到决定性作用。此前OpenAI工作人员表示，因没有足够多的高质量数据，Orion项目（即GPT-5）进展缓慢。不得已之下，OpenAI招募了许多数学家、物理学家、程序员原创数据，用于训练大模型。

来自主题: AI资讯

6768 点击 2025-01-21 07:33

如何使用OpenAI fine-tuning(微调)训练属于自己的专有模型？

Fine-tuning理论上很复杂，但是OpenAI把这个功能完善到任何一个人看了就能做出来的程度。我们先从原理入手，你看这张图，左边是Pre-trained LLM （预训练大模型模型），也就是像ChatGPT这样的模型；右边是Fine-tuned LLM （微调过的语言大模型），中间就是进行微调的过程，它需要我们提供一些「ChatGPT提供不了但是我们需要的东西」。

来自主题: AI技术研报

10960 点击 2024-12-01 10:56

免训练大模型知识编辑，吸收新数据更高效｜EMNLP'24

让大模型能快速、准确、高效地吸收新知识！

来自主题: AI技术研报

7827 点击 2024-10-29 17:57

Benchmark合伙人：训练大模型目前成本远大于收入；但理论上成功回报极大，所以你仍需不断加注

随着LLM的进步，它将超越代码补全（“Copilot”）的功能，进入代码创作（“Autopilot”）的领域。随着LLM变得越来越复杂，它们能够释放的经济价值也会越来越大。AGI的经济价值仅受我们的想象力限制。

来自主题: AI资讯

5032 点击 2024-10-15 14:01