AI资讯新闻榜单内容搜索-scaling

英伟达253B开源新王登场，Llama 4三天变陪衬！直逼DeepSeek-R1成推理天花板

Llama 4刚出世就被碾压！英伟达强势开源Llama Nemotron-253B推理模型，在数学编码、科学问答中准确率登顶，甚至以一半参数媲美DeepSeek R1，吞吐量暴涨4倍。关键秘诀，就在于团队采用的测试时Scaling。

来自主题: AI资讯

6044 点击 2025-04-09 18:02

Llama 4五大疑点曝光，逐层扒皮！全球AI进步停滞，NYU教授称Scaling彻底结束

刚刚，一位AI公司CEO细细扒皮了关于Llama 4的五大疑点。甚至有圈内人表示，Llama 4证明Scaling已经结束了，LLM并不能可靠推理。但更可怕的事，就是全球的AI进步恐将彻底停滞。

来自主题: AI技术研报

7613 点击 2025-04-09 09:49

清华耶鲁推理模型新范式：动态推理实现高效测试时扩展，大大节省Token消耗

推理性能提升的同时，还大大减少Token消耗！

来自主题: AI技术研报

7357 点击 2025-04-08 09:25

三思而后行，让大模型推理更强的秘密是「THINK TWICE」？

近年来，大语言模型（LLM）的性能提升逐渐从训练时规模扩展转向推理阶段的优化，这一趋势催生了「测试时扩展（test-time scaling）」的研究热潮。

来自主题: AI技术研报

8750 点击 2025-04-06 16:55

DeepSeek R2来了？全新推理时Scaling论文联手清华震撼发布！

DeepSeek新论文来了！在清华研究者共同发布的研究中，他们发现了奖励模型推理时Scaling的全新方法。DeepSeek R2，果然近了。

来自主题: AI技术研报

8264 点击 2025-04-05 01:14

200美金，人人可手搓QwQ，清华、蚂蚁开源极速RL框架AReaL-boba

由于 DeepSeek R1 和 OpenAI o1 等推理模型（LRM，Large Reasoning Model）带来了新的 post-training scaling law，强化学习（RL，Reinforcement Learning）成为了大语言模型能力提升的新引擎。然而，针对大语言模型的大规模强化学习训练门槛一直很高：

来自主题: AI技术研报

9735 点击 2025-03-31 15:07