AI资讯新闻榜单内容搜索-DeepSeek-R

英伟达笑到最后！训练2000步，1.5B逆袭7B巨兽，Scaling真来了

强化学习可以提升LLM推理吗？英伟达ProRL用超2000步训练配方给出了响亮的答案。仅15亿参数模型，媲美Deepseek-R1-7B，数学、代码等全面泛化。

来自主题: AI技术研报

6550 点击 2025-06-22 16:32

坏了！R1的秘密被Deepmind发现了！「啊哈时刻」首次被披露，现已可量化！

自年初起，DeepSeek-R1、OpenAI o3、Qwen3等推理模型相继问世，展现出令人惊叹的智能水平，但它们为什么突然变得这么聪明？东京大学联合Google DeepMind的研究者们终于找到了答案。

来自主题: AI资讯

5684 点击 2025-06-21 13:01

大模型全员0分！谢赛宁领衔华人团队，最新编程竞赛基准出炉，题目每日更新禁止刷题

好夸张…… 参赛大模型全军覆没，通通0分。谢赛宁等人出题，直接把o3、Gemini-2.5-pro、Claude-3.7、DeepSeek-R1一众模型全都难倒。

来自主题: AI资讯

8002 点击 2025-06-19 11:03

刚刚，LMArena最新模型榜单出炉！DeepSeek-R1网页编程能力赶超了Claude Opus 4

在开源模型领域，DeepSeek 又带来了惊喜。

来自主题: AI资讯

7905 点击 2025-06-17 11:31

性能比肩DeepSeek-R1，MiniMax仅花380万训出推理大模型性价比新王｜开源

国产推理大模型又有重磅选手。MiniMax开源MiniMax-M1，迅速引起热议。

来自主题: AI技术研报

6107 点击 2025-06-17 11:06

别再信“LRM无需优化提示词”了，你至少输掉23%的性能，以R1为例

还记得DeepSeek-R1发布时AI圈的那波狂欢吗？"提示工程已死"、"再也不用费心写复杂提示了"、"推理模型已经聪明到不再需要学习提示词了"......这些观点在社交媒体上刷屏，连不少技术大佬都在转发。再到最近，“提示词写死了”......现实总是来得这么快——乔治梅森大学的研究者们用一个严谨得让人无法反驳的实验，狠狠打了所有人的脸！

来自主题: AI技术研报

7189 点击 2025-06-12 11:59