AI资讯新闻榜单内容搜索-R1

7B小模型超越DeepSeek-R1：模仿人类教师，弱模型也能教出强推理LLM | Transformer作者团队

Thinking模式当道，教师模型也该学会“启发式”教学了—— 由Transformer作者之一Llion Jones创立的明星AI公司Sakana AI，带着他们的新方法来了！

来自主题: AI技术研报

9472 点击 2025-06-25 10:55

你对着家里的机器人说：“去厨房，看看冰箱里还有没有牛奶。”

来自主题: AI资讯

6677 点击 2025-06-25 10:09

强化学习可以提升LLM推理吗？英伟达ProRL用超2000步训练配方给出了响亮的答案。仅15亿参数模型，媲美Deepseek-R1-7B，数学、代码等全面泛化。

来自主题: AI技术研报

7426 点击 2025-06-22 16:32

尽管人工智能（AI）在飞速发展，当前 AI 开发仍严重依赖人类专家大量的手动实验和反复的调参迭代，过程费时费力。

来自主题: AI技术研报

7325 点击 2025-06-22 15:58

自年初起，DeepSeek-R1、OpenAI o3、Qwen3等推理模型相继问世，展现出令人惊叹的智能水平，但它们为什么突然变得这么聪明？东京大学联合Google DeepMind的研究者们终于找到了答案。

来自主题: AI资讯

6729 点击 2025-06-21 13:01

好夸张…… 参赛大模型全军覆没，通通0分。谢赛宁等人出题，直接把o3、Gemini-2.5-pro、Claude-3.7、DeepSeek-R1一众模型全都难倒。

来自主题: AI资讯

9396 点击 2025-06-19 11:03

GUI智能体总是出错，甚至是不可逆的错误。即使是像GPT-4o这样的顶级多模态大模型，也会因为缺乏常识而在执行GUI任务时犯错。在它即将执行错误决策时，需要有人提醒它出错了。

来自主题: AI资讯

9041 点击 2025-06-17 16:59

在开源模型领域，DeepSeek 又带来了惊喜。

来自主题: AI资讯

9028 点击 2025-06-17 11:31

国产推理大模型又有重磅选手。MiniMax开源MiniMax-M1，迅速引起热议。

来自主题: AI技术研报

7675 点击 2025-06-17 11:06

近年来，链式推理和强化学习已经被广泛应用于大语言模型，让大语言模型的推理能力得到了显著提升。

来自主题: AI技术研报

6958 点击 2025-06-17 10:15