AI资讯新闻榜单内容搜索-推理大模型

重磅开源！首个全异步强化学习训练系统来了，SOTA推理大模型RL训练提速2.77倍

想训练属于自己的高性能推理模型，却被同步强化学习（RL）框架的低效率和高门槛劝退？AReaL 全面升级，更快，更强，更好用！

来自主题: AI技术研报

7465 点击 2025-06-04 14:05

阿里开源长文本深度思考模型！渐进式强化学习破解长文本训练难题，登HuggingFace热榜

推理大模型开卷新方向，阿里开源长文本深度思考模型QwenLong-L1，登上HuggingFace今日热门论文第二。

来自主题: AI技术研报

7708 点击 2025-05-27 16:58

推理大模型1年内就会撞墙，性能无法再扩展几个数量级 | FrontierMath团队最新研究

一年之内，大模型推理训练可能就会撞墙。

来自主题: AI资讯

9752 点击 2025-05-14 11:08

阿里云通义点金发布DianJin-R1金融领域推理大模型，32B模型荣膺榜首

近日，阿里云通义点金团队与苏州大学携手合作，在金融大语言模型领域推出了突破性的创新成果：DianJin-R1。

来自主题: AI技术研报

9041 点击 2025-05-03 16:21

小米推出首个开源推理大模型 Mimo

今天上午，小米发布了其首个开源推理大模型-Xiaomi MiMo。通过 25 T 预训练 + MTP 加速 + 规则化 RL + Seamless Rollout，让 7 B 参数的 MiMo-7B 在数理推理和代码生成上赶超 30 B-32 B 大模型，并完整 MIT 开源全系列与工程链，给端-云一体 AI 落地提供了“以小博大”的新范例。

来自主题: AI资讯

10768 点击 2025-04-30 15:47

字节Seed团队PHD-Transformer突破预训练长度扩展！破解KV缓存膨胀难题

最近，DeepSeek-R1 和 OpenAI o1/03 等推理大模型在后训练阶段探索了长度扩展（length scaling），通过强化学习（比如 PPO、GPRO）训练模型生成很长的推理链（CoT），并在奥数等高难度推理任务上取得了显著的效果提升。

来自主题: AI技术研报

7260 点击 2025-04-28 14:09

英伟达AI奥赛夺冠，1.5B数学碾压DeepSeek-R1！代码全系开源，陶哲轩点赞

AIMO2冠军「答卷」公布了！英伟达团队NemoSkills拔得头筹，开源了OpenMath-Nemotron系列AI模型，1.5B小模型击败14B-DeepSeek「推理大模型」！

来自主题: AI技术研报

7867 点击 2025-04-26 17:17

迈向推理时代：900+篇参考文献揭示长链思维的前世今生，最全综述来了

近年来，大模型（Large Language Models, LLMs）在数学、编程等复杂任务上取得突破，OpenAI-o1、DeepSeek-R1 等推理大模型（Reasoning Large Language Models，RLLMs）表现尤为亮眼。但它们为何如此强大呢？

来自主题: AI技术研报

9478 点击 2025-04-16 15:00

最强32B中文推理大模型易主：Skywork-OR1 开源免费商用，1/20 DeepSeek-R1参数量SOTA，权重代码数据集全开源

千亿参数内最强推理大模型，刚刚易主了。32B——DeepSeek-R1的1/20参数量；免费商用；且全面开源——模型权重、训练数据集和完整训练代码，都开源了。这就是刚刚亮相的Skywork-OR1 (Open Reasoner 1)系列模型——

来自主题: AI资讯

10678 点击 2025-04-13 23:34

250多篇论文，上海AI Lab综述推理大模型高效思考

最近，像 OpenAI o1/o3、DeepSeek-R1 这样的大型推理模型（Large Reasoning Models，LRMs）通过加长「思考链」（Chain-of-Thought，CoT）在推理任务上表现惊艳。

来自主题: AI技术研报

8744 点击 2025-04-05 14:45