AI资讯新闻榜单内容搜索-推理训练

仅100种子题，合成数据质量超GPT-5，阿里、上交提出Socratic-Zero框架

阿里巴巴与上海交通大学 EPIC Lab 联合提出 Socratic-Zero，一个完全无外部数据依赖的自主推理训练框架。该方法仅从 100 个种子问题出发，通过三个智能体的协同进化，自动生成高质量、难度自适应的课程，并持续提升模型推理能力。

来自主题: AI技术研报

8498 点击 2025-10-24 16:45

复旦大学NLP实验室研发Game-RL，利用游戏丰富视觉元素和明确规则生成多模态可验证推理数据，通过强化训练提升视觉语言模型的推理能力。创新性地提出Code2Logic方法，系统化合成游戏任务数据，构建GameQA数据集，验证了游戏数据在复杂推理训练中的优势。

来自主题: AI技术研报

9711 点击 2025-10-21 10:05

近年来，OpenAI o1 和 DeepSeek-R1 等模型的成功证明了强化学习能够显著提升语言模型的推理能力。通过基于结果的奖励机制，强化学习使模型能够发展出可泛化的推理策略，在复杂问题上取得了监督微调难以企及的进展。

来自主题: AI技术研报

7050 点击 2025-07-31 10:10

一年之内，大模型推理训练可能就会撞墙。

来自主题: AI资讯

10667 点击 2025-05-14 11:08

本文提出 LUFFY 强化学习方法，一种结合离线专家示范与在线强化学习的推理训练范式，打破了“模仿学习只学不练、强化学习只练不学”的传统壁垒。LUFFY 通过将高质量专家示范制定为一种离策略指引，并引入混合策略优化与策略塑形机制，稳定地实现了在保持探索能力的同时高效吸收强者经验。

来自主题: AI技术研报

8862 点击 2025-04-27 09:22

只靠模型尺寸变大已经不行了？大语言模型（LLM）推理需要强化学习（RL）来「加 buff」。

来自主题: AI技术研报

9382 点击 2025-04-22 16:58

JAX在最近的基准测试中的性能已经不声不响地超过了Pytorch和TensorFlow，也许未来会有更多的大模型诞生在这个平台上。谷歌在背后的默默付出终于得到了回报。

来自主题: AI资讯

7954 点击 2024-04-01 19:01

脱胎自 RISC-V，能把推理训练能效提高 1 万倍。OpenAI 的权力之争才刚刚落幕，一场关键交易悄悄浮出了水面。

来自主题: AI资讯

8376 点击 2023-12-06 17:30