斯坦福英伟达推出测试时强化学习:微调开源模型胜过顶级闭源模型,仅需几百美元

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
斯坦福英伟达推出测试时强化学习:微调开源模型胜过顶级闭源模型,仅需几百美元
8464点击    2026-01-27 16:15

大模型持续学习,又有新进展!


来自斯坦福、英伟达等研究机构的最新研究,针对解决开放的科学问题,提出全新思路——


Test-Time Training to Discover (TTT-Discover)


斯坦福英伟达推出测试时强化学习:微调开源模型胜过顶级闭源模型,仅需几百美元


其基于开源模型gpt-oss-120b,在多个领域达到SOTA,优于人类专家与闭源前沿模型。


该方法不再沿用“测试时缩放”(Test-time Scaling)只通过Prompt调度冻结模型的做法。


而是在测试阶段,针对单个具体问题,引入强化学习(RL)对模型权重进行更新。


这种“测试时训练”使模型能够从该问题的失败尝试中实时获取经验,更新参数,实现模型能力的定向进化。


  • 数学:给出了Erdős最小重叠问题的新界,并提出了一条自相关不等式
  • Kernel 工程:在GPUMode上,比顶级人类工程师快2倍
  • 算法:在历届AtCoder比赛题目上取得最高分
  • 生物:在单细胞RNA-seq去噪任务上达到SOTA


斯坦福英伟达推出测试时强化学习:微调开源模型胜过顶级闭源模型,仅需几百美元


测试时进行强化学习


总的来说,这篇论文的核心思路是在测试时进行强化学习 (Reinforcement Learning at Test Time) ,并主要体现在两点:


1.学习目标(Learning Objective)


不同于传统强化学习侧重于提升所有任务的“平均奖励”以实现泛化,TTT-Discover采用熵目标函数(Entropic Objective)


它通过调整权重倾向于奖励最高的动作(而非整条轨迹)。


这里的核心目标是产生一个极优解(One Great Solution),而非多个平庸解。


2.搜索程序(Search Subroutine)


引入受PUCT启发的重用机制,在缓冲区中维护历史尝试,优先扩展最具潜力(奖励最高)的状态,同时兼顾探索。


之所以这样设计是因为,对于科学发现来说,其目标是在特定问题中找到一个超越已有知识(训练数据)的最佳方案,而非在已知数据分布中寻找规律以实现泛化。


基于这一认识,就需要AI在具体的测试中不断尝试,在失败经验中学习,找到(获得)属于该问题的特定数据分布。


这里涉及到一个关键的逻辑:如果没有现成的训练数据,大模型该练什么?


TTT-Discover的实现方式是:模型通过不断生成动作并接收环境反馈,将成千上万次的尝试(包括大量的失败记录)存入缓冲区。


这些由模型自身搜索产生的尝试,构成了针对该特定问题的“私有数据集”。 这种“边实战边产出数据”的机制,彻底解决了分布外(OOD)问题无数据可练的困境。


当前,这类测试时学习的思路一般是通过测试时搜索 (Test-time Search),即通过提示 (Prompting) 一个冻结的大语言模型 (LLM) 进行多次尝试,类似于人类试图“盲猜”作业的解法。


但问题在于,这类方法虽能将尝试存入缓冲区并利用启发式规则生成新提示,但LLM本身权重并未更新,模型自身的能力并没有提升。


由此,为了实现持续学习,TTT-Discover基于测试时训练,更新权重,并针对单个问题,以找到最好的解决方案。


在具体的算法层面,为了产生更好的解,TTT-Discover搜索和学习过程均利用策略生成动作,并由问题描述诱导出环境转移函数。


斯坦福英伟达推出测试时强化学习:微调开源模型胜过顶级闭源模型,仅需几百美元


在每一个步骤中,TTT-Discover循环执行以下操作:


  • 挑选: 从缓冲区选出最具潜力的既有方案作为起点。
  • 生成: 产生新的尝试(代码及思考过程)。
  • 评分: 对尝试结果进行评估。
  • 更新: 更新模型权重,使其偏好最好的创意。
  • 循环: 重复此过程,最后返回系统找到的单一最佳解。


熵目标函数和PUCT重用策略


然而,在具体实现中,传统的强化学习方法仍存在明显局限:


一方面,目标函数优化的是平均性能,对是否刷新最优解并不敏感,而科学发现关注的是最大值突破。


另一方面,每次尝试都从头开始,导致有效时界过短,限制了单次轨迹深度。


同时重用已有解可等价地延长时界,而发现类问题并不要求对固定初始状态分布保持鲁棒。


此外,在探索与利用的平衡中,策略既容易收敛到保守但稳妥的高奖励动作,又可能在状态重用时因朴素优先级排序而丧失多样性,抑制潜在突破。


针对以上问题,研究引入了熵目标函数(Entropic Objective)与PUCT启发的状态选择机制。


通过熵目标函数,训练目标被显式地引导去偏好奖励最大的动作,而非平均奖励最高的轨迹。


斯坦福英伟达推出测试时强化学习:微调开源模型胜过顶级闭源模型,仅需几百美元


同时,研究还引入KL惩罚项对优势函数进行塑形,在强化高优势动作的同时,维持必要的探索能力。


在初始状态选择上,则采用受PUCT启发的评分函数:


斯坦福英伟达推出测试时强化学习:微调开源模型胜过顶级闭源模型,仅需几百美元


与以往工作使用平均值不同,这里在Q(s)中采用子节点的最大奖励:关注的是“从该状态出发能走到多好”,而不是平均表现。


先验项P(s)则编码了一条直觉——高奖励状态更可能孕育高奖励的后继状态。


由此,模型可以在利用(Exploitation)与探索(Exploration)之间建立更科学的平衡:通过高奖励导向快速逼近性能极限,同时利用探索奖励防止陷入局部最优。


具体来说,模型在每一步训练中都会经历一个“从已知到未知”的循环:


先从缓冲区中选出最有潜力的起点,生成并评估新的尝试,随后立即根据结果更新权重,使模型在随后的尝试中表现得更聪明。


在实验阶段,研究基于开源模型gpt-oss-120b,通过Tinker API运行,单个问题的测试成本约为数百美元。值得一提的是,正如开头展示的,在kernel内核编写任务中,TTT-Discover的速度比当前最佳人类实现快约2倍*


斯坦福英伟达推出测试时强化学习:微调开源模型胜过顶级闭源模型,仅需几百美元


总体来看,TTT-Discover表明:在测试阶段引入针对性学习而非单纯依赖搜索,可以使中等规模的开源模型在解决复杂的分布外(OOD)科学问题时展现出卓越能力。


不过,需要指出的是,TTT-Discover目前主要适用于连续(可验证)奖励场景,后续工作还需将进一步拓展至稀疏奖励、二元奖励以及不可验证领域的问题。


论文核心作者介绍


论文的一作和共一是Mert YuksekgonulDaniel Koceja


Mert Yuksekgonul目前在斯坦福大学计算机科学系攻读博士学位,导师为Carlos GuestrinJames Zou


斯坦福英伟达推出测试时强化学习:微调开源模型胜过顶级闭源模型,仅需几百美元


Daniel Koceja现于Stanford Artificial Intelligence Laboratory(SAIL) 担任全职研究员,接受Yu Sun的指导。


斯坦福英伟达推出测试时强化学习:微调开源模型胜过顶级闭源模型,仅需几百美元


Yu Sun则为本论文的通讯作者,他现在为斯坦福大学博士后,同时担任英伟达研究员。


他博士毕业于UC Berkeley,师从Alexei EfrosMoritz Hardt


斯坦福英伟达推出测试时强化学习:微调开源模型胜过顶级闭源模型,仅需几百美元


Yu Sun的研究方向是持续学习(continual learning),重点关注测试时训练(test-time training),并自2019年起持续推进相关研究。


斯坦福英伟达推出测试时强化学习:微调开源模型胜过顶级闭源模型,仅需几百美元


参考链接

[1]https://github.com/test-time-training/discover

[2]https://www.alphaxiv.org/abs/2601.16175

[3]https://openreview.net/profile?id=~Yu_Sun1


文章来自于“量子位”,作者 “henry”。

关键词: AI , 模型训练 , TTT-Discover , 微调
AITNT-国内领先的一站式人工智能新闻资讯网站
AITNT资源拓展
根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考
1
微调

【开源免费】XTuner 是一个高效、灵活、全能的轻量化大模型微调工具库。它帮助开发者提供一个简单易用的平台,可以对大语言模型(LLM)和多模态图文模型(VLM)进行预训练和轻量级微调。XTuner 支持多种微调算法,如 QLoRA、LoRA 和全量参数微调。

项目地址:https://github.com/InternLM/xtuner

2
prompt

【开源免费】LangGPT 是一个通过结构化和模板化的方法,编写高质量的AI提示词的开源项目。它可以让任何非专业的用户轻松创建高水平的提示词,进而高质量的帮助用户通过AI解决问题。

项目地址:https://github.com/langgptai/LangGPT/blob/main/README_zh.md

在线使用:https://kimi.moonshot.cn/kimiplus/conpg00t7lagbbsfqkq0