AI资讯新闻榜单内容搜索-Test-Time

# 热门搜索 #

大模型

人工智能

openai

融资

chatGPT

搜索: Test-Time

微软发布首个测试时扩展大规模研究，还给出了终极指南

微软发布首个测试时扩展大规模研究，还给出了终极指南

微软发布首个测试时扩展大规模研究，还给出了终极指南

如果说大模型的预训练（Pre-training）是一场拼算力、拼数据的「军备竞赛」，那么测试时扩展（Test-time scaling, TTS）更像是一场在推理阶段进行的「即时战略游戏」。

来自主题: AI技术研报

6592 点击 2025-12-11 11:27

NeurIPS 2025 | DynaAct：DeepSeek R1之外，探索大模型推理的另一条道路

NeurIPS 2025 | DynaAct：DeepSeek R1之外，探索大模型推理的另一条道路

NeurIPS 2025 | DynaAct：DeepSeek R1之外，探索大模型推理的另一条道路

大模型推理的爆发，实际源于 scaling 范式的转变：从 train-time scaling 到 test-time scaling（TTS），即将更多的算力消耗部署在 inference 阶段。典型的实现是以 DeepSeek r1 为代表的 long CoT 方法：通过增加思维链的长度来获得答案精度的提升。那么 long CoT 是 TTS 的唯一实现吗？

来自主题: AI技术研报

7830 点击 2025-11-30 09:30

仅0.2B就比GPT-4.1强？加州大学新指标：组合推理基准首次超越人类

仅0.2B就比GPT-4.1强？加州大学新指标：组合推理基准首次超越人类

仅0.2B就比GPT-4.1强？加州大学新指标：组合推理基准首次超越人类

加州大学河滨分校团队发现，AI组合推理表现不佳部分源于评测指标过于苛刻。他们提出新指标GroupMatch和Test-Time Matching算法，挖掘模型潜力，使GPT-4.1在Winoground测试中首次超越人类，0.2B参数的SigLIP-B16在MMVP-VLM基准测试上超越GPT-4.1并刷新最优结果。这表明模型的组合推理能力早已存在，只需合适方法在测试阶段解锁。

来自主题: AI技术研报

7041 点击 2025-11-09 15:33

扩展外部测试时Scaling Law，中关村学院新发现：轻量级验证器可解锁LLM推理最优选择

扩展外部测试时Scaling Law，中关村学院新发现：轻量级验证器可解锁LLM推理最优选择

扩展外部测试时Scaling Law，中关村学院新发现：轻量级验证器可解锁LLM推理最优选择

在大语言模型（LLM）席卷各类复杂任务的今天，“测试时扩展”（Test-Time Scaling，TTS）已成为提升模型推理能力的核心思路 —— 简单来说，就是在模型 “答题” 时分配更多的计算资源来让它表现更好。严格来说，Test-Time Scaling 分成两类：

来自主题: AI技术研报

7261 点击 2025-11-06 14:59

突破单链思考上限，清华团队提出原生「并行思考」scale范式

突破单链思考上限，清华团队提出原生「并行思考」scale范式

突破单链思考上限，清华团队提出原生「并行思考」scale范式

近年来，大语言模型（LLMs）在复杂推理任务上的能力突飞猛进，这在很大程度上得益于深度思考的策略，即通过增加测试时（test-time）的计算量，让模型生成更长的思维链（Chain-of-Thought）。

来自主题: AI技术研报

7065 点击 2025-09-18 14:49

告别无效计算！新TTS框架拯救19%被埋没答案，推理准确率飙升

告别无效计算！新TTS框架拯救19%被埋没答案，推理准确率飙升

告别无效计算！新TTS框架拯救19%被埋没答案，推理准确率飙升

大语言模型通过 CoT 已具备强大的数学推理能力，而 Beam Search、DVTS 等测试时扩展（Test-Time Scaling, TTS）方法可通过分配额外计算资源进一步提升准确性。然而，现有方法存在两大关键缺陷：路径同质化（推理路径趋同）和中间结果利用不足（大量高质量推理分支被丢弃）。

来自主题: AI技术研报

8613 点击 2025-09-03 12:03

蛋白质基座的GPT时代来了？！

蛋白质基座的GPT时代来了？！

蛋白质基座的GPT时代来了？！

蛋白质模型的GPT时刻来了！清华大学智能产业研究院（AIR）周浩副教授课题组联合上海人工智能实验室发布了AMix-1：首次以Scaling Law、Emergent Ability、In-Context Learning和Test-time Scaling的系统化方法论来构建蛋白质基座模型。

来自主题: AI技术研报

7125 点击 2025-08-10 16:00

视频生成1.3B碾压14B、图像生成直逼GPT-4o！港科&快手开源测试时扩展新范式

视频生成1.3B碾压14B、图像生成直逼GPT-4o！港科&快手开源测试时扩展新范式

视频生成1.3B碾压14B、图像生成直逼GPT-4o！港科&快手开源测试时扩展新范式

测试时扩展（Test-Time Scaling）极大提升了大语言模型的性能，涌现出了如 OpenAI o 系列模型和 DeepSeek R1 等众多爆款。那么，什么是视觉领域的 test-time scaling？又该如何定义？

来自主题: AI技术研报

7768 点击 2025-06-10 16:18

翁荔最新万字长文：Why We Think

翁荔最新万字长文：Why We Think

翁荔最新万字长文：Why We Think

《Why We Think》。这就是北大校友、前OpenAI华人VP翁荔所发布的最新万字长文—— 围绕“测试时计算”（Test-time Compute）和“思维链”（Chain-of-Thought，CoT），讨论了如何通过这些技术显著提升模型性能。

来自主题: AI资讯

8598 点击 2025-05-19 13:15

突破大模型推理瓶颈！首篇「Test-Time Scaling」全景综述，深入剖析AI深思之道

突破大模型推理瓶颈！首篇「Test-Time Scaling」全景综述，深入剖析AI深思之道

突破大模型推理瓶颈！首篇「Test-Time Scaling」全景综述，深入剖析AI深思之道

当训练成本飙升、数据枯竭，如何继续激发大模型潜能？

来自主题: AI技术研报

7968 点击 2025-05-13 14:48

上一页当前第1页,共2页下一页