视频生成1.3B碾压14B、图像生成直逼GPT-4o！港科&快手开源测试时扩展新范式

7316点击 2025-06-10 16:18

测试时扩展（Test-Time Scaling）极大提升了大语言模型的性能，涌现出了如 OpenAI o 系列模型和 DeepSeek R1 等众多爆款。那么，什么是视觉领域的 test-time scaling？又该如何定义？

为了回答这一问题，最近香港科技大学联合快手可灵团队推出 Evolutionary Search （EvoSearch）方法，通过提高推理时的计算量来大幅提升模型的生成质量，支持图像和视频生成，支持目前最先进的 diffusion-based 和 flow-based 模型。EvoSearch 无需训练，无需梯度更新，即可在一系列任务上取得显著最优效果，并且表现出良好的 scaling up 能力、鲁棒性和泛化性。

随着测试时计算量提升，EvoSearch 表明 SD2.1 和 Flux.1-dev 也有潜力媲美甚至超过 GPT4o。对于视频生成，Wan 1.3B 也能超过 Wan 14B 和 Hunyuan 13B，展现了 test-time scaling 补充 training-time scaling 的潜力和研究空间。

目前，该项目的论文和代码均已开源。

视频生成1.3B碾压14B、图像生成直逼GPT-4o！港科&快手开源测试时扩展新范式

论文标题：Scaling Image and Video Generation via Test-Time Evolutionary Search
项目主页：https://tinnerhrhe.github.io/evosearch/
代码：https://github.com/tinnerhrhe/EvoSearch-codes
论文：https://arxiv.org/abs/2505.17618

视频生成1.3B碾压14B、图像生成直逼GPT-4o！港科&快手开源测试时扩展新范式

我们来看 EvoSearch 与其他一些方法的效果对比：

视频生成1.3B碾压14B、图像生成直逼GPT-4o！港科&快手开源测试时扩展新范式

1.Test-Time Scaling 的本质

这里团队将测试时扩展（Test-Time Scaling）和 RL post-training 分开来看，定义前者无需参数更新，后者需要计算资源进行后训练。Test-time scaling 和 RL post-training 本质都是为了激发预训练模型的能力，使其与人类偏好（奖励）对齐。给定一个预训练模型和奖励函数，目的是拟合如下的目标分布：

视频生成1.3B碾压14B、图像生成直逼GPT-4o！港科&快手开源测试时扩展新范式

其中是归一化常数，需要遍历整个状态空间来计算。这是不可行的，因为 diffusion 和 flow 模型的状态空间都是高维的。这导致直接从目标分布采样不可行。

2. 当前方法的局限性

诸如 RL 的后训练方法虽然也能从目标分布采样，但需要构造数据以及大量计算资源重新更新模型参数，导致代价很大并且很难 scale up。目前在视觉领域，最有效的 test-time scaling 方法包括 Best-of-N，它基于重要性采样（Importance Sampling）来拟合目标分布采样。Best-of-N 随机采样多个样本，并筛选出奖励最高的 N 个。在基于 diffusion 和 flow 模型的图像和视频生成任务上，Best-of-N 的样本通常是初始噪声。

最近的一些工作提出了更高级的采样方法，可以统一称为 Particle Sampling。这类方法将搜索空间拓展为整条去噪轨迹，在去噪过程中不断保留好的样本，并丢掉表现差的样本（类似 beam search）。这类方法虽然也能表现出 scaling up 性质，但缺少探索新的状态空间能力，并且会减少生成样本的多样性。

团队做了一个小实验，当目标分布和预训练分布不一致（甚至可能是 o.o.d.），基于学习的 RL 方法会出现奖励过优化的现象（reward over-optimization）。诸如 best-of-N 和 particle sampling 的搜索方法也不能找到目标分布所有的模态。但团队的方法 EvoSearch 成功拟合了目标分布，并且取得了最高的奖励值。

视频生成1.3B碾压14B、图像生成直逼GPT-4o！港科&快手开源测试时扩展新范式

3. EvoSearch 解读

团队将图像和视频生成的 test-time scaling 问题重构成演化搜索问题。

视频生成1.3B碾压14B、图像生成直逼GPT-4o！港科&快手开源测试时扩展新范式

EvoSearch 框架图

团队的方法受如下的洞见启发：他们发现在整个去噪轨迹中，高质量的样本往往会聚集在一起。因此，当搜索到高质量的父代，则可以在父代周围的空间进行探索从而有效找到更高质量的样本。从下图可以看到去噪轨迹中的样本在低维空间的分布与奖励空间具有强相关性。

视频生成1.3B碾压14B、图像生成直逼GPT-4o！港科&快手开源测试时扩展新范式

基于此，团队设计了如下两种变异模式：

初始噪声变异：EvoSearch 通过如下正交操作保持初始噪声仍然符合高斯分布

视频生成1.3B碾压14B、图像生成直逼GPT-4o！港科&快手开源测试时扩展新范式

中间去噪状态变异：由于中间去噪状态的分布是复杂的且在搜索过程中不可知。团队受 SDE 方程启发，设计如下变异模式：

视频生成1.3B碾压14B、图像生成直逼GPT-4o！港科&快手开源测试时扩展新范式

这些变异方式一方面加强了对于新的状态空间探索，另一方面又避免了偏离去噪轨迹的预训练分布。

我们定义了 evolution schedule 和 population size schedule 来进行演化搜索，这两种 schedule 的设置取决于可用的测试时计算量大小。

视频生成1.3B碾压14B、图像生成直逼GPT-4o！港科&快手开源测试时扩展新范式

EvoSearch 算法伪代码如下：

视频生成1.3B碾压14B、图像生成直逼GPT-4o！港科&快手开源测试时扩展新范式

4.EvoSearch 实验结果

1. 对于图片生成任务，在 Stable Diffusion 2.1 和 Flux.1-dev 上，EvoSearch 展示了最优的 scaling up 性质。即使测试时计算量扩大了 1e4 量级，仍能保持上升势头。对于视频生成任务，EvoSearch 在 VBench，VBench2.0 以及 VideoGen-Eval 中的 prompts 上也能达到最高的 reward 提升幅度。

视频生成1.3B碾压14B、图像生成直逼GPT-4o！港科&快手开源测试时扩展新范式

2.EvoSearch 也能泛化到分布外（unseen）的评估指标，显示了最优的泛化性和鲁棒性。

视频生成1.3B碾压14B、图像生成直逼GPT-4o！港科&快手开源测试时扩展新范式

3. EvoSearch 在人类评估上也达到最优胜率。这得益于他高的生成多样性，平衡了 exploration 和 exploitation。

视频生成1.3B碾压14B、图像生成直逼GPT-4o！港科&快手开源测试时扩展新范式

4. 下面是更多的可视化结果：

视频生成1.3B碾压14B、图像生成直逼GPT-4o！港科&快手开源测试时扩展新范式

更多细节请见原论文和项目网站。

文章来自于“机器之心”，作者“何浩然”。

视频生成1.3B碾压14B、图像生成直逼GPT-4o！港科&快手开源测试时扩展新范式

关键词: Evolutionary Search , 模型训练 , 人工智能 , EvoSearch

AITNT资源拓展

根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考

Flux

【部分开源免费】FLUX是由Black Forest Labs开发的一个文生图和图生图的AI绘图项目，该团队为前SD成员构成。该项目是目前效果最好的文生图开源项目，效果堪比midjourney。
项目地址：https://github.com/black-forest-labs/flux
在线使用：https://fluximg.com/zh

prompt

【开源免费】LangGPT 是一个通过结构化和模板化的方法，编写高质量的AI提示词的开源项目。它可以让任何非专业的用户轻松创建高水平的提示词，进而高质量的帮助用户通过AI解决问题。
项目地址：https://github.com/langgptai/LangGPT/blob/main/README_zh.md
在线使用：https://kimi.moonshot.cn/kimiplus/conpg00t7lagbbsfqkq0