AI资讯新闻榜单内容搜索-生成模型

视频模型也能推理，Sora2推理能力超过GPT-5

DeepWisdom研究团队提出：视频生成模型不仅能画画，更能推理。为了验证这一观点，团队推出了VR-Bench——这是首个通过迷宫任务评估视频模型空间推理（spatial reasoning）能力的基准测试

来自主题: AI技术研报

8266 点击 2025-12-06 10:57

无需训练的3D生成加速新思路：西湖大学提出Fast3Dcache

在AIGC的浪潮中，3D生成模型（如TRELLIS）正以惊人的速度进化，生成的模型越来越精细。然而，“慢”与计算量大依然是制约其大规模应用的最大痛点。复杂的去噪过程、庞大的计算量，让生成一个高质量3D资产往往需要漫长的等待。

来自主题: AI技术研报

6765 点击 2025-12-04 15:02

架构解耦是统一多模态模型所必须的吗？全新AIA损失：No

近一年以来，统一理解与生成模型发展十分迅速，该任务的主要挑战在于视觉理解和生成任务本身在网络层间会产生冲突。早期的完全统一模型（如 Emu3）与单任务的方法差距巨大，Janus-Pro、BAGEL 通过一步一步解耦模型架构，极大地减小了与单任务模型的性能差距，后续方法甚至通过直接拼接现有理解和生成模型以达到极致的性能。

来自主题: AI技术研报

8660 点击 2025-12-02 15:17

NeurIPS 2025 Oral | 1个Token零成本，REG让Diffusion训练收敛快20倍！

REG 是一种简单而有效的方法，仅通过引入一个 class token 便能大幅加速生成模型的训练收敛。其将基础视觉模型（如 DINOv2）的 class token 与 latent 在空间维度拼接后共同加噪训练，从而显著提升 Diffusion 的收敛速度与性能上限。在 ImageNet 256×256 上，

来自主题: AI技术研报

7113 点击 2025-11-29 13:46

专访Luma AI首席科学家：视频生成模型的游戏规则改变了

To C玩梗是Sora的热闹，用多模态大一统模型服务专业客户，才是AI视频生成的正经生意。

来自主题: AI资讯

6259 点击 2025-11-28 10:03

首个3D生成解构模型PartCrafter问世，GitHub狂揽2k星标

从单张图像创建可编辑的 3D 模型是计算机图形学领域的一大挑战。传统的 3D 生成模型多产出整体式的「黑箱」资产，使得对个别部件进行精细调整几乎成为不可能。

来自主题: AI技术研报

10535 点击 2025-11-27 15:01

全新稀疏注意力优化！腾讯最新超轻量视频生成模型HunyuanVideo 1.5核心技术解密

腾讯混元大模型团队正式发布并开源HunyuanVideo 1.5。

来自主题: AI技术研报

9220 点击 2025-11-27 10:10

NeurIPS 2025 Spotlight | 中国联通以全局优化重塑扩散模型加速

当前，视频生成模型性能正在快速提升，尤其是基于Transformer架构的DiT模型，在视频生成领域的表现已经逐渐接近真实拍摄效果。然而，这些扩散模型也面临一个共同的瓶颈：推理时间长、算力成本高、生成速度难以提升。随着视频生成长度持续增加、分辨率不断提高，这个瓶颈正在成为影响视频创作体验的主要障碍之一。

来自主题: AI技术研报

8139 点击 2025-11-26 13:46

NeurIPS重磅：华南理工团队重构扩散模型推理，质量效率双SOTA

扩散概率生成模型（Diffusion Models）已成为AIGC时代的重要基础，但其推理速度慢、训练与推理之间的差异大，以及优化困难，始终是制约其广泛应用的关键问题。近日，被NeurIPS 2025接收的一篇重磅论文EVODiff给出了全新解法：来自华南理工大学曾德炉教授「统计推断，数据科学与人工智能」研究团队跳出了传统的数值求解思维，首次从信息感知的推理视角，将去噪过程重构为实时熵减优化问题。

来自主题: AI技术研报

7404 点击 2025-11-24 14:32

对谈 Sora 核心团队：Sora 其实是一个社交产品，视频生成模型会带来科研突破

上个月 OpenAI 在发布 Sora 2 的同时将其作为独立应用发布，产品一经上线便登顶苹果应用商店榜首的现象级产品。本篇内容是对 Sora 2 的三位核心负责人的访谈：研发负责人 Bill Peebles、产品负责人 Rohan Sahai 以及工程与产品负责人 Thomas Dimson，Dimson 还参与过 Instagram 产品的搭建。

来自主题: AI资讯

9223 点击 2025-11-20 09:34