AI资讯新闻榜单内容搜索-CVPR

CVPR 2025|复旦&微软开源StableAnimator: 首个端到端ID一致性人类视频生成，Github Star破千

近年来，扩散模型在图像与视频合成领域展现出强大能力，为图像动画技术的发展带来了新的契机。特别是在人物图像动画方面，该技术能够基于一系列预设姿态驱动参考图像，使其动态化，从而生成高度可控的人体动画视频。

来自主题: AI技术研报

10209 点击 2025-03-20 09:34

跨模态因果对齐，让机器更懂视觉证据！

来自主题: AI技术研报

10588 点击 2025-03-17 15:02

无需物理引擎，单个模型也能实现“渲染+逆渲染”了！

来自主题: AI技术研报

6598 点击 2025-03-17 08:53

何恺明LeCun联手：Transformer不要归一化了，论文已入选CVPR2025。

来自主题: AI技术研报

11630 点击 2025-03-15 17:12

今年，CVPR共有13008份有效投稿并进入评审流程，其中2878篇被录用，最终录用率为22.1%。

来自主题: AI技术研报

8780 点击 2025-03-15 14:50

在 Sora 引爆世界模型技术革命的当下，3D 场景作为物理世界的数字基座，正成为构建动态可交互 AI 系统的关键基础设施。当前，单张图像生成三维资产的技术突破，已为三维内容生产提供了 "从想象到三维" 的原子能力。

来自主题: AI技术研报

9194 点击 2025-03-14 15:40

挑战多图数学推理新基准，大模型直接全军覆没？！

来自主题: AI技术研报

8644 点击 2025-03-11 17:22

CVPR 2025，混合新架构MambaVision来了！Mamba+Transformer混合架构专门为CV应用设计。MambaVision 在Top-1精度和图像吞吐量方面实现了新的SOTA，显著超越了基于Transformer和Mamba的模型。

来自主题: AI技术研报

10312 点击 2025-03-08 13:10

北京大学、上海人工智能实验室、南洋理工大学联合推出 DiffSensei，首个结合多模态大语言模型（MLLM）与扩散模型的定制化漫画生成框架。该框架通过创新的掩码交叉注意力机制与文本兼容的角色适配器，实现了对多角色外观、表情、动作的精确控制

来自主题: AI技术研报

11460 点击 2025-03-07 14:15

StyleStudio能解决风格迁移中风格过拟合、文本对齐差和图像不稳定的问题，通过跨模态AdaIN技术融合文本和风格特征、用教师模型稳定布局、引入基于风格的无分类器引导，实现精准控制风格元素，提升生成图像的质量和稳定性，无需额外训练，使用门槛更低！

来自主题: AI技术研报

4638 点击 2025-03-07 11:04