AI资讯新闻榜单内容搜索-模型训练

不靠死记布局也能按图生成，多实例生成的布局控制终于“可控且不串脸”了丨浙大团队

尽管扩散模型在单图像生成上已经日渐成熟，但当任务升级为高度定制化的多实例图像生成（Multi-Instance Image Generation, MIG）时，挑战随之显现：

来自主题: AI技术研报

9754 点击 2025-12-22 09:33

LeCun的JEPA已进化为视觉-语言模型，1.6B参数比肩72B Qwen-VL

近日，来自 Meta、香港科技大学、索邦大学、纽约大学的一个联合团队基于 JEPA 打造了一个视觉-语言模型：VL-JEPA。据作者 Pascale Fung 介绍，VL-JEPA 是第一个基于联合嵌入预测架构，能够实时执行通用领域视觉-语言任务的非生成模型。

来自主题: AI技术研报

8610 点击 2025-12-21 12:39

让大模型不再过度思考！上海AI Lab后训练新范式重塑CoT，推理又快又好

近日，上海人工智能实验室的研究团队提出了一种全新的后训练范式——RePro（Rectifying Process-level Reward）。这篇论文将推理的过程视为模型内部状态的优化过程，从而对如何重塑大模型的CoT提供了一个全新视角：

来自主题: AI技术研报

7196 点击 2025-12-21 12:35

人人都是导演：CineCtrl首个实现视频生成中的相机运镜与摄影效果统一控制

现有视频生成模型往往难以兼顾「运镜」与「摄影美学」的精确控制。为此，华中科技大学、南洋理工大学、商汤科技和上海人工智能实验室团队推出了 CineCtrl。作为首个统一的视频摄影控制 V2V 框架，CineCtrl 通过解耦交叉注意力机制，摆脱了多控制信号共同控制的效果耦合问题，实现了对视频相机外参轨迹与摄影效果的独立、精细、协调控制。

来自主题: AI技术研报

8033 点击 2025-12-21 12:34