AI资讯新闻榜单内容搜索-模型训练

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
搜索: 模型训练
挑战WorldLabs:Visionary,一个全面超越Marble底层渲染器的WebGPU渲染平台

挑战WorldLabs:Visionary,一个全面超越Marble底层渲染器的WebGPU渲染平台

挑战WorldLabs:Visionary,一个全面超越Marble底层渲染器的WebGPU渲染平台

在李飞飞团队 WorldLabs 推出 Marble、引爆「世界模型(World Model)」热潮之后,一个现实问题逐渐浮出水面:世界模型的可视化与交互,依然严重受限于底层 Web 端渲染能力。

来自主题: AI技术研报
9353 点击    2025-12-22 10:17
首个文本到3D生成RL范式诞生,攻克几何与物理合理性

首个文本到3D生成RL范式诞生,攻克几何与物理合理性

首个文本到3D生成RL范式诞生,攻克几何与物理合理性

在大语言模型和文生图领域,强化学习(RL)已成为提升模型思维链与生成质量的关键方法。

来自主题: AI技术研报
6141 点击    2025-12-22 09:38
不靠死记布局也能按图生成,多实例生成的布局控制终于“可控且不串脸”了丨浙大团队

不靠死记布局也能按图生成,多实例生成的布局控制终于“可控且不串脸”了丨浙大团队

不靠死记布局也能按图生成,多实例生成的布局控制终于“可控且不串脸”了丨浙大团队

尽管扩散模型在单图像生成上已经日渐成熟,但当任务升级为高度定制化的多实例图像生成(Multi-Instance Image Generation, MIG)时,挑战随之显现:

来自主题: AI技术研报
9853 点击    2025-12-22 09:33
LeCun的JEPA已进化为视觉-语言模型,1.6B参数比肩72B Qwen-VL

LeCun的JEPA已进化为视觉-语言模型,1.6B参数比肩72B Qwen-VL

LeCun的JEPA已进化为视觉-语言模型,1.6B参数比肩72B Qwen-VL

近日,来自 Meta、香港科技大学、索邦大学、纽约大学的一个联合团队基于 JEPA 打造了一个视觉-语言模型:VL-JEPA。据作者 Pascale Fung 介绍,VL-JEPA 是第一个基于联合嵌入预测架构,能够实时执行通用领域视觉-语言任务的非生成模型。

来自主题: AI技术研报
8718 点击    2025-12-21 12:39
让大模型不再过度思考!上海AI Lab后训练新范式重塑CoT,推理又快又好

让大模型不再过度思考!上海AI Lab后训练新范式重塑CoT,推理又快又好

让大模型不再过度思考!上海AI Lab后训练新范式重塑CoT,推理又快又好

近日,上海人工智能实验室的研究团队提出了一种全新的后训练范式——RePro(Rectifying Process-level Reward)。这篇论文将推理的过程视为模型内部状态的优化过程,从而对如何重塑大模型的CoT提供了一个全新视角:

来自主题: AI技术研报
7311 点击    2025-12-21 12:35
人人都是导演:CineCtrl首个实现视频生成中的相机运镜与摄影效果统一控制

人人都是导演:CineCtrl首个实现视频生成中的相机运镜与摄影效果统一控制

人人都是导演:CineCtrl首个实现视频生成中的相机运镜与摄影效果统一控制

现有视频生成模型往往难以兼顾「运镜」与「摄影美学」的精确控制。为此,华中科技大学、南洋理工大学、商汤科技和上海人工智能实验室团队推出了 CineCtrl。作为首个统一的视频摄影控制 V2V 框架,CineCtrl 通过解耦交叉注意力机制,摆脱了多控制信号共同控制的效果耦合问题,实现了对视频相机外参轨迹与摄影效果的独立、精细、协调控制。

来自主题: AI技术研报
8132 点击    2025-12-21 12:34
MiniMax海螺首次开源 VTP,打通了 Visual Tokenizer 的 Scaling Law

MiniMax海螺首次开源 VTP,打通了 Visual Tokenizer 的 Scaling Law

MiniMax海螺首次开源 VTP,打通了 Visual Tokenizer 的 Scaling Law

MiniMax 海螺视频团队「首次开源」了 VTP(Visual Tokenizer Pre-training)项目。他们同步发布了一篇相当硬核的论文,它最有意思的地方在于 3 个点:「重建做得越好,生成反而可能越差」,传统 VAE 的直觉是错的

来自主题: AI技术研报
8172 点击    2025-12-20 10:04