AI资讯新闻榜单内容搜索-模型训练

不是视频模型“学习”慢，而是LLM走捷径｜18万引大牛Sergey Levine

为什么语言模型能从预测下一个词中学到很多，而视频模型却从预测下一帧中学到很少？

来自主题: AI资讯

7145 点击 2025-06-11 11:37

一块4090搞定实时视频生成！Adobe黑科技来了

游戏直播等实时渲染门槛要被击穿了？Adobe 的一项新研究带来新的可能。

来自主题: AI技术研报

7158 点击 2025-06-10 16:52

大模型是「躲在洞穴里」观察世界？强化学习大佬「吹哨」提醒LLM致命缺点

为什么语言模型很成功，视频模型还是那么弱？

来自主题: AI资讯

8248 点击 2025-06-10 16:37

北大伯克利联手“拷问”大模型：最强Agent也才40分！新基准专治“不听话”的AI分析师

给大模型当老师，让它一步步按你的想法做数据分析，有多难？

来自主题: AI技术研报

7991 点击 2025-06-10 16:25

视频生成1.3B碾压14B、图像生成直逼GPT-4o！港科&快手开源测试时扩展新范式

测试时扩展（Test-Time Scaling）极大提升了大语言模型的性能，涌现出了如 OpenAI o 系列模型和 DeepSeek R1 等众多爆款。那么，什么是视觉领域的 test-time scaling？又该如何定义？

来自主题: AI技术研报

7918 点击 2025-06-10 16:18

1.93bit版DeepSeek-R1编程超过Claude 4 Sonnet，不用GPU也能运行

1.93bit量化之后的 DeepSeek-R1（0528），编程能力依然能超过Claude 4 Sonnet？

来自主题: AI技术研报

7327 点击 2025-06-10 15:28

SOTA级视频编辑新方法：无需训练一句话编辑视频，背景保持100%

传统的视频编辑工作流，正在被AI彻底重塑。

来自主题: AI技术研报

7484 点击 2025-06-10 15:23

比自回归更灵活、比离散扩散更通用，首个纯Discrete Flow Matching多模态巨兽降临

王劲，香港大学计算机系二年级博士生，导师为罗平老师。研究兴趣包括多模态大模型训练与评测、伪造检测等，有多项工作发表于 ICML、CVPR、ICCV、ECCV 等国际学术会议。

来自主题: AI技术研报

8834 点击 2025-06-10 15:02

首创像素空间推理，7B模型领先GPT-4o，让VLM能像人类一样「眼脑并用」

视觉语言模型（VLM）正经历从「感知」到「认知」的关键跃迁。当OpenAI的o3系列通过「图像思维」（Thinking with Images）让模型学会缩放、标记视觉区域时，我们看到了多模态交互的全新可能。

来自主题: AI技术研报

7805 点击 2025-06-10 14:45

大模型能够自发形成“人类思维地图”！Nature子刊重磅研究揭示多模态大模型类脑机制

大模型≠随机鹦鹉！Nature子刊最新研究证明：大模型内部存在着类似人类对现实世界概念的理解。

来自主题: AI技术研报

7362 点击 2025-06-10 11:54

AI资讯新闻榜单内容搜索-模型训练

不是视频模型“学习”慢，而是LLM走捷径｜18万引大牛Sergey Levine

一块4090搞定实时视频生成！Adobe黑科技来了

大模型是「躲在洞穴里」观察世界？ 强化学习大佬「吹哨」提醒LLM致命缺点

北大伯克利联手“拷问”大模型：最强Agent也才40分！新基准专治“不听话”的AI分析师

视频生成1.3B碾压14B、图像生成直逼GPT-4o！港科&快手开源测试时扩展新范式

1.93bit版DeepSeek-R1编程超过Claude 4 Sonnet，不用GPU也能运行

SOTA级视频编辑新方法：无需训练一句话编辑视频，背景保持100%

比自回归更灵活、比离散扩散更通用，首个纯Discrete Flow Matching多模态巨兽降临

首创像素空间推理，7B模型领先GPT-4o，让VLM能像人类一样「眼脑并用」

大模型能够自发形成“人类思维地图”！Nature子刊重磅研究揭示多模态大模型类脑机制

大模型是「躲在洞穴里」观察世界？强化学习大佬「吹哨」提醒LLM致命缺点