AI资讯新闻榜单内容搜索-视觉语言模型

ECCV'26| 看起来会动，还要动得合理：从生成模型中主动寻找物理证据

PhyMAGIC通过让物体动起来，从视频中提取物理证据，帮助准确推断材料属性。它结合图生视频与视觉语言模型，生成针对性运动探针，并不断修正物理参数，最终构建出可微分的3D动态模型，实现更符合现实的视频生成。

来自主题: AI技术研报

5201 点击 2026-07-17 10:09

姚顺雨的OpenAI前同事田永龙，也加入腾讯了

智东西获悉，OpenAI前研究员田永龙（Yonglong Tian）已确认于近期加入腾讯大语言模型部，后续将参与VLM（视觉语言模型）相关研发。在OpenAI期间，田永龙曾参与GPT-5的研发工作。加入OpenAI之前，他在Google Research和DeepMind长期从事视觉表征学习和对比学习等方向研究，对后续视觉模型以及多模态表征学习的发展产生了广泛影响。

来自主题: AI资讯

8597 点击 2026-07-08 16:05

直接从像素到单词：这个原生大模型统一单图、多图、视频和空间智能

今天几乎所有主流视觉语言模型（VLM）—— 无论是 Qwen-VL、InternVL，还是 LLaVA 系列 —— 都遵循着同一套经典架构：先用预训练视觉编码器（如 CLIP、SigLIP）将图像压缩为特征，再通过投影层把这些特征送入大语言模型。

来自主题: AI技术研报

7733 点击 2026-06-24 16:06

刚刚，豆包大模型2.1发布，Coding能力进入国际第一梯队！相比Opus 4.6降价近80%

豆包大模型2.1 Pro正式发布。但字节这次没有像某些厂商那样疯狂堆参数、刷榜单，而是把刀锋对准了一个更硬核的方向：让AI真正能“干活” 。作为本次大会发布的主力模型，豆包2.1 Pro 在 Coding（编程）、Agent（智能体）、VLM（视觉语言模型）三大核心方向实现能力跃升，多项评测表现优于Claude Opus 4.6

来自主题: AI资讯

10248 点击 2026-06-23 15:40

华为SpaceMind登顶空间智能权威榜：纯RGB视觉语言模型拿下70.6分，刷新李飞飞榜单记录

大模型已经能流畅对话、看图识物，但一个更底层的问题始终没被真正解决——它们是否「理解」了我们所处的三维世界？

来自主题: AI技术研报

6098 点击 2026-06-15 09:19

Meta蔡志鹏新作VLM³：全面揭示三维视觉的Bitter Lesson

Meta 发布了一项令人震撼的研究工作 VLM³，首次揭示了三维视觉学习的 Bitter Lesson：标准的视觉语言模型 + scale 数据就是最简单有效的范式，针对特定任务的架构、损失函数以及数据增强的设计，甚至是 regression 的 formulation，均不是三维视觉学习的必要条件。

来自主题: AI技术研报

7245 点击 2026-06-09 14:31

ICML 2026｜首个视觉语言模型并行思考框架，一文解析内在机制

当前，测试时扩展范式普遍致力于增加推理长度。然而，已有研究表明，随着推理长度的持续增长，以垂直扩展为核心的计算范式容易陷入探索僵化等问题。因此，从另一维度拓展推理的宽度显得尤为重要。K2.5、Step3-VL 和 LongCat-Flash-Thinking 等模型已在推理宽度方面开展了有益的探索。

来自主题: AI技术研报

8896 点击 2026-05-25 09:49