AI资讯新闻榜单内容搜索-VLM

VLM剪枝新SOTA：无需重训练，注意力去偏置超越6大主流方案

近年来，Vision-Language Models（视觉—语言模型）在多模态理解任务中取得了显著进展，并逐渐成为通用人工智能的重要技术路线。

来自主题: AI技术研报

5655 点击 2026-01-31 12:30

DeepSeek最新王炸模型：VLM架构重磅突破，AI像人一样读图

这一框架可用于集成额外文本、语音和视觉等多种模态。

来自主题: AI技术研报

9115 点击 2026-01-27 16:15

腾讯AngelSlim升级，首个集LLM、VLM及语音多模态为一体的投机采样训练框架，推理速度飙升1.8倍

随着大模型步入规模化应用深水区，日益高昂的推理成本与延迟已成为掣肘产业落地的核心瓶颈。在 “降本增效” 的行业共识下，从量化、剪枝到模型蒸馏，各类压缩技术竞相涌现，但往往难以兼顾性能损耗与通用性。

来自主题: AI技术研报

9823 点击 2026-01-19 08:54

引入几何约束后，VLM跨越了「空间推理」的认知鸿沟

现有的视觉大模型普遍存在「语义-几何鸿沟」（Semantic-to-Geometric Gap），不仅分不清东南西北，更难以处理精确的空间量化任务。例如问「你坐在沙发上时，餐桌在你的哪一侧？」，VLM 常常答错。

来自主题: AI技术研报

5803 点击 2026-01-13 10:20

大模型拿金牌却输给三岁宝宝！一套「纯视觉考卷」把顶尖VLM打回幼儿园

大模型能写代码、解奥数，却连幼儿园小班都考不过？简单的连线找垃圾桶、数积木，人类一眼即知，AI却因为无法用语言「描述」视觉信息而集体翻车。大模型到底「懂不懂」，这个评测基准给出答案。

来自主题: AI技术研报

8866 点击 2026-01-12 10:29

24岁博士生造出空间AI大师G²VLM，让机器人眼明手快

近日，24 岁的 00 后博士生胡文博和所在团队造出一款名为 G²VLM 的超级 AI 模型，它是一位拥有空间超能力的视觉语言小能手，不仅能从普通的平面图片中精准地重建出三维世界，还能像人类一样进行复杂的空间思考和空间推理。

来自主题: AI技术研报

5512 点击 2025-12-15 14:49

AI女王强势归来！前OpenAI CTO的“思考机器”彻底开放！接入KimiK2、千问VL，一个样本让千问VLM识别新物种！

大家还记得Mira Murati吗？那个曾经主导ChatGPT开发的“AI女王”，OpenAI的前CTO，2024年突然离职后，让整个科技圈炸锅！短短几个月，融资20亿美元，估值飙到120亿美元，现在更传出新一轮融资目标直冲500亿美元！这速度，这手笔，简直是AI界的“神话”！而最近的重磅炸弹来了：他们的首款产品Tinker正式全面开放！不再需要等待名单，人人可用！

来自主题: AI资讯

9215 点击 2025-12-13 15:53

Percept-WAM：真正「看懂世界」的自动驾驶大脑，感知到行动的一体化模型

近日，来自引望智能与复旦大学的研究团队联合提出了一个面向自动驾驶的新一代大模型 ——Percept-WAM（Perception-Enhanced World–Awareness–Action Model）。该模型旨在在一个统一的大模型中，将「看见世界（Perception）」「理解世界（World–Awareness）」和「驱动车辆行动（Action）」真正打通，形成一条从感知到决策的完整链路。

来自主题: AI技术研报

6348 点击 2025-12-10 14:33

Jina-VLM：可在笔记本上跑的多语言视觉小模型

今天我们正式发布 Jina-VLM，这是一款 2.4B 参数量的视觉语言模型（VLM），在同等规模下达到了多语言视觉问答（Multilingual VQA）任务上的 SOTA 基准。Jina-VLM 对硬件需求较低，可在普通消费级显卡或 Macbook 上流畅运行。

来自主题: AI资讯

7965 点击 2025-12-09 14:48

Ilya刚预言完，世界首个原生多模态架构NEO就来了：视觉和语言彻底被焊死

全球首个可大规模落地的开源原生多模态架构（Native VLM），名曰NEO。要知道，此前主流的多模态大模型，例如我们熟悉的GPT-4V、Claude 3.5等，它们的底层逻辑本质上其实玩的就是拼接。

来自主题: AI技术研报

8328 点击 2025-12-05 14:46