AI资讯新闻榜单内容搜索-VLM

FG-CLIP 2: 为细粒度跨模态理解而生的下一代VLM，8大类29项任务双语性能全球第一

在 AI 多模态的发展历程中，OpenAI 的 CLIP 让机器第一次具备了“看懂”图像与文字的能力，为跨模态学习奠定了基础。如今，来自 360 人工智能研究院冷大炜团队的 FG-CLIP 2 正式发布并开源，在中英文双语任务上全面超越 MetaCLIP 2 与 SigLIP 2，并通过新的细粒度对齐范式，补足了第一代模型在细节理解上的不足。

来自主题: AI技术研报

7722 点击 2025-11-03 09:52

高效训练新标杆！华人团队开源原生VLM-NEO，以少数据追平顶级模型

当下主流的视觉语言模型（Vision-Language Models, VLM），通常都采用这样一种设计思路：将预训练的视觉编码器与大语言模型通过投影层拼接起来。这种模块化架构成就了当前 VLM 的辉煌，但也带来了一系列新的问题——多阶段训练复杂、组件间语义对齐成本高，不同模块的扩展规律难以协调。

来自主题: AI技术研报

8159 点击 2025-10-30 10:55

让VLM学会「心中有世界」：VAGEN用多轮RL把视觉智能变成「世界模型」推理机器

当今的 AI 智能体（Agent）越来越强大，尤其是像 VLM（视觉-语言模型）这样能「看懂」世界的智能体。但研究者发现一个大问题：相比于只处理文本的 LLM 智能体，VLM 智能体在面对复杂的视觉任务时，常常表现得像一个「莽撞的执行者」，而不是一个「深思熟虑的思考者」。

来自主题: AI技术研报

8062 点击 2025-10-28 09:26

轻量高效，即插即用：Video-RAG为长视频理解带来新范式

尽管视觉语言模型（LVLMs）在图像与短视频理解中已取得显著进展，但在处理长时序、复杂语义的视频内容时仍面临巨大挑战 —— 上下文长度限制、跨模态对齐困难、计算成本高昂等问题制约着其实际应用。针对这一难题，厦门大学、罗切斯特大学与南京大学联合提出了一种轻量高效、无需微调的创新框架 ——Video-RAG。

来自主题: AI技术研报

7848 点击 2025-10-22 14:57