AI资讯新闻榜单内容搜索-VLM

# 热门搜索 #

大模型

人工智能

openai

融资

chatGPT

搜索: VLM

高效训练新标杆！华人团队开源原生VLM-NEO，以少数据追平顶级模型

高效训练新标杆！华人团队开源原生VLM-NEO，以少数据追平顶级模型

高效训练新标杆！华人团队开源原生VLM-NEO，以少数据追平顶级模型

当下主流的视觉语言模型（Vision-Language Models, VLM），通常都采用这样一种设计思路：将预训练的视觉编码器与大语言模型通过投影层拼接起来。这种模块化架构成就了当前 VLM 的辉煌，但也带来了一系列新的问题——多阶段训练复杂、组件间语义对齐成本高，不同模块的扩展规律难以协调。

来自主题: AI技术研报

7606 点击 2025-10-30 10:55

让VLM学会「心中有世界」：VAGEN用多轮RL把视觉智能变成「世界模型」推理机器

让VLM学会「心中有世界」：VAGEN用多轮RL把视觉智能变成「世界模型」推理机器

让VLM学会「心中有世界」：VAGEN用多轮RL把视觉智能变成「世界模型」推理机器

当今的 AI 智能体（Agent）越来越强大，尤其是像 VLM（视觉-语言模型）这样能「看懂」世界的智能体。但研究者发现一个大问题：相比于只处理文本的 LLM 智能体，VLM 智能体在面对复杂的视觉任务时，常常表现得像一个「莽撞的执行者」，而不是一个「深思熟虑的思考者」。

来自主题: AI技术研报

7588 点击 2025-10-28 09:26

轻量高效，即插即用：Video-RAG为长视频理解带来新范式

轻量高效，即插即用：Video-RAG为长视频理解带来新范式

轻量高效，即插即用：Video-RAG为长视频理解带来新范式

尽管视觉语言模型（LVLMs）在图像与短视频理解中已取得显著进展，但在处理长时序、复杂语义的视频内容时仍面临巨大挑战 —— 上下文长度限制、跨模态对齐困难、计算成本高昂等问题制约着其实际应用。针对这一难题，厦门大学、罗切斯特大学与南京大学联合提出了一种轻量高效、无需微调的创新框架 ——Video-RAG。

来自主题: AI技术研报

7273 点击 2025-10-22 14:57

AGILE：视觉学习新范式！自监督+交互式强化学习助力VLMs感知与推理全面提升

AGILE：视觉学习新范式！自监督+交互式强化学习助力VLMs感知与推理全面提升

AGILE：视觉学习新范式！自监督+交互式强化学习助力VLMs感知与推理全面提升

现有视觉语言大模型（VLMs）在多模态感知和推理任务上仍存在明显短板：1. 对图像中的细粒度视觉信息理解有限，视觉感知和推理能力未被充分激发；2. 强化学习虽能带来改进，但缺乏高质量、易扩展的 RL 数据。

来自主题: AI技术研报

7093 点击 2025-10-21 15:30

RL新思路！复旦用游戏增强VLM通用推理，性能匹敌几何数据

RL新思路！复旦用游戏增强VLM通用推理，性能匹敌几何数据

RL新思路！复旦用游戏增强VLM通用推理，性能匹敌几何数据

复旦大学NLP实验室研发Game-RL，利用游戏丰富视觉元素和明确规则生成多模态可验证推理数据，通过强化训练提升视觉语言模型的推理能力。创新性地提出Code2Logic方法，系统化合成游戏任务数据，构建GameQA数据集，验证了游戏数据在复杂推理训练中的优势。

来自主题: AI技术研报

8995 点击 2025-10-21 10:05

超越纯视觉模型！不改VLM标准架构，实现像素级深度预测

超越纯视觉模型！不改VLM标准架构，实现像素级深度预测

超越纯视觉模型！不改VLM标准架构，实现像素级深度预测

Meta开源DepthLM，首证视觉语言模型无需改架构即可媲美纯视觉模型的3D理解能力。通过视觉提示、稀疏标注等创新策略，DepthLM精准完成像素级深度估计等任务，解锁VLM多任务处理潜力，为自动驾驶、机器人等领域带来巨大前景。

来自主题: AI技术研报

7478 点击 2025-10-20 12:19

机器人「看片」自学新技能：NovaFlow从生成视频中提取动作流，实现零样本操控

机器人「看片」自学新技能：NovaFlow从生成视频中提取动作流，实现零样本操控

机器人「看片」自学新技能：NovaFlow从生成视频中提取动作流，实现零样本操控

构建能够在新环境中、无需任何针对性训练就能执行多样化任务的通用机器人，是机器人学领域一个长期追逐的圣杯。近年来，随着大型语言模型（LLMs）和视觉语言模型（VLMs）的飞速发展，许多研究者将希望寄托于视觉 - 语言 - 动作（VLA）模型，期望它们能复刻 LLM 和 VLM 在泛化性上取得的辉煌。

来自主题: AI技术研报

8290 点击 2025-10-13 11:02

国产游戏理解模型刷新SOTA，对话逗逗AI CEO：开源模型+行业数据是突破关键

国产游戏理解模型刷新SOTA，对话逗逗AI CEO：开源模型+行业数据是突破关键

国产游戏理解模型刷新SOTA，对话逗逗AI CEO：开源模型+行业数据是突破关键

游戏理解领域模型LynkSoul VLM v1，在游戏场景中表现显著超过了包括GPT-4o、Claude 4 Sonnet、Gemini 2.5 Flash等一众顶尖闭源模型。背后厂商逗逗AI，亦在现场吸引了不少关注的目光。

来自主题: AI资讯

9045 点击 2025-10-11 17:25

机器人感知大升级！轻量化注入几何先验，成功率提升31%

机器人感知大升级！轻量化注入几何先验，成功率提升31%

机器人感知大升级！轻量化注入几何先验，成功率提升31%

VLA模型通常建立在预训练视觉语言模型（VLM）之上，仅基于2D图像-文本数据训练，缺乏真实世界操作所需的3D空间理解能力。

来自主题: AI技术研报

7351 点击 2025-09-29 14:53

全新开源模型复现o3视觉推理，无需大量训练即可实现深度思考

全新开源模型复现o3视觉推理，无需大量训练即可实现深度思考

全新开源模型复现o3视觉推理，无需大量训练即可实现深度思考

OpenAI o3的多轮视觉推理，有开源平替版了。并且，与先前局限于1-2轮对话的视觉语言模型（VLM）不同，它在训练限制轮数只有6轮的情况下，测试阶段能将思考轮数扩展到数十轮。

来自主题: AI技术研报

9072 点击 2025-09-16 10:02

上一页当前第3页,共11页下一页