AI资讯新闻榜单内容搜索-视觉语言模型

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
搜索: 视觉语言模型
ICCV 2025 | 跨越视觉与语言边界,打开人机交互感知的新篇章:北大团队提出INP-CC模型重塑开放词汇HOI检测

ICCV 2025 | 跨越视觉与语言边界,打开人机交互感知的新篇章:北大团队提出INP-CC模型重塑开放词汇HOI检测

ICCV 2025 | 跨越视觉与语言边界,打开人机交互感知的新篇章:北大团队提出INP-CC模型重塑开放词汇HOI检测

目前的 HOI 检测方法普遍依赖视觉语言模型(VLM),但受限于图像编码器的表现,难以有效捕捉细粒度的区域级交互信息。本文介绍了一种全新的开集人类-物体交互(HOI)检测方法——交互感知提示与概念校准(INP-CC)。

来自主题: AI技术研报
5714 点击    2025-08-20 11:05
3D-R1:让AI理解3D世界的下一步

3D-R1:让AI理解3D世界的下一步

3D-R1:让AI理解3D世界的下一步

在人工智能快速发展的今天,我们已逐渐习惯于让 AI 识别图像、理解语言,甚至与之对话。但当我们进入真实三维世界,如何让 AI 具备「看懂场景」、「理解空间」和「推理复杂任务」的能力?这正是 3D 视觉语言模型(3D VLM)所要解决的问题。

来自主题: AI技术研报
5554 点击    2025-08-04 20:04
关于机器人数据,强化学习大佬Sergey Levine刚刚写了篇好文章

关于机器人数据,强化学习大佬Sergey Levine刚刚写了篇好文章

关于机器人数据,强化学习大佬Sergey Levine刚刚写了篇好文章

我们知道,训练大模型本就极具挑战,而随着模型规模的扩大与应用领域的拓展,难度也在不断增加,所需的数据更是海量。大型语言模型(LLM)主要依赖大量文本数据,视觉语言模型(VLM)则需要同时包含文本与图像的数据,而在机器人领域,视觉 - 语言 - 行动模型(VLA)则要求大量真实世界中机器人执行任务的数据。

来自主题: AI资讯
6736 点击    2025-07-22 14:57
看遍奥斯卡后,VLM达到电影摄影理解新SOTA|上海AI Lab开源

看遍奥斯卡后,VLM达到电影摄影理解新SOTA|上海AI Lab开源

看遍奥斯卡后,VLM达到电影摄影理解新SOTA|上海AI Lab开源

当前最强大的视觉语言模型(VLMs)虽然能“看图识物”,但在理解电影方面还不够“聪明”。

来自主题: AI技术研报
8281 点击    2025-07-17 10:19
单向VLM变双向!人大斯坦福等提出MoCa框架:双向多模态编码器

单向VLM变双向!人大斯坦福等提出MoCa框架:双向多模态编码器

单向VLM变双向!人大斯坦福等提出MoCa框架:双向多模态编码器

MoCa框架把单向视觉语言模型转化为双向多模态嵌入模型,通过持续预训练和异构对比微调,提升模型性能和泛化能力,在多模态基准测试中表现优异,尤其小规模模型性能突出。

来自主题: AI技术研报
8269 点击    2025-07-11 10:09
无损加速视觉语言模型推理!轻松剪掉视觉冗余Token|腾讯AI Lab

无损加速视觉语言模型推理!轻松剪掉视觉冗余Token|腾讯AI Lab

无损加速视觉语言模型推理!轻松剪掉视觉冗余Token|腾讯AI Lab

多图像、长视频、细粒度感知正在让大型视觉语言模型(LVLM)变得越来越聪明,但也越来越“吃不消”:视觉Token数量的激增所带来的推理成本暴涨,正逐渐成为多模态智能扩展的最大算力瓶颈。

来自主题: AI技术研报
6175 点击    2025-07-05 19:00
打破长视频理解瓶颈:HoPE混合位置编码提升VLM长度泛化能力

打破长视频理解瓶颈:HoPE混合位置编码提升VLM长度泛化能力

打破长视频理解瓶颈:HoPE混合位置编码提升VLM长度泛化能力

如今的视觉语言模型 (VLM, Vision Language Models) 已经在视觉问答、图像描述等多模态任务上取得了卓越的表现。然而,它们在长视频理解和检索等长上下文任务中仍表现不佳。

来自主题: AI技术研报
6076 点击    2025-06-30 10:24
AI 开始「自由玩电脑」了!吉大提出「屏幕探索者」智能体

AI 开始「自由玩电脑」了!吉大提出「屏幕探索者」智能体

AI 开始「自由玩电脑」了!吉大提出「屏幕探索者」智能体

迈向通用人工智能(AGI)的核心目标之一就是打造能在开放世界中自主探索并持续交互的智能体。随着大语言模型(LLMs)和视觉语言模型(VLMs)的飞速发展,智能体已展现出令人瞩目的跨领域任务泛化能力。

来自主题: AI技术研报
6230 点击    2025-06-28 11:18