AI资讯新闻榜单内容搜索-LVLM

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
搜索: LVLM
CVPR 2026 | 从视觉Token内在变化量出发,实现VLM无损加速1.87倍

CVPR 2026 | 从视觉Token内在变化量出发,实现VLM无损加速1.87倍

CVPR 2026 | 从视觉Token内在变化量出发,实现VLM无损加速1.87倍

随着高分辨率图像理解与长视频处理需求的爆发式增长,大型视觉语言模型(LVLMs)所需处理的视觉 Token 数量急剧膨胀,推理效率成为落地部署的核心瓶颈。Token 压缩是缩短序列、提升吞吐的直接手段,但现有方法普遍依赖注意力权重来判断 Token 重要性,这一路线暗藏两个致命缺陷:

来自主题: AI技术研报
8888 点击    2026-03-17 08:49
空间智能再进化!Spatial-SSRL帮助LVLM更好读懂空间

空间智能再进化!Spatial-SSRL帮助LVLM更好读懂空间

空间智能再进化!Spatial-SSRL帮助LVLM更好读懂空间

本文第一作者为刘禹宏,上海交通大学人工智能专业本科四年级学生,相关研究工作于上海人工智能实验室科研实习期间完成。通讯作者为王佳琦、臧宇航,在该研究工作完成期间,均担任上海人工智能实验室研究员。

来自主题: AI技术研报
6372 点击    2025-11-30 15:05
轻量高效,即插即用:Video-RAG为长视频理解带来新范式

轻量高效,即插即用:Video-RAG为长视频理解带来新范式

轻量高效,即插即用:Video-RAG为长视频理解带来新范式

尽管视觉语言模型(LVLMs)在图像与短视频理解中已取得显著进展,但在处理长时序、复杂语义的视频内容时仍面临巨大挑战 —— 上下文长度限制、跨模态对齐困难、计算成本高昂等问题制约着其实际应用。针对这一难题,厦门大学、罗切斯特大学与南京大学联合提出了一种轻量高效、无需微调的创新框架 ——Video-RAG。

来自主题: AI技术研报
7666 点击    2025-10-22 14:57
多模态大模型存在「内心预警」,无需训练,就能识别越狱攻击

多模态大模型存在「内心预警」,无需训练,就能识别越狱攻击

多模态大模型存在「内心预警」,无需训练,就能识别越狱攻击

多模态大模型崛起,安全问题紧随其后 近年来,大语言模型(LLMs)的突破式进展,催生了视觉语言大模型(LVLMs)的快速兴起,代表作如 GPT-4V、LLaVA 等。

来自主题: AI技术研报
10268 点击    2025-07-22 09:55
无损加速视觉语言模型推理!轻松剪掉视觉冗余Token|腾讯AI Lab

无损加速视觉语言模型推理!轻松剪掉视觉冗余Token|腾讯AI Lab

无损加速视觉语言模型推理!轻松剪掉视觉冗余Token|腾讯AI Lab

多图像、长视频、细粒度感知正在让大型视觉语言模型(LVLM)变得越来越聪明,但也越来越“吃不消”:视觉Token数量的激增所带来的推理成本暴涨,正逐渐成为多模态智能扩展的最大算力瓶颈。

来自主题: AI技术研报
7960 点击    2025-07-05 19:00
如何选择最佳多模态大模型压缩方案?哈工大、度小满开源EFFIVLM-BENCH基准测试框架

如何选择最佳多模态大模型压缩方案?哈工大、度小满开源EFFIVLM-BENCH基准测试框架

如何选择最佳多模态大模型压缩方案?哈工大、度小满开源EFFIVLM-BENCH基准测试框架

在金融科技智能化转型进程中,大语言模型以及多模态大模型(LVLM)正成为核心技术驱动力。尽管 LVLM 展现出卓越的跨模态认知能力

来自主题: AI技术研报
9043 点击    2025-06-16 15:27
武大等发布大型视觉语言模型最新安全综述:全面分类攻击策略、防御机制和评估方法

武大等发布大型视觉语言模型最新安全综述:全面分类攻击策略、防御机制和评估方法

武大等发布大型视觉语言模型最新安全综述:全面分类攻击策略、防御机制和评估方法

武汉大学等发布了一篇大型视觉语言模型(LVLMs)安全性的综述论文,提出了一个系统性的安全分类框架,涵盖攻击、防御和评估,并对最新模型DeepSeek Janus-Pro进行了安全性测试,发现其在安全性上存在明显短板。

来自主题: AI技术研报
8235 点击    2025-03-11 16:32
细粒度对齐无需仔细标注了!淘天提出视觉锚定奖励,自我校准实现多模态对齐

细粒度对齐无需仔细标注了!淘天提出视觉锚定奖励,自我校准实现多模态对齐

细粒度对齐无需仔细标注了!淘天提出视觉锚定奖励,自我校准实现多模态对齐

近年来,视觉大模型(Large Vision Language Models, LVLMs)领域经历了迅猛的发展,这些模型在图像理解、视觉对话以及其他跨模态任务中展现出了卓越的能力。然而,随着 LVLMs 复杂性和能力的增长,「幻觉现象」的挑战也日益凸显。

来自主题: AI技术研报
7571 点击    2025-01-19 14:51