AI资讯新闻榜单内容搜索-LVLMs

# 热门搜索 #

大模型

人工智能

openai

融资

chatGPT

搜索: LVLMs

CVPR 2026 | 从视觉Token内在变化量出发，实现VLM无损加速1.87倍

CVPR 2026 | 从视觉Token内在变化量出发，实现VLM无损加速1.87倍

CVPR 2026 | 从视觉Token内在变化量出发，实现VLM无损加速1.87倍

随着高分辨率图像理解与长视频处理需求的爆发式增长，大型视觉语言模型（LVLMs）所需处理的视觉 Token 数量急剧膨胀，推理效率成为落地部署的核心瓶颈。Token 压缩是缩短序列、提升吞吐的直接手段，但现有方法普遍依赖注意力权重来判断 Token 重要性，这一路线暗藏两个致命缺陷：

来自主题: AI技术研报

9366 点击 2026-03-17 08:49

轻量高效，即插即用：Video-RAG为长视频理解带来新范式

轻量高效，即插即用：Video-RAG为长视频理解带来新范式

轻量高效，即插即用：Video-RAG为长视频理解带来新范式

尽管视觉语言模型（LVLMs）在图像与短视频理解中已取得显著进展，但在处理长时序、复杂语义的视频内容时仍面临巨大挑战 —— 上下文长度限制、跨模态对齐困难、计算成本高昂等问题制约着其实际应用。针对这一难题，厦门大学、罗切斯特大学与南京大学联合提出了一种轻量高效、无需微调的创新框架 ——Video-RAG。

来自主题: AI技术研报

8005 点击 2025-10-22 14:57

多模态大模型存在「内心预警」，无需训练，就能识别越狱攻击

多模态大模型存在「内心预警」，无需训练，就能识别越狱攻击

多模态大模型存在「内心预警」，无需训练，就能识别越狱攻击

多模态大模型崛起，安全问题紧随其后近年来，大语言模型（LLMs）的突破式进展，催生了视觉语言大模型（LVLMs）的快速兴起，代表作如 GPT-4V、LLaVA 等。

来自主题: AI技术研报

10605 点击 2025-07-22 09:55

零开销，消除图像幻觉！基于零空间投影挖掘正常样本特征 | CVPR 2025

零开销，消除图像幻觉！基于零空间投影挖掘正常样本特征 | CVPR 2025

零开销，消除图像幻觉！基于零空间投影挖掘正常样本特征 | CVPR 2025

当前大型视觉语言模型（LVLMs）存在物体幻觉问题，即会生成图像中不存在的物体描述。

来自主题: AI技术研报

10497 点击 2025-06-27 16:26

武大等发布大型视觉语言模型最新安全综述：全面分类攻击策略、防御机制和评估方法

武大等发布大型视觉语言模型最新安全综述：全面分类攻击策略、防御机制和评估方法

武大等发布大型视觉语言模型最新安全综述：全面分类攻击策略、防御机制和评估方法

武汉大学等发布了一篇大型视觉语言模型（LVLMs）安全性的综述论文，提出了一个系统性的安全分类框架，涵盖攻击、防御和评估，并对最新模型DeepSeek Janus-Pro进行了安全性测试，发现其在安全性上存在明显短板。

来自主题: AI技术研报

8507 点击 2025-03-11 16:32

细粒度对齐无需仔细标注了！淘天提出视觉锚定奖励，自我校准实现多模态对齐

细粒度对齐无需仔细标注了！淘天提出视觉锚定奖励，自我校准实现多模态对齐

细粒度对齐无需仔细标注了！淘天提出视觉锚定奖励，自我校准实现多模态对齐

近年来，视觉大模型（Large Vision Language Models, LVLMs）领域经历了迅猛的发展，这些模型在图像理解、视觉对话以及其他跨模态任务中展现出了卓越的能力。然而，随着 LVLMs 复杂性和能力的增长，「幻觉现象」的挑战也日益凸显。

来自主题: AI技术研报

7864 点击 2025-01-19 14:51

多模态模型免微调接入互联网，即插即用新框架，效果超闭源商用方案

多模态模型免微调接入互联网，即插即用新框架，效果超闭源商用方案

多模态模型免微调接入互联网，即插即用新框架，效果超闭源商用方案

一个5月份完成训练的大模型，无法对《黑神话·悟空》游戏内容相关问题给出准确回答。

来自主题: AI技术研报

5133 点击 2024-11-10 14:40

上一页当前第1页,共1页下一页