AI资讯新闻榜单内容搜索-LVLM

# 热门搜索 #

大模型

人工智能

openai

融资

chatGPT

搜索: LVLM

空间智能再进化！Spatial-SSRL帮助LVLM更好读懂空间

空间智能再进化！Spatial-SSRL帮助LVLM更好读懂空间

空间智能再进化！Spatial-SSRL帮助LVLM更好读懂空间

本文第一作者为刘禹宏，上海交通大学人工智能专业本科四年级学生，相关研究工作于上海人工智能实验室科研实习期间完成。通讯作者为王佳琦、臧宇航，在该研究工作完成期间，均担任上海人工智能实验室研究员。

来自主题: AI技术研报

5672 点击 2025-11-30 15:05

轻量高效，即插即用：Video-RAG为长视频理解带来新范式

轻量高效，即插即用：Video-RAG为长视频理解带来新范式

轻量高效，即插即用：Video-RAG为长视频理解带来新范式

尽管视觉语言模型（LVLMs）在图像与短视频理解中已取得显著进展，但在处理长时序、复杂语义的视频内容时仍面临巨大挑战 —— 上下文长度限制、跨模态对齐困难、计算成本高昂等问题制约着其实际应用。针对这一难题，厦门大学、罗切斯特大学与南京大学联合提出了一种轻量高效、无需微调的创新框架 ——Video-RAG。

来自主题: AI技术研报

6983 点击 2025-10-22 14:57

多模态大模型存在「内心预警」，无需训练，就能识别越狱攻击

多模态大模型存在「内心预警」，无需训练，就能识别越狱攻击

多模态大模型存在「内心预警」，无需训练，就能识别越狱攻击

多模态大模型崛起，安全问题紧随其后近年来，大语言模型（LLMs）的突破式进展，催生了视觉语言大模型（LVLMs）的快速兴起，代表作如 GPT-4V、LLaVA 等。

来自主题: AI技术研报

9670 点击 2025-07-22 09:55

无损加速视觉语言模型推理！轻松剪掉视觉冗余Token｜腾讯AI Lab

无损加速视觉语言模型推理！轻松剪掉视觉冗余Token｜腾讯AI Lab

无损加速视觉语言模型推理！轻松剪掉视觉冗余Token｜腾讯AI Lab

多图像、长视频、细粒度感知正在让大型视觉语言模型（LVLM）变得越来越聪明，但也越来越“吃不消”：视觉Token数量的激增所带来的推理成本暴涨，正逐渐成为多模态智能扩展的最大算力瓶颈。

来自主题: AI技术研报

7373 点击 2025-07-05 19:00

零开销，消除图像幻觉！基于零空间投影挖掘正常样本特征 | CVPR 2025

零开销，消除图像幻觉！基于零空间投影挖掘正常样本特征 | CVPR 2025

零开销，消除图像幻觉！基于零空间投影挖掘正常样本特征 | CVPR 2025

当前大型视觉语言模型（LVLMs）存在物体幻觉问题，即会生成图像中不存在的物体描述。

来自主题: AI技术研报

9619 点击 2025-06-27 16:26

如何选择最佳多模态大模型压缩方案？哈工大、度小满开源EFFIVLM-BENCH基准测试框架

如何选择最佳多模态大模型压缩方案？哈工大、度小满开源EFFIVLM-BENCH基准测试框架

如何选择最佳多模态大模型压缩方案？哈工大、度小满开源EFFIVLM-BENCH基准测试框架

在金融科技智能化转型进程中，大语言模型以及多模态大模型（LVLM）正成为核心技术驱动力。尽管 LVLM 展现出卓越的跨模态认知能力

来自主题: AI技术研报

8353 点击 2025-06-16 15:27

武大等发布大型视觉语言模型最新安全综述：全面分类攻击策略、防御机制和评估方法

武大等发布大型视觉语言模型最新安全综述：全面分类攻击策略、防御机制和评估方法

武大等发布大型视觉语言模型最新安全综述：全面分类攻击策略、防御机制和评估方法

武汉大学等发布了一篇大型视觉语言模型（LVLMs）安全性的综述论文，提出了一个系统性的安全分类框架，涵盖攻击、防御和评估，并对最新模型DeepSeek Janus-Pro进行了安全性测试，发现其在安全性上存在明显短板。

来自主题: AI技术研报

7724 点击 2025-03-11 16:32

细粒度对齐无需仔细标注了！淘天提出视觉锚定奖励，自我校准实现多模态对齐

细粒度对齐无需仔细标注了！淘天提出视觉锚定奖励，自我校准实现多模态对齐

细粒度对齐无需仔细标注了！淘天提出视觉锚定奖励，自我校准实现多模态对齐

近年来，视觉大模型（Large Vision Language Models, LVLMs）领域经历了迅猛的发展，这些模型在图像理解、视觉对话以及其他跨模态任务中展现出了卓越的能力。然而，随着 LVLMs 复杂性和能力的增长，「幻觉现象」的挑战也日益凸显。

来自主题: AI技术研报

7042 点击 2025-01-19 14:51

多模态模型免微调接入互联网，即插即用新框架，效果超闭源商用方案

多模态模型免微调接入互联网，即插即用新框架，效果超闭源商用方案

多模态模型免微调接入互联网，即插即用新框架，效果超闭源商用方案

一个5月份完成训练的大模型，无法对《黑神话·悟空》游戏内容相关问题给出准确回答。

来自主题: AI技术研报

4373 点击 2024-11-10 14:40

让视觉语言模型搞空间推理，谷歌又整新活了

让视觉语言模型搞空间推理，谷歌又整新活了

让视觉语言模型搞空间推理，谷歌又整新活了

视觉语言模型虽然强大，但缺乏空间推理能力，最近 Google 的新论文说它的 SpatialVLM 可以做，看看他们是怎么做的。

来自主题: AI技术研报

8806 点击 2024-02-18 15:10

上一页当前第1页,共2页下一页