AI资讯新闻榜单内容搜索-LVLM

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
AITNT-国内领先的一站式人工智能新闻资讯网站 搜索
搜索: LVLM
武大等发布大型视觉语言模型最新安全综述:全面分类攻击策略、防御机制和评估方法

武大等发布大型视觉语言模型最新安全综述:全面分类攻击策略、防御机制和评估方法

武大等发布大型视觉语言模型最新安全综述:全面分类攻击策略、防御机制和评估方法

武汉大学等发布了一篇大型视觉语言模型(LVLMs)安全性的综述论文,提出了一个系统性的安全分类框架,涵盖攻击、防御和评估,并对最新模型DeepSeek Janus-Pro进行了安全性测试,发现其在安全性上存在明显短板。

来自主题: AI技术研报
6405 点击    2025-03-11 16:32
细粒度对齐无需仔细标注了!淘天提出视觉锚定奖励,自我校准实现多模态对齐

细粒度对齐无需仔细标注了!淘天提出视觉锚定奖励,自我校准实现多模态对齐

细粒度对齐无需仔细标注了!淘天提出视觉锚定奖励,自我校准实现多模态对齐

近年来,视觉大模型(Large Vision Language Models, LVLMs)领域经历了迅猛的发展,这些模型在图像理解、视觉对话以及其他跨模态任务中展现出了卓越的能力。然而,随着 LVLMs 复杂性和能力的增长,「幻觉现象」的挑战也日益凸显。

来自主题: AI技术研报
5707 点击    2025-01-19 14:51
让视觉语言模型搞空间推理,谷歌又整新活了

让视觉语言模型搞空间推理,谷歌又整新活了

让视觉语言模型搞空间推理,谷歌又整新活了

视觉语言模型虽然强大,但缺乏空间推理能力,最近 Google 的新论文说它的 SpatialVLM 可以做,看看他们是怎么做的。

来自主题: AI技术研报
7905 点击    2024-02-18 15:10
年轻人的第一个多模态大模型:1080Ti轻松运行,已开源在线可玩

年轻人的第一个多模态大模型:1080Ti轻松运行,已开源在线可玩

年轻人的第一个多模态大模型:1080Ti轻松运行,已开源在线可玩

一款名为Vary-toy的“年轻人的第一个多模态大模型”来了!模型大小不到2B,消费级显卡可训练,GTX1080ti 8G的老显卡轻松运行。

来自主题: AI技术研报
2896 点击    2024-01-27 12:19
多模态物体幻觉下降23%!UNC斯坦福等推出通用修正器LURE:兼容任意LVLM,专攻三大幻觉成因

多模态物体幻觉下降23%!UNC斯坦福等推出通用修正器LURE:兼容任意LVLM,专攻三大幻觉成因

多模态物体幻觉下降23%!UNC斯坦福等推出通用修正器LURE:兼容任意LVLM,专攻三大幻觉成因

基于LVLM幻觉频发的三个成因(物体共现、物体不确定性、物体位置),北卡教堂山、斯坦福、哥大、罗格斯等大学的研究人员提出幻觉修正器LURE,通过修改描述来降低幻觉问题。

来自主题: AI技术研报
4769 点击    2023-11-06 23:15