AI资讯新闻榜单内容搜索-视觉大模型

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
AITNT-国内领先的一站式人工智能新闻资讯网站 搜索
搜索: 视觉大模型
细粒度对齐无需仔细标注了!淘天提出视觉锚定奖励,自我校准实现多模态对齐

细粒度对齐无需仔细标注了!淘天提出视觉锚定奖励,自我校准实现多模态对齐

细粒度对齐无需仔细标注了!淘天提出视觉锚定奖励,自我校准实现多模态对齐

近年来,视觉大模型(Large Vision Language Models, LVLMs)领域经历了迅猛的发展,这些模型在图像理解、视觉对话以及其他跨模态任务中展现出了卓越的能力。然而,随着 LVLMs 复杂性和能力的增长,「幻觉现象」的挑战也日益凸显。

来自主题: AI技术研报
5681 点击    2025-01-19 14:51
商汤披露:50篇论文入选CVPR 2024

商汤披露:50篇论文入选CVPR 2024

商汤披露:50篇论文入选CVPR 2024

CVPR正在进行中,中国科研力量再次成为场内外焦点之一。

来自主题: AI技术研报
9570 点击    2024-06-20 09:58
原作者带队,LSTM卷土重来之Vision-LSTM出世

原作者带队,LSTM卷土重来之Vision-LSTM出世

原作者带队,LSTM卷土重来之Vision-LSTM出世

与 DeiT 等使用 ViT 和 Vision-Mamba (Vim) 方法的模型相比,ViL 的性能更胜一筹。

来自主题: AI技术研报
8060 点击    2024-06-08 15:55
视觉Mamba模型的Swin时刻,中国科学院、华为等推出VMamba

视觉Mamba模型的Swin时刻,中国科学院、华为等推出VMamba

视觉Mamba模型的Swin时刻,中国科学院、华为等推出VMamba

Transformer 在大模型领域的地位可谓是难以撼动。不过,这个AI 大模型的主流架构在模型规模的扩展和需要处理的序列变长后,局限性也愈发凸显了。Mamba的出现,正在强力改变着这一切。它优秀的性能立刻引爆了AI圈。

来自主题: AI技术研报
7128 点击    2024-01-22 14:43
北大最新多模态大模型开源:在混合数据集上训练,无需修改直接用到图像视频任务

北大最新多模态大模型开源:在混合数据集上训练,无需修改直接用到图像视频任务

北大最新多模态大模型开源:在混合数据集上训练,无需修改直接用到图像视频任务

训完130亿参数通用视觉语言大模型,只需3天!北大和中山大学团队又出招了——在最新研究中,研究团队提出了一种构建统一的图片和视频表征的框架。利用这种框架,可以大大减少VLM(视觉语言大模型)在训练和推理过程中的开销。

来自主题: AI资讯
6073 点击    2023-11-29 15:32
北大视频大模型新SOTA,搞笑抖音视频AI秒懂笑点|开源

北大视频大模型新SOTA,搞笑抖音视频AI秒懂笑点|开源

北大视频大模型新SOTA,搞笑抖音视频AI秒懂笑点|开源

AI能理解搞笑视频笑点在哪里了。北大等团队开源视觉语言大模型Video-LLaVA,将图像和视频表示对齐到统一的视觉特征空间,在13个图片和视频基准上达到先进的性能。

来自主题: AI技术研报
5017 点击    2023-11-21 12:24