AI资讯新闻榜单内容搜索-北大视觉模型

# 热门搜索 #

大模型

人工智能

openai

融资

chatGPT

搜索: 北大视觉模型

提前对齐，视频问答新SOTA！北大全新Video-LLaVA视觉语言大模型，秒懂视频笑点

最近，来自北京大学等机构研究者提出了一种全新视觉语言大模型——Video-LLaVA，使得LLM能够同时接收图片和视频为输入。Video-LlaVA在下游任务中取得了卓越的性能，并在图片、视频的13个基准上达到先进的性能。这个结果表明，统一LLM的输入能让LLM的视觉理解能力提升。

来自主题: AI技术研报

7094 点击 2023-11-24 15:10