用视觉来做Prompt!沈向洋展示IDEA研究院新模型,无需训练或微调,开箱即用
用视觉来做Prompt!沈向洋展示IDEA研究院新模型,无需训练或微调,开箱即用用视觉来做Prompt!沈向洋展示IDEA研究院新模型,无需训练或微调,开箱即用
来自主题: AI技术研报
5817 点击 2023-11-25 22:27
用视觉来做Prompt!沈向洋展示IDEA研究院新模型,无需训练或微调,开箱即用
最近,来自北京大学等机构研究者提出了一种全新视觉语言大模型——Video-LLaVA,使得LLM能够同时接收图片和视频为输入。Video-LlaVA在下游任务中取得了卓越的性能,并在图片、视频的13个基准上达到先进的性能。这个结果表明,统一LLM的输入能让LLM的视觉理解能力提升。
最近,智源、清华和北大联合发布了全新的10亿参数的3D视觉通用模型——Uni3D,在主流3D视觉能力上取得了全方位的性能突出!