
将多模态大模型稀疏化,3B模型MoE-LLaVA媲美LLaVA-1.5-7B
将多模态大模型稀疏化,3B模型MoE-LLaVA媲美LLaVA-1.5-7B对于大型视觉语言模型(LVLM)而言,扩展模型可以有效提高模型性能。然而,扩大参数规模会显著增加训练和推理成本,因为计算中每个 token 都会激活所有模型参数。
对于大型视觉语言模型(LVLM)而言,扩展模型可以有效提高模型性能。然而,扩大参数规模会显著增加训练和推理成本,因为计算中每个 token 都会激活所有模型参数。
动态视觉分词统一图文表示,快手与北大合作提出基座模型 LaVIT 刷榜多模态理解与生成任务。
近期,随着多模态大模型(LMM) 的能力不断进步,评估 LMM 性能的需求也日益增长。与此同时,在中文环境下评估 LMM 的高级知识和推理能力的重要性更加突出。
一款名为Vary-toy的“年轻人的第一个多模态大模型”来了!模型大小不到2B,消费级显卡可训练,GTX1080ti 8G的老显卡轻松运行。
通义千问的图像推理能力,最近有了大幅提升。
多模态大模型将是AI下一个爆点。最近,通义千问VLM模型换新升级,超大杯性能堪比GPT-4V。最最重要的是,还能限时免费用。
领跑中英文两大权威榜单,李开复零一万物交出多模态大模型答卷!
能处理音乐的多模态大模型,终于出现了!
Sam Altman认为AGI很快就会降临,但若是没有感官兼备的AI何以称为智能?最近,UCLA等机构研究人员提出多模态具身智能大模型MultiPLY,AI可以知冷知热、辨音识物。
多模态大模型GPT-4V也会「有眼无珠」。UC San Diego纽约大学研究人员提出全新V*视觉搜索算法逆转LLM弱视觉宿命。