多模态大型语言模型进展如何?盘点 26 个当前最佳多模态大型语言模型。
多模态大型语言模型进展如何?盘点 26 个当前最佳多模态大型语言模型。
最近来自浙江大学ReLER实验室的研究人员提出SIFU模型,一种侧视图条件隐函数模型用于单张图片3D人体重建。模型通过引入人体侧视图作为先验条件,并结合扩散模型进行纹理增强,在几何与纹理重建测试中均达到SOTA,并且在真实世界中具有多种应用场景。
如何从一段视频中找出感兴趣的片段?时序行为检测(Temporal Action Localization,TAL)是一种常用方法。过去TAL中的建模是片段甚至实例级的,而现在只要视频里的一帧就能实现,效果媲美全监督。
一句话定位视频片段
OpenAI GPT-4V 和 Google Gemini 都展现了非常强的多模态理解能力,推动了多模态大模型(MLLM)快速发展,MLLM 成为了现在业界最热的研究方向。
论AI是否能实现资本与企业所期待的目标,它都已然是旅游行业中不可分割的一部分。
继谷歌DeepMind AI工具成功预测出220万种晶体结构后,微软团队最新扩散模型MatterGen,能设计生成新颖、稳定的材料,刷新SOTA。
最近,来自北京大学等机构研究者提出了一种全新视觉语言大模型——Video-LLaVA,使得LLM能够同时接收图片和视频为输入。Video-LlaVA在下游任务中取得了卓越的性能,并在图片、视频的13个基准上达到先进的性能。这个结果表明,统一LLM的输入能让LLM的视觉理解能力提升。
马腾宇透露,他带领团队打造了目前最好的嵌入模型,比OpenAI的还要好。此外,还会提供专注于某个领域或企业的定制化模型。
上海交大生成式人工智能研究组 (GAIR) 积极攻克难关,研发并开源了数学计算大模型 “阿贝尔(Abel)”,在多个榜单上取得开源第一!是首个海内外高校团队推出的 SOTA 数学开源大模型。