前有OpenAI的GPT-4o,后有谷歌的系列王炸,先进的多模态大模型接连炸场。
前有OpenAI的GPT-4o,后有谷歌的系列王炸,先进的多模态大模型接连炸场。
我们知道,球状星团是一种受引力束缚,成员由几万颗到数百万颗恒星组成的古老星团,在外观上大多呈球形,但也有可能受其他天体系统的引力影响使得形状偏离球形。球状星团的动力学演化过程,星族合成路径等是当今天文学界的研究热点。
视觉模型,同样遵循「参数越多性能越强」的规律?刚刚,一项来自苹果公司的研究验证了这个猜想。
来自MABZUAI和Meta的研究人员发表的最新研究,在「非标准」指标上全面比较了常见的视觉模型。
12月5-6日,主题为“未来AI设计”的美图创造力大会在厦门举行。美图公司发布自研AI视觉大模型MiracleVision(奇想智能)4.0版本,主打AI设计与AI视频。
用视觉来做Prompt!沈向洋展示IDEA研究院新模型,无需训练或微调,开箱即用
最近,来自北京大学等机构研究者提出了一种全新视觉语言大模型——Video-LLaVA,使得LLM能够同时接收图片和视频为输入。Video-LlaVA在下游任务中取得了卓越的性能,并在图片、视频的13个基准上达到先进的性能。这个结果表明,统一LLM的输入能让LLM的视觉理解能力提升。
最近,智源、清华和北大联合发布了全新的10亿参数的3D视觉通用模型——Uni3D,在主流3D视觉能力上取得了全方位的性能突出!