目标检测领域,迎来了新进展—— Grounding DINO 1.5,IDEA研究院团队出品,在端侧就可实现实时识别。
目标检测领域,迎来了新进展—— Grounding DINO 1.5,IDEA研究院团队出品,在端侧就可实现实时识别。
前有OpenAI的GPT-4o,后有谷歌的系列王炸,先进的多模态大模型接连炸场。
视觉语言模型屡屡出现新突破,但ViT仍是图像编码器的首选网络结构。
在AI生成音乐这件事上,即使是像Suno、Udio这样掀起热潮的玩家,也同Sora一样,并没有公开其背后的技术细节内容。
就在刚刚,Meta官网上新,官宣了Llama 3 80亿和700亿参数版本
前段时间,X 平台知名 AI 博主 Aran Komatsuzaki 自己写了一首歌,专门用来表达对另一位 AI 科学家 ——Gary Marcus 的不满
来自Meta、基于Llama2,可是开源界最先进的AI编程大模型之作
秒懂视频的AI诞生了!KAUST和哈佛大学研究团队提出MiniGPT4-Video框架,不仅能理解复杂视频,甚至还能作诗配文。
多模态大型语言模型进展如何?盘点 26 个当前最佳多模态大型语言模型。
最近来自浙江大学ReLER实验室的研究人员提出SIFU模型,一种侧视图条件隐函数模型用于单张图片3D人体重建。模型通过引入人体侧视图作为先验条件,并结合扩散模型进行纹理增强,在几何与纹理重建测试中均达到SOTA,并且在真实世界中具有多种应用场景。