
用GPT-3.5生成数据集!北大天工等团队图像编辑新SOTA,可精准模拟物理世界场景
用GPT-3.5生成数据集!北大天工等团队图像编辑新SOTA,可精准模拟物理世界场景高质量图像编辑的方法有很多,但都很难准确表达出真实的物理世界。 那么,Edit the World试试。
高质量图像编辑的方法有很多,但都很难准确表达出真实的物理世界。 那么,Edit the World试试。
目标检测领域,迎来了新进展—— Grounding DINO 1.5,IDEA研究院团队出品,在端侧就可实现实时识别。
前有OpenAI的GPT-4o,后有谷歌的系列王炸,先进的多模态大模型接连炸场。
视觉语言模型屡屡出现新突破,但ViT仍是图像编码器的首选网络结构。
在AI生成音乐这件事上,即使是像Suno、Udio这样掀起热潮的玩家,也同Sora一样,并没有公开其背后的技术细节内容。
就在刚刚,Meta官网上新,官宣了Llama 3 80亿和700亿参数版本
前段时间,X 平台知名 AI 博主 Aran Komatsuzaki 自己写了一首歌,专门用来表达对另一位 AI 科学家 ——Gary Marcus 的不满
来自Meta、基于Llama2,可是开源界最先进的AI编程大模型之作
秒懂视频的AI诞生了!KAUST和哈佛大学研究团队提出MiniGPT4-Video框架,不仅能理解复杂视频,甚至还能作诗配文。
多模态大型语言模型进展如何?盘点 26 个当前最佳多模态大型语言模型。