沈向洋,发了一个可以识别万物的大模型
沈向洋,发了一个可以识别万物的大模型视觉模型仍是IDEA的研究重点——IDEA正式发布的最新通用视觉大模型DINO-X,可以拥有真正的物体级别理解能力。
视觉模型仍是IDEA的研究重点——IDEA正式发布的最新通用视觉大模型DINO-X,可以拥有真正的物体级别理解能力。
全球首个支持多主体一致性的多模态模型,刚刚诞生!Vidu 1.5一上线,全网网友都震惊了:LLM独有的上下文学习优势,视觉模型居然也有了。
大模型时代,有个大家普遍焦虑的问题:如何落地?往哪落地?
智谱AI发布新视觉模型,看得懂视频,也看得透网页源代码。
在视觉模型的热潮中,有差异化优势才好生存。
也许视觉模型离AGI更近。
本文介绍清华大学的一篇关于长尾视觉识别的论文: Probabilistic Contrastive Learning for Long-Tailed Visual Recognition. 该工作已被 TPAMI 2024 录用,代码已开源。
视觉大语言模型在最基础的视觉任务上集体「翻车」,即便是简单的图形识别都能难倒一片,或许这些最先进的VLM还没有发展出真正的视觉能力?
当前的视觉语言模型(VLM)主要通过 QA 问答形式进行性能评测,而缺乏对模型基础理解能力的评测,例如 detail image caption 性能的可靠评测手段。
文生图、文生视频,视觉生成赛道火热,但仍存在亟需解决的问题。