AI资讯新闻榜单内容搜索-视觉模型

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
搜索: 视觉模型
沈向洋,发了一个可以识别万物的大模型

沈向洋,发了一个可以识别万物的大模型

沈向洋,发了一个可以识别万物的大模型

视觉模型仍是IDEA的研究重点——IDEA正式发布的最新通用视觉大模型DINO-X,可以拥有真正的物体级别理解能力。

来自主题: AI资讯
8213 点击    2024-11-23 23:16
国产地表最强视频模型震惊歪果仁,官方现场摇人30s直出!视觉模型进入上下文时代

国产地表最强视频模型震惊歪果仁,官方现场摇人30s直出!视觉模型进入上下文时代

国产地表最强视频模型震惊歪果仁,官方现场摇人30s直出!视觉模型进入上下文时代

全球首个支持多主体一致性的多模态模型,刚刚诞生!Vidu 1.5一上线,全网网友都震惊了:LLM独有的上下文学习优势,视觉模型居然也有了。

来自主题: AI资讯
7534 点击    2024-11-14 14:36
TPAMI 2024 | ProCo: 无限contrastive pairs的长尾对比学习

TPAMI 2024 | ProCo: 无限contrastive pairs的长尾对比学习

TPAMI 2024 | ProCo: 无限contrastive pairs的长尾对比学习

本文介绍清华大学的一篇关于长尾视觉识别的论文: Probabilistic Contrastive Learning for Long-Tailed Visual Recognition. 该工作已被 TPAMI 2024 录用,代码已开源。

来自主题: AI技术研报
7135 点击    2024-07-25 18:28
VLM集体「失明」?视力测试惨败,GPT-4o、Claude 3.5全都不及格

VLM集体「失明」?视力测试惨败,GPT-4o、Claude 3.5全都不及格

VLM集体「失明」?视力测试惨败,GPT-4o、Claude 3.5全都不及格

视觉大语言模型在最基础的视觉任务上集体「翻车」,即便是简单的图形识别都能难倒一片,或许这些最先进的VLM还没有发展出真正的视觉能力?

来自主题: AI技术研报
9461 点击    2024-07-16 19:43
豆包大模型团队发布全新Detail Image Caption评估基准,提升VLM Caption评测可靠性

豆包大模型团队发布全新Detail Image Caption评估基准,提升VLM Caption评测可靠性

豆包大模型团队发布全新Detail Image Caption评估基准,提升VLM Caption评测可靠性

当前的视觉语言模型(VLM)主要通过 QA 问答形式进行性能评测,而缺乏对模型基础理解能力的评测,例如 detail image caption 性能的可靠评测手段。

来自主题: AI技术研报
10621 点击    2024-07-13 20:01
MSRA:视觉生成六大技术问题

MSRA:视觉生成六大技术问题

MSRA:视觉生成六大技术问题

文生图、文生视频,视觉生成赛道火热,但仍存在亟需解决的问题。

来自主题: AI技术研报
10496 点击    2024-07-13 18:39