AI资讯新闻榜单内容搜索-视觉模型

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
搜索: 视觉模型
深度 | Luma AI华人首席科学家Jiaming:AI时代的视觉革命

深度 | Luma AI华人首席科学家Jiaming:AI时代的视觉革命

深度 | Luma AI华人首席科学家Jiaming:AI时代的视觉革命

Jiaming Song详细介绍了Diffusion模型在视觉生成领域的前沿研究,强调其在提升生成视觉模型质量中的关键作用。他分享了自己从斯坦福大学的博士研究到加入NVIDIA和Luma AI的历程,展示了如何将贝叶斯非参数模型的知识应用到生成式AI中,推动了视觉模型在生成质量和速度上的显著提升。

来自主题: AI资讯
5602 点击    2024-11-24 19:48
沈向洋,发了一个可以识别万物的大模型

沈向洋,发了一个可以识别万物的大模型

沈向洋,发了一个可以识别万物的大模型

视觉模型仍是IDEA的研究重点——IDEA正式发布的最新通用视觉大模型DINO-X,可以拥有真正的物体级别理解能力。

来自主题: AI资讯
6964 点击    2024-11-23 23:16
国产地表最强视频模型震惊歪果仁,官方现场摇人30s直出!视觉模型进入上下文时代

国产地表最强视频模型震惊歪果仁,官方现场摇人30s直出!视觉模型进入上下文时代

国产地表最强视频模型震惊歪果仁,官方现场摇人30s直出!视觉模型进入上下文时代

全球首个支持多主体一致性的多模态模型,刚刚诞生!Vidu 1.5一上线,全网网友都震惊了:LLM独有的上下文学习优势,视觉模型居然也有了。

来自主题: AI资讯
6152 点击    2024-11-14 14:36
TPAMI 2024 | ProCo: 无限contrastive pairs的长尾对比学习

TPAMI 2024 | ProCo: 无限contrastive pairs的长尾对比学习

TPAMI 2024 | ProCo: 无限contrastive pairs的长尾对比学习

本文介绍清华大学的一篇关于长尾视觉识别的论文: Probabilistic Contrastive Learning for Long-Tailed Visual Recognition. 该工作已被 TPAMI 2024 录用,代码已开源。

来自主题: AI技术研报
5575 点击    2024-07-25 18:28
VLM集体「失明」?视力测试惨败,GPT-4o、Claude 3.5全都不及格

VLM集体「失明」?视力测试惨败,GPT-4o、Claude 3.5全都不及格

VLM集体「失明」?视力测试惨败,GPT-4o、Claude 3.5全都不及格

视觉大语言模型在最基础的视觉任务上集体「翻车」,即便是简单的图形识别都能难倒一片,或许这些最先进的VLM还没有发展出真正的视觉能力?

来自主题: AI技术研报
8634 点击    2024-07-16 19:43
豆包大模型团队发布全新Detail Image Caption评估基准,提升VLM Caption评测可靠性

豆包大模型团队发布全新Detail Image Caption评估基准,提升VLM Caption评测可靠性

豆包大模型团队发布全新Detail Image Caption评估基准,提升VLM Caption评测可靠性

当前的视觉语言模型(VLM)主要通过 QA 问答形式进行性能评测,而缺乏对模型基础理解能力的评测,例如 detail image caption 性能的可靠评测手段。

来自主题: AI技术研报
9466 点击    2024-07-13 20:01