AI TNT— 让一部分先用AI实现商业化

现在，长上下文视觉语言模型（VLM）有了新的全栈解决方案 ——LongVILA，它集系统、模型训练与数据集开发于一体。

来自主题: AI技术研报

8844 点击 2024-08-21 14:20

LLM的数学推理能力缺陷得到了很多研究的关注，但最近浙大、中科院等机构的学者们提出，先进模型在视觉推理方面同样不足。为此他们提出了一种多模态的视觉推理基准，并设计了一种新颖的数据合成方法。

来自主题: AI技术研报

8013 点击 2024-08-08 14:41

也许视觉模型离AGI更近。

来自主题: AI资讯

6981 点击 2024-08-08 10:01

本文介绍清华大学的一篇关于长尾视觉识别的论文: Probabilistic Contrastive Learning for Long-Tailed Visual Recognition. 该工作已被 TPAMI 2024 录用，代码已开源。

来自主题: AI技术研报

4995 点击 2024-07-25 18:28

近年来，随着大语言模型 (LLM) 的发展，构建检索增强生成 (RAG) 解决方案成为了一个热门话题。RAG 将 LLM 的强大功能与检索模型结合，应用于专有知识数据库。然而，对于开发人员来说，一个主要挑战是将各种文档格式（如 PDF、HTML 等）转换为可供文本模型处理的格式。

来自主题: AI技术研报

8172 点击 2024-07-21 14:12

视觉大语言模型在最基础的视觉任务上集体「翻车」，即便是简单的图形识别都能难倒一片，或许这些最先进的VLM还没有发展出真正的视觉能力？

来自主题: AI技术研报

8177 点击 2024-07-16 19:43

当前的视觉语言模型（VLM）主要通过 QA 问答形式进行性能评测，而缺乏对模型基础理解能力的评测，例如 detail image caption 性能的可靠评测手段。

来自主题: AI技术研报

8691 点击 2024-07-13 20:01

文生图、文生视频，视觉生成赛道火热，但仍存在亟需解决的问题。

来自主题: AI技术研报

9037 点击 2024-07-13 18:39

下一代视觉模型会摒弃patch吗？Meta AI最近发表的一篇论文就质疑了视觉模型中局部关系的必要性。他们提出了PiT架构，让Transformer直接学习单个像素而不是16×16的patch，结果在多个下游任务中取得了全面超越ViT模型的性能。

来自主题: AI技术研报

3935 点击 2024-07-09 16:03

当前的多模态和多任务基础模型，如 4M 或 UnifiedIO，显示出有希望的结果。然而，它们接受不同输入和执行不同任务的开箱即用能力，受到它们接受训练的模态和任务的数量（通常很少）的限制。

来自主题: AI技术研报

7999 点击 2024-06-25 18:22