AI资讯新闻榜单内容搜索-多模态大语言模型

苹果多模态模型大升级！文本密集、多图理解，全能小钢炮

多模态大语言模型（MLLM）如今已是大势所趋。过去的一年中，闭源阵营的GPT-4o、GPT-4V、Gemini-1.5和Claude-3.5等模型引领了时代。

来自主题: AI资讯

5125 点击 2024-10-14 09:50

长短大小样样精通！原始分辨率、超长视频输入：更灵活的全开源多模态架构Oryx

视觉数据的种类极其多样，囊括像素级别的图标到数小时的视频。现有的多模态大语言模型（MLLM）通常将视觉输入进行分辨率的标准化或进行动态切分等操作，以便视觉编码器处理。然而，这些方法对多模态理解并不理想，在处理不同长度的视觉输入时效率较低。

来自主题: AI资讯

4173 点击 2024-09-29 14:44

首个Mamba+Transformer混合架构多模态大模型来了，实现单卡千图推理

扩展多模态大语言模型（MLLMs）的长上下文能力对于视频理解、高分辨率图像理解以及多模态智能体至关重要。这涉及一系列系统性的优化，包括模型架构、数据构建和训练策略，尤其要解决诸如随着图像增多性能下降以及高计算成本等挑战。

来自主题: AI技术研报

8859 点击 2024-09-21 18:19

ECCV 2024 | 比基准高30%，媲美Gemini 1.5 Pro，基于记忆的视频理解智能体来了

视频理解仍然是计算机视觉和人工智能领域的一个主要挑战。最近在视频理解上的许多进展都是通过端到端地训练多模态大语言模型实现的[1,2,3]。然而，当这些模型处理较长的视频时，内存消耗可能会显著增加，甚至变得难以承受，并且自注意力机制有时可能难以捕捉长程关系 [4]。这些问题阻碍了将端到端模型进一步应用于视频理解。

来自主题: AI技术研报

9155 点击 2024-09-06 11:59

情感分析的终极形态：全景式细粒度多模态对话情感分析基准PanoSent

罗盟，本工作的第一作者。新加坡国立大学（NUS）人工智能专业准博士生，本科毕业于武汉大学。主要研究方向为多模态大语言模型和 Social AI、Human-eccentric AI。

来自主题: AI技术研报

6652 点击 2024-08-31 10:14

没有等来OpenAI开源GPT-4o，等来了开源版VITA

大语言模型 (LLM) 经历了重大的演变，最近，我们也目睹了多模态大语言模型 (MLLM) 的蓬勃发展，它们表现出令人惊讶的多模态能力。特别是，GPT-4o 的出现显著推动了 MLLM 领域的发展。然而，与这些模型相对应的开源模型却明显不足。开源社区迫切需要进一步促进该领域的发展，这一点怎么强调也不为过。

来自主题: AI资讯

8787 点击 2024-08-14 17:38

21.5万张X光，78万个问题！德州大学NIH等联合发布医学视觉问答数据集Medical-CXR-VQA

多模态大语言模型 (Multimodal Large Language Moodel, MLLM) 以其强大的语言理解能力和生成能力，在各个领域取得了巨大成功。

来自主题: AI资讯

7418 点击 2024-08-10 12:03

清华领衔发布多模态评估MultiTrust：GPT-4可信度有几何？

以GPT-4o为代表的多模态大语言模型（MLLMs）因其在语言、图像等多种模态上的卓越表现而备受瞩目。它们不仅在日常工作中成为用户的得力助手，还逐渐渗透到自动驾驶、医学诊断等各大应用领域，掀起了一场技术革命。

来自主题: AI技术研报

9709 点击 2024-07-24 17:03

首个视频思维链推理框架Video-of-Thought来了：像人一样从感知到认知全面推理视频

最近，新加坡国立大学联合南洋理工大学和哈工深的研究人员共同提出了一个全新的视频推理框架，这也是首次大模型推理社区提出的面向视频的思维链框架（Video-of-Thought， VoT）。视频思维链VoT让视频多模态大语言模型在复杂视频的理解和推理性能上大幅提升。该工作已被ICML 2024录用为Oral paper。

来自主题: AI技术研报

11021 点击 2024-07-12 17:54

让大模型理解手机屏幕，苹果多模态Ferret-UI用自然语言操控手机

此次，苹果提出的多模态大语言模型（MLLM） Ferret-UI ，专门针对移动用户界面（UI）屏幕的理解进行了优化，其具备引用、定位和推理能力。

来自主题: AI技术研报

6443 点击 2024-05-20 18:56