AI资讯新闻榜单内容搜索-MLLM

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
搜索: MLLM
苹果多模态模型大升级!文本密集、多图理解,全能小钢炮

苹果多模态模型大升级!文本密集、多图理解,全能小钢炮

苹果多模态模型大升级!文本密集、多图理解,全能小钢炮

多模态大语言模型(MLLM)如今已是大势所趋。 过去的一年中,闭源阵营的GPT-4o、GPT-4V、Gemini-1.5和Claude-3.5等模型引领了时代。

来自主题: AI资讯
4154 点击    2024-10-14 09:50
长短大小样样精通!原始分辨率、超长视频输入:更灵活的全开源多模态架构Oryx

长短大小样样精通!原始分辨率、超长视频输入:更灵活的全开源多模态架构Oryx

长短大小样样精通!原始分辨率、超长视频输入:更灵活的全开源多模态架构Oryx

视觉数据的种类极其多样,囊括像素级别的图标到数小时的视频。现有的多模态大语言模型(MLLM)通常将视觉输入进行分辨率的标准化或进行动态切分等操作,以便视觉编码器处理。然而,这些方法对多模态理解并不理想,在处理不同长度的视觉输入时效率较低。

来自主题: AI资讯
3370 点击    2024-09-29 14:44
首个Mamba+Transformer混合架构多模态大模型来了,实现单卡千图推理

首个Mamba+Transformer混合架构多模态大模型来了,实现单卡千图推理

首个Mamba+Transformer混合架构多模态大模型来了,实现单卡千图推理

扩展多模态大语言模型(MLLMs)的长上下文能力对于视频理解、高分辨率图像理解以及多模态智能体至关重要。这涉及一系列系统性的优化,包括模型架构、数据构建和训练策略,尤其要解决诸如随着图像增多性能下降以及高计算成本等挑战。

来自主题: AI技术研报
7871 点击    2024-09-21 18:19
没有等来OpenAI开源GPT-4o,等来了开源版VITA

没有等来OpenAI开源GPT-4o,等来了开源版VITA

没有等来OpenAI开源GPT-4o,等来了开源版VITA

大语言模型 (LLM) 经历了重大的演变,最近,我们也目睹了多模态大语言模型 (MLLM) 的蓬勃发展,它们表现出令人惊讶的多模态能力。 特别是,GPT-4o 的出现显著推动了 MLLM 领域的发展。然而,与这些模型相对应的开源模型却明显不足。开源社区迫切需要进一步促进该领域的发展,这一点怎么强调也不为过。

来自主题: AI资讯
7900 点击    2024-08-14 17:38
ECCV 2024|是真看到了,还是以为自己看到了?多模态大模型对文本预训练知识的过度依赖该解决了

ECCV 2024|是真看到了,还是以为自己看到了?多模态大模型对文本预训练知识的过度依赖该解决了

ECCV 2024|是真看到了,还是以为自己看到了?多模态大模型对文本预训练知识的过度依赖该解决了

随着大型语言模型(LLMs)的进步,多模态大型语言模型(MLLMs)迅速发展。它们使用预训练的视觉编码器处理图像,并将图像与文本信息一同作为 Token 嵌入输入至 LLMs,从而扩展了模型处理图像输入的对话能力。这种能力的提升为自动驾驶和医疗助手等多种潜在应用领域带来了可能性。

来自主题: AI技术研报
8706 点击    2024-07-27 19:33
清华领衔发布多模态评估MultiTrust:GPT-4可信度有几何?

清华领衔发布多模态评估MultiTrust:GPT-4可信度有几何?

清华领衔发布多模态评估MultiTrust:GPT-4可信度有几何?

以GPT-4o为代表的多模态大语言模型(MLLMs)因其在语言、图像等多种模态上的卓越表现而备受瞩目。它们不仅在日常工作中成为用户的得力助手,还逐渐渗透到自动驾驶、医学诊断等各大应用领域,掀起了一场技术革命。

来自主题: AI技术研报
9068 点击    2024-07-24 17:03
ECCV 2024 | 提升GPT-4V、Gemini检测任务性能,你需要这种提示范式

ECCV 2024 | 提升GPT-4V、Gemini检测任务性能,你需要这种提示范式

ECCV 2024 | 提升GPT-4V、Gemini检测任务性能,你需要这种提示范式

多模态大模型(Multimodal Large Language Models,MLLMs)在不同的任务中表现出了令人印象深刻的能力,尽管如此,这些模型在检测任务中的潜力仍被低估。

来自主题: AI技术研报
10340 点击    2024-07-22 14:58
LeCun谢赛宁首发全新视觉多模态模型,等效1000张A100干翻GPT-4V

LeCun谢赛宁首发全新视觉多模态模型,等效1000张A100干翻GPT-4V

LeCun谢赛宁首发全新视觉多模态模型,等效1000张A100干翻GPT-4V

近日,LeCun和谢赛宁等大佬,共同提出了这一种全新的SOTA MLLM——Cambrian-1。开创了以视觉为中心的方法来设计多模态模型,同时全面开源了模型权重、代码、数据集,以及详细的指令微调和评估方法。

来自主题: AI资讯
3618 点击    2024-06-27 16:22