AI资讯新闻榜单内容搜索-MLLM

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
搜索: MLLM
ECCV 2024|是真看到了,还是以为自己看到了?多模态大模型对文本预训练知识的过度依赖该解决了

ECCV 2024|是真看到了,还是以为自己看到了?多模态大模型对文本预训练知识的过度依赖该解决了

ECCV 2024|是真看到了,还是以为自己看到了?多模态大模型对文本预训练知识的过度依赖该解决了

随着大型语言模型(LLMs)的进步,多模态大型语言模型(MLLMs)迅速发展。它们使用预训练的视觉编码器处理图像,并将图像与文本信息一同作为 Token 嵌入输入至 LLMs,从而扩展了模型处理图像输入的对话能力。这种能力的提升为自动驾驶和医疗助手等多种潜在应用领域带来了可能性。

来自主题: AI技术研报
8385 点击    2024-07-27 19:33
清华领衔发布多模态评估MultiTrust:GPT-4可信度有几何?

清华领衔发布多模态评估MultiTrust:GPT-4可信度有几何?

清华领衔发布多模态评估MultiTrust:GPT-4可信度有几何?

以GPT-4o为代表的多模态大语言模型(MLLMs)因其在语言、图像等多种模态上的卓越表现而备受瞩目。它们不仅在日常工作中成为用户的得力助手,还逐渐渗透到自动驾驶、医学诊断等各大应用领域,掀起了一场技术革命。

来自主题: AI技术研报
8676 点击    2024-07-24 17:03
ECCV 2024 | 提升GPT-4V、Gemini检测任务性能,你需要这种提示范式

ECCV 2024 | 提升GPT-4V、Gemini检测任务性能,你需要这种提示范式

ECCV 2024 | 提升GPT-4V、Gemini检测任务性能,你需要这种提示范式

多模态大模型(Multimodal Large Language Models,MLLMs)在不同的任务中表现出了令人印象深刻的能力,尽管如此,这些模型在检测任务中的潜力仍被低估。

来自主题: AI技术研报
9819 点击    2024-07-22 14:58
LeCun谢赛宁首发全新视觉多模态模型,等效1000张A100干翻GPT-4V

LeCun谢赛宁首发全新视觉多模态模型,等效1000张A100干翻GPT-4V

LeCun谢赛宁首发全新视觉多模态模型,等效1000张A100干翻GPT-4V

近日,LeCun和谢赛宁等大佬,共同提出了这一种全新的SOTA MLLM——Cambrian-1。开创了以视觉为中心的方法来设计多模态模型,同时全面开源了模型权重、代码、数据集,以及详细的指令微调和评估方法。

来自主题: AI资讯
3151 点击    2024-06-27 16:22
港大字节提出多模态大模型新范式,模拟人类先感知后认知,精确定位图中物体

港大字节提出多模态大模型新范式,模拟人类先感知后认知,精确定位图中物体

港大字节提出多模态大模型新范式,模拟人类先感知后认知,精确定位图中物体

当前,多模态大模型 (MLLM)在多项视觉任务上展现出了强大的认知理解能力。 然而大部分多模态大模型局限于单向的图像理解,难以将理解的内容映射回图像上。 比如,模型能轻易说出图中有哪些物体,但无法将物体在图中准确标识出来。 定位能力的缺失直接限制了多模态大模型在图像编辑,自动驾驶,机器人控制等下游领域的应用。针对这一问题,港大和字节跳动商业化团队的研究人员提出了一种新范式Groma

来自主题: AI资讯
8225 点击    2024-05-27 16:31
ChemLLM化学大模型开源,wisemodel社区在线体验,助力化学研究

ChemLLM化学大模型开源,wisemodel社区在线体验,助力化学研究

ChemLLM化学大模型开源,wisemodel社区在线体验,助力化学研究

ChemLLM系列模型是由上海人工智能实验室开发的首个兼备推理、对话等通用能力和化学专业能力的开源大模型。相比于现有的其他大模型,ChemLLM对化学空间进行了有效建模,在产物预测、名称转化和化学性质预测等核心化学任务上表现优异。ChemLLM系列模型已经发布到了始智AI wisemodel.cn开源社区,并且无需任何代码,两步即可完成模型的在线体验。

来自主题: AI资讯
9038 点击    2024-05-27 09:09
让大模型理解手机屏幕,苹果多模态Ferret-UI用自然语言操控手机

让大模型理解手机屏幕,苹果多模态Ferret-UI用自然语言操控手机

让大模型理解手机屏幕,苹果多模态Ferret-UI用自然语言操控手机

此次,苹果提出的多模态大语言模型(MLLM) Ferret-UI ,专门针对移动用户界面(UI)屏幕的理解进行了优化,其具备引用、定位和推理能力。

来自主题: AI技术研报
5071 点击    2024-05-20 18:56
8B文字多模态大模型指标逼近GPT4V,字节、华师、华科联合提出TextSquare

8B文字多模态大模型指标逼近GPT4V,字节、华师、华科联合提出TextSquare

8B文字多模态大模型指标逼近GPT4V,字节、华师、华科联合提出TextSquare

近期,多模态大模型 (MLLM) 在文本中心的 VQA 领域取得了显著进展,尤其是多个闭源模型,例如:GPT4V 和 Gemini,甚至在某些方面展现了超越人类能力的表现。

来自主题: AI技术研报
9029 点击    2024-04-25 19:32
首个基于Mamba的MLLM来了!模型权重、训练代码等已全部开源

首个基于Mamba的MLLM来了!模型权重、训练代码等已全部开源

首个基于Mamba的MLLM来了!模型权重、训练代码等已全部开源

近年来,多模态大型语言模型(MLLM)在各个领域的应用取得了显著的成功。然而,作为许多下游任务的基础模型,当前的 MLLM 由众所周知的 Transformer 网络构成,这种网络具有较低效的二次计算复杂度。

来自主题: AI技术研报
7289 点击    2024-04-22 17:42