AI资讯新闻榜单内容搜索-多模态大模型

字节最强多模态模型登陆火山引擎！Seed1.5-VL靠20B激活参数狂揽38项SOTA

字节拿出了国际顶尖水平的视觉–语言多模态大模型。

来自主题: AI资讯

11542 点击 2025-05-14 16:23

在多模态大模型快速发展的当下，如何精准评估其生成内容的质量，正成为多模态大模型与人类偏好对齐的核心挑战。然而，当前主流多模态奖励模型往往只能直接给出评分决策，或仅具备浅层推理能力，缺乏对复杂奖励任务的深入理解与解释能力，在高复杂度场景中常出现 “失真失准”。

来自主题: AI技术研报

10397 点击 2025-05-14 11:01

当前，多模态大模型驱动的图形用户界面（GUI）智能体在自动化手机、电脑操作方面展现出巨大潜力。然而，一些现有智能体更类似于「反应式行动者」（Reactive Actors），主要依赖隐式推理，面对需要复杂规划和错误恢复的任务时常常力不从心。

来自主题: AI技术研报

8562 点击 2025-05-02 20:21

多模态大模型（MLLMs）在视觉理解与推理等领域取得了显著成就。然而，随着解码（decoding）阶段不断生成新的 token，推理过程的计算复杂度和 GPU 显存占用逐渐增加，这导致了多模态大模型推理效率的降低。

来自主题: AI技术研报

7679 点击 2025-04-29 14:56

多模态大模型几何解题哪家强？

来自主题: AI技术研报

9382 点击 2025-04-28 17:35

对于AI视觉多模态大模型只关注显著信息这一根本性缺陷，哈工大GiVE实现突破！

来自主题: AI技术研报

7382 点击 2025-04-18 15:13

统一多模态大模型（U-MLLMs）逐渐成为研究热点，近期GPT-4o，Gemini-2.0-flash都展现出了非凡的理解和生成能力，而且还能实现跨模态输入输出，比如图像+文本输入，生成图像或文本。

来自主题: AI技术研报

8592 点击 2025-04-10 10:20

随着视频内容的重要性日益提升，如何处理理解长视频成为多模态大模型面临的关键挑战。长视频理解能力，对于智慧安防、智能体的长期记忆以及多模态深度思考能力有着重要价值。

来自主题: AI技术研报

7400 点击 2025-04-05 14:07

4D LangSplat通过结合多模态大语言模型和动态三维高斯泼溅技术，成功构建了动态语义场，能够高效且精准地完成动态场景下的开放文本查询任务。该方法利用多模态大模型生成物体级的语言描述，并通过状态变化网络实现语义特征的平滑建模，显著提升了动态语义场的建模能力。

来自主题: AI技术研报

4996 点击 2025-04-02 15:05

多模态大模型虽然在视觉理解方面表现出色，但在需要深度数学推理的任务上往往力不从心，尤其是对于参数量较小的模型来说更是如此。

来自主题: AI技术研报

5890 点击 2025-03-19 09:43