AI资讯新闻榜单内容搜索-多模态大模型

# 热门搜索 #

大模型

人工智能

openai

融资

chatGPT

搜索: 多模态大模型

破解多模态大模型“选择困难症”！内部决策机制首次揭秘：在冲突信息间疯狂"振荡"

破解多模态大模型“选择困难症”！内部决策机制首次揭秘：在冲突信息间疯狂"振荡"

破解多模态大模型“选择困难症”！内部决策机制首次揭秘：在冲突信息间疯狂"振荡"

多模态大语言模型（MLLMs）在处理来自图像和文本等多种来源的信息时能力强大。然而，一个关键挑战随之而来：当这些模态呈现相互冲突的信息时（例如，图像显示一辆蓝色汽车，而文本描述它为红色），MLLM必须解决这种冲突。模型最终输出与某一模态信息保持一致的行为，称之为“模态跟随”（modality following）

来自主题: AI技术研报

8780 点击 2025-11-14 13:54

NeurIPS 25开新坑：145万个图文对，覆盖八种主流水下理解任务

NeurIPS 25开新坑：145万个图文对，覆盖八种主流水下理解任务

NeurIPS 25开新坑：145万个图文对，覆盖八种主流水下理解任务

华中科技大学团队推出首个水下多模态大模型NAUTILUS，支持8种水下场景理解任务，并开源145万图文对的NautData数据集。模型通过视觉特征增强模块解决水下图像模糊和颜色失真问题，性能超越现有模型，恶劣环境下表现更佳。

来自主题: AI技术研报

11457 点击 2025-11-12 17:16

打破数据质量鸿沟！清华腾讯Bee项目发布1500万高质量数据集，刷新MLLM全栈开源SOTA

打破数据质量鸿沟！清华腾讯Bee项目发布1500万高质量数据集，刷新MLLM全栈开源SOTA

打破数据质量鸿沟！清华腾讯Bee项目发布1500万高质量数据集，刷新MLLM全栈开源SOTA

全开源多模态大模型（MLLM）的性能，长期被闭源和半开源模型“卡脖子”。

来自主题: AI技术研报

8547 点击 2025-11-11 16:39

PixelRefer ：让AI从“看大图”走向“看懂每个对象”

PixelRefer ：让AI从“看大图”走向“看懂每个对象”

PixelRefer ：让AI从“看大图”走向“看懂每个对象”

多模态大模型（MLLMs）虽然在图像理解、视频分析上表现出色，但多停留在整体场景级理解。

来自主题: AI技术研报

11602 点击 2025-11-11 09:50

NeurIPS2025 Spotlight | RobustMerge: 多模态大模型高效微调模型合并的全新范式

NeurIPS2025 Spotlight | RobustMerge: 多模态大模型高效微调模型合并的全新范式

NeurIPS2025 Spotlight | RobustMerge: 多模态大模型高效微调模型合并的全新范式

在 AI 技术飞速发展的今天，如何高效地将多个专业模型的能力融合到一个通用模型中，是当前大模型应用面临的关键挑战。全量微调领域已经有许多开创性的工作，但是在高效微调领域，尚未有对模型合并范式清晰的指引。

来自主题: AI技术研报

8457 点击 2025-11-10 14:25

vivo AI Lab提出自我进化的移动GUI智能体，UI-Genie无需人工标注实现性能持续提升

vivo AI Lab提出自我进化的移动GUI智能体，UI-Genie无需人工标注实现性能持续提升

vivo AI Lab提出自我进化的移动GUI智能体，UI-Genie无需人工标注实现性能持续提升

本文来自于香港中文大学 MMLab 和 vivo AI Lab，其中论文第一作者肖涵，主要研究方向为多模态大模型和智能体学习，合作作者王国志，研究方向为多模态大模型和 Agent 强化学习。项目 le

来自主题: AI技术研报

8130 点击 2025-11-08 11:00

多模态大模型理解物理工具吗？PhysToolBench提出了衡量多模态大模型对物理工具理解的基准

多模态大模型理解物理工具吗？PhysToolBench提出了衡量多模态大模型对物理工具理解的基准

多模态大模型理解物理工具吗？PhysToolBench提出了衡量多模态大模型对物理工具理解的基准

人类之所以能与复杂的物理世界高效互动，很大程度上源于对「工具」的使用、理解与创造能力。对任何通用型智能体而言，这同样是不可或缺的基本技能，对物理工具的使用会大大影响任务的成功率与效率。

来自主题: AI技术研报

11259 点击 2025-11-05 09:57

大模型如何准确读懂图表？微软亚研院教它“看、动手、推理”

大模型如何准确读懂图表？微软亚研院教它“看、动手、推理”

大模型如何准确读懂图表？微软亚研院教它“看、动手、推理”

多模态大模型（MLLM）在自然图像上已取得显著进展，但当问题落在图表、几何草图、科研绘图等结构化图像上时，细小的感知误差会迅速放大为推理偏差。

来自主题: AI技术研报

7972 点击 2025-11-03 14:20

HumanSense：探索多模态推理边界，打造「察言观色会共情」的全模态交互伙伴

HumanSense：探索多模态推理边界，打造「察言观色会共情」的全模态交互伙伴

HumanSense：探索多模态推理边界，打造「察言观色会共情」的全模态交互伙伴

在科幻作品描绘的未来，人工智能不仅仅是完成任务的工具，更是为人类提供情感陪伴与生活支持的伙伴。在实现这一愿景的探索中，多模态大模型已展现出一定潜力，可以接受视觉、语音等多模态的信息输入，结合上下文做出反馈。

来自主题: AI技术研报

8296 点击 2025-10-24 10:51

智源开源EditScore：为图像编辑解锁在线强化学习的无限可能

智源开源EditScore：为图像编辑解锁在线强化学习的无限可能

智源开源EditScore：为图像编辑解锁在线强化学习的无限可能

随着多模态大模型的不断演进，指令引导的图像编辑（Instruction-guided Image Editing）技术取得了显著进展。然而，现有模型在遵循复杂、精细的文本指令方面仍面临巨大挑战，往往需要用户进行多次尝试和手动筛选，难以实现稳定、高质量的「一步到位」式编辑。

来自主题: AI技术研报

10886 点击 2025-10-23 12:28

上一页当前第5页,共29页下一页