AI资讯新闻榜单内容搜索-多模态大模型

PixelRefer ：让AI从“看大图”走向“看懂每个对象”

多模态大模型（MLLMs）虽然在图像理解、视频分析上表现出色，但多停留在整体场景级理解。

来自主题: AI技术研报

10515 点击 2025-11-11 09:50

在 AI 技术飞速发展的今天，如何高效地将多个专业模型的能力融合到一个通用模型中，是当前大模型应用面临的关键挑战。全量微调领域已经有许多开创性的工作，但是在高效微调领域，尚未有对模型合并范式清晰的指引。

来自主题: AI技术研报

7423 点击 2025-11-10 14:25

本文来自于香港中文大学 MMLab 和 vivo AI Lab，其中论文第一作者肖涵，主要研究方向为多模态大模型和智能体学习，合作作者王国志，研究方向为多模态大模型和 Agent 强化学习。项目 le

来自主题: AI技术研报

6910 点击 2025-11-08 11:00

人类之所以能与复杂的物理世界高效互动，很大程度上源于对「工具」的使用、理解与创造能力。对任何通用型智能体而言，这同样是不可或缺的基本技能，对物理工具的使用会大大影响任务的成功率与效率。

来自主题: AI技术研报

10423 点击 2025-11-05 09:57

多模态大模型（MLLM）在自然图像上已取得显著进展，但当问题落在图表、几何草图、科研绘图等结构化图像上时，细小的感知误差会迅速放大为推理偏差。

来自主题: AI技术研报

7023 点击 2025-11-03 14:20

在科幻作品描绘的未来，人工智能不仅仅是完成任务的工具，更是为人类提供情感陪伴与生活支持的伙伴。在实现这一愿景的探索中，多模态大模型已展现出一定潜力，可以接受视觉、语音等多模态的信息输入，结合上下文做出反馈。

来自主题: AI技术研报

7218 点击 2025-10-24 10:51

随着多模态大模型的不断演进，指令引导的图像编辑（Instruction-guided Image Editing）技术取得了显著进展。然而，现有模型在遵循复杂、精细的文本指令方面仍面临巨大挑战，往往需要用户进行多次尝试和手动筛选，难以实现稳定、高质量的「一步到位」式编辑。

来自主题: AI技术研报

9787 点击 2025-10-23 12:28

近年来，大语言模型（LLMs）以及多模态大模型（MLLMs）在多种场景理解和复杂推理任务中取得突破性进展。

来自主题: AI技术研报

6159 点击 2025-10-21 15:53

多模态大模型在根据静态截图生成网页代码（Image-to-Code）方面已展现出不俗能力，这让许多人对AI自动化前端开发充满期待。

来自主题: AI技术研报

7210 点击 2025-10-20 14:57

多模态大模型表现越来越惊艳，但人们也时常困于它的“耿直”。

来自主题: AI技术研报

8104 点击 2025-10-20 12:13