AI资讯新闻榜单内容搜索-多模态

NeurIPS2025 Spotlight | RobustMerge: 多模态大模型高效微调模型合并的全新范式

在 AI 技术飞速发展的今天，如何高效地将多个专业模型的能力融合到一个通用模型中，是当前大模型应用面临的关键挑战。全量微调领域已经有许多开创性的工作，但是在高效微调领域，尚未有对模型合并范式清晰的指引。

来自主题: AI技术研报

7547 点击 2025-11-10 14:25

长视频让大模型集体失明？谢赛宁、杨立昆、李飞飞等提出空间超感知范式，用“预测未来”代替“暴力记忆”

去年，谢赛宁（Saining Xie）团队发布了 Cambrian-1，一次对图像多模态模型的开放式探索。但团队没有按惯例继续推出 Cambrian-2、Cambrian-3，而是停下来思考：真正的多

来自主题: AI技术研报

7671 点击 2025-11-09 10:38

英伟达新架构引爆全模态大模型革命，OmniVinci 9B模型开源下载即破万

OmniVinci是英伟达推出的全模态大模型，能精准解析视频和音频，尤其擅长视觉和听觉信号的时序对齐。它以90亿参数规模，性能超越同级别甚至更高级别模型，训练数据效率是对手的6倍，大幅降低成本。在视频内容理解、语音转录、机器人导航等场景中，OmniVinci能提供高效支持，展现出卓越的多模态应用能力。

来自主题: AI资讯

8107 点击 2025-11-08 11:23

vivo AI Lab提出自我进化的移动GUI智能体，UI-Genie无需人工标注实现性能持续提升

本文来自于香港中文大学 MMLab 和 vivo AI Lab，其中论文第一作者肖涵，主要研究方向为多模态大模型和智能体学习，合作作者王国志，研究方向为多模态大模型和 Agent 强化学习。项目 le

来自主题: AI技术研报

7049 点击 2025-11-08 11:00

具身智能一步踏入Scaling Law！10B+基础模型，27万小时真实数据

当前机器人领域，基础模型主要基于「视觉-语言预训练」，这样可将现有大型多模态模型的语义泛化优势迁移过来。但是，机器人的智能确实能随着算力和数据的增加而持续提升吗？我们能预测这种提升吗？

来自主题: AI技术研报

6501 点击 2025-11-05 16:42

多模态大模型理解物理工具吗？PhysToolBench提出了衡量多模态大模型对物理工具理解的基准

人类之所以能与复杂的物理世界高效互动，很大程度上源于对「工具」的使用、理解与创造能力。对任何通用型智能体而言，这同样是不可或缺的基本技能，对物理工具的使用会大大影响任务的成功率与效率。

来自主题: AI技术研报

10541 点击 2025-11-05 09:57

抖音SAIL团队联合港中文MMLab推出SAIL-Embedding：打通「视、文、音」的全模态嵌入

在短视频推荐、跨模态搜索等工业场景中，传统多模态模型常受限于模态支持单一、训练不稳定、领域适配性差等问题。

来自主题: AI技术研报

8946 点击 2025-11-04 10:42

AI深度应用关键元年，快手重塑内容与商业价值

2025 年被广泛视为 AI 走向深度应用的关键元年，在这一年里，以多模态生成、Agent 为代表的 AI 技术不断探索更多样、更高效、更贴合用户需求的应用形态。其中重要性愈加凸显的一点是：AI 正在走向产业级价值的系统性兑现。

来自主题: AI资讯

7447 点击 2025-11-03 14:47

大模型如何准确读懂图表？微软亚研院教它“看、动手、推理”

多模态大模型（MLLM）在自然图像上已取得显著进展，但当问题落在图表、几何草图、科研绘图等结构化图像上时，细小的感知误差会迅速放大为推理偏差。

来自主题: AI技术研报

7141 点击 2025-11-03 14:20

FG-CLIP 2: 为细粒度跨模态理解而生的下一代VLM，8大类29项任务双语性能全球第一

在 AI 多模态的发展历程中，OpenAI 的 CLIP 让机器第一次具备了“看懂”图像与文字的能力，为跨模态学习奠定了基础。如今，来自 360 人工智能研究院冷大炜团队的 FG-CLIP 2 正式发布并开源，在中英文双语任务上全面超越 MetaCLIP 2 与 SigLIP 2，并通过新的细粒度对齐范式，补足了第一代模型在细节理解上的不足。

来自主题: AI技术研报

6906 点击 2025-11-03 09:52