AI资讯新闻榜单内容搜索-多模态模型

ICLR 2026｜滑铁卢大学联合可灵提出UniVideo：统一视频理解、生成、编辑多模态

统一多模态模型在多模态内容理解与生成方面已展现出良好效果，但目前仍主要局限于图像领域。

来自主题: AI技术研报

7490 点击 2026-03-06 09:31

Attention真的可靠吗？上海大学联合南开大学揭示多模态模型中一个被忽视的重要偏置问题

近年来，Vision-Language Models（视觉 — 语言模型）在多模态理解任务中取得了显著进展，并逐渐成为通用人工智能的重要技术路线。然而，这类模型在实际应用中往往面临推理开销大、效率受限的问题，研究者通常依赖 visual token pruning 等策略降低计算成本，其中 attention 机制被广泛视为衡量视觉信息重要性的关键依据。

来自主题: AI技术研报

10119 点击 2026-02-06 10:39

刚刚，面壁小钢炮开源进阶版「Her」，9B模型居然有了「活人感」

面壁开源了行业首个全双工全模态大模型 MiniCPM-o 4.5，相比已有多模态模型，MiniCPM-o 4.5 首次实现了「边看边听边说」以及「自主交互」的全模态能力，模型不再只是把视觉、语音作为静态输入处理，而是能够在实时、多模态信息流中持续感知环境变化，并在输出的同时保持对外界的理解。

来自主题: AI资讯

9800 点击 2026-02-04 22:39

视频理解+开放网络搜索=首个视频Deep Research评测基准

现有的多模态模型往往被困在「视频」的孤岛里——它们只能回答视频内的问题。但在真实世界中，人类解决问题往往是「看视频找线索 -> 上网搜证 -> 综合推理」。

来自主题: AI技术研报

10957 点击 2026-01-22 16:10

国产Nano Banana开源！用华为AI芯片训练，1张图只要1毛钱

今天，首个在国产芯片上完成全程训练的SOTA（最佳水平）多模态模型开源。这是智谱联合华为开源的图像生成模型GLM-Image。从数据到训练的全流程，该模型完全基于昇腾Atlas 800T A2设备和昇思MindSpore AI框架完成构建。

来自主题: AI资讯

10629 点击 2026-01-14 14:09

顶尖AI竟输给三岁宝宝，BabyVision测试暴露多模态模型硬伤

过去一年，大模型在语言与文本推理上突飞猛进：论文能写、难题能解、甚至在顶级学术 / 竞赛类题目上屡屡刷新上限。但一个更关键的问题是：当问题不再能 “用语言说清楚” 时，模型还能不能 “看懂”？

来自主题: AI技术研报

10158 点击 2026-01-12 14:07

华为开源7B多模态模型，视觉定位和OCR能力出色，你的昇腾端侧“新甜点”来了

7B量级模型，向来是端侧部署与个人开发者的心头好。

来自主题: AI技术研报

7669 点击 2026-01-05 14:30

架构解耦是统一多模态模型所必须的吗？全新AIA损失：No

近一年以来，统一理解与生成模型发展十分迅速，该任务的主要挑战在于视觉理解和生成任务本身在网络层间会产生冲突。早期的完全统一模型（如 Emu3）与单任务的方法差距巨大，Janus-Pro、BAGEL 通过一步一步解耦模型架构，极大地减小了与单任务模型的性能差距，后续方法甚至通过直接拼接现有理解和生成模型以达到极致的性能。

来自主题: AI技术研报

9003 点击 2025-12-02 15:17

金山与华科发布多模态模型MonkeyOCR v1.5：文档解析能力超越PaddleOCR-VL，复杂表格解析首次突破90%

是金山派来的猴子，复杂文档解析有救了！

来自主题: AI技术研报

11631 点击 2025-11-18 15:16

长视频让大模型集体失明？谢赛宁、杨立昆、李飞飞等提出空间超感知范式，用“预测未来”代替“暴力记忆”

去年，谢赛宁（Saining Xie）团队发布了 Cambrian-1，一次对图像多模态模型的开放式探索。但团队没有按惯例继续推出 Cambrian-2、Cambrian-3，而是停下来思考：真正的多

来自主题: AI技术研报

8597 点击 2025-11-09 10:38