AI资讯新闻榜单内容搜索-多模态大语言模型

AI医疗，谷歌放大招！开源全球首个「AI全能医生」，告别算力焦虑，医院一键部署！

刚刚，AI医疗新突破，来自谷歌！这一次，他们直接瞄准了真实临床环境的痛点。为此，谷歌祭出了最新模型MedGemma 1.5，找到了破局答案。相较于此前的MedGemma 1.5，MedGemma 1.5在多模态应用上实现重大突破，融合了：

来自主题: AI资讯

9139 点击 2026-01-18 09:54

深入感知级别图像理解：UniPercept 统一图像美学、质量与结构纹理感知

尽管多模态大语言模型（MLLMs）在识别「图中有什么」这一语义层面上取得了巨大进步，但在理解「图像看起来怎么样」这一感知层面上仍显乏力。

来自主题: AI技术研报

5772 点击 2026-01-08 15:23

空间智能终极挑战MMSI-Video-Bench来了，顶级大模型全军覆没

空间理解能力是多模态大语言模型（MLLMs）走向真实物理世界，成为 “通用型智能助手” 的关键基础。但现有的空间智能评测基准往往有两类问题：一类高度依赖模板生成，限制了问题的多样性；另一类仅聚焦于某一种空间任务与受限场景，因此很难全面检验模型在真实世界中对空间的理解与推理能力。

来自主题: AI技术研报

7440 点击 2026-01-06 09:50

AI 真能看懂物理世界吗？FysicsWorld：填补全模态交互与物理感知评测的空白

近年来，多模态大语言模型正在经历一场快速的范式转变，新兴研究聚焦于构建能够联合处理和生成跨语言、视觉、音频以及其他潜在感官模态信息的统一全模态大模型。此类模型的目标不仅是感知全模态内容，还要将视觉理解和生成整合到统一架构中，从而实现模态间的协同交互。

来自主题: AI技术研报

8806 点击 2025-12-29 09:05

最鲁棒的MLLM！港科大开源「退化感知推理新范式」 | AAAI'26

多模态大语言模型（MLLMs）已成为AI视觉理解的核心引擎，但其在真实世界视觉退化（模糊、噪声、遮挡等）下的性能崩溃，始终是制约产业落地的致命瓶颈。

来自主题: AI技术研报

8255 点击 2025-12-25 09:44

破解多模态大模型“选择困难症”！内部决策机制首次揭秘：在冲突信息间疯狂"振荡"

多模态大语言模型（MLLMs）在处理来自图像和文本等多种来源的信息时能力强大。然而，一个关键挑战随之而来：当这些模态呈现相互冲突的信息时（例如，图像显示一辆蓝色汽车，而文本描述它为红色），MLLM必须解决这种冲突。模型最终输出与某一模态信息保持一致的行为，称之为“模态跟随”（modality following）

来自主题: AI技术研报

7961 点击 2025-11-14 13:54