AI资讯新闻榜单内容搜索-Multimodal

ICLR 2026｜多模态大模型真的理解情绪吗？MME-Emotion给出了系统答案

近年来，多模态大模型（Multimodal Large Language Models, MLLMs）正在迅速改变人工智能的能力边界。从图像理解到视频分析，从语音对话到复杂推理，大模型正在逐步具备类似人类的综合感知能力。但一个关键问题仍然没有得到充分回答：这些模型真的能够理解人类情绪吗？

来自主题: AI技术研报

6339 点击 2026-03-16 14:27

让龙虾看懂屏幕！谷歌多模态新成果，文本图像视频音频进同一空间

刚刚，谷歌发布了首个原生多模态（Multimodal）嵌入模型——Gemini Embedding 2。这次模型最大的变化在于：把文本、图像、视频、音频和文档，全部映射进同一个统一的嵌入空间。

来自主题: AI资讯

6630 点击 2026-03-11 16:59

ICLR 2026 | 帝国理工大学提出DyMo：让多模态模型学会「选择」，突破模态缺失难题

多模态学习（Multimodal Learning）正在推动 AI 在医学影像、自动驾驶、人机交互等领域取得突破。通过融合图像、文本、表格等多种模态，模型能够获得更全面的信息，从而显著提升性能。

来自主题: AI技术研报

8711 点击 2026-03-09 14:28

多模态预训练，才是大模型的下一条路？Yann LeCun、谢赛宁参与

基础模型时代，大模型能力的爆发，很大程度上源于在海量文本上的预训练。然而问题在于，文本本质上只是人类对现实世界的一种抽象表达，是对真实世界信息的有损压缩。

来自主题: AI技术研报

9379 点击 2026-03-09 09:53

美团提出全新多模态统一大模型STAR，GenEval突破0.91，破解“理解-生成”零和困局

近日，美团推出全新多模态统一大模型方案 STAR（STacked AutoRegressive Scheme for Unified Multimodal Learning），凭借创新的 "堆叠自回归架构 + 任务递进训练" 双核心设计，实现了 "理解能力不打折、生成能力达顶尖" 的双重突破。

来自主题: AI技术研报

10729 点击 2026-02-05 13:50

斯坦福发布基于58万小时数据的SleepFM预测模型，睡一晚就能预测130种疾病！

《Nature Medicine》的研究报道“A multimodal sleep foundation model for disease prediction”，研究人员开发了一种名为 SleepFM 的基础模型，从超过58万小时的记录中“学会”了睡眠的语言。这不仅是睡眠科学的进步，更是AI在生物医学领域的深层突围。

来自主题: AI资讯

9484 点击 2026-01-11 22:05

拆解Gemini 3：Scaling Law的极致执行与“全模态”的威力

毫无疑问，Google最新推出的Gemini 3再次搅动了硅谷的AI格局。在OpenAI与Anthropic激战正酣之时，谷歌凭借其深厚的基建底蕴与全模态（Native Multimodal）路线，如今已从“追赶者”变成了“领跑者”。

来自主题: AI资讯

9730 点击 2025-11-24 15:26

VinciCoder：多模态统一代码生成框架和视觉反馈强化学习，数据代码模型权重已开源

长期以来，多模态代码生成（Multimodal Code Generation）的训练严重依赖于特定任务的监督微调（SFT）。尽管这种范式在 Chart-to-code 等单一任务上取得了显著成功，但其 “狭隘的训练范围” 从根本上限制了模型的泛化能力，阻碍了通用视觉代码智能（Generalized VIsioN Code Intelligence）的发展。

来自主题: AI技术研报

9484 点击 2025-11-17 14:32

刚刚，智源悟界·Emu3.5重塑世界模型格局，原生具备世界建模能力

今天，北京智源人工智能研究院（BAAI）重磅发布了其多模态系列模型的最新力作 —— 悟界・Emu3.5。这不仅仅是一次常规的模型迭代，Emu3.5 被定义为一个 “多模态世界大模型”（Multimodal World Foudation Model）。

来自主题: AI资讯

9515 点击 2025-10-30 18:07

不再靠「猜坐标」！颜水成团队等联合发布PaDT多模态大模型：实现真正的多模态表征输出

近年来，多模态大语言模型（Multimodal Large Language Models, MLLMs）在图文理解、视觉问答等任务上取得了令人瞩目的进展。然而，当面对需要精细空间感知的任务 —— 比如目标检测、实例分割或指代表达理解时，现有模型却常常「力不从心」。

来自主题: AI技术研报

10201 点击 2025-10-16 12:31