AI资讯新闻榜单内容搜索-Multi

ICLR 2026｜多模态大模型真的理解情绪吗？MME-Emotion给出了系统答案

近年来，多模态大模型（Multimodal Large Language Models, MLLMs）正在迅速改变人工智能的能力边界。从图像理解到视频分析，从语音对话到复杂推理，大模型正在逐步具备类似人类的综合感知能力。但一个关键问题仍然没有得到充分回答：这些模型真的能够理解人类情绪吗？

来自主题: AI技术研报

6400 点击 2026-03-16 14:27

当AI能从360度无死角看世界。。

大家好，我是袋鼠帝。我最近做了一个挺有意思的实验。

来自主题: AI资讯

7771 点击 2026-03-16 09:52

让龙虾看懂屏幕！谷歌多模态新成果，文本图像视频音频进同一空间

刚刚，谷歌发布了首个原生多模态（Multimodal）嵌入模型——Gemini Embedding 2。这次模型最大的变化在于：把文本、图像、视频、音频和文档，全部映射进同一个统一的嵌入空间。

来自主题: AI资讯

6648 点击 2026-03-11 16:59

ICLR 2026 | 帝国理工大学提出DyMo：让多模态模型学会「选择」，突破模态缺失难题

多模态学习（Multimodal Learning）正在推动 AI 在医学影像、自动驾驶、人机交互等领域取得突破。通过融合图像、文本、表格等多种模态，模型能够获得更全面的信息，从而显著提升性能。

来自主题: AI技术研报

8723 点击 2026-03-09 14:28

多模态预训练，才是大模型的下一条路？Yann LeCun、谢赛宁参与

基础模型时代，大模型能力的爆发，很大程度上源于在海量文本上的预训练。然而问题在于，文本本质上只是人类对现实世界的一种抽象表达，是对真实世界信息的有损压缩。

来自主题: AI技术研报

9390 点击 2026-03-09 09:53

CVPR 2026 | 1B模型也能当多镜头导演？大连理工&快手可灵开源力作MultiShotMaster

近期，大连理工与快手可灵团队推出了 MultiShotMaster—— 一个高度可控的多镜头视频生成框架，该论文向研究社区展示了即使在 1B 左右的小参数量级模型上，也可以实现导演级的镜头调度和连贯叙事，且支持多图参考、主体运动控制。

来自主题: AI技术研报

8441 点击 2026-03-06 15:06

ICLR 2026 | 在Moltbook之外，上交大联合上海AI Lab模拟了AI原⽣社交的「真实暗⾯」

本⽂的主要作者来⾃上海交通⼤学和上海⼈⼯智能实验室，核⼼贡献者包括任麒冰、郑志杰、郭嘉轩，指导⽼师为⻢利庄⽼师和邵婧⽼师，研究⽅向为安全可控⼤模型和智能体。最近，Moltbook 的爆⽕与随后的迅速

来自主题: AI技术研报

9961 点击 2026-02-11 12:32

美团提出全新多模态统一大模型STAR，GenEval突破0.91，破解“理解-生成”零和困局

近日，美团推出全新多模态统一大模型方案 STAR（STacked AutoRegressive Scheme for Unified Multimodal Learning），凭借创新的 "堆叠自回归架构 + 任务递进训练" 双核心设计，实现了 "理解能力不打折、生成能力达顶尖" 的双重突破。

来自主题: AI技术研报

10738 点击 2026-02-05 13:50

跨境电商版Sora发布：全球首个AI原生电商视频Multi-Agent来了

你的下一个视频团队，不一定非得是人。

来自主题: AI资讯

7485 点击 2026-01-27 16:52

斯坦福发布基于58万小时数据的SleepFM预测模型，睡一晚就能预测130种疾病！

《Nature Medicine》的研究报道“A multimodal sleep foundation model for disease prediction”，研究人员开发了一种名为 SleepFM 的基础模型，从超过58万小时的记录中“学会”了睡眠的语言。这不仅是睡眠科学的进步，更是AI在生物医学领域的深层突围。

来自主题: AI资讯

9491 点击 2026-01-11 22:05