ICLR 2026|多模态大模型真的理解情绪吗?MME-Emotion给出了系统答案

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
ICLR 2026|多模态大模型真的理解情绪吗?MME-Emotion给出了系统答案
6337点击    2026-03-16 14:27

近年来,多模态大模型(Multimodal Large Language Models, MLLMs)正在迅速改变人工智能的能力边界。从图像理解到视频分析,从语音对话到复杂推理,大模型正在逐步具备类似人类的综合感知能力。但一个关键问题仍然没有得到充分回答:这些模型真的能够理解人类情绪吗?


在真实世界中,人类的情绪往往通过多个模态共同表达。例如,一个人可能通过面部表情传递紧张情绪,同时语音语调也在变化,而语言内容可能只提供部分线索。对于人工智能系统而言,仅依赖单一信息来源往往难以准确判断情绪状态。因此,情感智能(Emotional Intelligence)逐渐成为衡量多模态大模型能力的重要指标之一。


然而,目前学界仍然缺乏一个系统性的评测框架来衡量多模态大模型的情感智能水平。已有情感数据集通常规模较小,场景覆盖有限,而且大多只关注情绪分类准确率。模型是否真正理解情绪产生的原因,以及能否在不同场景中稳定工作,往往没有得到充分评估。


为了解决这一问题,来自香港中文大学和阿里通义实验室的团队共同提出了 MME-Emotion,一个面向多模态大模型情感智能的综合评测基准。该工作已被 ICLR 2026 接收


ICLR 2026|多模态大模型真的理解情绪吗?MME-Emotion给出了系统答案


  • 论文标题:MME-Emotion: A Holistic Evaluation Benchmark For Emotional Intelligence in Multimodal Large Language Models
  • 项目主页:https://mme-emotion.github.io
  • 论文代码:https://github.com/FunAudioLLM/MME-Emotion
  • 论文数据:https://huggingface.co/datasets/Karl28/MME-Emotion


MME-Emotion 是目前规模最大的多模态情感智能评测基准之一,包含约 6500 段视频片段及对应问答数据,覆盖 27 类真实场景,并设计了 8 类不同情感任务。相比传统数据集,这一基准强调真实环境中的多模态信息融合能力,使模型必须同时理解视觉、语音和语言信息。


ICLR 2026|多模态大模型真的理解情绪吗?MME-Emotion给出了系统答案


这些任务包括实验室环境情绪识别、真实场景情绪识别、噪声条件下情绪识别、细粒度情绪识别、多标签情绪识别、情感倾向分析、细粒度情感分析以及意图识别等多个方向。不同任务之间保持相对均衡的数据分布,使评测结果更加稳定可靠。


与以往工作相比,MME-Emotion 的一个重要特点是同时评测情绪识别能力和情绪推理能力。在许多已有数据集中,只要模型预测正确的情绪标签即可获得高分,但这种评测方式无法区分「猜对答案」和「真正理解情绪」的差别。


例如,在一个视频中,如果人物表现出恐惧情绪,模型不仅需要给出 “恐惧” 这一标签,还需要能够指出支撑这一判断的线索,例如面部表情变化、语音颤抖或者语速变化等。只有在这种情况下,我们才认为模型具备一定程度的情感理解能力。


ICLR 2026|多模态大模型真的理解情绪吗?MME-Emotion给出了系统答案


为此,MME-Emotion 提出了一套统一的评测指标体系,包括情绪识别得分(Recognition Score)、推理得分(Reasoning Score)以及综合思维链得分(Chain-of-Thought Score)。其中识别得分用于衡量情绪预测准确率,推理得分用于衡量模型推理过程的合理性,而综合得分则同时反映识别能力与推理能力。


为了支持大规模自动评测,研究团队设计了一套基于多智能体系统的评测流程。系统首先获取模型对问题的回答,然后自动提取回答中的关键推理步骤,并结合视频帧信息和语音线索进行评分。这种方法避免了传统评测中大量人工标注推理过程的成本问题。


为了验证自动评测的可靠性,研究团队还邀请了多位专家对部分样本进行了人工评测。结果表明,自动评分与人工评分之间具有较高一致性,说明这一评测方法在实际使用中具有较好的稳定性。


ICLR 2026|多模态大模型真的理解情绪吗?MME-Emotion给出了系统答案


ICLR 2026|多模态大模型真的理解情绪吗?MME-Emotion给出了系统答案


在 MME-Emotion 基准上,研究团队评测了 20 个当前主流多模态大模型,包括多个开源模型以及闭源模型,如 GPT-4o、Gemini 系列以及 Qwen 系列模型。


实验结果显示,即使是当前最先进的模型,在情感智能方面仍然存在明显不足。表现最好的模型情绪识别得分不到 40%,综合思维链得分也只有约 56%。从整体平均结果来看,各模型在情绪识别任务上的表现仍然处于较低水平。


这些结果说明,多模态大模型虽然在视觉理解和语言推理方面取得了显著进展,但情感理解仍然是一个具有挑战性的方向


ICLR 2026|多模态大模型真的理解情绪吗?MME-Emotion给出了系统答案


进一步分析发现,目前模型在情感任务中主要存在几类典型问题。


首先是细粒度视觉理解能力不足。在许多错误案例中,模型难以区分相似情绪,例如恐惧与惊讶之间的差别。这类错误通常源于对面部表情和细微动作变化理解不足。


其次是多模态信息融合能力有限。一些模型在仅使用视觉信息时表现尚可,但当需要同时结合语音和视觉信息时反而出现性能下降。这说明当前模型在处理多模态情感线索时仍然存在困难。


ICLR 2026|多模态大模型真的理解情绪吗?MME-Emotion给出了系统答案


此外,研究还发现模型推理能力与情绪识别能力之间存在明显相关性。通常来说,能够给出更完整推理过程的模型,其整体情感智能表现也更好。这一现象表明,推动模型进行更深入的推理可能是提升情感智能的一条重要路径。


整体来看,MME-Emotion 提供了一个更加全面的评测框架,使研究者能够系统分析多模态大模型在情感理解方面的能力边界。


研究团队认为,未来多模态情感智能的发展可能依赖几个关键方向,包括更高精度的视觉细节建模、更有效的语音与视觉信息融合方法,以及能够解释情绪产生原因的推理机制。


随着多模态大模型不断发展,情感智能有望成为人工智能系统的重要能力之一。在教育、人机交互和医疗辅助等应用场景中,能够理解人类情绪的智能系统将具有重要价值。


MME-Emotion 的发布为这一研究方向提供了统一评测标准,也为后续模型改进提供了清晰的参考基线。


作者介绍


章帆,香港中文大学计算机科学与工程系博士生,导师为 Pheng-Ann Heng 教授。主要研究方向为多模态大模型与 Agent 系统,关注多模态理解、推理能力评测以及面向复杂任务的智能体工作流设计。近年来在 ICLR、CVPR、NeurIPS 等国际会议发表多篇论文,相关研究工作涵盖多模态大模型评测基准构建、后训练以及深度研究型智能体(Deep Research Agents)。目前致力于探索多模态 Agent 系统在复杂真实任务中的能力边界与应用潜力。


文章来自于“机器之心”,作者 “机器之心”。

AITNT-国内领先的一站式人工智能新闻资讯网站
AITNT资源拓展
根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考
1
AI代理

【开源免费】Browser-use 是一个用户AI代理直接可以控制浏览器的工具。它能够让AI 自动执行浏览器中的各种任务,如比较价格、添加购物车、回复各种社交媒体等。

项目地址:https://github.com/browser-use/browser-use


2
AI工作流

【开源免费】字节工作流产品扣子两大核心业务:Coze Studio(扣子开发平台)和 Coze Loop(扣子罗盘)全面开源,而且采用的是 Apache 2.0 许可证,支持商用!

项目地址:https://github.com/coze-dev/coze-studio


【开源免费】n8n是一个可以自定义工作流的AI项目,它提供了200个工作节点来帮助用户实现工作流的编排。

项目地址:https://github.com/n8n-io/n8n

在线使用:https://n8n.io/(付费


【开源免费】DB-GPT是一个AI原生数据应用开发框架,它提供开发多模型管理(SMMF)、Text2SQL效果优化、RAG框架以及优化、Multi-Agents框架协作、AWEL(智能体工作流编排)等多种技术能力,让围绕数据库构建大模型应用更简单、更方便。

项目地址:https://github.com/eosphoros-ai/DB-GPT?tab=readme-ov-file



【开源免费】VectorVein是一个不需要任何编程基础,任何人都能用的AI工作流编辑工具。你可以将复杂的工作分解成多个步骤,并通过VectorVein固定并让AI依次完成。VectorVein是字节coze的平替产品。

项目地址:https://github.com/AndersonBY/vector-vein?tab=readme-ov-file

在线使用:https://vectorvein.ai/付费

3
智能体

【开源免费】AutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。

项目地址:https://github.com/Significant-Gravitas/AutoGPT


【开源免费】MetaGPT是一个“软件开发公司”的智能体项目,只需要输入一句话的老板需求,MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色,包括产品经理 / 架构师 / 项目经理 / 工程师,MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。

项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md

4
逆向大模型

【开源免费】kimi-free-api是一个提供长文本大模型逆向API的开渔免费技术。它支持高速流式输出、智能体对话、联网搜索、长文档解读、图像OCR、多轮对话,零配置部署,多路token支持,自动清理会话痕迹等原大模型支持的相关功能。

项目地址:https://github.com/LLM-Red-Team/kimi-free-api?tab=readme-ov-file

5
免费使用GPT-4o

【免费】ffa.chat是一个完全免费的GPT-4o镜像站点,无需魔法付费,即可无限制使用GPT-4o等多个海外模型产品。

在线使用:https://ffa.chat/