如何让Agent具备「情感」当前趋势、挑战与未来|来自298篇研究的最新综述

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
如何让Agent具备「情感」当前趋势、挑战与未来|来自298篇研究的最新综述
7314点击    2025-12-01 14:33

在当前的情感计算研究中,存在一个显著的“断层”:我们拥有越来越精准的情感识别算法(输入端),也有了逼真的语音和面部生成技术(输出端),但连接这两端的“中间层”却鲜有人问津。机器能识别出你在愤怒,也能模拟出抱歉的语气,但它真理解愤怒的起因吗?它能基于这种理解去调整后续的决策逻辑吗?


如何让Agent具备「情感」当前趋势、挑战与未来|来自298篇研究的最新综述


这正是情感认知(Affective Cognition)所要解决的核心问题,也是构建具备情感心智理论(Affective Theory of Mind)的关键所在。缺失了这一环,所谓的“情感AI”不过是基于规则的条件反射。


如何让Agent具备「情感」当前趋势、挑战与未来|来自298篇研究的最新综述


伊朗科技大学与新加坡南洋理工大学最新发表的综述论文《具备情感的智能体:当前趋势、挑战与未来展望》,敏锐地捕捉到了这一痛点。研究者们并未止步于传统的情感识别综述,而是深入探讨了情感诱发(Elicitation)情感体验(Experience)的计算模型。详细拆解了如何利用认知评估理论(Appraisal Theories)和强化学习,让智能体在内部构建情感状态,并以此驱动决策、学习与推理。这篇论文为我们补上了人工情感智能版图中至关重要、却长期被忽视的一块拼图。


研究者把Agent的“情感”拆成互相衔接的三项能力:


如何让Agent具备「情感」当前趋势、挑战与未来|来自298篇研究的最新综述


  1. Emotion understanding(情绪理解/识别):从文本、语音、表情、生理信号等输入里准确判断对方情绪。
  2. Affective cognition(情感认知:情绪唤起与情绪体验):不仅知道“对方是什么情绪”,还要推理“为什么会这样、意味着什么、接下来我怎么做更合适”。
  3. Emotion expression(情绪表达合成):把合适的情绪用文本、声音、面部表情等输出表达出来,并且多模态要一致协调。


相信您看完这篇深入的解读,会对如何构建一个“情感”的Agent有全新的认识。


第一大能力:情感理解


情感理解是智能体与世界交互的入口。传统的单模态识别(仅看脸或仅听音)已经难以满足复杂场景的需求研究者把“情感识别”定义为:多源数据中识别具体情绪状态(脸部表情、声音语调、语言文字、生理信号等),它对 HCI、心理健康监测等很关键。 具体讲了四类输入:


  • 文本:社媒、评论、对话——用 NLP 分析词语、结构、上下文的情绪线索。
  • 视觉:表情、动作、手势——用 CV + 深度模型识别。
  • 语音:音高、语速、音量、节奏等是“情绪载体”。
  • 生理:心率、皮电、肌电、EEG 等反映自主神经系统反应,特别适合更“深层”情绪理解。


如何让Agent具备「情感」当前趋势、挑战与未来|来自298篇研究的最新综述

情感识别总体框架图:技术实施流程


1. 多模态融合的工程挑战


如何将不同来源的数据“捏”在一起?这不仅仅是拼接向量那么简单,研究者们面临着巨大的模态鸿沟 (Modality Gap)。例如,面部表情可能提供清晰的视觉线索,但声音的语调可能包含更微妙的情绪,且两者的特征分布和时间步长完全不同。


论文总结了当前主流的融合策略:


  • 特征级融合 (Feature-Level Fusion):在早期阶段将不同模态的特征合并。这要求极高的数据对齐能力。
  • 决策级融合 (Decision-Level Fusion):让每个模态先独立“投票”,最后汇总结果。这种方式容错率高,但可能忽略模态间的交互信息。
  • 混合融合与图神经网络:前沿研究开始利用图注意力网络 (GATs) 构建异构图(如GraphMFT模型),将视觉、声学和文本节点连接起来,动态学习模态间的交互权重,从而捕捉像“沮丧”与“愤怒”这类重叠情感的细微差别。


2. 生理信号:读懂无法伪装的“心跳”


情感计算还包括生理信号(如脑电图EEG、心率、皮肤电反应)作为最难以伪装的真实情感反应,在情感理解中扮演着独特角色。


  • 低质量数据的挑战与应对:生理数据往往伴随着高噪声。研究者提到可以利用微分熵 (Differential Entropy, DE) 特征来处理EEG信号,这种特征对噪声和信号变异不敏感,能有效提升脑电数据在低质量情况下的识别精度。


3. 数据与模型的深层困境


关于构建感知模型,研究者们总结了三大类挑战:


如何让Agent具备「情感」当前趋势、挑战与未来|来自298篇研究的最新综述


A.数据层面的挑战


  • 数据稀缺与不平衡:现实世界中,极端的负面情绪(如恐惧、暴怒)数据远少于中性或快乐数据。这导致模型对少数类情感识别能力差。
  • 解决方案:论文提到了利用GANs(生成对抗网络) 生成合成样本来平衡数据集,或者使用 SMOTE 技术进行过采样。
  • 噪声干扰:光照不足、背景噪音都会破坏识别。
  • 解决方案:引入不确定性感知融合 (Uncertainty-aware Fusion)。例如COLD融合框架,当视觉模态被遮挡(噪声大)时,自动增加对音频模态的依赖权重。


B.模型层面的挑战


  • “黑盒”不可解释性:可解释性差(黑箱)、泛化差、缺乏统一评测指标。即使准确率高,也难说清“为什么判这个情绪”,在医疗、招聘等敏感场景很难被完全信任。
  • 解决方案神经符号AI (Neurosymbolic AI)。结合常识知识图谱与深度学习,将输入映射到可解释的概念原语上。或者使用 Grad-CAM 可视化技术,让模型“画出”它到底关注图片的哪个区域来判断情感。


C.问题本身的复杂性


  • 情感的模糊性与重叠:情绪不是非黑即白的,种类多、重叠强、实验设计难。例如“紧张+兴奋”“悲伤但克制”等复合状态,对离散标签很不友好。
  • 解决方案:引入标签分布学习因果推断 (Causal Inference)。例如利用因果干预模块去除背景上下文带来的虚假相关性(Context Bias),确保模型是根据人的表情而非背景环境来判断情绪。


D.LLM/基础模型引入的新问题


  • 幻觉、上下文理解不足、标注成本高:也就是LLM 带来 few-shot/zero-shot 机会,但也可能“编造情绪理由”、误读语境。


第二大能力:情感认知


这部分是整篇论文最“像人类心理过程”的地方:研究者认为仅做情绪识别还不够,真正的“情感”还需要推理情绪的因果与意义,并让情绪进入决策、学习、推理。


研究者提出“情感理论心智(Affective Theory of Mind)”:不仅识别情绪,还要能对情绪进行社会化推理并做出合适回应;而要实现它,需要把“认知 Theory of Mind”和“情感 Theory of Mind”结合。


如何让Agent具备「情感」当前趋势、挑战与未来|来自298篇研究的最新综述


情感认知智能体框图:展示了智能体内部处理情感的逻辑流


他们把affective cognition拆成两个关键步骤:


  • Emotion elicitation(情绪唤起):识别什么事件和心理状态触发了情绪。
  • Emotional experiences(情绪体验):情绪产生后如何影响注意、记忆、推理、决策等内部过程。


1. 情绪唤起:基于认知评估的推理


情绪是如何产生的?论文引入了心理学中的知评估理论 (Cognitive Appraisal Theory)。情绪是对环境事件的主观评估结果,而非简单的条件反射。


为了实现这一点,研究者们提出了多种计算认知模型


  • BDI模型 (Belief-Desire-Intention):这是经典的智能体架构。通过扩展为Emotional-BDI,智能体可以根据其目标(Desire)是否达成来产生情绪。例如,如果目标受阻,产生“挫败感”。
  • 认知架构 (Cognitive Architectures):如ACT-RSOAR。这些架构模仿人类大脑,拥有程序记忆、语义记忆和情景记忆。前沿研究(如E-VOX系统)将情绪模型(ALMA)嵌入其中,实现了实时的情绪状态跟踪和个性化模拟。
  • 具体案例Silicon Coppelia 系统。它通过评估伦理(Ethics)、美学(Aesthetics)、认识论(Epistemics)等变量来决定对用户的反应,使其具备了类似人类的道德和审美判断。


2. 情绪体验:情绪如何反作用于决策?


有了情绪之后,智能体该怎么做?这就是情绪体验建模。


  • 后悔驱动的强化学习 (Regret-based RL):论文介绍了一种创新的强化学习方法,引入了“后悔”机制(比较实际回报与可能的最优回报)。这种机制能调节智能体的探索策略,使其行为更具适应性。
  • 内部对话 (Inner Speech):模型SUSAN模拟了智能体的“内心独白”。通过生成内部语言,智能体可以推断上下文并调节自身的情绪状态,这与人类的情绪调节机制高度相似。
  • 情感欺骗与谈判博弈:情感计算在复杂社会交互中展现出了“人性化”甚至“腹黑”的一面。在谈判场景中,智能体不仅进行决策,还学会了情感欺骗 (Emotional Deception)。通过量化情感并利用Weber-Fechner定律,智能体可以生成具有欺骗性的情感表达,或者调整Q-learning的奖励函数来影响对手的属性偏好,从而在谈判中获得优势。


这一领域的最大挑战在于可扩展性评估标准


如何让Agent具备「情感」当前趋势、挑战与未来|来自298篇研究的最新综述


现有的模型往往局限于特定场景(如游戏或治疗),缺乏通用的评估指标来衡量智能体的情感反应是否“社会可接受”。


第三大能力:情感表达合成


当智能体理解了情感并做出了决策,最后一步就是通过文本、语音和面部表情将其表达出来。


1. 情感文本合成 (Emotional Text Synthesis)


目标是生成既带有特定情感色彩,又保持语义连贯的文本。


目前的三类主要方法


  • 风格迁移(Style Transfer):保持语义不变,改变情绪语气;难点是复杂文本里容易语义跑偏或情绪不稳,因此有人用“内容/风格分离”、词典注意力等改进。
  • 可控生成(Conditional Generation):用提示/条件控制情绪;代表性方向包括 co-attention 网络、情绪化 TTS/对话系统等,但对数据质量要求高,且多情绪混合更难。
  • Prompt优化:论文提到了MOPO (Multi-Objective Prompt Optimization) 技术,通过遗传算法优化LLM的提示词,以同时满足情感强度、风格和内容一致性等多个目标。
  • 微调 LLM(Fine-tuning LLMs):用 GPT/BERT 类模型做高质量情绪文本生成,训练数据可能更少,但算力与偏见管理压力更大。 
  • 评估危机:如何判断生成的文本“情感”是否到位?论文特别指出,缺乏标准化评估指标是一大痛点。为此,研究界提出了EmoBench这样的基准测试,包含大量手工设计的多项选择题,专门用于评估大模型的情商水平,测试其是否真正理解情感的应用,而不仅仅是简单的模仿。


如何让Agent具备「情感」当前趋势、挑战与未来|来自298篇研究的最新综述

目前的主要难点:可控性 (Controllability)、一致性 (Consistency) 和偏见 (Bias)。


2. 情感语音合成 (Emotional Speech Synthesis)


这部分包括情感语音合成 (ESS) 和 情感声音转换 (EVC)


  • 从GAN到Diffusion:论文指出,生成技术正在经历代际更替。
  • CycleGAN 等对抗网络曾是主流,用于非平行数据(Non-parallel data)的情感转换。
  • 扩散模型 (Diffusion Models) 正成为新宠。例如 EmoConv-Diff 模型,利用随机微分方程逐步转化语音特征。扩散模型在控制情感的细粒度(如强度、效价)方面表现出了超越GAN的能力,能生成更加细腻、连续的情感变化。
  • 解耦表示 (Disentanglement):核心难点在于将“说话人身份”、“语言内容”和“情感风格”彻底分离。如果处理不好,就会出现情感泄漏 (Emotion Leakage),即转换后的声音虽然带了情感,但听起来像另一个人,或者原有的情感没有被完全抹去。
  • 细粒度的韵律控制:情感不仅仅是开心或生气,还包含复杂的语调变化。现有的TTS模型往往难以区分“愤怒的质问”和 “愤怒的陈述”。针对这一痛点,QI-TTS 模型引入了多风格提取器,能够捕捉句子级的情感和音节级的语调强度,实现了对反问、质问等复杂语气的精准控制。


如何让Agent具备「情感」当前趋势、挑战与未来|来自298篇研究的最新综述

目前的主要难点:数据稀缺 (非平行数据)、情感泄漏 (Leakage) 和 强度控制 (Intensity)


3. 情感面部合成 (Emotional Face Synthesis)


目标是生成逼真的“说话人脸”。


  • 技术路径:从传统的3D参数化模型(3DMM)向神经辐射场(NeRF)和扩散模型演进。
  • 前沿模型UniPortrait 框架。它通过统一的架构平衡了身份保持和表情多样性。
  • 挑战
  • 微表情 (Micro-expressions):人类的情感往往流露于转瞬即逝的微表情中,目前的模型捕捉能力依然有限。
  • 口型同步与情感的冲突:在强烈情感(如大笑或痛哭)下,保持口型与语音的精准同步是一个巨大的技术难题。这需要高精度的时序一致性 (Temporal Consistency) 建模。


如何让Agent具备「情感」当前趋势、挑战与未来|来自298篇研究的最新综述

目前的主要难点:微表情 (Micro-expressions)、口型同步 (Lip-sync) 和 计算效率 是瓶颈


大语言模型本身


整篇论文贯穿了对LLM的深度讨论。LLM和基础模型 (Foundation Models) 正在重塑情感计算的每一个环节。


LLM的机遇


  • 零样本能力:GPT-4等模型展现了惊人的零样本情感识别能力,无需特定训练即可处理复杂情感任务。
  • 数据标注:利用LLM替代昂贵的人工标注。研究显示,LLM生成的标签与众包数据的结合可以显著降低成本并提高质量。
  • 情感推理:LLM可以作为情感认知的“大脑”,利用思维链(CoT)技术进行复杂的情感归因推理。


LLM的挑战


  • 幻觉 (Hallucinations):LLM可能会自信地捏造情感事实,或者对不存在的情感线索进行过度解读。论文提到了利用语义熵 (Semantic Entropy) 来检测这种不确定性。
  • 语境理解局限:尽管LLM知识渊博,但它们往往缺乏特定文化或社会场景下的深层语境理解,容易产生刻板印象。
  • 观察者视角:研究发现,GPT-4等模型更多是站在“观察者”的角度预测情感,而非作为“体验者”产生情感,这限制了其在共情交互中的真实感。


总结与未来展望


这篇论文为我们展示了构建情感智能体的全貌。我们正处于从简单的情感识别迈向真正的情感智能的关键阶段。以下图片是这篇论文引用的298篇核心文献在各个领域的分布比例图:情感理解占32%,情感表达占30%,情感认知占25%,基础理论占7%


如何让Agent具备「情感」当前趋势、挑战与未来|来自298篇研究的最新综述


未来的研究方向主要集中在以下几点


  1. 数据革命:从实验室的摆拍数据转向野外 (In-the-wild) 的自然数据。需要构建包含认知评估信息的大规模数据集,而不仅仅是简单的标签。
  2. 可解释性与信任:解决深度学习的“黑盒”问题。智能体需要能够解释“我为什么觉得你很难过”,从而建立用户信任。
  3. 多模态深度融合:超越简单的加权平均,探索能够处理模态缺失、模态冲突的动态融合机制,特别是在噪声环境下。
  4. 伦理与安全:随着生成能力的提升,如何防止情感AI被用于操纵用户情绪,如何消除训练数据中的文化偏见,将是技术之外必须面对的严峻课题。


情感智能体的最终目标,不是欺骗人类它们有感情,而是通过理解和模拟情感,成为真正懂你的智能伙伴。论文链接:https://arxiv.org/abs/2511.20657v1


文章来自于“AI修猫Prompt”,作者 “AI修猫Prompt”。

关键词: AI , 模型训练 , Agent , AI情感
AITNT-国内领先的一站式人工智能新闻资讯网站
AITNT资源拓展
根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考
1
AI代理

【开源免费】Browser-use 是一个用户AI代理直接可以控制浏览器的工具。它能够让AI 自动执行浏览器中的各种任务,如比较价格、添加购物车、回复各种社交媒体等。

项目地址:https://github.com/browser-use/browser-use


2
AI数据分析

【开源免费】DeepBI是一款AI原生的数据分析平台。DeepBI充分利用大语言模型的能力来探索、查询、可视化和共享来自任何数据源的数据。用户可以使用DeepBI洞察数据并做出数据驱动的决策。

项目地址:https://github.com/DeepInsight-AI/DeepBI?tab=readme-ov-file

本地安装:https://www.deepbi.com/

【开源免费airda(Air Data Agent)是面向数据分析的AI智能体,能够理解数据开发和数据分析需求、根据用户需要让数据可视化。

项目地址:https://github.com/hitsz-ids/airda

3
智能体

【开源免费】AutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。

项目地址:https://github.com/Significant-Gravitas/AutoGPT


【开源免费】MetaGPT是一个“软件开发公司”的智能体项目,只需要输入一句话的老板需求,MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色,包括产品经理 / 架构师 / 项目经理 / 工程师,MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。

项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md

4
RAG

【开源免费】graphrag是微软推出的RAG项目,与传统的通过 RAG 方法使用向量相似性作为搜索技术不同,GraphRAG是使用知识图谱在推理复杂信息时大幅提高问答性能。

项目地址:https://github.com/microsoft/graphrag

【开源免费】Dify是最早一批实现RAG,Agent,模型管理等一站式AI开发的工具平台,并且项目方一直持续维护。其中在任务编排方面相对领先对手,可以帮助研发实现像字节扣子那样的功能。

项目地址:https://github.com/langgenius/dify


【开源免费】RAGFlow是和Dify类似的开源项目,该项目在大文件解析方面做的更出色,拓展编排方面相对弱一些。

项目地址:https://github.com/infiniflow/ragflow/tree/main


【开源免费】phidata是一个可以实现将数据转化成向量存储,并通过AI实现RAG功能的项目

项目地址:https://github.com/phidatahq/phidata


【开源免费】TaskingAI 是一个提供RAG,Agent,大模型管理等AI项目开发的工具平台,比LangChain更强大的中间件AI平台工具。

项目地址:https://github.com/TaskingAI/TaskingAI

5
微调

【开源免费】XTuner 是一个高效、灵活、全能的轻量化大模型微调工具库。它帮助开发者提供一个简单易用的平台,可以对大语言模型(LLM)和多模态图文模型(VLM)进行预训练和轻量级微调。XTuner 支持多种微调算法,如 QLoRA、LoRA 和全量参数微调。

项目地址:https://github.com/InternLM/xtuner

6
prompt

【开源免费】LangGPT 是一个通过结构化和模板化的方法,编写高质量的AI提示词的开源项目。它可以让任何非专业的用户轻松创建高水平的提示词,进而高质量的帮助用户通过AI解决问题。

项目地址:https://github.com/langgptai/LangGPT/blob/main/README_zh.md

在线使用:https://kimi.moonshot.cn/kimiplus/conpg00t7lagbbsfqkq0

7
无人直播

【开源免费】VideoChat是一个开源数字人实时对话,该项目支持支持语音输入和实时对话,数字人形象可自定义等功能,首次对话延迟低至3s。

项目地址:https://github.com/Henry-23/VideoChat

在线体验:https://www.modelscope.cn/studios/AI-ModelScope/video_chat


【开源免费】Streamer-Sales 销冠是一个AI直播卖货大模型。该模型具备AI生成直播文案,生成数字人形象进行直播,并通过RAG技术对现有数据进行寻找后实时回答用户问题等AI直播卖货的所有功能。

项目地址:https://github.com/PeterH0323/Streamer-Sales