大模型怎么做好角色扮演?最大的真实数据集、SoTA开源模型、最深入的评估在这里

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
AITNT-国内领先的一站式人工智能新闻资讯网站 搜索
大模型怎么做好角色扮演?最大的真实数据集、SoTA开源模型、最深入的评估在这里
7803点击    2025-03-17 16:30

王鑫涛,复旦大学博士生,师从肖仰华、汪卫教授,致力于探索用AI创造具有人格的数字生命。


研究方向聚焦大语言模型与Agent技术,在AI角色扮演领域发表多篇ACL/EMNLP论文,以及该领域首篇研究综述,总计引用量三百余次。


他的研究寻求AI技术与人类情感需求的结合。科研之外,他是一位二次元爱好者、业余Coser。该研究完成于他在阶跃星辰实习期间,指导者为王亨老师。


大模型怎么做好角色扮演?最大的真实数据集、SoTA开源模型、最深入的评估在这里


  • 论文标题:CoSER: Coordinating LLM-Based Persona Simulation of Established Roles


  • 论文链接:https://arxiv.org/abs/2502.09082


角色扮演 AI(Role-Playing Language Agents,RPLAs)作为大语言模型(LLM)的重要应用,近年来获得了广泛关注。


无论是用于情感陪伴、故事创作、游戏中的 AI 角色,还是真人的数字分身,都需要模型能够准确捕捉和模拟特定角色的设定、个性和行为模式。


特别是当扮演小说、动漫中的知名角色时,模型需要获取并利用关于这些角色的大量知识。


然而,现有的角色扮演 AI 面临两大核心挑战:缺乏高质量的真实角色数据集,以及缺少有效的评估方法。


为解决这些问题,复旦大学和阶跃星辰合作发表了一篇工作,CoSER(Coordinating LLM-Based Persona Simulation of Established Roles),


一个包含当下最大的真实数据集、SoTA 开源模型和最深入的评估方法的完整框架,用于高效构建和评估角色扮演 AI。


本文的代码、数据集和模型已在 Github 和 Huggingface 上开源,用于促进角色扮演 AI 在研究和应用中的发展。


  • CoSER 8B: https://huggingface.co/Neph0s/CoSER-Llama-3.1-8B


  • CoSER 70B: https://huggingface.co/Neph0s/CoSER-Llama-3.1-70B


  • CoSER Dataset: https://huggingface.co/datasets/Neph0s/CoSERCoSER Code: https://github.com/Neph0s/COSER


  • See and Chat with Your Favorite Book Characters: https://ch.rhineai.com/characters


CoSER Dataset


最大、最真实、最丰富的角色扮演数据


大模型怎么做好角色扮演?最大的真实数据集、SoTA开源模型、最深入的评估在这里


从世界最知名的 771 本书中,本文构建了 CoSER Dataset,迄今为止最大、最真实、最丰富的角色扮演数据集,包含:


  • 来自 771 本知名文学作品的 17,966 个角色


  • 29,798 段书中的真实对话,而非由大模型生成


  • 全面的数据类型:角色概述、对话(包含详细的上下文情景)、关键剧情的摘要和角色经历和等


  • 语言、动作和想法:除了语言的对白,对话中还包括角色的动作和想法。


大模型怎么做好角色扮演?最大的真实数据集、SoTA开源模型、最深入的评估在这里


上图将 CoSER Dataset 与之前的数据集进行了比较。概括来说,CoSER 的独特之处在于:


1. 真实性:不同于此前数据集中大量使用的 LLM 生成的角色问答对,CoSER 数据集从经典文学作品中提取真实角色对话,


在忠实刻画角色的同时,保留了真实对话的复杂性,是天然的多轮、多角色的优质对话数据。


2. 全面性:CoSER 数据集不仅包含角色概述和对话,还包括剧情摘要、角色经历和对话背景等丰富内容。


详细的对话背景在角色扮演的训练和评估中非常重要,而剧情摘要、角色经历提供了更丰富的角色知识。


3. 多维表达:对话内容涵盖语言(speech)、动作(action)和想法(thought)三个维度,使角色表现更为立体。


其中,想法数据能帮助模型在训练中更好地理解角色的行为和语言。


4. 环境作为特殊角色:将环境视为特殊角色,扩展了角色对话能表达的信息,使对话数据可以表示书中的环境反馈、大众角色反应等信息。


Given-Circumstance Acting


角色扮演的训练与评估方法


大模型怎么做好角色扮演?最大的真实数据集、SoTA开源模型、最深入的评估在这里


本文引入了给定情境表演(Given-Circumstance Acting,GCA)方法用于训练和评估 LLM 的角色扮演能力,


这一方法受到了《演员的自我修养》的作者 - 斯坦尼斯拉夫斯基 - 的表演理论的启发。


在训练阶段,给定一段对话及其上下文情景,本文让模型每次扮演对话中的一个角色,并在相应的台词上进行训练。


基于这一方法,本文训练了 CoSER 8B 和 CoSER 70B 两个模型,它们基于 LLaMA-3.1 构建,展现了真实、生动的角色表现能力,


并在多项角色扮演评估上取得 SoTA 成绩。


在评估阶段,GCA 评估由两个步骤组成:


1. 多智能体模拟(Multi-agent Simulation):


构建一个多智能体系统,让被评估模型依次扮演不同角色,在给定情境下进行模拟,获得一段由多个角色 AI 交互生成的对话。


2. 基于惩罚的 LLM 评判(Penalty-based LLM Juding):


让 LLM 扮演评判者,使用详细评分标准(rubrics)和原始对话作为参考,按照 “采点扣分制” 识别明确的表演缺陷来评估模拟对话的质量。


下图展示了 “人物忠实度” 维度的扣分标准:


大模型怎么做好角色扮演?最大的真实数据集、SoTA开源模型、最深入的评估在这里


本文将评估维度按照 1. 关注自身质量 or 关注忠于原作;2. 关注单一角色 or 关注整体模拟,分成了以下四个维度。


大模型怎么做好角色扮演?最大的真实数据集、SoTA开源模型、最深入的评估在这里


GCA 评估方法的优势在于:1. 通过多智能体模拟,全面反映模型的多轮、多角色的扮演能力;


2. 基于原著中的真实对话作为 Groundtruth,并提供专家级评分标准指导 LLM 评判者。


关键实验与结论


大模型怎么做好角色扮演?最大的真实数据集、SoTA开源模型、最深入的评估在这里


在本文提出的 GCA 评估中,CoSER-70B、GPT-4o、Step-2、Doubao-pro 取得了最好的表现,其中,CoSER-70B 的表现远超其他开源模型。


进一步,本文在实验中还汇报了 BLEU、ROUGE-L 等指标来比较模型生成对话与 Groundtruth 对话的一致性,在这一指标上 CoSER-70B 超过了所有的现有模型。


大模型怎么做好角色扮演?最大的真实数据集、SoTA开源模型、最深入的评估在这里


在 InCharacter、LifeChoice 等基于分类和多选题的角色扮演基准测试上,CoSER 模型也取得了优秀的表现。


其中,CoSER-70B 在 InCharacter 和 LifeChoice 基准测试上分别达到了 75.80% 和 93.47% 的准确率,超越或匹配 GPT-4o。

在论文中,作者还进行了其他实验,证明了想法数据在训练 / 推理阶段的重要性、


将 CoSER 数据用于检索增强(RAG)的有效性等结论,感兴趣的读者可以在论文原文中找到相应的实验。


Case Study


最后,下图列出了 CoSER 测试集中的一个例子(出自《权力的游戏》),包括其中的对话场景、Groundtruth 对话及 CoSER-70B 生成的结果。


在这个例子中,我们看到,CoSER-70B 不仅将角色的背景、性格模仿得活灵活现,


还用上了原作的角色的经典台词(不在数据中出现),体现了 CoSER 模型在扮演小说角色时的优秀表现。


大模型怎么做好角色扮演?最大的真实数据集、SoTA开源模型、最深入的评估在这里


大模型怎么做好角色扮演?最大的真实数据集、SoTA开源模型、最深入的评估在这里


文章来自于微信公众号 “机器之心”,作者 :王鑫涛


大模型怎么做好角色扮演?最大的真实数据集、SoTA开源模型、最深入的评估在这里


关键词: AI , AI角色扮演 , RPLAs , 模型训练
AITNT-国内领先的一站式人工智能新闻资讯网站
AITNT资源拓展
根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考
1
AI代理

【开源免费】Browser-use 是一个用户AI代理直接可以控制浏览器的工具。它能够让AI 自动执行浏览器中的各种任务,如比较价格、添加购物车、回复各种社交媒体等。

项目地址:https://github.com/browser-use/browser-use


2
智能体

【开源免费】AutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。

项目地址:https://github.com/Significant-Gravitas/AutoGPT


【开源免费】MetaGPT是一个“软件开发公司”的智能体项目,只需要输入一句话的老板需求,MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色,包括产品经理 / 架构师 / 项目经理 / 工程师,MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。

项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md

3
RAG

【开源免费】graphrag是微软推出的RAG项目,与传统的通过 RAG 方法使用向量相似性作为搜索技术不同,GraphRAG是使用知识图谱在推理复杂信息时大幅提高问答性能。

项目地址:https://github.com/microsoft/graphrag

【开源免费】Dify是最早一批实现RAG,Agent,模型管理等一站式AI开发的工具平台,并且项目方一直持续维护。其中在任务编排方面相对领先对手,可以帮助研发实现像字节扣子那样的功能。

项目地址:https://github.com/langgenius/dify


【开源免费】RAGFlow是和Dify类似的开源项目,该项目在大文件解析方面做的更出色,拓展编排方面相对弱一些。

项目地址:https://github.com/infiniflow/ragflow/tree/main


【开源免费】phidata是一个可以实现将数据转化成向量存储,并通过AI实现RAG功能的项目

项目地址:https://github.com/phidatahq/phidata


【开源免费】TaskingAI 是一个提供RAG,Agent,大模型管理等AI项目开发的工具平台,比LangChain更强大的中间件AI平台工具。

项目地址:https://github.com/TaskingAI/TaskingAI

4
免费使用GPT-4o

【免费】ffa.chat是一个完全免费的GPT-4o镜像站点,无需魔法付费,即可无限制使用GPT-4o等多个海外模型产品。

在线使用:https://ffa.chat/