陈天桥旗下盛大AI东京研究院于SIGGRAPH Asia正式亮相,揭晓数字人和世界模型成果

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
陈天桥旗下盛大AI东京研究院于SIGGRAPH Asia正式亮相,揭晓数字人和世界模型成果
7948点击    2025-12-22 12:50

在 SIGGRAPH Asia 2025 期间,盛大集团(Shanda Group)旗下,盛大 AI 东京研究院(Shanda AI Research Tokyo)以展台活动、BoF 学术讨论与顶尖教授闭门交流等形式完成首次公开亮相,标志着盛大在数字人的 “交互智能 (Interactive Intelligence)” 与世界模型的 “时空智能 (Spatiotemporal Intelligence)” 等两大方向的研究,正式登上国际顶级学术与产业舞台。


这一全新范式是盛大集团创始人陈天桥长期愿景的直接体现。他多年来对脑科学与 AI 融合研究的战略投入,以及在 TCCI 首届 AI 驱动科学研讨会(AIAS 2025)上系统阐述的 “发现式智能”(discovery intelligence)理念,共同强调了智能体认知基底的重要性。而「交互智能」的实现,也得益于盛大集团旗下 EverMind 团队产品 EverMemOS 的能力互补,彰显了集团内部强大的技术协同生态。然而,在将这一宏大构想付诸现实的道路上,整个行业正面临着深刻的共同挑战。


陈天桥旗下盛大AI东京研究院于SIGGRAPH Asia正式亮相,揭晓数字人和世界模型成果


图 1 盛大集团创始人陈天桥阐述 “脑科学与 AI 融合” 的战略愿景,强调智能体认知基底的重要性。


问题的核心:

为何当下的数字人交互缺乏 “灵魂”?


尽管当前的数字人技术已经能够创造出与真人无异的视觉形象,但用户在与之互动时,普遍会感到一种难以言喻的 “空洞感” 或 “断裂感”。这种交互上的 “灵魂缺失” 并非微不足道的瑕疵,而是导致数十亿美元投资于视觉特效的数字资产,至今仍未能带来真正有意义用户粘性的根本原因。这种 “灵魂感” 的缺失,并非单一技术问题,而是源于三个层面的系统性挑战:


长期记忆与人格一致性: 标准的通用大语言模型(LLM)在长时间对话中,往往难以维持稳定的人格设定,出现所谓的 “人格漂移”(persona drift)现象,导致叙事逻辑前后矛盾。真正的 “记忆” 不仅是对过往事件的回溯,更是维持个性、习惯和世界观连贯性的基石。缺乏这一能力,数字人便无法形成可信赖的、持续的身份认同。


陈天桥旗下盛大AI东京研究院于SIGGRAPH Asia正式亮相,揭晓数字人和世界模型成果


图 2 盛大 AI 首席科学家郑波博士深入剖析数字人 “灵魂缺失” 的核心难题,并确立了以 “交互智能” 和 “时空智能” 为核心的研究目标。


多模态情感表达的缺失: “灵魂感” 很大程度上源于人类丰富的非语言交流。然而,目前的数字人普遍存在 “僵尸脸(zombie-face)” 现象 —— 在倾听或思考时面部僵硬,缺乏自然的微表情和反应。真正的沉浸感来自于语音语调、面部表情、眼神乃至肢体动作的协同作用,它们共同构成了情感表达的完整层次,而这正是当前技术的薄弱环节。


缺乏自主进化的能力: 大多数数字人本质上仍是一个被动的 “播放系统”,根据预设脚本或实时指令做出反应,而不能从交互中学习和成长。它们无法自主适应用户偏好、修正错误认知或发展出新的行为模式。这种自我进化的能力,是智能体从 “模仿” 走向真正 “智能” 的关键分水岭。


这三大挑战共同作用,导致了当前数字人交互体验的浅层化和碎片化,使用户难以建立真正的情感连接。如何系统性地攻克这些难题,不仅是技术上的挑战,更需要顶层的战略远见。


陈天桥旗下盛大AI东京研究院于SIGGRAPH Asia正式亮相,揭晓数字人和世界模型成果


图 3 香港大学教授、SIGGRAPH Asia 大会主席 Taku Komura (左) 与早稻田大学教授 Shigeo Morishima (右) 在盛大 AI 闭门研讨会上发表致辞。 


业界共鸣:

SIGGRAPH Asia 闭门研讨会的深刻洞见


陈天桥的远见得到了行业的验证。解决上述挑战的紧迫性,并非盛大 AI 的内部洞见,而是一个由行业顶尖头脑共同铸就的明确共识。2025 年 12 月 17 日,在香港 SIGGRAPH Asia 大会期间,恰逢其 Mio 技术报告于前一日(12 月 16 日)公开发布之际,盛大 AI 东京研究院(Shanda AI Research Tokyo)主办了一场高端闭门晚宴及专题研讨会。这场活动汇聚了来自学术界和产业界的顶尖专家,旨在通过思想的深度碰撞,共同擘画数字人技术的未来蓝图,并即时探讨 Mio 报告所带来的突破性启示。


与会的专家学者阵容强大,包括:


  • Prof. Taku Komura (香港大学,Siggraph Asia 大会 General Chair)
  • Prof. Shigeo Morishima (早稻田大学,日本数字人协会主席,真人自动化复刻到电影的第一人)
  • Prof. Erwin Wu (东京科学大学)
  • Prof. Xiangyu Yue (香港中文大学)
  • Prof. Anyi Rao (香港科技大学)
  • Prof. Yuan Liu (香港科技大学)
  • Prof. Xiaoguang Han (香港中文大学)


陈天桥旗下盛大AI东京研究院于SIGGRAPH Asia正式亮相,揭晓数字人和世界模型成果


图 4 来自港大、港中大、港科大及东京科学大学的顶尖学者在 Panel 环节深度探讨 “交互智能” 的未来。


在这场高水平的对话中,专家们达成了一个清晰的共识:当前数字人发展的瓶颈已从视觉表现力转向了认知和交互逻辑。他们一致认为,未来数字人的核心竞争力将体现在其「交互智能」上,即必须具备长期记忆、多模态情感表达自主演进这三大关键能力。这三大支柱,由业界最敏锐的头脑共同确立,正是 Mio 的核心模块 —— 认知核心、多模态动画师及自主演进框架 —— 被系统性地设计出来旨在解决的精确挑战。


正是基于这样的行业共识与自身长期的技术探索,盛大 AI 东京研究院系统性地推出了自己的解决方案。


Mio 的诞生:

盛大 AI 对「交互智能」的系统性解答


为了迎接这一行业共同的挑战,盛大 AI 东京研究院正式推出了 Mio(Multimodal Interactive Omni-Avatar)—— 一个旨在实现「交互智能」(Interactive Intelligence)的端到端系统性框架。Mio 的诞生标志着一个分水岭时刻,其设计理念是将数字人从一个被动执行指令的 “木偶”,转变为一个能够自主思考、感知并与世界互动的智能伙伴。


陈天桥旗下盛大AI东京研究院于SIGGRAPH Asia正式亮相,揭晓数字人和世界模型成果


图 5 Mio 系统的端到端交互闭环演示 —— 从感知用户情绪(User Input)到 Thinker 进行认知推理,再通过多模态模块(Face/Body/Speech)生成抚慰性的反馈动作。


该框架由五个高度协同的核心模块构成:


认知核心 (Thinker): 为克服标准 LLM 固有的 “失忆症” 和人格漂移问题,Mio 的 “大脑”——Thinker 模块 —— 采用了一种革命性的 “介于叙事时间的知识图谱”(Diegetic Knowledge Graph)。该架构为每条信息标记了 “故事时间”,确保数字人绝不会 “剧透”。在 CharacterBox 基准测试中,其人格保真度超越了 GPT-4o,并在防止剧透测试中取得了近乎完美(超过 90%)的成绩。同时,其 “无数据自训练” 机制赋予了数字人通过自我博弈不断进化的能力。


语音引擎 (Talker): 该模块利用高效的离散化语音表征技术,能够生成与当前情境、情绪和人格设定高度匹配的自然语音。它不仅保证了对话的流畅性,更是数字人情感表达的关键一环。


面部动画师 (Facial Animator): 为彻底消除破坏沉浸感的 “僵尸脸” 现象,该模块采用了一个统一的 “听 - 说” 框架。无论是在说话还是倾听,它都能生成生动、自然的微表情、眼神和头部姿态。在用户研究中,超过 90% 的参与者认为其倾听反应优于业界领先的竞品。


身体动画师 (Body Animator): 为摆脱笨拙的预设动作,身体动画师采用新颖的流式扩散模型(Streaming Diffusion),实时地将认知意图转化为流畅、连贯的全身动作。这项技术实现了前所未有的突破:在保持实时性的同时,其运动质量(FID 为 0.057)达到了与顶尖离线模型相媲美的水平。


渲染引擎 (Renderer): 作为最终的视觉呈现层,渲染引擎确保在任何动态和视角变化下,都能生成高保真且身份高度一致的视觉形象,将 “灵魂” 的内在活动忠实地外化为可信的视觉表现。


Mio 框架通过将这五个模块无缝融合,实现了从认知推理到实时多模态体现(embodiment)的完整闭环,这不只是一次技术的迭代,而是一种全新的架构哲学,标志着数字人技术从 “形似” 向 “神似” 的决定性跨越。


未来展望与行动号召


Mio 的诞生,标志着数字人发展的一次范式转移 —— 行业的关注焦点正从静态的、孤立的外观逼真度,转向动态的、有意义的交互智能。这并非一个概念上的飞跃,而是可以被量化的巨大进步。在严谨的测试中,Mio 的整体交互智能分数(IIS)达到了 76.0,较之前的最优技术水平提升了整整 8.4 分,为行业树立了新的性能标杆。


陈天桥旗下盛大AI东京研究院于SIGGRAPH Asia正式亮相,揭晓数字人和世界模型成果

图 6 Mio (红色) 在认知共鸣、面部同步、肢体流畅度等各项指标上全面超越现有最优技术 (蓝色),IIS 总分达到 76.0。


可以预见,「交互智能」将为虚拟陪伴、互动叙事、沉浸式游戏等领域带来革命性的变革。未来的数字人将不再是冰冷的程序,而是能够与我们建立深层情感连接、共同成长的智能伙伴。被动、无声的虚拟形象时代已经结束。我们诚邀全球的研究者、开发者与创造者社区,与我们一道构建下一代拥有智能与灵魂的数字生命。现在,工具已在你们手中。


陈天桥旗下盛大AI东京研究院于SIGGRAPH Asia正式亮相,揭晓数字人和世界模型成果


图 7 盛大 AI 东京研究院团队与全球顶尖学者在香港齐聚一堂,共同致力于构建下一代有灵魂的数字生命。


为了推动这一领域的共同进步,盛大 AI 东京研究院已将 Mio 项目的完整技术报告、预训练模型和评估基准公开发布。


  • 项目地址: https://shandaai.github.io/project_mio_page/


文章来自微信公众号 “ 机器之心 ”

AITNT-国内领先的一站式人工智能新闻资讯网站
AITNT资源拓展
根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考
1
AI代理

【开源免费】Browser-use 是一个用户AI代理直接可以控制浏览器的工具。它能够让AI 自动执行浏览器中的各种任务,如比较价格、添加购物车、回复各种社交媒体等。

项目地址:https://github.com/browser-use/browser-use


2
数字人

【开源免费】Fay开源数字人框架是一个AI数字人项目,该项目可以帮你实现“线上线下的数字人销售员”,

“一个人机交互的数字人助理”或者是一个一个可以自主决策、主动联系管理员的智能体数字人。

项目地址:https://github.com/xszyou/Fay

3
智能体

【开源免费】AutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。

项目地址:https://github.com/Significant-Gravitas/AutoGPT


【开源免费】MetaGPT是一个“软件开发公司”的智能体项目,只需要输入一句话的老板需求,MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色,包括产品经理 / 架构师 / 项目经理 / 工程师,MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。

项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md

4
免费使用GPT-4o

【免费】ffa.chat是一个完全免费的GPT-4o镜像站点,无需魔法付费,即可无限制使用GPT-4o等多个海外模型产品。

在线使用:https://ffa.chat/

5
无人直播

【开源免费】VideoChat是一个开源数字人实时对话,该项目支持支持语音输入和实时对话,数字人形象可自定义等功能,首次对话延迟低至3s。

项目地址:https://github.com/Henry-23/VideoChat

在线体验:https://www.modelscope.cn/studios/AI-ModelScope/video_chat


【开源免费】Streamer-Sales 销冠是一个AI直播卖货大模型。该模型具备AI生成直播文案,生成数字人形象进行直播,并通过RAG技术对现有数据进行寻找后实时回答用户问题等AI直播卖货的所有功能。

项目地址:https://github.com/PeterH0323/Streamer-Sales