ChatGPT 人工智能 GPT4 伦理 生成式 医疗 监管 安全 机器学习 深度学习 神经网络 计算机视觉 强化学习 模型 算法 应用 开发 研究 工具 平台 框架 数据集 训练 部署 安全 合规 培训 投资 LLM,llm AI,ai,Ai 大模型 大语言模型 制图 生图 绘图 文生图 文生视频 生成式AI AGI 世界模型 sora chatGPT,chatgpt,ChatGpt claude openai Llama deepseek midjourney 红熊猫模型 Red panda,panda Stable Diffusion,StableDiffusion,stable DALL- E 3 DALL E DALL Flux,flux 扩散模型 混元大模型 文心一言 通义千问 可灵 Pika PixelDance 豆包 月之暗面 零一万物 阶跃星辰 搜索增强 MiniMax Talkie Agent prompt fastai LangChain TTS 微调 提示词 知识库 智能体
# 热门搜索 #
搜索
腾讯网易急入局,桌崽留存超豆包,游戏新世代由AI队友开启
2103点击    2024-11-08 10:05

当AI队友越来越像真人


2024年,AI在游戏行业正不断由表及里,不断触及游戏机制的核心。 


大家比较熟知的《沙威玛传奇》,更多是用AI赋能制作,降本增效,到后来《1001 night》、《换你来当爹》中,AI成为游戏的核心玩法。最近,背靠大厂的《永劫无间》《暗区突围》里的AI技术再次往前进了一步,要成为玩家在游戏中的“助手”、“队友”。 


AI作图 by 娱乐资本论 


和腾讯、网易做游戏内AI队友不同,就在上个月,一款名为“桌崽AI”的桌面陪伴宠物火了起来,在传统桌宠的外衣下,它真正做到了懂玩家、懂游戏,且在游戏过程中提供了实实在在的价值(查攻略、实时陪聊)。从功能性这一点看,颇有点当年游戏语音助手YY的意思。


内测一个月,总注册用户超过1万,DAU超过3000,付费率超出意料之外。



留存率也挺高,次留63%,7日留29%,30日留22%,平均每日时长237分钟。这个数据,甚至超过了很多国内大厂的大模型产品。 


要知道,根据之前一张盛传的统计图表,国产 AI 大模型用户在30 日后,往往流失严重,从字节的豆包,到百度的文心一言(现在改名文小言),30日后使用率就都低于 1%。 



问题来了,为何AI布局这么多赛道,唯独在在游戏赛道如此成功? 


原因就在于,游戏佬既对科技感兴趣,又对AI助手有强刚需,而这样的盲区和痛点,正是目前AI在其他领域少有触及,也需要一定门槛的部分。 


AI助手,或许将成为AI领域竞争的下一个胜负手。 


跨次元的碰撞


桌崽AI的制作团队,是国内一家名叫脸谱心智的企业,成立于去年6月。 


创始人Adam是个爱玩游戏的95后,本硕毕业于帝国理工学院。在创业前,他在亚马逊、微软都工作过,对聊天机器人颇有研究。 


由于创始人及其整个团队,对游戏都十分热爱,因此桌崽AI在推出时,就具备了其他同类产品少有的优势——对当前各大主流游戏的匹配。


目前,桌崽AI已经适配了《黑神话·悟空》、《原神》、《绝区零》、《鸣潮》等20多款游戏。



只要打开游戏,桌崽AI就会在屏幕上陪着你。玩家可通过文字或语音,与和桌崽进行实时的互动。 


但是,仅仅做到“陪伴”,还远不能让其脱颖而出。 


如前所述,其核心亮点在于“懂游戏”、“懂玩家”,这点主要体现在两方面:其一是,在游戏过程中,桌崽AI不仅能看懂游戏中的画面、内容,并且还能根据玩家的行为,针对性地进行反馈。


例如玩家要是发挥得好,它就会夸玩家很棒;要是玩家不幸失手,它也会用幽默的语言进行调侃。 



第二个方面就在于,在看懂游戏的基础上,它还能实时提供游戏攻略,在玩家卡关时提供帮助。


这样一来,玩家就再也不用在游戏时,切换回桌面,再打开浏览器去各种网站、论坛搜攻略了,桌崽就站旁边告诉你该怎么打通关。 


除了这些核心功能外,桌崽还能通过生成式AI,根据玩家的喜好,定制出各种不同的外形、声音,而这种个性化的特点,又进一步增加了玩家的粘性。

 

然而,这样的功能,虽然看着简单,但真正要实现起来,背后却有着一定的技术门槛, 



具体来说,这样的门槛包括了: 


多模态游戏陪玩大模型——让AI“懂游戏”; 


二次元视频生成大模型——自定义外观; 


语音声线定制大模型——自定义声音(语音克隆等); 


其中多模态游戏陪玩大模型,是其与游戏契合的关键所在 ,按照脸谱心智的介绍,该模型的运作机制,是经用户授权后,模型把游戏画面、音效和用户带有各种情绪的声音作为输入,从而给予和游戏进度同频的个性化反馈。 



从技术上来说,关于游戏知识性方面的信息,模型尚且可以通过吸收各种来源的资料(游戏介绍、攻略)等,来让自己“精通”不同的游戏。 


但最大的难点就在于,怎样让模型在理解各种不同模态的输入(画面、声音)的同时,还能做到实时反馈? 


这就涉及到了一个十分重要的技术——多模态融合。


从某种程度上说,这是决定将来大模型在游戏中广度、深度的一个重要技术。 


会看、会听的AI队友


多模态技术,之所以在游戏AI的下一阶段如此重要,主要是因为,在之前所有结合了LLM的游戏,例如《1001 night》等作品中,AI的定位与作用,始终都脱离不了“对话”这一单调的框架。 


这种局限,使得AI在游戏中的作用,被限定在了提供对话选项和简单的互动,而无法深入到其他方面。


而通过对不同模态的数据进行特征提取,游戏中的AI助手,可以将原始数据转换为可以被模型处理的数值表示,同时将异构特征投影到公共子空间,使得具有相似语义的多模态数据由相似向量表示,从而让AI理解了不同模态的信息。 



实际上,这种多模态的思路,已经愈发成为了一种AI+游戏的潜在发展方向。


在今年英伟达展示的一个名为G-Assist的游戏助手项目中,这个由RTX驱动的AI助手,会通过分析玩家的语音或文本指令,以及游戏界面截图,提供实时攻略等相关帮助。 


这与桌崽AI的某些思路几乎如出一辙。 



G-Assist的核心技术在于其AI视觉模型,通过集成先进的AI视觉模型,G-Assist能够实时分析游戏窗口中的视觉信息,比如识别屏幕上出现的敌对NPC,或是推荐优选武器和材料收集方法。 


而除了“会看”之外,这类多模态融合技术的另一大挑战,就是怎样在实时的游戏中,以极低的延迟实现玩家与AI之间的语音互动。 


最理想的状态,是玩家能像平时说话时那样,与AI助手进行即时的交流,这考验的是AI“会听”的功夫。 


在今年5月的开发者大会上,微软推出了Copilot+ PC,一款为AI时代而生的全新PC,其同样具备了在游戏中充当AI助手的能力。 



例如,在《我的世界》视频演示中,通过集合Open AI 的 GPT-4o模型,Copilot能够实时分析游戏画面内容,并根据不同的情境、场景,以各种语调、语气与玩家交流。 


像是当玩家成功躲避敌人的追击后,Copilot就会发出喘气声并祝贺玩家成功找到庇护处。 



这种实时的、低延迟的语音交互,背后依托的技术,大致可以分成两种,一种是传统的,以神经网络为基础的文本转语音(Text-to-Speech )技术,也称TTS;另一种则是端到端的,GPT-4o所展现的那种实时语音技术。 


从技术力上来说,后者的要求更高,但效果也远优于前者。 


这是因为,传统的TTS合成,通常需要先将文本转换为语音,其输出往往存在一定的延迟,这样的差距,在某些竞技类、动作类等要求快速反应的游戏中,会显得尤为突出。 



更重要的是,由于整合了意图理解、自然语言处理等环节,端到端的语音大模型,在做到“如真人般丝滑”的同时,还能根据不同的情境,实时地调整自身的语气、语调。


而传统TTS要做到这点,只能预先进行人为的设置。 


在具备了“会看”、“会听”的能力后,LLM在游戏中的定位,就不再仅限于单纯进行对话的NPC,甚至不再局限于能够实时交互的AI助手,对于某些更有野心的游戏大厂来说,这种多模态技术的成熟,还成为了在AI时代,重新构筑自身护城河的一种新手段。 


Agent技术,让AI胜似真人


在打破了“对话”这一框架的局限后,AI助手在游戏中能干什么? 


网易在《永劫无间》中给出的答案是:一个能听懂语音指令,实现自动跑图、搜集物资,配合战斗的智能化AI队友。 



6月19日,《永劫无间》手游在“定胜终测”中引入了全新的“游戏Copilot”功能。并依托先进的LLM技术,为玩家提供了一个胜似真人的AI队友。 


这样的队友,究竟有多智能? 


举例来说,在战斗中,玩家要是说了句:“给我来点药”,AI队友马上跑到玩家身边给予相应的道具。 



同样地,在战斗中,AI队友不仅能指哪打哪,也会通过自主判断战场局势优化决策,打造和真人队友组队开黑一致的默契体验。 



有时候,对于一些具体的道具搜寻,AI队友也能有求必应。 



除了基本的战斗、搜寻指令外,AI队友还会主动搭话,聊天,在战斗之余缓解氛围,为玩家提供情感陪伴的价值。 



总的来说,这个AI 队友能跑图,搜物资,战斗,辅助救援,与玩家实时语音聊天,真人队友能做到的一切,它也几乎全做到了。 


而要实现这些,网易靠的正是前面提到的多模态识别、实时语音交互等技术。 


具体来说,这个AI队友,不仅能听懂玩家的话(语音识别)、观察战场局势(视觉信息输入)、了解地图和英雄技能(游戏机制学习),甚至借助诸多高手的大数据学会了如何打好永劫手游。 



但除了多模态之外,要打造这样智能化的AI队友,还有一块最重要的拼图:AI Agent 技术。 


这是因为,多模态+LLM的组合,尽管解决了AI队友看、听、理解与交流的问题,但要真正让其成为游戏中的得力助手,它就必须会亲自操作游戏。 


这背后靠的正是AI Agent 技术。 


与传统依靠预设程序执行固定操作的NPC不同,Agent技术赋予了AI队友更高的灵活性和自主性,这是因为Agent技术让AI队友具备了“自主规划”与“自我操作”的能力。 



在AI领域,Agent 指的是能够感知环境、做出决策并执行行动的系统,能够在复杂多变的环境中独立完成任务。 


实际上,早在《永劫无间》的AI队友出现前,业内早已对 Agent+游戏的方向进行了一番探索。比如说网易自身,就有一个叫网易数智的AI平台,提供MMO、SLG等游戏类型的AI对手。 


还有在今年3月,Google 的DeepMind就公布了一项关于新型AI智能体SIMA的开创性研究,旨在让智能体能够理解并执行多种游戏环境中的自然语言指令。 



让SIMA在游戏中执行操作,只需要两个输入:屏幕上的图像和用户提供的自然语言指令。在测试中,SIMA在九种不同的游戏上进行了训练和测试,包括《无人深空》和《拆解》,并在其中进行了驾驶飞船、挖矿、砍树等一系列操作。 


通过从不同的游戏世界中学习,SIMA捕捉了图像、语言与游戏玩法行为之间的联系。 


这样的联系,来自游戏过程中收集的大量数据。比如屏幕上的画面、音效、文字说明,甚至鼠标和键盘的操作记录。 


之后,收集的数据集被用于训练预先设定的模型,以适应不同的游戏场景和任务。 



从玩法机制上来说,AI Agent技术在游戏领域的介入,几乎是一种必然,因为有太多的游戏,都存在着需要复杂规划和多个子任务才能完成的目标了,例如“寻找资源并建立营地”等等。 


而这类融合了多模态、Agent等技术的游戏尝试,在发展到一定阶段后,必定会出现某个成熟的“集大成者”。 


例如《暗区突围》中的AI队友,就是这样一个例子。 


更高的壁垒,更高的体验


在今年8月的科隆游戏展上,腾讯魔方工作室分享了自研的最新AI技术——F.A.C.U.L.。 


这是由魔方工作室联合暗区突围项目团队,推出的全球首个语音指挥FPS AI,应用了最先进的生成式AI技术,包括语音输入、大语言模型、实时语音合成和环境识别等。 



所谓的F.A.C.U.L.,实际上是一系列核心功能的集合,为的是使AI表现得更像人类队友。 


具体来说,它包括了: 


Complex Command Recognition(复杂指令识别) :这个功能意味着AI可以理解玩家下达的复杂命令,使其能够识别和执行多步指令,适应不同的战术需求。 


Tactic Execution(战术执行) :指AI具备执行战术操作的能力,比如掩护、包抄、进攻等。AI不再是简单地跟随玩家或进行基础攻击,而是能够参与到更复杂的战术中。 


Object Identification(物体识别) :这意味着AI可以识别场景中的特定物体,比如敌人、掩体、道具等。这种识别能力是执行任务和战术的基础,帮助AI在复杂环境中做出合适的决策。 


Human-Like Interaction(类人交互) :旨在让AI在行为上更加接近人类,AI会表现出类似人类的反应,增强游戏的沉浸感。 



虽然与《永劫无间》中的AI队友一样,《暗区突围》的F.A.C.U.L.也结合了多模态、Agent等技术,但从复杂度和要求上来说,其却比前者更上了一个台阶。 


这主要是因为,与《永劫无间》相比,《暗区突围》中的道具、武器、场景更多,更复杂,战斗中需要执行的战术也更多样化,更充满变数。 


例如,“F.A.C.U.L.”将允许 AI 角色识别多大 1.7 万个游戏物品,包括建筑物、武器、地表。魔方工作室称它们甚至能识别“一根草”。 



在具体战斗中,玩家还可以对AI队友还可以发处一系列连续的、复杂的指令,而AI队友在执行这些指令时,不仅能准确理解其含义,还能知道指令中提到的“沙袋”、“汽车”究竟在哪。 


在执行指令时,F.A.C.U.L.首先会基于多模态输入,对环境进行结构化分析,建立一个包含敌我位置、障碍物、目标物体等要素的“局势地图”。 


之后,当玩家发布“清理房间并守住出口”这样的复合命令时,AI队友就会通过Agent的任务分解与多步骤执行能力,将其分解为多个步骤:首先清理敌人,然后搜索物资,最后在出口守卫。 



这种多阶段任务分解与执行能力,是Agent技术中“自主规划”的重要环节,也是F.A.C.U.L.这类AI高效、灵活地完成任务的关键。 


结语


可以说,《永劫无间》、《暗区突围》这样的例子,揭示了随着多模态、Agent等技术的进一步发展,AI在游戏中的介入程度正不断加深,其带来的游戏体验上的提升,也越来越明显。 


但与此同时,AI+游戏的另一大趋势是:随着技术复杂度不断提升,“AI游戏”的门槛和壁垒也在一步步变高,有实力留在牌桌上的选手,也成了资源和资金更加充足的大厂。 


然而,从行业的角度来说,这种不断提升的门槛,也未尝不是一件好事。 


因为随着大厂逐渐主导AI+游戏领域,AI游戏的制作,会迈入一个更稳健,也更有标准和规范可循的“工业化时代”,其品质的提升会更扎实,更可控。而非像AI游戏的初期阶段那样,游戏的爆火与走红,大多只能靠团队的“灵感”、禀赋或运气。 


文章来自于微信公众号 “娱乐资本论”,作者“娱子酱团队”


关键词: AI , AI游戏 , AI队友 , 桌崽AI
AITNT资源拓展
根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考
1
智能体

【开源免费】AutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。

项目地址:https://github.com/Significant-Gravitas/AutoGPT


【开源免费】MetaGPT是一个“软件开发公司”的智能体项目,只需要输入一句话的老板需求,MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色,包括产品经理 / 架构师 / 项目经理 / 工程师,MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。

项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md

2
RAG

【开源免费】graphrag是微软推出的RAG项目,与传统的通过 RAG 方法使用向量相似性作为搜索技术不同,GraphRAG是使用知识图谱在推理复杂信息时大幅提高问答性能。

项目地址:https://github.com/microsoft/graphrag

【开源免费】Dify是最早一批实现RAG,Agent,模型管理等一站式AI开发的工具平台,并且项目方一直持续维护。其中在任务编排方面相对领先对手,可以帮助研发实现像字节扣子那样的功能。

项目地址:https://github.com/langgenius/dify


【开源免费】RAGFlow是和Dify类似的开源项目,该项目在大文件解析方面做的更出色,拓展编排方面相对弱一些。

项目地址:https://github.com/infiniflow/ragflow/tree/main


【开源免费】phidata是一个可以实现将数据转化成向量存储,并通过AI实现RAG功能的项目

项目地址:https://github.com/phidatahq/phidata


【开源免费】TaskingAI 是一个提供RAG,Agent,大模型管理等AI项目开发的工具平台,比LangChain更强大的中间件AI平台工具。

项目地址:https://github.com/TaskingAI/TaskingAI

3
免费使用GPT-4o

【免费】ffa.chat是一个完全免费的GPT-4o镜像站点,无需魔法付费,即可无限制使用GPT-4o等多个海外模型产品。

在线使用:https://ffa.chat/

4
无人直播

【开源免费】VideoChat是一个开源数字人实时对话,该项目支持支持语音输入和实时对话,数字人形象可自定义等功能,首次对话延迟低至3s。

项目地址:https://github.com/Henry-23/VideoChat

在线体验:https://www.modelscope.cn/studios/AI-ModelScope/video_chat


【开源免费】Streamer-Sales 销冠是一个AI直播卖货大模型。该模型具备AI生成直播文案,生成数字人形象进行直播,并通过RAG技术对现有数据进行寻找后实时回答用户问题等AI直播卖货的所有功能。

项目地址:https://github.com/PeterH0323/Streamer-Sales