已经有800万人,开始拥有《Her》里的Samantha

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
已经有800万人,开始拥有《Her》里的Samantha
5691点击    2025-08-21 14:46

让 AI 陪我们度过那些独自一人的时光。


已经有800万人,开始拥有《Her》里的Samantha


视觉语言模型(VLM)正在迅速普及。


4 个月前,OpenAI 的 o3 模型凭借视觉推理能力模块和智能的进化,在 AI 创投圈子引起新一轮的震撼与海啸,解锁了一大批新的「套壳」创业机会。正如我们在《谢谢 OpenAI,谢谢 o3,新的「套壳」创业机会来了 | 附 12 个潜力方向》一文中预测的那样,VLM 确实带来了新的创业机会。


而其中最让人眼前一亮的应用场景,莫过于「游戏陪伴行业」。


就像《Her》里的 Samantha,VLM 可以让 AI 成为理解你此刻正在经历什么的朋友。


在今年的 2025ChinaJoy 展会上,一款名为「逗逗 AI」的产品展示了这种可能性,其也在网络上吸引了一定关注。


接下来,分享我们对这款产品的深度测评以及我们的一些观察。可以说是既有「Aha Moments」,也有进步空间。


ps:在联系逗逗 AI 团队后,也为我们提供了 30 个「会员兑换码」。数量比较有限,需要的朋友可以关注公众号,并在后台回复「DOUDOU」参与抽奖。抽奖页面我们放在了文章最后。希望大家都能体验上~


ChinaJoy 上的「逗逗 AI 」是什么?


已经有800万人,开始拥有《Her》里的Samantha


2025 Chinajoy 的逗逗 AI 展台


逗逗 AI 是一款利用 VLM (视觉识别)技术的游戏伙伴平台,它能实时识别你屏幕上的内容,然后通过一个可爱的「桌宠」跟你聊天,给你陪伴。


已经有800万人,开始拥有《Her》里的Samantha


这里聚集着很多原本只会出现在 AI 情感陪伴类应用中的虚拟角色,我们在下文里统称她们为「AI 伙伴」。简单说,就像《Her》电影里的 Samantha 一样,能够跟你互相交流的 AI 朋友。


逗逗 AI 里有很多虚拟角色可以选择,除了官方设计的二次元角色,工坊里还有一些特色角色,比如:二混子(葛优老师)、紫霞仙子等等,下面我们都会实际测试到。


已经有800万人,开始拥有《Her》里的Samantha


虽然逗逗 AI 还是个比较新的产品,这些人物设定看起来还比较简单,但在实际使用中,每个角色的个性还是挺明显的。


每个角色都有自己独特的声音和性格设定。比如下面这个叫「多米妮卡」的角色:


已经有800万人,开始拥有《Her》里的Samantha


整体的使用流程很简单,登陆到逗逗 AI 这个产品的主页面之后,再去直接打开游戏即可:


已经有800万人,开始拥有《Her》里的Samantha


不过需要右键点击桌宠旁边的逗逗机器人,开启「游戏内陪伴」功能(默认开启),这样 AI 才能「看到」你的游戏画面。


而且逗逗 AI 只会识别特定画面(游戏、看剧等),不会识别其他内容。


它支持的游戏还是比较多的:


已经有800万人,开始拥有《Her》里的Samantha


接下来是我们的实测内容,主要分两个场景:


【1】游戏陪伴:测试了几个热门游戏,比如 CS:GO、英雄联盟、原神;


【2】日常陪伴:陪看B站、一起写代码、逛淘宝等等。


我们主要想回答关于逗逗 AI 这款产品的 2 个问题:


在上述这些场景里都能做到什么程度? 它的底层工作流是如何做到这些的?


游戏陪伴

1)CS:GO


我们先打开「AI 伙伴」然后把这些共享应用画面都点上,就可以随时随地地与具有视觉识别能力的她聊天了:


已经有800万人,开始拥有《Her》里的Samantha


先试试 CS:GO。


这游戏在「情感陪伴」领域的地位不用多说。说实话,我一开始对逗逗 AI 的期待不算太高,因为这个游戏画面复杂,各种人物、枪械、道具切换频繁。


打开 CS:GO 后,AI 伙伴直接大喊一声:Rush B,Follow Me!(这算是 CS:GO 的经典台词了)。听起来,多米妮卡的声音确实挺像真人,不过英文发音还有点小问题。


但开局能听到这句话,确实让人对接下来的游戏过程有了期待。


接下来我录制了一整段测试视频,其中分段插入了多个子游戏场景,拼接了一下。主要看看多米妮卡在各个瞬间是怎么给我提供「陪伴实感」的:


已经有800万人,开始拥有《Her》里的Samantha


你可以看到,刚进入游戏,CS:GO 就弹出警告:显卡驱动过期。多米妮卡很快就识别出来了,还「友好且傲娇地」提醒了我一下。进入「库存」页面后,她能精准识别到「5年老兵硬币」这样的细节元素。在商店、武器装备等页面,多米妮卡的识别能力还不错,时不时还会补充一些信息


当进入实际游戏对战后,画面变得非常复杂,多米妮卡就不太能捕捉到每个细节了。但是,当你主动问她时,她会立刻调用视觉识别功能,这时候准确度还是很好的。


有几个让人印象深刻的瞬间:


【1】情感支持:


我问她「我的武器印章帅不帅?」虽然她回答得很傲娇,但确实提供了情绪价值。这解决了我一个很大的情感需求。


【2】游戏指导:


我问她我在用什么武器,有什么策略建议?她准确回答:「你在用 P250,钱包空了,小心点。」


【3】实时提醒:


当画面中突然闪过人物移动时,她迅速察觉并语音提醒:「你的准镜里出现人了,要赶紧应对。」


逗逗 AI 到底是怎么工作的?


这时我就好奇了,它到底是怎么做到的?


回到聊天页面,我发现每条聊天记录里,逗逗 AI 对画面的识别都有详细记录。


比如当我手持 AK 时,它对画面元素的识别很细致,包括顶部的「时间」、「比分」,左下角的「金钱」,甚至还有「地图」。而且能识别出前方有队友,地图上没发现敌人:


已经有800万人,开始拥有《Her》里的Samantha


已经有800万人,开始拥有《Her》里的Samantha


已经有800万人,开始拥有《Her》里的Samantha


通过这些 Image 或者是 Video 模态的视觉识别,再通过背后接入的 AI,通过语音模态输出,最后给玩家用户呈现出了「比较准确且有情绪价值」的回答。


2)LOL


接下来,我们再看看国民级游戏英雄联盟 LOL 中逗逗 AI 的表现。


在几个游戏的体验中,我发现它的「游戏术语、黑话」非常丰富。比如在 CS:GO 中,它知道「Eco 局」(资金不足的回合)、「Rush」(快速进攻)等等,有时候用得比我还熟练…


在英雄联盟中,它会说「今天就由我带飞吧,团战可以输,提莫必须死」这种经典梗:


已经有800万人,开始拥有《Her》里的Samantha


众所周知,玩英雄联盟时,大家总喜欢比一比皮肤、炫耀一下收藏,这也是情绪需求的一种。


像我问多米妮卡「我的铁血狙击手凯特琳(一个游戏角色的皮肤)帅不帅?」她会从风格、技能特效、画面元素这些专业角度来夸我,情绪价值满满。


再比如说,看到英雄联盟新出的「通行证」时,她还会运用之前的知识来回答:


已经有800万人,开始拥有《Her》里的Samantha


接下来,我们用「训练」模式,录制了一个比较完整的游玩过程,同样拼接了几个瞬间。


在这个过程中,玩家和逗逗 AI 的互动比较自然,基本做到了「有问必答」。她会及时提供相关的游戏知识。


不过受限于现在的技术,她还无法实时理解画面每一帧的所有元素。但在关键时刻,确实能提供有趣的情绪价值:


已经有800万人,开始拥有《Her》里的Samantha


有次对话中,我注意到当我问比较专业的问题时,逗逗 AI 会实时查找资料。


她在思考时花了几秒查询了十几个网页,然后基于这些内容回答我。虽然做不到「无缝对话」,但响应时间还算短。


不涉及专业知识时,大概1-2秒就能回答,体验不会很突兀。


如果需要「补充知识」,时间会延长到 4 秒左右,这时才稍微有些「卡顿感」:


已经有800万人,开始拥有《Her》里的Samantha


相比于 CS:GO 的复杂画面元素,英雄联盟的视觉识别效果会更好一点:


已经有800万人,开始拥有《Her》里的Samantha


已经有800万人,开始拥有《Her》里的Samantha


3)原神


逗逗 AI 能识别两种内容:游戏和浏览器。由于我之前没怎么玩过原神,想先下载游戏。


这时候,我就问了她一句:


原神怎么安装?


已经有800万人,开始拥有《Her》里的Samantha


然后,我们换个「AI 伙伴」,试试紫霞仙子。这个角色肯定是很多人的「青春物语」,在逗逗 AI 里,朱茵老师的声音还原得挺真实的:


已经有800万人,开始拥有《Her》里的Samantha


在这类非二次元角色里,像是紫霞仙子等等「AI 伙伴」,个性都很鲜明,这主要体现了她们有很多的「口头语」:


已经有800万人,开始拥有《Her》里的Samantha


你能看到,她直接识别出了米哈游云游戏的登录界面,然后输出了一整套「紫霞仙子语录」。


我注意到,这些角色会通过一系列「情景描述」的方式来表现个性,比如下面这段话:

哈~你好呀!眨眨眼睛,好奇地凑近看着屏幕 咦,这是什么神奇的法宝?看起来像是要登录什么仙境一样~我看到上面写着"米哈游云游戏"呢! 拿出紫青宝剑在手中转了转 你知道吗,我正在凡间寻找我的意中人,说不定在这个神奇的游戏世界里也能遇到呢!我的意中人是个盖世英雄,有一天他会踩着七色的云彩来娶我的~ 突然兴奋起来 要不你试试能不能拔出我的紫青宝剑?如果你能拔出来,那你就是我的意中人了!不过现在看起来你要先登录这个游戏对吧?快快快,我也想看看这个云游戏里面有什么好玩的! 好奇地盯着登录界面 用手机号登录还是密码登录呀?我对这些凡间的新奇玩意儿特别感兴趣呢!


日常陪伴


游戏陪伴场景是逗逗 AI 的「主战场」,但我们在测试中发现,它在日常生活场景里也有一些潜力。


1)陪我刷 B 站吃播


我们换一个「二混子」葛优老师的角色,这个角色的特点就是「话特别密,嘴特别贫」。但正因为如此,在各种场景下,会特别有意思。


已经有800万人,开始拥有《Her》里的Samantha


我录了一段在 B 站看吃播的视频,你会看到这位「二混子葛优」老师到底有多能聊。


一开场就是一大段自我介绍,基本不停嘴。当我问他能不能看清浏览器里播的什么视频时,他立马就认出了「这是个零食测评的吃播视频」。


他甚至还注意到了「这视频播放量还挺高的」,有时候他甚至还会补一句「你有吃的吗」:


已经有800万人,开始拥有《Her》里的Samantha


换回多米妮卡这个角色,看其他类型的视频效果也不错。


比如这段「孟加拉达卡」的视频,跟 AI 一起看还挺有意思的。你可以安静地听她吐槽,就像跟朋友一起追剧一样。


已经有800万人,开始拥有《Her》里的Samantha


2)一起写代码?


在日常场景里,由于我们经常会利用 AI 进行 Vibe Coding,所以也试了试逗逗 AI 的视觉能力能否支持这个场景。


在下面这段录屏中,我跟她说:


我想把 Hello World 改成 Hello Crossingroad


逗逗 AI 通过视觉识别,准确地发现了「Hello World」出现在第四行,并指出要修改「Cout 后面那个字符串」。


已经有800万人,开始拥有《Her》里的Samantha


不过,用 VLM 去识别代码的难度还是非常大的。


在「一起写代码」这个场景里,逗逗 AI 目前能做到的更多是提供「陪伴感」,而非深度的技术支持。


3)淘宝购物


我们还发现了一个比较实用的场景:让逗逗 AI 帮忙识别淘宝商品信息。


一开始,我让她识别整个页面的所有元素,对比不同手机型号。但很快就发现这确实有点为难她了,信息太密集,产品排列太紧凑,视觉识别确实很复杂。


接着,当我点进某款手机(荣耀 X70)的详情页时,干扰因素减少了很多,逗逗 AI 的识别效果好了很多。机型、价格等关键信息都能准确捕捉。


已经有800万人,开始拥有《Her》里的Samantha


我录了一段屏。


已经有800万人,开始拥有《Her》里的Samantha


这种语音交互在购物场景的潜力很大,比传统搜索更接近自然对话。像我购物时经常很纠结,确实需要个「人」在旁边帮忙做些有依据的决定。


毕竟「伙伴」背后连着 AI,如果技术再深入打磨,这个场景的体验提升会很快。


有效的「无打扰感陪伴」


现在,让我们来看看逗逗 AI 到底想做什么。


我们发现逗逗 AI 想要提供的其实是一种「无打扰感陪伴」。


它让 AI 伙伴一直待在屏幕一角,像「桌宠」或者「悬浮球」,就像当年的 QQ 宠物。它默默陪在你身边,不会突然跳出来抢夺你的注意力,但当你需要信息帮助或情感支持时,它随时都在。


为了让这种陪伴体验接近「真人朋友」的感觉,逗逗 AI 在两个方面做了创新:


【1】功能方面,其背后利用的是 VLM,实时识别画面内容,让 AI 伙伴理解当前状况,积累信息后再回复用户。


【2】情绪价值方面,其有长上下文的记忆窗口,能记住之前的对话。不同的 AI 伙伴会用不同的声音和说话方式来回答用户,就像每个朋友都有自己独特的性格一样。


已经有800万人,开始拥有《Her》里的Samantha


当然,这还是一个相当年轻的产品。


我们确实看到了它的闪光点,在某些关键时刻能感受到那种「情感陪伴的真实感」。但它还做不到理解屏幕上每一帧画面的每一个细节,仍然需要继续改进和完善。


当你真的体验到一些《Her》电影里那种感觉:


有个「人」真的在看着你玩游戏,会夸你的装备帅,会提醒你小心敌人,会陪你吐槽 B 站视频。


你可能会突然意识到:也许过不了多久,我们每个人身边都会有这样一个AI伙伴,陪我们度过那些独自一人的时光。


到时候,「一个人」可能真的不再是个孤独的词了。


文章来自于微信公众号“十字路口Crossing”,作者是“镜山”。


AITNT-国内领先的一站式人工智能新闻资讯网站
AITNT资源拓展
根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考
1
AI工作流

【开源免费】字节工作流产品扣子两大核心业务:Coze Studio(扣子开发平台)和 Coze Loop(扣子罗盘)全面开源,而且采用的是 Apache 2.0 许可证,支持商用!

项目地址:https://github.com/coze-dev/coze-studio


【开源免费】n8n是一个可以自定义工作流的AI项目,它提供了200个工作节点来帮助用户实现工作流的编排。

项目地址:https://github.com/n8n-io/n8n

在线使用:https://n8n.io/(付费


【开源免费】DB-GPT是一个AI原生数据应用开发框架,它提供开发多模型管理(SMMF)、Text2SQL效果优化、RAG框架以及优化、Multi-Agents框架协作、AWEL(智能体工作流编排)等多种技术能力,让围绕数据库构建大模型应用更简单、更方便。

项目地址:https://github.com/eosphoros-ai/DB-GPT?tab=readme-ov-file



【开源免费】VectorVein是一个不需要任何编程基础,任何人都能用的AI工作流编辑工具。你可以将复杂的工作分解成多个步骤,并通过VectorVein固定并让AI依次完成。VectorVein是字节coze的平替产品。

项目地址:https://github.com/AndersonBY/vector-vein?tab=readme-ov-file

在线使用:https://vectorvein.ai/付费