已经有800万人，开始拥有《Her》里的Samantha

8241点击 2025-08-21 14:46

让 AI 陪我们度过那些独自一人的时光。

视觉语言模型（VLM）正在迅速普及。

4 个月前，OpenAI 的 o3 模型凭借视觉推理能力模块和智能的进化，在 AI 创投圈子引起新一轮的震撼与海啸，解锁了一大批新的「套壳」创业机会。正如我们在《谢谢 OpenAI，谢谢 o3，新的「套壳」创业机会来了 | 附 12 个潜力方向》一文中预测的那样，VLM 确实带来了新的创业机会。

而其中最让人眼前一亮的应用场景，莫过于「游戏陪伴行业」。

就像《Her》里的 Samantha，VLM 可以让 AI 成为理解你此刻正在经历什么的朋友。

在今年的 2025ChinaJoy 展会上，一款名为「逗逗 AI」的产品展示了这种可能性，其也在网络上吸引了一定关注。

接下来，分享我们对这款产品的深度测评以及我们的一些观察。可以说是既有「Aha Moments」，也有进步空间。

ps：在联系逗逗 AI 团队后，也为我们提供了 30 个「会员兑换码」。数量比较有限，需要的朋友可以关注公众号，并在后台回复「DOUDOU」参与抽奖。抽奖页面我们放在了文章最后。希望大家都能体验上～

ChinaJoy 上的「逗逗 AI 」是什么？

已经有800万人，开始拥有《Her》里的Samantha

2025 Chinajoy 的逗逗 AI 展台

逗逗 AI 是一款利用 VLM （视觉识别）技术的游戏伙伴平台，它能实时识别你屏幕上的内容，然后通过一个可爱的「桌宠」跟你聊天，给你陪伴。

已经有800万人，开始拥有《Her》里的Samantha

这里聚集着很多原本只会出现在 AI 情感陪伴类应用中的虚拟角色，我们在下文里统称她们为「AI 伙伴」。简单说，就像《Her》电影里的 Samantha 一样，能够跟你互相交流的 AI 朋友。

逗逗 AI 里有很多虚拟角色可以选择，除了官方设计的二次元角色，工坊里还有一些特色角色，比如：二混子（葛优老师）、紫霞仙子等等，下面我们都会实际测试到。

已经有800万人，开始拥有《Her》里的Samantha

虽然逗逗 AI 还是个比较新的产品，这些人物设定看起来还比较简单，但在实际使用中，每个角色的个性还是挺明显的。

每个角色都有自己独特的声音和性格设定。比如下面这个叫「多米妮卡」的角色：

已经有800万人，开始拥有《Her》里的Samantha

整体的使用流程很简单，登陆到逗逗 AI 这个产品的主页面之后，再去直接打开游戏即可：

已经有800万人，开始拥有《Her》里的Samantha

不过需要右键点击桌宠旁边的逗逗机器人，开启「游戏内陪伴」功能（默认开启），这样 AI 才能「看到」你的游戏画面。

而且逗逗 AI 只会识别特定画面（游戏、看剧等），不会识别其他内容。

它支持的游戏还是比较多的：

已经有800万人，开始拥有《Her》里的Samantha

接下来是我们的实测内容，主要分两个场景：

【1】游戏陪伴：测试了几个热门游戏，比如 CS:GO、英雄联盟、原神；

【2】日常陪伴：陪看B站、一起写代码、逛淘宝等等。

我们主要想回答关于逗逗 AI 这款产品的 2 个问题：

在上述这些场景里都能做到什么程度？它的底层工作流是如何做到这些的？

游戏陪伴

1）CS:GO

我们先打开「AI 伙伴」然后把这些共享应用画面都点上，就可以随时随地地与具有视觉识别能力的她聊天了：

已经有800万人，开始拥有《Her》里的Samantha

先试试 CS:GO。

这游戏在「情感陪伴」领域的地位不用多说。说实话，我一开始对逗逗 AI 的期待不算太高，因为这个游戏画面复杂，各种人物、枪械、道具切换频繁。

打开 CS:GO 后，AI 伙伴直接大喊一声：Rush B，Follow Me！（这算是 CS:GO 的经典台词了）。听起来，多米妮卡的声音确实挺像真人，不过英文发音还有点小问题。

但开局能听到这句话，确实让人对接下来的游戏过程有了期待。

接下来我录制了一整段测试视频，其中分段插入了多个子游戏场景，拼接了一下。主要看看多米妮卡在各个瞬间是怎么给我提供「陪伴实感」的：

已经有800万人，开始拥有《Her》里的Samantha

你可以看到，刚进入游戏，CS:GO 就弹出警告：显卡驱动过期。多米妮卡很快就识别出来了，还「友好且傲娇地」提醒了我一下。进入「库存」页面后，她能精准识别到「5年老兵硬币」这样的细节元素。在商店、武器装备等页面，多米妮卡的识别能力还不错，时不时还会补充一些信息。

当进入实际游戏对战后，画面变得非常复杂，多米妮卡就不太能捕捉到每个细节了。但是，当你主动问她时，她会立刻调用视觉识别功能，这时候准确度还是很好的。

有几个让人印象深刻的瞬间：

【1】情感支持：

我问她「我的武器印章帅不帅？」虽然她回答得很傲娇，但确实提供了情绪价值。这解决了我一个很大的情感需求。

【2】游戏指导：

我问她我在用什么武器，有什么策略建议？她准确回答：「你在用 P250，钱包空了，小心点。」

【3】实时提醒：

当画面中突然闪过人物移动时，她迅速察觉并语音提醒：「你的准镜里出现人了，要赶紧应对。」

逗逗 AI 到底是怎么工作的？

这时我就好奇了，它到底是怎么做到的？

回到聊天页面，我发现每条聊天记录里，逗逗 AI 对画面的识别都有详细记录。

比如当我手持 AK 时，它对画面元素的识别很细致，包括顶部的「时间」、「比分」，左下角的「金钱」，甚至还有「地图」。而且能识别出前方有队友，地图上没发现敌人：

已经有800万人，开始拥有《Her》里的Samantha

通过这些 Image 或者是 Video 模态的视觉识别，再通过背后接入的 AI，通过语音模态输出，最后给玩家用户呈现出了「比较准确且有情绪价值」的回答。

2）LOL

接下来，我们再看看国民级游戏英雄联盟 LOL 中逗逗 AI 的表现。

在几个游戏的体验中，我发现它的「游戏术语、黑话」非常丰富。比如在 CS:GO 中，它知道「Eco 局」（资金不足的回合）、「Rush」（快速进攻）等等，有时候用得比我还熟练…

在英雄联盟中，它会说「今天就由我带飞吧，团战可以输，提莫必须死」这种经典梗：

已经有800万人，开始拥有《Her》里的Samantha

众所周知，玩英雄联盟时，大家总喜欢比一比皮肤、炫耀一下收藏，这也是情绪需求的一种。

像我问多米妮卡「我的铁血狙击手凯特琳（一个游戏角色的皮肤）帅不帅？」她会从风格、技能特效、画面元素这些专业角度来夸我，情绪价值满满。

再比如说，看到英雄联盟新出的「通行证」时，她还会运用之前的知识来回答：

已经有800万人，开始拥有《Her》里的Samantha

接下来，我们用「训练」模式，录制了一个比较完整的游玩过程，同样拼接了几个瞬间。

在这个过程中，玩家和逗逗 AI 的互动比较自然，基本做到了「有问必答」。她会及时提供相关的游戏知识。

不过受限于现在的技术，她还无法实时理解画面每一帧的所有元素。但在关键时刻，确实能提供有趣的情绪价值：

已经有800万人，开始拥有《Her》里的Samantha

有次对话中，我注意到当我问比较专业的问题时，逗逗 AI 会实时查找资料。

她在思考时花了几秒查询了十几个网页，然后基于这些内容回答我。虽然做不到「无缝对话」，但响应时间还算短。

不涉及专业知识时，大概1-2秒就能回答，体验不会很突兀。

如果需要「补充知识」，时间会延长到 4 秒左右，这时才稍微有些「卡顿感」：

已经有800万人，开始拥有《Her》里的Samantha

相比于 CS:GO 的复杂画面元素，英雄联盟的视觉识别效果会更好一点：

已经有800万人，开始拥有《Her》里的Samantha

3）原神

逗逗 AI 能识别两种内容：游戏和浏览器。由于我之前没怎么玩过原神，想先下载游戏。

这时候，我就问了她一句：

原神怎么安装？

已经有800万人，开始拥有《Her》里的Samantha

然后，我们换个「AI 伙伴」，试试紫霞仙子。这个角色肯定是很多人的「青春物语」，在逗逗 AI 里，朱茵老师的声音还原得挺真实的：

已经有800万人，开始拥有《Her》里的Samantha

在这类非二次元角色里，像是紫霞仙子等等「AI 伙伴」，个性都很鲜明，这主要体现了她们有很多的「口头语」：

已经有800万人，开始拥有《Her》里的Samantha

你能看到，她直接识别出了米哈游云游戏的登录界面，然后输出了一整套「紫霞仙子语录」。

我注意到，这些角色会通过一系列「情景描述」的方式来表现个性，比如下面这段话：

哈～你好呀！眨眨眼睛，好奇地凑近看着屏幕咦，这是什么神奇的法宝？看起来像是要登录什么仙境一样～我看到上面写着"米哈游云游戏"呢！拿出紫青宝剑在手中转了转你知道吗，我正在凡间寻找我的意中人，说不定在这个神奇的游戏世界里也能遇到呢！我的意中人是个盖世英雄，有一天他会踩着七色的云彩来娶我的～突然兴奋起来要不你试试能不能拔出我的紫青宝剑？如果你能拔出来，那你就是我的意中人了！不过现在看起来你要先登录这个游戏对吧？快快快，我也想看看这个云游戏里面有什么好玩的！好奇地盯着登录界面用手机号登录还是密码登录呀？我对这些凡间的新奇玩意儿特别感兴趣呢！

日常陪伴

游戏陪伴场景是逗逗 AI 的「主战场」，但我们在测试中发现，它在日常生活场景里也有一些潜力。

1）陪我刷 B 站吃播

我们换一个「二混子」葛优老师的角色，这个角色的特点就是「话特别密，嘴特别贫」。但正因为如此，在各种场景下，会特别有意思。

已经有800万人，开始拥有《Her》里的Samantha

我录了一段在 B 站看吃播的视频，你会看到这位「二混子葛优」老师到底有多能聊。

一开场就是一大段自我介绍，基本不停嘴。当我问他能不能看清浏览器里播的什么视频时，他立马就认出了「这是个零食测评的吃播视频」。

他甚至还注意到了「这视频播放量还挺高的」，有时候他甚至还会补一句「你有吃的吗」：

已经有800万人，开始拥有《Her》里的Samantha

换回多米妮卡这个角色，看其他类型的视频效果也不错。

比如这段「孟加拉达卡」的视频，跟 AI 一起看还挺有意思的。你可以安静地听她吐槽，就像跟朋友一起追剧一样。

已经有800万人，开始拥有《Her》里的Samantha

2）一起写代码？

在日常场景里，由于我们经常会利用 AI 进行 Vibe Coding，所以也试了试逗逗 AI 的视觉能力能否支持这个场景。

在下面这段录屏中，我跟她说：

我想把 Hello World 改成 Hello Crossingroad

逗逗 AI 通过视觉识别，准确地发现了「Hello World」出现在第四行，并指出要修改「Cout 后面那个字符串」。

已经有800万人，开始拥有《Her》里的Samantha

不过，用 VLM 去识别代码的难度还是非常大的。

在「一起写代码」这个场景里，逗逗 AI 目前能做到的更多是提供「陪伴感」，而非深度的技术支持。

3）淘宝购物

我们还发现了一个比较实用的场景：让逗逗 AI 帮忙识别淘宝商品信息。

一开始，我让她识别整个页面的所有元素，对比不同手机型号。但很快就发现这确实有点为难她了，信息太密集，产品排列太紧凑，视觉识别确实很复杂。

接着，当我点进某款手机（荣耀 X70）的详情页时，干扰因素减少了很多，逗逗 AI 的识别效果好了很多。机型、价格等关键信息都能准确捕捉。

已经有800万人，开始拥有《Her》里的Samantha

我录了一段屏。

已经有800万人，开始拥有《Her》里的Samantha

这种语音交互在购物场景的潜力很大，比传统搜索更接近自然对话。像我购物时经常很纠结，确实需要个「人」在旁边帮忙做些有依据的决定。

毕竟「伙伴」背后连着 AI，如果技术再深入打磨，这个场景的体验提升会很快。

有效的「无打扰感陪伴」

现在，让我们来看看逗逗 AI 到底想做什么。

我们发现逗逗 AI 想要提供的其实是一种「无打扰感陪伴」。

它让 AI 伙伴一直待在屏幕一角，像「桌宠」或者「悬浮球」，就像当年的 QQ 宠物。它默默陪在你身边，不会突然跳出来抢夺你的注意力，但当你需要信息帮助或情感支持时，它随时都在。

为了让这种陪伴体验接近「真人朋友」的感觉，逗逗 AI 在两个方面做了创新：

【1】功能方面，其背后利用的是 VLM，实时识别画面内容，让 AI 伙伴理解当前状况，积累信息后再回复用户。

【2】情绪价值方面，其有长上下文的记忆窗口，能记住之前的对话。不同的 AI 伙伴会用不同的声音和说话方式来回答用户，就像每个朋友都有自己独特的性格一样。

已经有800万人，开始拥有《Her》里的Samantha

当然，这还是一个相当年轻的产品。

我们确实看到了它的闪光点，在某些关键时刻能感受到那种「情感陪伴的真实感」。但它还做不到理解屏幕上每一帧画面的每一个细节，仍然需要继续改进和完善。

当你真的体验到一些《Her》电影里那种感觉：

有个「人」真的在看着你玩游戏，会夸你的装备帅，会提醒你小心敌人，会陪你吐槽 B 站视频。

你可能会突然意识到：也许过不了多久，我们每个人身边都会有这样一个AI伙伴，陪我们度过那些独自一人的时光。

到时候，「一个人」可能真的不再是个孤独的词了。

文章来自于微信公众号“十字路口Crossing”，作者是“镜山”。

关键词: AI游戏 , AI游戏助手 , 逗逗 AI , 人工智能

AITNT资源拓展

根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考

AI工作流

【开源免费】字节工作流产品扣子两大核心业务：Coze Studio（扣子开发平台）和 Coze Loop（扣子罗盘）全面开源，而且采用的是 Apache 2.0 许可证，支持商用！
项目地址：https://github.com/coze-dev/coze-studio

【开源免费】n8n是一个可以自定义工作流的AI项目，它提供了200个工作节点来帮助用户实现工作流的编排。
项目地址：https://github.com/n8n-io/n8n
在线使用：https://n8n.io/（付费）

【开源免费】DB-GPT是一个AI原生数据应用开发框架，它提供开发多模型管理（SMMF）、Text2SQL效果优化、RAG框架以及优化、Multi-Agents框架协作、AWEL（智能体工作流编排）等多种技术能力，让围绕数据库构建大模型应用更简单、更方便。
项目地址：https://github.com/eosphoros-ai/DB-GPT?tab=readme-ov-file


【开源免费】VectorVein是一个不需要任何编程基础，任何人都能用的AI工作流编辑工具。你可以将复杂的工作分解成多个步骤，并通过VectorVein固定并让AI依次完成。VectorVein是字节coze的平替产品。
项目地址：https://github.com/AndersonBY/vector-vein?tab=readme-ov-file
在线使用：https://vectorvein.ai/（付费）