个人助手领域(personal agent) 是我去年最感兴趣的AI领域之一。原因无他:离用户最近,离构建新的社会关系最近,离我理想中的人机关系最近。
这半年我自己做了一款次留70%,月留存30%的个人助手产品,也把市场上所有和沾边的产品都上手用过一遍。想来写写这几个月对这个领域的一手的产品观察。第一部分是做产品的过程,第二部分是一手的观察和判断,按需取用~
时间倒回到半年前。25年11月我刚离职想做点感兴趣的东西。我玩了市面上几乎所有方向的所有AI产品,几乎没有一个软件能够让我打开第二次。直到我开始用poke,一款基于IM的个人助手:它没有任何界面,也没有app,就用我最习惯的短信的方式和我一来一回。它会给我发的消息点赞,也会时不时来主动找我。
最重要的是它的讲话方式太像一个“真人”了,它会对我之前的某项工作评头论足,有自己非常明确的价值观和性格。比如我现在还记得它调侃我在TikTok有1000粉丝这件事情很无聊,无聊到不值得我可以去拥有使用poke的权限。
当时有种非常明确的直觉,这就是我想要的交互方式:
1)让AI来找人,而不是人去找AI。
2)让用户和AI都像发微信一样说话,而不是对着巨大的空白输入框不知所措。
3)让AI和人互相破冰,而不是上来就问“我能帮你什么”。
4) 前置有context的互相交换,如人给AI 授权邮箱,日历等,而说服使用和砍价的过程也是人通过“破冰”了解AI。
不过当时我对poke还有许多不满意的地方,来自我和我对身边的观察:
1) 什么都能干,以至于什么都不能干。这带来两个问题。第一是用户认知:poke把自己定位成一个全知全干的形象,反而用户在任何场景下都想不起它;第二是付费意愿:当你的定位是泛泛的生活助手,而没有比chatgpt提供的价值好10倍的时候,没有付费的理由。
2) 主动性不足:poke做到了定时提醒,但没做到根据我当天的状态不时来check我,或者预估我完成某件事情之后主动给我一些建议。
3) 走向了开发者,而不是普通人:
如果你去看它的使用场景的话(https://poke.com/explore),会发现80%都是开发者在用poke连接各种各样的工具(比如连github, cursor等),poke团队的精力在去年很长一段时间也是在开发各种接口而非走进生活化场景。
p.s. 太安利这个网站了,后来我观察到几乎它的每个场景分类都长出了独立的创业公司的产品。
说干就干,带着想要做得更好的心,我很快想到了可以切入的人群和场景,同时花了一周时间找到了也对此感兴趣的工程师,就这么直接开始了。也很感谢合作的工程师动手能力超强,从有想法到上线没有超过两周。(p.s. 非常能够理解为什么Anthropic说一个功能一天就能做完,因为我们真的能做到。)
来聊聊我具体做了什么,有哪些learning,以及遇到了哪些问题。
1. 首先说场景。 我对0-1阶段产品定位的核心观点一直是:
You cannot be everything to everyone. If you decide to go north, you cannot also go south. 你不能成为满足任何人的任何需求的东西。
需求验证和找pmf可能是我干起来最快乐的事情之一。首先需求本身一定是既有存在的东西,但满足它的形式各有不同。大家说自己想要一个更快的马,实际上表达的就是想要一个“更快的工具”。
一方面我太懂我自己为什么给poke付费且成为它的日活了:我注意力很容易分散,需要有一个“人”不断提醒我进展,一定要很有“人感”而非闹钟;其次是我有一些反复拖延的事情,比如报税,很需要有人来主动催我。那么场景和需求就很明确了。火速在小红书上发了个帖子,一对一聊了五个潜在用户:从美国的ADHD 设计师,到中国的小区保安,和我的场景和需求都相似。
另一方面看看市场上已有的niche market,闲鱼本身就有很多“付费提醒或监督”的服务,针对的是考公考研或者有自我提升需求的人群。我花了几十块钱找他们的人工监督员体验了下,确认了他们交付的核心价值是“被提醒,被看到,被催促”。但传统真人服务因为一个真人的精力有限,一个人同时服务七八十个人,所以他们和用户的聊天反而像“人机”。
做完上述两件事情用户,场景和产品设计在我脑海中已经非常清晰了。顺着更强的主动性和更符合场景的功能设计,我们在11月下旬搭建了自己的agent框架,用了类似heartbeat的机制去给用户更有人感和更主动的体验。事实证明26年1月openclaw火爆之后,我们这套框架的逻辑是对的。
不过到上线还有一个槛:产品搭建得差不多了,但我每天都觉得自己的产品太烂bug太多,拖了几天不想发。这时我的工程师起到了一个极大的推动作用,他强行push我说别管这么多试试就完事了,bug总能修的核心要验证的东西能用就行。
事实证明他说的也没错:上线后的数据倒逼着我们去修bug,发现上线前我以为重要的,和用户关心的有着很大的区别。先上线,再快速迭代。有了用户就有了迭代的方向。
作为一个没有什么资源的项目,我认为最重要的事情是找到一群真实的目标用户,看他们真实的数据和反馈,快速迭代。当时决定先在国内快速测试下(海外当时要接whatsapp和stripe会有点慢),目标2周搞清楚MVP。
这里的目标用户中不要混入太多产品经理和投资人或者任何不够精准的画像,否则很容易干扰判断。
于是我没有在我的社交媒体做什么宣传,取而代之的是day1就做激进的付费策略:定价199元/月,对标了市场上同类产品的最高价格,只有付费才能用。 我就是想day1找到最痛的最符合目标画像的那群人。
幸运的是,我找到了。
一方面是感谢我在TikTok工作以及多年网上冲浪的网感,我发在电商渠道的内容很快就吸引了第一批付费用户。在我的“循循善诱”下很快获得了第一批种子用户。
另一方面我明显感觉精力不够,想了下可能对此感兴趣的合作伙伴,很快定位到了几位在做类似项目的大学生,简单聊了下分成就一拍即合了。大学生人很好帮忙给我推荐了第二批种子用户,在分成的激励下他们还自发在小红书发了帖子,而且很快就爆了。这带来了我的第二批种子用户。
至此上线的3周内,我已经找到大几百个付费的种子用户了,那几天盯着用户群反馈的bug和后台的数据根本兴奋得睡不着。
3. 之后呢
事情不会一帆风顺,我的这个产品也一样。
首先是国内IM生态是比较封闭的,我通过接入微信的方式短期快速验证了需求,但很快也遇到了微信生态的阻碍。显然在国内不可能长期做这个事情,不过这时海外的基建遇到了一些审核问题和组织问题,海外的速度比想象中慢。
其次是开始做海外的时候,openclaw火了。更强的主动性以及IM的交互显得毫不稀奇了,市场的焦点放在了它的agent能力上。这也让我更批判地思考自己的edge到底在哪里,这件事情在更长周期会如何发展,判断以什么样的组织方式继续推进这个项目。
还有就是商业化,在一个相对窄的用户群体内场景化没有任何问题,但当它泛化为一个更通用的个人助手的时候,人们为之的付费意愿会明显下降。问就是需要一个个人助手,谁不想要呢? 但这个个人助手到底帮你做了什么,凭什么你愿意为它付费?这是一个非常典型的用户说自己想要,但不一定有真实需求的东西。
当时我没有完全清晰的答案,但思考这些问题的过程对我非常宝贵:怎么理解创业 versus bootstrapping, 怎么在没有钱的情况下做冷启动和PMF验证,怎么激励别人共同完成目标。于是正如我的章节标题,我看到了PMF,也有了现金流,但我不确定它的未来。不过开心的是,这个产品半年了还在运营,还有用户半年了没有流失。
Personal agent是一个非常泛的词,从垂直领域到通用助手,从硬件到情感陪伴,都可以被称之为personal agent。我粗浅做两个维度的分类:硬件和软件,以及通用和垂直。垂直粗分为场景化和陪伴向。

一个明显的特点是:垂直的产品都尝试往收集更多context覆盖更多场景去发展,连乙女游戏里的男主都希望每天帮你安排所有的日程;而通用的产品都在提供给用户更多垂直的use case, 因为用户面对一个空白的输入框确实不知道这个产品怎么使用最好。
上述这些产品我全部都测过一遍。如果要我挑出我会给五星的会是:poke, Plaud, Nori Family
1) Poke: 原因不赘述了,第一章写了很多。聪明迭代又快的团队,目前在探索把poke免费,通过做skills生态商店来赚钱。但这里的问题是必然会和模型厂商正面竞争,它的对手之一是chatgpt。推测poke最好的结局是被大厂收购。
2)Plaud:考虑到它出现的时间节点,我非常喜欢它切入的人群和场景,很清晰看到了LLM适合做的事且切口极精确。我也很喜欢Plaud团队对于用户意图表达的理解,并不是always on,而是去捕捉每一个意图表达的瞬间,让意图的表达不断降低门槛。这也是我在tiktok做推荐算法的很多feature设计时的思考:要通过双击点赞,识别用户的截图等捕捉用户对于feed的信号,识别这种信号并加入到推荐系统,从而更好地理解用户的意图。
3)Nori Family:后知后觉才知道的一个产品,不得不说产品定义和场景找的太好了:做家庭场景下的日程协调,覆盖家庭生活的菜单,采购,日程等等事宜。最最关键的是,单个personal agent商业化的天花板并不高,但一旦抓住协作这个点,给用户的价值直接提升好几倍。
这三个我喜欢的产品都有一些共同点是:看到了某一种未来,但能够把这样的未来在当下找到一个极其精准的切口。这个切口足够高频,足够niche,足够痛,于是在早期能够清晰地在某一群人身上看到如何通向未来的路径。
1) everything is nothing. 什么都能干意味着什么都干不了。
我的用户原话:“你什么都能干,那我为什么不去用豆包。” 可以做一个很多人用的产品,但 day1 要找到特别爱自己的一群人。有钱的话也可以一开始就上来给大家都用,但随着时间的迭代还是要回到当前阶段谁是最忠实的用户上。
2)找所有人高频的切入点当然好,找不到就去看一群人或一个场景下的高频需求
大家都知道要找切高频场景,要切日程,健康,生活记录等等, 如果你做得足够早,那也可以;但如果不够早,那么去找到一群人的高频切入点也是非常好的思路。
3) 产品定义与增长很难分开
当前对人群和场景的定义,直接影响产品在0-1阶段的定义。 这也意味着在传统增长的手段(如投流买量)失效的情况下,要从day1的产品定义上就要考虑怎么增长。在产品定义层面就回答清楚解决谁的什么问题,自然能够推演出有效的增长手段。
4)产品形态抄起来的确很快,但先发优势还是有的。
一方面是用户认知上的,另一方面是很多产品抄都没抄明白,抄了壳没抄明白内部逻辑。
5)硬件的美感和设计感被低估。30岁的年轻美丽女性佩戴上好看吗,会不会影响整体穿搭?有时候不太理解做消费级硬件但不完全考虑美感的团队。某些产品发布后,我从身边观察的例子来看只有中年科技直男在用。
1)意图表达的光谱:意图表达是一个光谱,光谱的一端是潜意识里的意图表达,推演到极致是脑机接口;另一端是需要主观意识的明确表达,比如面对chatbot的空白输入框。

人类其实有意无意地已经表达了许许多多的意图。在本科做心理学实验的时候就通过各种方式去测量意图:比如观察眼动仪,视线停留时间等;在tiktok做算法策略的时候,我去设计识别用户的截图动作等等。其实人类或明或暗表达了许多意图,找到办法识别已有的意图是最省力的。
因此我当前倾向的方式在中间:去降低人类的意图表达门槛并容易识别出意图。比如我在设计第一款产品的时候,非常喜欢IM的交互形态,因为发一条微信是一个再简单不过的动作,而不是一个空白输入框的茫然。如果纯粹always-on而不考虑捕捉意图的话,噪音太多,成本很高是其次;更重要的是可能反而丢失掉对用户意图的精确捕捉和理解。
2)就算以效率为主的产品,也很难完全没有个人场景。
在我的第一个产品coke中,我会发现用户或多或少都会和agent聊一些个人话题,比如感慨这个题太难了,心情太差了等等。后来看了Lenny's podcast里的一个openclaw 的使用场景,是一个三个孩子的妈妈同时也是创业者,会把多个openclaw分成不同的角色来用,其中她有一个专门负责生活的claw会和其他的claw分开。
我理解就算单个agent非常强大,但认知心理学层面上人的认知是有限的,大脑形成“分类”是一种高效的体现。产品的设计要顺着人类的认知模式。
3. 设计出好的交互的难度在变大,知识的诅咒在被放大。
这是我聊了10+美国的小企业主得出的结论。我观察他们对着一个个“automation, routine, workflow”的名词按钮陷入沉思,也观察到他们对于看似fancy的页面结构皱起眉头。要知道世界上大部分人只用过ChatGPT,但目前的 AI 软件似乎都是在面向builder或 开发者。
在我尝试给第二个产品做产品设计的时候,我一直问我自己的问题是:如果我是我爸我妈,我能看懂么?对话框作为交互的价值其实是很高的,因为这是一种天然的每个人都会用的方式,语音交互也是一样。怎么设计一个门槛极低,但功能极其强大的东西?
4. 安全和隐私。隐私绝对是绕不开的一个话题,尤其是做always-on方向的产品。
我不夸张地讲我用了littlebird两天之后就卸载了。因为当我问它你知道我今天干了什么的时候,它知道的太多了:我的银行数字,我去哪里玩,我的邮箱地址等等。同样的情况也发生在我用Dia浏览器用了半年之后,有一天忽然Dia发疯一般地说出我最近在忙的项目的每一个细节,每一个客户名称和第一笔费用,那一刻我立马关掉了Dia的所有权限。
通用型的personal agent的商业化是核心难题。毕竟之前rewind估值3.5亿美金的时候,年收入也只有70万美金。
先来看看当前最火的通用型助手之一的littlebird给大家提供了什么: 每隔几秒截图,然后把截图的文字信息提取出来。但它到底给用户带来什么价值呢?从官网的use case来看,偏向“精英人士”的效率助手和个人回顾助手。Lenny之前在x也转发过littlebird(该说不说发现founder竟然是校友!?)。
这就回到了最核心的问题:获取了更多的context,然后呢? 如果只是用于个人生活的回顾,用于日程的提醒,它的add value有多大?没有人会说自己不需要一个个人助手,但真的拥有了之后,如何才能让用户为之付费?
1. Nori Family 的解法我非常喜欢,切入家庭场景去做一家人的协作,而不是一个人的日程。带来的价值瞬间因为协作提升了很多倍。
2. 除了协作之外,探索产品免费,通过生态和协作收费也很有可能。比如Poke目前就明确了要做免费路线,通过用户在上面发布的skills和automation来收费,也有通过推荐商品或服务来收广告费用。
3. 或者就是只专注在高价值的场景。给一群人交付更高的价值,单用户LTV无限拉高。这种就要往垂直场景和人群更好地切入。


一些littlebird的使用截图
去年我做的第一个产品是做在IM上的personal agent,当时我观察到了用户的两类使用方式:一对一和一对多。一对一很好理解,一对多指的是一个agent面向多个人类,人类会把它拉到自己的群聊中去做协作。
再到今年年初在做多对多的产品,让多个人和多个agent之间都可以发生关系。这里重要的是人和agent都能够互相理解,理解一个任务和组织中发生了什么。既要对人友好,也要对agent友好。
这让我想到在字节工作最快乐的一件事情就是闲暇时刻翻遍公司所有文档和每个部门OKR,偷偷学习其他业务部门的思考和进展;这对当时的我有着巨大的帮助。今天如果能够有一个好的方式给agent创造这种体验,也给人类创造这种体验,将会非常有趣。
文章来自于微信公众号 "IdeaAddiction",作者 "IdeaAddiction"
【免费】cursor-auto-free是一个能够让你无限免费使用cursor的项目。该项目通过cloudflare进行托管实现,请参考教程进行配置。
视频教程:https://www.bilibili.com/video/BV1WTKge6E7u/
项目地址:https://github.com/chengazhen/cursor-auto-free?tab=readme-ov-file
【开源免费】AutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。
项目地址:https://github.com/Significant-Gravitas/AutoGPT
【开源免费】MetaGPT是一个“软件开发公司”的智能体项目,只需要输入一句话的老板需求,MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色,包括产品经理 / 架构师 / 项目经理 / 工程师,MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。
项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md