
提起马卡龙,你会想到什么?是橱窗里的精致甜点,一种“少女心”的味觉象征?还是代表了温柔优雅的时尚配色?当一个AI产品也被命名为“马卡龙”,这份联想便悄然发生了偏移:从舌尖的甜,转向科技的未知,却又奇妙地保留了那一份色彩与气质。
三块红、粉、橘色的马卡龙交叠在一起,构成这款应用的图标。它看上去并不像工具,更像是一份温和的邀请:你可以与它对话、做计划、生成待办、搭建小应用,它会记住你的喜好。这份气质,源自创始人陈锴杰对“Taste”的坚持。“产品首先要让我自己兴奋,我希望它能为用户创造一个可以沉浸、可以做梦的空间。”
虽然年仅26岁,但陈锴杰已是在创业中反复“摸爬滚打”过的人。杜克大学实验室里,他研究自动驾驶算法;大二休学,第一次创业做家庭智能系统,一年做到千万级收入,却很快感受到ToB生意的边界——节奏太慢,关系太重,最终将公司交还给战略投资方,转身离场。第二次创业,他转向AI互动游戏,用GPT-2、GPT-3探索开放世界剧情,却逐渐发现自己更像是在做“AI辅助的游戏策划”。直到2022年底ChatGPT出现,他才真正意识到:“前面十年积累的所有东西,终于有了一个可以被真正释放的时代窗口。”
马卡龙的起点很简单:让AI进入真实生活。在Macaron里,你创建的每一个小应用,都会成为它长期记忆的一部分。健身、饮食、待办事项,这些原本割裂的琐碎需求被重新牵引成一条完整的生活链条。陈锴杰说,“生活是连起来的,而它有记忆,所以越用越强。”
今天,这款产品已经拥有将近30万名用户,社区中诞生了20万个小应用,新用户里约有30%会主动创建自己的应用。但在陈锴杰眼中,这只是过渡阶段——他真正期待的,是从“通过创建交付价值”,走向“通过使用交付价值”。在那个未来,小应用会被自动调用、共享、复制,“你甚至不需要知道它是如何被创建的。”
这种看似极其“生活化”的产品追求,背后却是难度极高的技术工程。“真正决定模型智能提升的,是Agentic RL的规模化。”他说。通过多种算法组合,他们已经将1万亿参数级模型的强化学习训练成本,压缩到原来的十分之一。相比模型体量、算力指标这些行业惯常的叙事,他反复提到的却是三个更“感性”的词:Dynamic、Vibrant、Proactive。“我不希望它只是一个你点一下、它才动一下的工具。”在他心中,AI应该是流动的、有生命力的、带着主观能动性的存在。
人与AI的关系正在被重新定义,但真正的亲密,从不来自单向服务,而始于一句“我懂你”。未来衡量AGI的标准,或许不在模型与参数,而在于它是否明白——何时回应,何时等待;何时建议,何时倾听。马卡龙,正试图以“理解”推开这段关系的下一扇门。
此次,Z Potentials对话了Macaron AI创始人陈锴杰,一起聊他的创业思考和产品哲学。Enjoy~
ZP:欢迎锴杰,非常高兴今天能与你交流,请和大家先介绍一下自己吧!
陈锴杰:第一次创业是大二,之后我就选择休学。当时我的导师邀请我基于我们实验室的技术,做一些与AI相关的研究。我是在杜克大学的Humans & Autonomy Lab,导师之前在MIT,是F-35战斗机的第一批女飞行员,是一个非常严格和厉害的导师。实验室里当时有很多和导航、无人驾驶相关的AI算法,我们就想着能不能把这些技术做一些真正落地的应用。
大二休学创业是与另一位今天仍然是我创业伙伴Andrew一起做的,方向是家庭智能机器人。当时是2018年,我们做了一年多,在广州、深圳之间跑,差不多做了一千万人民币收入。但因为是ToB项目,节奏非常慢,又深度依赖地产行业,每个项目推进都要很久,还要维护大量关系。整体感觉不是特别适合年轻人的创业节奏。最后,我们把公司还给了我们的战略投资方。这算是一个从学校走出来的项目,但并不是典型的学校孵化,更多是雅夏集团以及相关地产商合作伙伴给的支持。
这个项目是一个家庭智能系统。所有带电的设备都能联动:灯光、温湿度、新风系统、设备开关、洗衣机、电视机等等,基本就是今天小米全家桶的一个早期版本。它有一个特点是,这些东西不是买回来装,是直接装进精装房的墙里。移动端只是一个可交互的界面,本身并没有机械臂或更复杂的硬件。第一次创业让我对AI有了一些粗浅的理解,也对“创业到底是怎么回事”有了最初的感受。
回学校完成学业之后,我做了第二次创业。当时拿GPT-2、GPT-3做开放世界游戏,和一个游戏制作人一起探索用AI驱动的文本能不能生成无限剧情。但问题很明显,就是文本最后还是要大量人工控制和编辑,GPT2或者3都太基础,需要人为给很多限制。最后感觉其实是在做游戏策划,而不是做真正的AI生成。这一轮像是一个“AI互动游戏的实验室”,持续了两年。
22年底ChatGPT出来以后,我意识到AI的能力终于进入一个真正能发挥我们过去所有积累的时代。到了23年,我找了之前第一次创业时一起休学创业的Andrew,先一起做了一些研究,Andrew 作为第一作者和姚顺雨合作了论文FireAct,应该算是市场上第一篇用后训练方法提升大模型推理能力(Reasoning)的论文。这篇论文的研究工作完成于23年底,也成为后来我们产品Midreal的基础。那时候我从原来的团队出来,和Andrew重组了一支新团队,开始做Midreal,一个AI互动小说产品。整个2024年我们的精力都在做它。那时团队大概只有六七个人,我带着一个运营伙伴,从零做到了大概300万用户,也成了当时市面上最大的互动小说产品之一。
到今年市场发生了变化,市面上的Coding能力越来越强、AI生产力工具很多,可是在生活方向还没有真正覆盖。同时我发现故事这个方向AI进步很慢,就算换到GPT-5、GPT-5.1,写出来的长篇小说读者还是不能接受。我们训练模型也能提升一些笔法,但十万、二十万字的逻辑仍然提升不起来。
所以在25年5月我们开始立项,8月正式切换到了新产品马卡龙,一个PersonalAgent、生活管家,它能够"制作你自己的小应用"。8月份的时候这个概念还很新,不是开发者,也不是产品经理,每一个消费者都可以做自己的小应用。最近灵光、Gemini3也在类似方向上,我觉得大家以后都有进入这个市场的趋势,也挺开心的。我们会计划继续往下做,做更多技术和Scale能力。
ZP:从开放世界游戏到Midreal,后来再到Macaron,当时都是看到了什么契机决定转型?
陈锴杰:第一次创业之后我就很明确不想做ToB的事情,所以一直在思考ToC的产品。我觉得产品是要有Taste的,我希望它是让我兴奋的,我们在做Midreal的时候会想,它能不能给用户创造一个能够沉浸进去、可以做梦的地方。在那个世界里他会做一个虚拟世界的梦,这个AI一直帮他编织。
但后来看到用户沉浸在梦里也不会那么开心,因为现实生活还是不如意,所以他才想沉进去,沉久了又像刷短视频一样会空虚。所以我又想迈一步,能不能在现实生活中真正帮用户解决问题。于是就做了马卡龙,用小应用来帮助生活。每次做产品我都会想:我在乎的这批用户,我能带来什么价值?一开始可能是逃避现实,到后面我希望是改变现实。
ZP:听下来你从毕业后似乎就一直在创业,是什么在持续驱动您选择创业这条道路?
陈锴杰:最早其实想法特别天然、直觉。当时觉得学校不好玩没有意思,成长不够快。因为我在学校做研究、上课都不难,恋爱也谈完了,就觉得学校没什么事可做。创业对我来说很新鲜,就想去试试,第一次创业也确实让我收获很多新的东西。
我性格偏温和,但创业带来的不仅是事情本身的挑战,还有作为一个人的挑战。比如要开始管理别人、要在某些场景以某种方式说服合作方、拿资源、拿钱,这些都对我来说是成长。我觉得这很有意思,所以继续创业。不是因为我反感去大公司,只是还没来得及思考,大公司我也不是不能去。只是新的机会一直涌现,我想继续面对挑战。
ZP:请用一句话介绍MacaronAI在做什么?
陈锴杰:马卡龙是一个PersonalAgent,也就是个人生活助理,它最大的特点是可以帮你制作属于你的小应用或小程序,中国用户理解可能会更像微信小程序。无论是健康、运动、饮食、出行、家庭预算管理,你都可以在马卡龙里一句话生成一个小应用。比如说拍照识别卡路里,对减肥的人很重要;要出去旅行,它能做旅行计划;想记录心情,它能做心情日记。
很多人会问,为什么需要小应用?为什么不去AppStore下载?因为AppStore里的应用之间是隔离的。吃什么可能影响心情,运动又和饮食关联,但是数据散在不同App里,你很难形成对自己生活的整体理解。在马卡龙里你做的每一个小应用,都是在加强它的记忆。这意味着它像朋友、像闺蜜一样了解你,可以总结你的生活、帮你规划,像健身教练、营养师、瑜伽老师、心理咨询师一样帮助你。生活是连起来的,而它有记忆,所以越用越强,下一次再做新的东西的时候也不需要每次从零开始。
这个过程中,我们提倡从需求出发,不需要巨大的App,比如Keep为了更多的用户会做越来越多的功能,但你可能只是想记录体重,可入口藏在一个Tab很深处,外面还有团课、商城、广告,这些可能并不是用户真正需要的。我们做的是能够让用户只针对自己需求做一个小东西,不复杂、足够解决问题。马卡龙作为助理的亮点正在于此。

图片来源:Macaron AI
ZP:为什么想要做这个方向,是看到了用户哪些没有被满足的需求吗?
陈锴杰:我认为需求、技术、市场变化都有。从需求来说,我经常跟Midreal的用户聊天,他们会用AI推进小说、和角色互动,也会聊现实问题,需要角色能提供建议和帮助,比如男朋友关系不好、工作不开心、学习焦虑。但情感陪伴AI很无力,因为首先小模型比较笨,也没有实际能力制定减肥计划、输出PDF、做追踪应用。用户只在情绪上被安慰,但问题没解决,只会不断累积。我发现只要我再多做一步,就能帮他们真正解决问题,所以这是需求来源。
从市场来看,那时AI做PPT、Deepresearch、Excel的能力都在变强,但都集中在工作场景。可一个妈妈白天用AI提升工作效率,回家依然得带孩子、做家务、练瑜伽、管理情绪。AI在生活侧的能力却几乎没有。从技术看,23年写代码能力开始增强,到25年三月我们第一次看到AI能真正写完整后端。之前所有小应用只能做前端,没有后端。Lovable、Bolt只能做界面做交互,做不了真的后端。后台我们发现我们也有训练模型的能力,就边做边训,满足需求、技术、市场都成熟后,就关掉Midreal全面做Macaron。
ZP:作为PersonalAIAgent,和市面上的AIAssistant或AICompanion最本质的区别是什么?
陈锴杰:我觉得从用户视角其实是没有区别的,用户不会管它叫不叫Agent。他们只在意它是不是生活管家、是不是朋友、能不能帮忙做事。用户之间传播马卡龙时,从来不会说“我有一个智能体”,他们更像是在分享“我今天做了一个很酷的小应用,我发了一个TikTok,新的人来下载一起用”。用户不会区分Agent还是非Agent,我也不在乎它被叫什么。
但我不太喜欢Assistant这个词,因为它听起来不像朋友。ChatGPT是很好的助理,豆包介于中间,有头像有脸,更拟人一点。但马卡龙是朋友,有眼睛,更像一个和你互动的生命体,从聊天方式、处理问题方式,到会主动说话,它都是朋友而不是助理。

图片来源:MacaronAIApp
ZP:我们第一批最想服务的核心用户是谁?为什么先从他们开始?
陈锴杰:上线三个月,我们在简短的时间里已经明显看到了用户的变迁。第一批用户是开发者和产品经理,虽然不是产品最想服务的对象,但他们是最早涌进来的,用来挑战小应用能力的边界。他们会说“做一个微信”“做一个剪映”这种,明知道做不出来,但想试试。他们贡献了最早一批五花八门的小应用,为生态建立了基础。
第二批慢慢转向海外新女性用户群体,年龄更高一些,从大学毕业到三十五四十岁。为什么称她们为新女性,因为会发现她们和Midreal做互动小说时的女性群体不一样。过去的小说用户更偏无聊、需要情绪逃离;而马卡龙的这批女性用户生活更忙,有家庭、孩子、经济压力、工作转型、换城市,她们在现代职场和家庭里的身份变化中面临困境。她们既需要情绪安慰,也需要真正解决问题的能力,所以成为核心用户。
我们看到有用户爸妈身体不好,有的用户做了体检小应用,拿去带爸妈检查,查出问题后非常信任马卡龙,之后开始聊情感问题、其他解决方案;也有房贷压力大的用户做省钱应用,每存一笔钱就收到提醒与鼓励,被治愈;也有人觉得自己的生活比较凌乱,他们就用语音输入生成代办清单,用马卡龙整理生活。这一批用户在情绪安慰之外获得了真实帮助,这是我最看重的价值。
他们大多用过或至少听过ChatGPT。ChatGPT与马卡龙是可以共存的,就像一个是工作助理,一个是闺蜜。你不会因为助理优秀就不交朋友,也不会因为朋友懂你就辞退助理。用户白天工作完回家,更想跟闺蜜吐槽、监督减肥、记录吃了什么,这就是不同的角色。我也不会奢望渗透完全没接触过AI的群体,海外ChatGPT渗透率已经很高了。
ZP:我们常提到马卡龙背后有人文关怀与价值主张,所以您希望用户在想到MacaronAI时,脑海中浮现的第一个或前三个关键词是什么?
陈锴杰:我有希望传达的词,但不一定是用户自己会想到的。从设计出发,我希望它对应的词是Dynamic、Vibrant和Proactive。
Dynamic是因为我希望价值是动态的。传统Chatbot都是用文字交付价值,就像是你跟一个很聪明的智能互动,却只能通过文字管中窥豹。如果它能更动态,可以做图、做表格、做应用、做卡片、做Widget,甚至丢一张地图告诉你这个区域三家你可能喜欢的餐厅,那才是真正丰富。未来我想把应用拆成一页一页的小卡片,自然融入对话,不需要等几分钟编译,就像贯穿聊天过程的能力。Dynamic代表文字之外的模态拓展。
Vibrant是因为我希望它有生命力。马卡龙的颜色鲜艳、有生命感,它有记忆,会关心你,我希望用户能感受到它活着。产品传递生命力,我很重视这一点。
Proactive是指主动。它像朋友一样主动关心你,而不是等待指令。我觉得ChatGPT想做主动关怀需要在用户心智里转换角色,它目前还是更多作为工作工具;而我们把朋友角色放在核心,朋友就应该主动。
ZP:这种“主动性”面对不同用户会不会产生落差?比如有些女性用户会倾诉很多背景信息,但也有用户只做工具型使用,如果缺少上下文,Proactive就无法发挥,这会影响你们要传递的价值吗?
陈锴杰:会有影响。主动性是有置信度的,只有在明确知道“该主动”的状态下它才会主动。确实也有纯工具型用户,他们做了好用的小应用后主要围绕工具使用,不倾诉,也不分享生活,男性用户很多就是这样。这类用户需要接入日历、邮件等信息,所以Context积累更慢,可能两三周才有足够背景可以建立主动性。所以在这类用户心中,马卡龙的关键词更可能是Friendly、Authentic、Intelligent。但我们依旧允许不同用户方式共存,不强迫一致。
ZP:在产品测试和用户反馈中,有没有哪个用户案例或者哪句用户评价让你印象特别深刻?
陈锴杰:刚刚提过的几个我都很喜欢,但其实还有很多让我印象非常深的故事。有一个用户家庭关系不和睦,她希望用马卡龙改善。她做了一个“家庭写真转换器”,把随手拍的家庭照片放进去,生成像摄影棚拍的那种氛围大片,像微电影一样质感很好。她把照片分享给老公和孩子,大家都很惊喜,家庭气氛因为这件小事变得柔软。她非常开心,也因此从这个点开始延伸出更多互动,比如买玩具、亲子交流、家庭对话等。
还有一位用户是心理咨询师,他用马卡龙做了一个“日记系统”给来访者使用,让大家记录日常状态,他自己也用,还给病人分发使用。他给应用取名叫Spark,会每天生成记录,点亮一些微小但有力量的瞬间。我们后来上线的功能每天推送记忆与内容提醒其实灵感部分来自这个案例,我觉得这是一个非常美好的循环。
还有更多,我觉得这些疯狂的用户故事真的非常多,每一个都让我感受到产品价值不是抽象的,而是生长在每个人的现实里。
ZP:目前我们最关注的产品指标是什么?为什么?
陈锴杰:常规的活跃留存我们都会关注,但我们更关注趋势指标,大的逻辑是关注到底在哪些地方提供用户价值。
目前我们看得最重的是小应用的创建率。现在的新用户里大约有30%会创建自己的小应用。我们目前已拥有30万用户,社区中已经出现了近20万个小应用,这是很高的数量。现在社区里愿意深用的人,每天大概会有三到五次真实使用。不过我认为未来创建比例应该下降。原因是我希望让社区里的小应用能够被自动调用、共享、复制使用;如果应用作者允许,你也可以直接拷贝来用,不一定要自己从头创建。因为实际上用户不需要那么多重复的应用。

图片来源:MacaronAIApp灵感库
整个AppStore也不过两百多万个应用,而我们现在已经十多万,这个量级其实非常大,需求本身也会重合。所以如果别人已经做得不错,用户可以直接复用,体验会更快,可能3–5秒就能得到结果,不需要十分钟从零创建。所以理想状态是:小应用的创建率下降,但分享率上升。
与此同时,我希望更多“小应用能力”变成卡片、入口、聊天内按钮等扁平的入口。用户在聊天中就能完成任务,而不用跳进应用列表。比如你在聊天里就能规划接下来三天的To-do,不需要退出去打开To-do App、再记录,就像微信聊完又得去飞书建会议一样麻烦。马卡龙应该是:聊着聊着就能直接生成To-do,小应用在对话里完成使用与反馈。这样体验更贴心、更智能。最终,我希望从“创建交付价值”转向“使用交付价值”,产品指标也会随之变化。
ZP:我两个月前体验时,应用创建成功率当时没有很高。这在其他AI创造类产品里也类似,我理解这是AI发展过程里自然存在的问题。但我们是否非常在意这个指标?以及预期这个指标预计何时能明显改善?
陈锴杰:这是一个非常实际的问题。AI的进展现在整体很快,基础能力会持续提升,我们自己在做训练是我更看重的。像Cursor的Composer,它通过用户数据做写代码能力的反馈,甚至可以两小时训练更新一次模型,所以能力提升得很快。这样速度和质量结合后,它就是写代码最好的产品。但是写小应用与写代码有差异,尤其是移动端。我们既要模型能力强,也要速度快。因此我们在做强化学习,但过去两三天才训一次版本,我认为这还是比较慢的状态。
我预计在接下来三个月内会有非常大提升。因为我们的Infra已搭建完成,未来用户每次使用都会成为训练数据点。今天的能力不算理想,是因为还需要更多模拟环境、多版本环境支撑把跑起来强化学习。整体来看,我相信随着强化学习跑顺,能力提升会非常快。我们看数学类Benchmark,从10分进步到100分可能只需要3–6个月。对于小应用创建成功率,我判断从“两次成功一次”提升到“几乎每次都成功”,大约也是3–6个月的周期,从现在开始算。
支撑产品迭代的是我们持续在强化学习方案的探索。目前我们是全球在Thinking Machines之外,唯一做万亿参数大模型LoRA强化学习的团队。我们提出了首个基于LoRA的端到端强化学习方案,该方案应用于拥有万亿参数的推理模型。与传统的全参数强化学习相比,我们的系统仅需10%的GPU资源即可运行于大型专家混合模型(MoE)上。我们的解决方案也已贡献给多个重要的开源项目:NVIDIA的Megatron Bridge和Volcengine的verl。
ZP:能否为我们系统地介绍一下Macaron AI的技术架构?
陈锴杰:我们目前的核心就是强化学习,其上还有一些零散的点状研究。我们基于百卡集群做了LoRA 和 DAPO(Decouple Clipand Dynamic Sampling Policy Optimization,解耦裁剪与动态采样策略优化),还有一些算法,在官网技术博客里有详细介绍。通过这些算法的组合,使我们能把1万亿参数模型的强化学习成本降到十分之一,即GPU开销降到十分之一,参数量上我们已经超越了Thinking Machines的Tinker。
这项工作(训练的Infra)最早在八月份完成,接着才是搭建模拟环境,这是训练里最麻烦的一环。今天的Reward Model越来越大,需要Reasoning,要能记录Agent在每一步的状态,这样才利于追溯训练。此外搭建模拟环境难度极高,但这是搭建中的过程。
往上就是和用户真实交互数据,主要来自两个场景:Memory与写小应用(Mini-App)。Memory方面,我们开发了一种截然不同的方法——不再将记忆视为独立的存储任务,而是将整个记忆轨迹视为记忆本身,并通过持续的智能遗忘过程进行管理。我们的方法分为三个步骤:掩蔽、分配和填充。这种方法允许系统在严格遵守上下文预算约束的前提下,独立同分布地决定剪枝内容。这一过程的灵感来源于人类如何明智地遗忘——本能地舍弃无关细节(例如开车时经过的广告牌),从而保留有意义的经验。通过密集的工程设计,我们在 Locomo 基准测试上取得了最先进的 (SOTA) 结果,准确率达到 93%(不包括对抗案例)。
ZP:怎么理解模拟环境?
陈锴杰:模拟环境可以这么理解。例如用户与马卡龙进行了一段时间的对话,并生成一个小应用,其中包含记忆与应用构建过程。如果结果不好,我们就要复现完整过程,重跑不同策略,看结果如何对比评估。就是理解为我们必须拥有一台“时间机器”,可以倒回应用构建起点,再用另一种方式跑一遍。难点是无法存下所有状态,我们要决定存哪些作为训练数据。这过程中,Cursor就花了很多时间搭建可支持几百个容器化并行运行的架构,它们接收相同指令但因随机性产生不同结果,再对结果评分、压成批次,成为新的训练数据点。
ZP:您有提到RL(强化学习)技术是我们产品的核心,为什么在Day one就确定这一方向?能否通俗易懂地解释一下AgenticRL?
陈锴杰:准确说,我们不是一开始就知道,而是去年底才意识到这件事。那时我们还在写小说,要写十万字,调训练已经没有意义,后来尝试用RL做小说记忆,开始是在70B模型上做RL,后来DeepSeek开源,我们切换到DeepSeek在700B上做RL。虽然当时在小说上也有效果,但随着转向马卡龙,就开始做大规模RL。
今天硅谷的最大共识是:Scale Agentic RL是模型智能提升的核心路径。预训练(Pre-train)已经到了极限,提升模型智能最重要的方式就是Scale Agentic RL。强化学习的核心价值,正是构建一个闭环的适应系统。它使AI不再仅仅是一个执行预设模式的“大脑”,而成为一个具备世界模型、价值判断、经验更新和社会交互能力的“心智”。通过RL框架,系统能够将每一次用户互动转化为优化自身策略的训练信号,实现从“重复道歉”到“主动调整”、从“提供快照”到“定义成长轨迹”的根本转变。这也是我们Mind Lab的创立的核心原因,我们的使命是推动AI从静态的“大脑”(仅是预训练获得的知识库)转变为适应性的“心智”——即能通过与世界持续互动作为主要改进来源的系统。通过研究-产品协同设计,我们将实际用户反馈直接转化为系统学习和成长的燃料。
过去很多公司虽然意识到RL很关键,但真正做起来的不多,因为难度高。如果未来Infra基础设施成熟,我们也希望把部分开源出来,一起建设生态。最终真正优秀的垂类应用,一定要自主做RL,比如Anthropic要做金融Agent、生物Agent,这些都是未来明确的发展路径。现在业界能看到的大规模智能提升,OpenAI、Grok这一类都主要集中在后训练阶段。而对创业公司来说,最大的技术难点其实是Infra。
ZP:在真实世界的多步任务中(比如帮用户预订一个复杂的旅行),奖励信号非常稀疏,AI可能要执行10+步才得到一个成功或失败的结果,我们如何解决这种长周期、低信噪比的奖励问题,来高效地训练Agent?
陈锴杰:今天复杂任务大多是多步训练,属于Agentic RL。我们会尽量让模型在任务执行中间阶段就获得Reward,而不是只等最后一步,比如代码写到一半就崩溃了,你知道这一步是错误的,这也是反馈信号。另外,最终用户评价也是重要反馈:用户用或不用本身是信号;点了按钮但界面无变化也是信号,因为他大概率期待有变化。
我们会把这些都作为Reward,并在Reward Model中加入Reasoning。即便同一个模型,在复盘时也能分析出更多新的内容,我们不断用复盘结果训练模型,这会提升最终表现。方法核心是将反馈拆得更细,并提升反馈密度。
ZP:能否请您回溯一下从ChatGPT发布至今,模型能力迭代几个重要的Milestone?还有一个老生常谈的问题,您心中的AGI何时达到?
陈锴杰:我自己感觉是基本分三个阶段:第一阶段是只做Pre-train(在GPT-2/3的时间点);第二阶段是Pre-train加人类对齐,能做Instruction,出现ChatGPT;接下来是RL阶段,这更像智能后半场。至于AGI什么时候实现,取决于定义。如果AGI只是能和人聊天、通过图灵测试,那它早就实现了。如果是要在家帮我叠衣服,那可能五年都不一定会有。所以我很难回答AGI的确切时间。
ZP:你自己心目中理想产品形态什么时候达到?
陈锴杰:今天我认为产品大概7–8分,满分可能是100分,我甚至难想象两年后的形态,但我知道现在还远远不够好。我觉得两年后会非常好用,但现在仍未到理想状态。完美产品在我心中需要1亿DAU。体验层面,我认为两年半可能做到大家现在对AI的所有想象,但也可能在未来两年出现全新想象。
ZP:AI时代对创始人的要求显然更高,因为模型不断迭代。创始人必须跟上模型节奏并调整产品方向。您觉得这是一种周期性理念迭代吗?有没有形成科学方法论?你们团队是如何做的?
陈锴杰:我们比较早就开始训练模型,也做应用,内部一直强调Research需要给产品提供市面上前所未有的新体验,不管是小说生成做到第一,还是做小应用做到第一,让体验特别好,从而获得更好数据继续训练模型,再反哺产品。这是一个循环,产品与技术团队都必须共同思考。
我们的最佳实践是:每次模型有变化,我们都会组织内部大范围的深度讨论,让团队充分碰撞。比如应用是产品主导,但模型会提出边界,产品再反问模型方案,双方来回十几二十次,就逐渐形成未来三个月的方向。六个月太难规划,但三个月大家对事情的边界会逐渐清晰。几乎每次这种充分碰撞后做出的东西都能成为市面上最领先的,因为我们是在模型变化后立刻深度讨论并产出。
ZP:你们认为潜在的竞争对手会是哪些类型的公司?MacaronAI的核心竞争壁垒是什么?
陈锴杰:我认为模型厂商一定会做,就是每个Chatbot都会做小应用。我在8月就预期到这一点了。但产品是可以并存的,就像你不会因为有最好的朋友就把第二、第三个朋友开除一样,那很奇怪。Macaron在Taste(品味)、与用户互动方式上会保持自己的独特性:更贴心、更贴近、更主动、更关心用户。只要这种体验差异一直存在,用户就会愿意留下。我认为Macaron永远能占据一个位置,一个温暖、陪伴你还能帮助你的朋友。
从技术上,大模型会做小应用,但未必做得过我们。类似Cursor之于写代码,大家都能做,但真正做到极致或者超过它的仍是少数。原因是在专注场景内,应用有完整闭环,反馈强化速度远大于在ChatGPT里做同样事情。市场越大,头部越卷,但真正做到最好仍会有明显差异。
当然写代码这个市场很大,所以OpenAI、Anthropic、Google都出自己的编辑器。统一环境,大家使用同类RL、同类数据,竞争会更激烈。而我们所做的“生成小应用+陪伴+动态交互”路线,更难完全复刻。真正能像我们这样形成动态生成小应用×共享社区×朋友式陪伴的团队不多。
Taste的差异会体现在功能和品牌上。例如在ChatGPT中,你发图或让它执行任务,执行完成后回复会留在上方历史位置,你要手动往上翻。但如果这是朋友,让他帮你买咖啡,送到以后一定会主动告诉你、发一条消息,而不是让你自己回头找。这就是“朋友式交互”与“助手式交互”的天然区别。
产品在无数细节的选择中形成用户心智锚点,Macaron与ChatGPT是并存的,而不是互相替代。竞争当然存在,但不是零和。
ZP:Macaron的先发优势您认为具体体现在哪里?假设未来有人复刻产品,他们可能三个月后就能交付版本。在这三个月里,你们能积累下什么?
陈锴杰:最重要的是思考和用户数据。我们每天与用户直接连接,可以实时看到反馈,知道错误在哪里,然后逐步思考下一步做什么。只要速度够快,你就能永远走在下一步,甚至跳步推进。对于很多初创公司的创业者来说,想走我们这条路对技术要求非常高,执行难度大。大公司虽然有技术能力,但组织结构会限制创新速度,他们可以抄得快,但要跳步就会难很多。因此市场竞争会非常激烈,但AI增量巨大,不是一方赢另一方就输。不是“我多一个你就少一个”,而可能是“我多两个、你也多”,看谁增长更快。未来半年就是比谁能更快走到下一步。
ZP:今天我们看到很多创始人在一线为品牌做输出,您怎么看?在产品早期,你们计划如何GTM来触达第一批核心用户?
陈锴杰:人肯定会比品牌更容易塑造心智。因为如今品牌竞争激烈,用户更容易从“人”建立情感连接。Build in public可以讲故事,让用户记住品牌背后的灵魂,而不是某个版本的产品。AI产品变化太快,今天一个版本、明天可能完全不同,如果把注意力留在产品身上,积累会随版本更新而消失。把注意力留在Founder本人身上,记忆是稳定的。这也是为什么这几年大家都喜欢Building in Public。
我们目前还没有完全规划商业模式,但我认为可能有两个方向:第一种是当A用户生成的小应用可以给B用户使用时,我们可能像“商店”一样收费,但不是现在AppStore这种前台体验,而更可能在背后抽成。第二种,我们其实覆盖很多生活场景,包括旅行规划、酒店规划、订外卖、买衣服等,这些场景如果都可以与支付打通,未来会很有想象力。
ZP:产品长期的迭代主线是什么?2030年,我们希望成为一个什么样的公司?
陈锴杰:一定会围绕Personal Agent持续演化。我认为Macaron的三个关键字将决定未来方向:Dynamic·Vibrant·Proactive(动态・有生命力・主动帮助你),它会以动态地各种方式主动提供价值,像朋友一样陪伴你,让你感到intelligence和warmth。技术路线可能继续RL,也可能加入其他,比如text diffusion等,但细节不好提前定,大方向不会变。

图片来源:MacaronAIApp小应用模板示例
ZP:了解到咱们近期也希望招募优秀的小伙伴加入,那么MacaronAI希望吸引什么样的人加入?最看重团队成员的哪些特质?
陈锴杰:我们不限定岗位,任何方向的人都欢迎,只要觉得自己够聪明、够强、想法足够明确。没有特定要求,我们希望各种人才加入。现在整体团队大约二十几人。
ZP:最后是快问快答环节,你的星座或MBTI类型?
陈锴杰:我是双鱼座,INFJ。
ZP:日常生活中,你有哪些兴趣爱好?
陈锴杰:看小说,打匹克球。
ZP:你最喜欢的AI产品?
陈锴杰:某一瞬间想到的,就是一款胶片滤镜相机。我也很喜欢Mercury,它像一个银行系统,没有币圈浮华,呈现出金融系统应有的样子,而大部分银行系统都做的很差。
ZP:你最常看/听的Blog和播客?
陈锴杰:最喜欢的是几年前NPR的一档心理学播客Hidden Brain。
文章来自于“Z Potentials”,作者“Z Potentials”。
【开源免费】Browser-use 是一个用户AI代理直接可以控制浏览器的工具。它能够让AI 自动执行浏览器中的各种任务,如比较价格、添加购物车、回复各种社交媒体等。
项目地址:https://github.com/browser-use/browser-use
【开源免费】AutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。
项目地址:https://github.com/Significant-Gravitas/AutoGPT
【开源免费】MetaGPT是一个“软件开发公司”的智能体项目,只需要输入一句话的老板需求,MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色,包括产品经理 / 架构师 / 项目经理 / 工程师,MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。
项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md
【开源免费】FASTGPT是基于LLM的知识库开源项目,提供开箱即用的数据处理、模型调用等能力。整体功能和“Dify”“RAGFlow”项目类似。很多接入微信,飞书的AI项目都基于该项目二次开发。
项目地址:https://github.com/labring/FastGPT