2023年4月,产品经理松鹅(化名)从腾讯离职两天后,就从深圳来到北京,加入一家基座大模型的初创公司。彼时,这家公司还没什么资本追捧和用户声量,只有一个听起来挺拗口的中文名字:月之暗面。
那时候这家公司的产品团队,只有松鹅一个人。
同月,曾经在字节跳动全程参与搭建抖音和TikTok等产品的王长虎,在中美都狂“卷”文生图时,创业成立一家文生视频公司:爱诗科技。
几乎也是同一时间,在尝试了AI口语软件、AI换脸、AI心理咨询等多个AI项目之后,用户量的激增、投资人的热情让身在腾讯的万磊发现:属于AI的风口真的到了。
大模型最终要靠产品来落地,这是这些嗅觉灵敏的产品经理们看到的机会。而故事也就此开始。
松鹅来到月暗6个月后,他们做出了Kimi,又过了6个月,Kimi在全网爆了;在Sora没火之前,爱诗的产品团队已经开始重点突破“一致性”的难题,反复进行迭代优化;万磊被投资人质疑多次“AIGC应用没有核心技术壁垒,很容易被模仿”之后,在蓝驰的闭门会上遇到了刚刚从苏黎世联邦理工大学毕业,带着大模型技术的姜昱辰。一个懂产品,一个有技术,他们组成了波形智能。
如果拿移动互联网的历史来对照,一个技术渗透到普通人生活的必经之路,就是应用的井喷。大模型领域今天似乎正在经历相似的事情。每天都能看到一两个新的产品诞生,走红,被广泛讨论,它们的目标都是成为一款“AI Native”的超级应用。
而在这些看似新生的AI明星产品背后,一个有意思的现象越来越明显:
在它们身上你总能找到上个时代的影子,更确切一些,是腾讯和字节的影子——这两个中国移动互联网时期产品最强的公司,正像幽灵一样,在中国大模型产品的上空徘徊。
腾讯的人出来,总是很“腾讯”。他们做产品,也是忠诚的门徒。
松鹅的个人栏目叫《鹅库》,而万磊存着一堆张小龙的表情包。
鹅和张小龙,都是腾讯的“图腾”。
在产品风格上,腾讯的产品经理们深受张小龙这位“微信之父”的影响。产品,是马化腾一直强调的“连接器”,它是技术和用户之间的连接,在腾讯的产品体系中,2C产品就是要把使用体验做到“极致”。
2023刚开年,松鹅还在腾讯会议团队待的好好的,用他自己的话甚至可以说是“很开心”。
它是目前最可用的会议工具之一,甚至一度可以说是腾讯继微信之后的下一个明星产品。在其他所有厂商将IM、会议、文档、OA都打包整合成一个软件的时候,腾讯把它们拆开了。
极简,是张小龙时代提出的“少即是多”的理念,而松鹅离开腾讯会议后继续执行着这样的理念。
松鹅曾在社交平台上分享道:“做一个产品,添加一个功能很容易,不添加功能迭代用户体验很难,减少一个功能最难。大部分产品都是因为不停地加功能而变的臃肿。”简直是张小龙产品语录的翻译版。
而Kimi身上确实也能找到对应的烙印。
早期打开Kimi,除了对话框,几乎什么都没有。在不断更新的版本中,它“长”出了几个按钮。
这些按钮包括了“首页”、“新会话”、“历史会话”和“Kimi+”,和Kimi的特色能力“网页链接”、“文件上传”,将核心功能凝聚成一个个按钮,是腾讯的另一个传统。
为了让用户能够了解按钮的作用,Kimi中也存在着大量的“气泡”,来进行进一步解释。不仅如此,在Logo的下方,具有文艺感的文案,句句不同。
根据松鹅公开分享的一个有意思的例子,也能看出这种腾讯的烙印并非所有做产品的人都默认的原则。尤其是,当你的团队也有了字节系的人——4月18号,在一些产品讨论中,松鹅提出在产品的某个位置需要一个文案。而“一位来自字节的同事觉得无可厚非:在字节做产品从来不会有这种要求,这不会提升转化。”他分享到。
“但这里确实得有个文案,还得是比较有功底的文案。嗯,现在差点意思。”顿了顿,松鹅讲道:“我们在腾讯做产品是这样。”
把用户的需求一个个拆到“事无巨细”,以人为本是腾讯做产品的灵魂。目前Kimi是唯一一个国内大模型,兼具了网页版、App小程序形态的大模型产品,一位独立开发者对我们反馈道:“表面上Kimi设置的网页版、APP版和小程序版和其他同类产品没有太大的差别,但当其作为插件在网页中使用时,Kimi的呈现效果要更好。”
灵活的产品形态让Kimi更具有大众性和普遍性,Kimi插件可以直接翻译+整理重要信息,同时还可以进行自定义调整需求,进行个性化设置。根据公开信息,网页插件版本是开发者自发调用API生成的,并不出自月暗团队。
同样由腾讯系产品经理打磨的蛙蛙写作,产品形态上和Kimi有很多风格相似的地方。对于不同场景的拆解和功能介绍、教程导览,在很多细节上的“较真”和“死磕”。
比如,对于一款生成文本内容的AI产品,万磊的团队发现,目前的模型生成能力往往并不能够直接生成整篇可用的内容,往往部分可用需要进行二次甚至三次调整。他们给出的答案很腾讯——在大模型的生成结果中,添加了“滑词”功能,以便于AI生产后的二次优化。
与此同时,腾讯的另一个灵魂“社交”,也快速展示在这些产品身上。
大学毕业之后,万磊进入了腾讯,在全民K歌中负责社交关系链的部分,后又转到“创新项目”部门,不断追赶互联网风口,做过数字人、元宇宙游戏,陌生人交友,也做了一堆和AI相关的小项目,在不断的探索中,他对于产品的思考越来越宽。
全民K歌推出之前,K歌已经有了标杆产品“唱吧”。那时的唱吧已经吸引和培养了一大批KOL,也在产品细节比如调音、制作MV上下足了功夫。
这盘逆风局,怎么打?参考了以前微信借势QQ、企业微信借势微信的套路,全民K歌更加强调“谁在听”而不是“谁在唱”。和微信打通之后,社交关系链自然而然的转移到了K歌平台,也为后续的发展创造了土壤。
当你打开蛙蛙写作就会发现,和其他产品不同的是,它更强调社交传播,“邀请送会员”、“进群有礼”让人梦回2018年全网都在“裂变”拉新之际。
我们曾与多位Agent创业者聊过当下的创业环境,他们的反馈往往是,“如今面临的不是做不出来,而是做出来给谁用的问题”。
“找用户”,无论是在移动互联网时代还是AI时代,都是第一个核心问题。对于文案写作工具而言,写出来是一方面,给谁看是另一方面。在群里,用户可以沟通和交流经验,互相分享成果,甚至通过蛙蛙写作的渠道报名参加小说比赛。
万磊分享道:“我们光电话访谈的用户累计有上百个了,有时候我们会把关键用户叫到办公室,当着我们的面使用产品,发现问题后产品团队立刻进行调整,我们希望借助自研模型把工具做细腻做透,和市面上其他套壳的写作工具拉开差距。”
这些产品风格上的“路径依赖”正随着产品的长大而凸显,这些主观、细碎甚至有些执念的做法,很腾讯。
但字节的风格几乎是光谱的另一端。体现在新的一批AI产品上,则是它不以人为载体传承,而强调一种产品逻辑上彻底的创新。
字节的人出来创业,带着的是一种做产品的方法,而不是产品的风格。
“19年的时候我们组里来了一个字节的小女生,感觉很不一样。虽然我们平时也会看数据,但明显她对数据和AB test更加敏感,所有的需求根据数据结果进行推演,包括好与不好,都是通过数据来评判。”万磊回忆道。
字节系的产品跑得比较好的,产品模型基本长得很相似且粗暴简单,推荐系统中台+足够规模化的数据input,从内涵段子到头条到抖音到后来小一点的懂车帝,番茄小说都一样,而腾讯产品做得好的产品基本离不开社交关系链。
腾讯像文科生,做产品的都是人类社会学研究学者;而字节是理科生,灌数据、做AB测试,然后跑数据,出结果。爱诗科技产品负责人牧之这样总结。
算法是整个“字节系”产品的灵魂,公开资料显示,王长虎在字节跳动负责了视觉算法平台和业务中台的搭建,用算法为代表的方法论来决定产品的样貌,这种方式同样带到了他的爱诗科技。
“推荐算法技术中台的打造是最困难的,他需要给足够的空间和自由度,让产品能够在短时间内完成更多需求测试,同时他也需要足够开放,对未来产品发展空间的承压能力和适应空间。”牧之说道。
参考移动互联网时代的抖音,几百万视频播放量时搭出的推荐算法框架,到了几百亿观看的规模,算法是不是仍然适用,仍然能够高效的分析每个用户的喜好。
这里我们举个简单例子,用双向标签对照的体系,为用户打标签,也为内容打标签,进行双向匹配,这样无论内容体量多庞大,用户体量如何增长,这样的机制能够保证实现“千人千面”。
字节系信奉这套方法论,在不同的场景、不同的行业这套方法论会出现不同的结果,也会遇到不同的难题。比如,对于爱诗来说,产品经理想设计一套机制,跑一个推荐模型,怎么让你的Tranformer或者Diffusion模型,通过产品能够拿到足够多的前期数据?
“第一重要的仍然是需要知道用户到底要什么,他要这个视频来做什么,对应到我需要什么杨的数据,第二是设计一套机制,无论是自己生产数据,采买或者爬取数据,还是强化学习来回收数据也好,input到你的模型。”牧之讲道。
所以在推出PixVerse之前,爱诗产品团队做了很长时间的时间用户调研,为了完成第一步。
通过对国内外比较核心的专业视频生产者的前期调查,爱诗发现,清晰度是用户的一个核心刚需,一致性是对视频生成模型能否成为生产力的一个更高标准,产品通过市场调查反哺技术,技术团队对此进行模型突破。
对于AIGC的使用场景,在早期根据历史轨迹的推演下,只能替代现有的一部分而很难开发新场景,且在技术发展的早期,比如文生视频的时间只能有3-4秒的高质量输出,能够满足的需求有限,产品需要找到一个合适的切入点。
有了切入点以后的下一步,是建立一个良性的算法模型。
牧之举了一个例子,在训练镜头这个事情上,如果产品能明确好当下用户其实最为需要的是一些专业性的镜头,那么你在做数据收集和数据标注以及清晰的时候,是会存在很强的倾向性的,就是需要这些专业镜头的数据, 有了这样的判断,往往能用更少的数据和更低的训练成本得到一个更好的结果。
随着用户量的增长,标注的元数据越来越多,算法也就越来越灵。
目前PixVerse在海外文生视频产品榜单中下载量连续排名靠前,也通过不停的算法优化和数据积累,形成了产品突破力,滚动的雪球开始有了实体。
1
技术与产品的新羁绊
腾讯和字节的产品风格区别,其实还暗含着一个本质的问题:技术与产品之间的平衡。
腾讯系的产品诞生和成熟于互联网时期和移动互联网初期,技术是现成的,需要产品提供的对用户需求的准确理解,来把它的价值体现出来。字节系的产品在移动互联网的另一个阶段快速成长,这时候以算法为核心的技术,本身在一种不稳定中快速进步,它带来的强大能力是头条和抖音这类产品可以出现的根本,产品经理的“上帝”的角色就让位给了算法技术。
这种产品与技术之间的牵绊在今天AI大模型时代,换了形式继续笼罩在各个产品的制造过程中。
“如今做产品和移动互联网最大的不同是,需要思考技术能解决的问题,和产品能解决的问题”。几乎我们问到的所有产品经理,都给出了这样的答案。但同样的,不同的底色依然决定着问题的答案。
对于视频生成产品,一方面模型的效果本身就与技术资源密切相关:比如显卡、显存的限制或者算力的不足会直接影响效果;另一方面,视频本身存在着大量的叙事逻辑,和对于剧情的完全可控,这导致了无法满足理想的产品形态。于是就像字节的产品那样,爱诗的产品设计也要很大程度从算法技术出发思考。
一开始大多数的视频生产产品只能生成4s的视频,但一个电影的平均单个镜头都有6秒,技术要进步如何突破时长,而产品则需要思考,即便是4s的视频,能够使用在什么场景。
而即便是在4s的限制下,仍然能解决传统的影视制作中,补缺一些空镜头和漏帧,解决重拍补拍的成本高昂的问题。
而且在底层大模型还在不停迭代的今天,对产品细节的追求,也要建立在技术差异之上,它甚至直接决定了产品的形态。Kimi和蛙蛙写作看似都是文本生成类的大模型产品,但技术能力完全不同。
众所周知Kimi擅长的是长文本的输入,能够一口气读完一本《三体》,但在应用中就会发现,Kimi的长文本输出能力不够强,无论给怎样的提示词,其输出的内容经常为1000字左右,所以Kimi的使用场景经常为“修改部分论文”、“写小红书文案”等等。
而蛙蛙写作作为一款在创意文案生成上更垂类的产品,它的核心技术能力是长文本输出和长期记忆,以小说功能作为切入点,通过对小说的背景、任务、主线剧情进行设定,蛙蛙写作往往能够生成几千字的小说内容,并能够完整保存前序剧情。对于企业级的数据库定制和固定文件的模仿输出,也更游刃有余。
“在所有文本生成中,写小说其实是最难的。它需要严格按照世界观框架输出、人物情绪刻画要到位、人物台词要足够拟人、故事反转要紧扣设定等等。即便Sora是物理世界的模拟器,它仍然需要文字先将所有的前情全部设定好,再进行生成。未来文字创作内容将作为底层,各个独立的多模态技术真正要落地,还是要被底层所调用才能有更大的价值”万磊讲道。
但相信产品依然是个“手艺活”的人们,并不会就此把一切都交给技术。
你可以看到,国内的通用大模型产品,在生成内容底部,往往会出现一个“点赞”和“点踩”的按钮,这是人类自主给大模型进行的评价和反馈。
万磊讲道:“如果让技术自己识别哪些生成内容是好的,哪些是不好的,靠技术实现很困难,但是在产品中加了一些设计,便可以反哺技术,让生成结果越来越精准。”
更重要的是,在这个阶段,产品是扔向市场的一个“钩子”,只有不断的使用、不断反馈才能不断迭代不断进化。只有产品钩得住用户,之后的一切才有意义。
“技术的高速发展最终的结果就是越来越同质化,这时候需要产品形成差异性,我认为那时候产品经理的空间将会更大。”牧之说。
从做产品的方法,到所谓的产品哲学,再到产品与技术的关系,这些决定着中国AI未来走向的问题,某种程度都在延续着腾讯和字节在移动互联网的故事,这两个幽灵会继续游荡在中国AI的上空。
【开源免费】Deep-Live-Cam是一个只需一张图片即可实现实时换脸和一键视频深度伪造的AI项目。
项目地址:https://github.com/hacksider/Deep-Live-Cam
【开源免费】Fay开源数字人框架是一个AI数字人项目,该项目可以帮你实现“线上线下的数字人销售员”,
“一个人机交互的数字人助理”或者是一个一个可以自主决策、主动联系管理员的智能体数字人。
项目地址:https://github.com/xszyou/Fay
【开源免费】AutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。
项目地址:https://github.com/Significant-Gravitas/AutoGPT
【开源免费】MetaGPT是一个“软件开发公司”的智能体项目,只需要输入一句话的老板需求,MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色,包括产品经理 / 架构师 / 项目经理 / 工程师,MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。
项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md
【开源免费】LangGPT 是一个通过结构化和模板化的方法,编写高质量的AI提示词的开源项目。它可以让任何非专业的用户轻松创建高水平的提示词,进而高质量的帮助用户通过AI解决问题。
项目地址:https://github.com/langgptai/LangGPT/blob/main/README_zh.md
在线使用:https://kimi.moonshot.cn/kimiplus/conpg00t7lagbbsfqkq0
【开源免费】VideoChat是一个开源数字人实时对话,该项目支持支持语音输入和实时对话,数字人形象可自定义等功能,首次对话延迟低至3s。
项目地址:https://github.com/Henry-23/VideoChat
在线体验:https://www.modelscope.cn/studios/AI-ModelScope/video_chat
【开源免费】Streamer-Sales 销冠是一个AI直播卖货大模型。该模型具备AI生成直播文案,生成数字人形象进行直播,并通过RAG技术对现有数据进行寻找后实时回答用户问题等AI直播卖货的所有功能。
项目地址:https://github.com/PeterH0323/Streamer-Sales