ChatGPT 人工智能 GPT4 伦理 生成式 医疗 监管 安全 机器学习 深度学习 神经网络 计算机视觉 强化学习 模型 算法 应用 开发 研究 工具 平台 框架 数据集 训练 部署 安全 合规 培训 投资 LLM,llm AI,ai,Ai 大模型 大语言模型 制图 生图 绘图 文生图 文生视频 生成式AI AGI 世界模型 sora chatGPT,chatgpt,ChatGpt claude openai Llama deepseek midjourney 红熊猫模型 Red panda,panda Stable Diffusion,StableDiffusion,stable DALL- E 3 DALL E DALL Flux,flux 扩散模型 混元大模型 文心一言 通义千问 可灵 Pika PixelDance 豆包 月之暗面 零一万物 阶跃星辰 搜索增强 MiniMax Talkie Agent prompt fastai LangChain TTS 微调 提示词 知识库 智能体
# 热门搜索 #
搜索
腾讯和字节的幽灵在中国AI的上空徘徊
3421点击    2024-05-15 16:38


2023年4月,产品经理松鹅(化名)从腾讯离职两天后,就从深圳来到北京,加入一家基座大模型的初创公司。彼时,这家公司还没什么资本追捧和用户声量,只有一个听起来挺拗口的中文名字:月之暗面。


那时候这家公司的产品团队,只有松鹅一个人。


同月,曾经在字节跳动全程参与搭建抖音和TikTok等产品的王长虎,在中美都狂“卷”文生图时,创业成立一家文生视频公司:爱诗科技。


几乎也是同一时间,在尝试了AI口语软件、AI换脸、AI心理咨询等多个AI项目之后,用户量的激增、投资人的热情让身在腾讯的万磊发现:属于AI的风口真的到了。


大模型最终要靠产品来落地,这是这些嗅觉灵敏的产品经理们看到的机会。而故事也就此开始。


松鹅来到月暗6个月后,他们做出了Kimi,又过了6个月,Kimi在全网爆了;在Sora没火之前,爱诗的产品团队已经开始重点突破“一致性”的难题,反复进行迭代优化;万磊被投资人质疑多次“AIGC应用没有核心技术壁垒,很容易被模仿”之后,在蓝驰的闭门会上遇到了刚刚从苏黎世联邦理工大学毕业,带着大模型技术的姜昱辰。一个懂产品,一个有技术,他们组成了波形智能。


如果拿移动互联网的历史来对照,一个技术渗透到普通人生活的必经之路,就是应用的井喷。大模型领域今天似乎正在经历相似的事情。每天都能看到一两个新的产品诞生,走红,被广泛讨论,它们的目标都是成为一款“AI Native”的超级应用。


而在这些看似新生的AI明星产品背后,一个有意思的现象越来越明显:


在它们身上你总能找到上个时代的影子,更确切一些,是腾讯和字节的影子——这两个中国移动互联网时期产品最强的公司,正像幽灵一样,在中国大模型产品的上空徘徊。


1

腾讯的“门徒”


腾讯的人出来,总是很“腾讯”。他们做产品,也是忠诚的门徒。


松鹅的个人栏目叫《鹅库》,而万磊存着一堆张小龙的表情包。


鹅和张小龙,都是腾讯的“图腾”。


在产品风格上,腾讯的产品经理们深受张小龙这位“微信之父”的影响。产品,是马化腾一直强调的“连接器”,它是技术和用户之间的连接,在腾讯的产品体系中,2C产品就是要把使用体验做到“极致”。


2023刚开年,松鹅还在腾讯会议团队待的好好的,用他自己的话甚至可以说是“很开心”。


它是目前最可用的会议工具之一,甚至一度可以说是腾讯继微信之后的下一个明星产品。在其他所有厂商将IM、会议、文档、OA都打包整合成一个软件的时候,腾讯把它们拆开了。


极简,是张小龙时代提出的“少即是多”的理念,而松鹅离开腾讯会议后继续执行着这样的理念。


松鹅曾在社交平台上分享道:“做一个产品,添加一个功能很容易,不添加功能迭代用户体验很难,减少一个功能最难。大部分产品都是因为不停地加功能而变的臃肿。”简直是张小龙产品语录的翻译版。


而Kimi身上确实也能找到对应的烙印。



早期打开Kimi,除了对话框,几乎什么都没有。在不断更新的版本中,它“长”出了几个按钮。


这些按钮包括了“首页”、“新会话”、“历史会话”和“Kimi+”,和Kimi的特色能力“网页链接”、“文件上传”,将核心功能凝聚成一个个按钮,是腾讯的另一个传统。


为了让用户能够了解按钮的作用,Kimi中也存在着大量的“气泡”,来进行进一步解释。不仅如此,在Logo的下方,具有文艺感的文案,句句不同。


根据松鹅公开分享的一个有意思的例子,也能看出这种腾讯的烙印并非所有做产品的人都默认的原则。尤其是,当你的团队也有了字节系的人——4月18号,在一些产品讨论中,松鹅提出在产品的某个位置需要一个文案。而“一位来自字节的同事觉得无可厚非:在字节做产品从来不会有这种要求,这不会提升转化。”他分享到。


“但这里确实得有个文案,还得是比较有功底的文案。嗯,现在差点意思。”顿了顿,松鹅讲道:“我们在腾讯做产品是这样。”


把用户的需求一个个拆到“事无巨细”,以人为本是腾讯做产品的灵魂。目前Kimi是唯一一个国内大模型,兼具了网页版、App小程序形态的大模型产品,一位独立开发者对我们反馈道:“表面上Kimi设置的网页版、APP版和小程序版和其他同类产品没有太大的差别,但当其作为插件在网页中使用时,Kimi的呈现效果要更好。”



灵活的产品形态让Kimi更具有大众性和普遍性,Kimi插件可以直接翻译+整理重要信息,同时还可以进行自定义调整需求,进行个性化设置。根据公开信息,网页插件版本是开发者自发调用API生成的,并不出自月暗团队。



同样由腾讯系产品经理打磨的蛙蛙写作,产品形态上和Kimi有很多风格相似的地方。对于不同场景的拆解和功能介绍、教程导览,在很多细节上的“较真”和“死磕”。


比如,对于一款生成文本内容的AI产品,万磊的团队发现,目前的模型生成能力往往并不能够直接生成整篇可用的内容,往往部分可用需要进行二次甚至三次调整。他们给出的答案很腾讯——在大模型的生成结果中,添加了“滑词”功能,以便于AI生产后的二次优化。


与此同时,腾讯的另一个灵魂“社交”,也快速展示在这些产品身上。


大学毕业之后,万磊进入了腾讯,在全民K歌中负责社交关系链的部分,后又转到“创新项目”部门,不断追赶互联网风口,做过数字人、元宇宙游戏,陌生人交友,也做了一堆和AI相关的小项目,在不断的探索中,他对于产品的思考越来越宽。


全民K歌推出之前,K歌已经有了标杆产品“唱吧”。那时的唱吧已经吸引和培养了一大批KOL,也在产品细节比如调音、制作MV上下足了功夫。


这盘逆风局,怎么打?参考了以前微信借势QQ、企业微信借势微信的套路,全民K歌更加强调“谁在听”而不是“谁在唱”。和微信打通之后,社交关系链自然而然的转移到了K歌平台,也为后续的发展创造了土壤。


当你打开蛙蛙写作就会发现,和其他产品不同的是,它更强调社交传播,“邀请送会员”、“进群有礼”让人梦回2018年全网都在“裂变”拉新之际。


我们曾与多位Agent创业者聊过当下的创业环境,他们的反馈往往是,“如今面临的不是做不出来,而是做出来给谁用的问题”。


“找用户”,无论是在移动互联网时代还是AI时代,都是第一个核心问题。对于文案写作工具而言,写出来是一方面,给谁看是另一方面。在群里,用户可以沟通和交流经验,互相分享成果,甚至通过蛙蛙写作的渠道报名参加小说比赛。


万磊分享道:“我们光电话访谈的用户累计有上百个了,有时候我们会把关键用户叫到办公室,当着我们的面使用产品,发现问题后产品团队立刻进行调整,我们希望借助自研模型把工具做细腻做透,和市面上其他套壳的写作工具拉开差距。”


这些产品风格上的“路径依赖”正随着产品的长大而凸显,这些主观、细碎甚至有些执念的做法,很腾讯。


1

字节的“继承者”


但字节的风格几乎是光谱的另一端。体现在新的一批AI产品上,则是它不以人为载体传承,而强调一种产品逻辑上彻底的创新。


字节的人出来创业,带着的是一种做产品的方法,而不是产品的风格。


“19年的时候我们组里来了一个字节的小女生,感觉很不一样。虽然我们平时也会看数据,但明显她对数据和AB test更加敏感,所有的需求根据数据结果进行推演,包括好与不好,都是通过数据来评判。”万磊回忆道。


字节系的产品跑得比较好的,产品模型基本长得很相似且粗暴简单,推荐系统中台+足够规模化的数据input,从内涵段子到头条到抖音到后来小一点的懂车帝,番茄小说都一样,而腾讯产品做得好的产品基本离不开社交关系链。


腾讯像文科生,做产品的都是人类社会学研究学者;而字节是理科生,灌数据、做AB测试,然后跑数据,出结果。爱诗科技产品负责人牧之这样总结。


算法是整个“字节系”产品的灵魂,公开资料显示,王长虎在字节跳动负责了视觉算法平台和业务中台的搭建,用算法为代表的方法论来决定产品的样貌,这种方式同样带到了他的爱诗科技。


“推荐算法技术中台的打造是最困难的,他需要给足够的空间和自由度,让产品能够在短时间内完成更多需求测试,同时他也需要足够开放,对未来产品发展空间的承压能力和适应空间。”牧之说道。


参考移动互联网时代的抖音,几百万视频播放量时搭出的推荐算法框架,到了几百亿观看的规模,算法是不是仍然适用,仍然能够高效的分析每个用户的喜好。


这里我们举个简单例子,用双向标签对照的体系,为用户打标签,也为内容打标签,进行双向匹配,这样无论内容体量多庞大,用户体量如何增长,这样的机制能够保证实现“千人千面”。


字节系信奉这套方法论,在不同的场景、不同的行业这套方法论会出现不同的结果,也会遇到不同的难题。比如,对于爱诗来说,产品经理想设计一套机制,跑一个推荐模型,怎么让你的Tranformer或者Diffusion模型,通过产品能够拿到足够多的前期数据?


“第一重要的仍然是需要知道用户到底要什么,他要这个视频来做什么,对应到我需要什么杨的数据,第二是设计一套机制,无论是自己生产数据,采买或者爬取数据,还是强化学习来回收数据也好,input到你的模型。”牧之讲道。


所以在推出PixVerse之前,爱诗产品团队做了很长时间的时间用户调研,为了完成第一步。


通过对国内外比较核心的专业视频生产者的前期调查,爱诗发现,清晰度是用户的一个核心刚需,一致性是对视频生成模型能否成为生产力的一个更高标准,产品通过市场调查反哺技术,技术团队对此进行模型突破。


对于AIGC的使用场景,在早期根据历史轨迹的推演下,只能替代现有的一部分而很难开发新场景,且在技术发展的早期,比如文生视频的时间只能有3-4秒的高质量输出,能够满足的需求有限,产品需要找到一个合适的切入点。


有了切入点以后的下一步,是建立一个良性的算法模型。


牧之举了一个例子,在训练镜头这个事情上,如果产品能明确好当下用户其实最为需要的是一些专业性的镜头,那么你在做数据收集和数据标注以及清晰的时候,是会存在很强的倾向性的,就是需要这些专业镜头的数据, 有了这样的判断,往往能用更少的数据和更低的训练成本得到一个更好的结果。


随着用户量的增长,标注的元数据越来越多,算法也就越来越灵。


目前PixVerse在海外文生视频产品榜单中下载量连续排名靠前,也通过不停的算法优化和数据积累,形成了产品突破力,滚动的雪球开始有了实体。


1

技术与产品的新羁绊


腾讯和字节的产品风格区别,其实还暗含着一个本质的问题:技术与产品之间的平衡。


腾讯系的产品诞生和成熟于互联网时期和移动互联网初期,技术是现成的,需要产品提供的对用户需求的准确理解,来把它的价值体现出来。字节系的产品在移动互联网的另一个阶段快速成长,这时候以算法为核心的技术,本身在一种不稳定中快速进步,它带来的强大能力是头条和抖音这类产品可以出现的根本,产品经理的“上帝”的角色就让位给了算法技术。


这种产品与技术之间的牵绊在今天AI大模型时代,换了形式继续笼罩在各个产品的制造过程中。


“如今做产品和移动互联网最大的不同是,需要思考技术能解决的问题,和产品能解决的问题”。几乎我们问到的所有产品经理,都给出了这样的答案。但同样的,不同的底色依然决定着问题的答案。


对于视频生成产品,一方面模型的效果本身就与技术资源密切相关:比如显卡、显存的限制或者算力的不足会直接影响效果;另一方面,视频本身存在着大量的叙事逻辑,和对于剧情的完全可控,这导致了无法满足理想的产品形态。于是就像字节的产品那样,爱诗的产品设计也要很大程度从算法技术出发思考。


一开始大多数的视频生产产品只能生成4s的视频,但一个电影的平均单个镜头都有6秒,技术要进步如何突破时长,而产品则需要思考,即便是4s的视频,能够使用在什么场景。


而即便是在4s的限制下,仍然能解决传统的影视制作中,补缺一些空镜头和漏帧,解决重拍补拍的成本高昂的问题。


而且在底层大模型还在不停迭代的今天,对产品细节的追求,也要建立在技术差异之上,它甚至直接决定了产品的形态。Kimi和蛙蛙写作看似都是文本生成类的大模型产品,但技术能力完全不同。


众所周知Kimi擅长的是长文本的输入,能够一口气读完一本《三体》,但在应用中就会发现,Kimi的长文本输出能力不够强,无论给怎样的提示词,其输出的内容经常为1000字左右,所以Kimi的使用场景经常为“修改部分论文”、“写小红书文案”等等。


而蛙蛙写作作为一款在创意文案生成上更垂类的产品,它的核心技术能力是长文本输出和长期记忆,以小说功能作为切入点,通过对小说的背景、任务、主线剧情进行设定,蛙蛙写作往往能够生成几千字的小说内容,并能够完整保存前序剧情。对于企业级的数据库定制和固定文件的模仿输出,也更游刃有余。


“在所有文本生成中,写小说其实是最难的。它需要严格按照世界观框架输出、人物情绪刻画要到位、人物台词要足够拟人、故事反转要紧扣设定等等。即便Sora是物理世界的模拟器,它仍然需要文字先将所有的前情全部设定好,再进行生成。未来文字创作内容将作为底层,各个独立的多模态技术真正要落地,还是要被底层所调用才能有更大的价值”万磊讲道。


但相信产品依然是个“手艺活”的人们,并不会就此把一切都交给技术。


你可以看到,国内的通用大模型产品,在生成内容底部,往往会出现一个“点赞”和“点踩”的按钮,这是人类自主给大模型进行的评价和反馈。



万磊讲道:“如果让技术自己识别哪些生成内容是好的,哪些是不好的,靠技术实现很困难,但是在产品中加了一些设计,便可以反哺技术,让生成结果越来越精准。”


更重要的是,在这个阶段,产品是扔向市场的一个“钩子”,只有不断的使用、不断反馈才能不断迭代不断进化。只有产品钩得住用户,之后的一切才有意义。


“技术的高速发展最终的结果就是越来越同质化,这时候需要产品形成差异性,我认为那时候产品经理的空间将会更大。”牧之说。


从做产品的方法,到所谓的产品哲学,再到产品与技术的关系,这些决定着中国AI未来走向的问题,某种程度都在延续着腾讯和字节在移动互联网的故事,这两个幽灵会继续游荡在中国AI的上空。




关键词: AI , 腾讯AI , 字节AI , Kimi , Agent , 蛙蛙写作
AITNT资源拓展
根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考
1
AI换脸

【开源免费】Deep-Live-Cam是一个只需一张图片即可实现实时换脸和一键视频深度伪造的AI项目。

项目地址:https://github.com/hacksider/Deep-Live-Cam

2
数字人

【开源免费】Fay开源数字人框架是一个AI数字人项目,该项目可以帮你实现“线上线下的数字人销售员”,

“一个人机交互的数字人助理”或者是一个一个可以自主决策、主动联系管理员的智能体数字人。

项目地址:https://github.com/xszyou/Fay

3
智能体

【开源免费】AutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。

项目地址:https://github.com/Significant-Gravitas/AutoGPT


【开源免费】MetaGPT是一个“软件开发公司”的智能体项目,只需要输入一句话的老板需求,MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色,包括产品经理 / 架构师 / 项目经理 / 工程师,MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。

项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md

4
prompt

【开源免费】LangGPT 是一个通过结构化和模板化的方法,编写高质量的AI提示词的开源项目。它可以让任何非专业的用户轻松创建高水平的提示词,进而高质量的帮助用户通过AI解决问题。

项目地址:https://github.com/langgptai/LangGPT/blob/main/README_zh.md

在线使用:https://kimi.moonshot.cn/kimiplus/conpg00t7lagbbsfqkq0

5
无人直播

【开源免费】VideoChat是一个开源数字人实时对话,该项目支持支持语音输入和实时对话,数字人形象可自定义等功能,首次对话延迟低至3s。

项目地址:https://github.com/Henry-23/VideoChat

在线体验:https://www.modelscope.cn/studios/AI-ModelScope/video_chat


【开源免费】Streamer-Sales 销冠是一个AI直播卖货大模型。该模型具备AI生成直播文案,生成数字人形象进行直播,并通过RAG技术对现有数据进行寻找后实时回答用户问题等AI直播卖货的所有功能。

项目地址:https://github.com/PeterH0323/Streamer-Sales