面对 AI,字节依然是那个字节:一旦看到有潜力的方向,就加倍、饱和、全面出击。
一个最新例子是:智能体应用 Manus 出圈前后,字节已有至少 5 个团队在开发不同智能体产品,其中有些是对内工具。Manus 是 3 月 6 日刚由创业公司 Monica 开始内测的智能体应用。
在中国所有大科技公司中,字节本是大语言模型起步最晚的一家。在 2022 年底 OpenAI ChatGPT 上线前,百度、华为、阿里、腾讯(按发布时间顺序)都已发布过大语言模型,字节却没有。
但在 2023 年年中决定靠自有团队做 AI 后,字节就加快了全链条、全应用方向的投入。
移动互联网时代,还是创业公司的字节不可能一开始就投入基础设施,移动互联网的链条也短于 AI 产业。这一次,字节在算力芯片层、云计算层(火山引擎)、模型研发层、应用层全链条均有投入。
字节两年来推出的 AI 产品也已涉及聊天机器人、AI 搜索、AI 浏览器、Agent 平台、AI 陪伴社交、AI 教育等大部分主流应用方向。其中主力产品豆包在 2024 年底成为中国日活最多的 AI 应用。
但在此刻,字节以大量资源堆出的阶段性成果被横空出世的 DeepSeek 遮掩了光芒。DeepSeek 以不到 200 人的本土化小技术团队拿出惊艳模型,这是汇聚大量聪明人,习惯大力出成果的字节套路的反面。
更大的威胁还有:中国另一家主业强大、资源丰富、有余裕腾手抓住 AI 机会的互联网大公司——腾讯,也终于等到了自己的 AI 拐点。
字节从没垄断过好想法,但一直试图垄断对好想法的商业化实现。过去大部分时候,它成功了。无论是信息推荐、短视频、免费小说还是短剧,字节都不是第一个做的公司,但它往往能凭更好的产品体验、更高的商业化效率后来居上,这背后是丰富的资源、庞大的人才团队和多年积累的产品能力。
当技术版本更迭,字节的统治力会否延续?这是中国 AI 市场的一大悬念。
去年 11 月我们在一篇文章中说:“中国掌握极强产品能力和流量资源的不止字节。微信还没出手呢。” 现在手握微信的腾讯终于出手,以出其不意的方式:全面接入 DeepSeek。
这对字节产生了更实质的影响。3 月 19 日腾讯总裁刘炽平在业绩会上说,从 2 月到 3 月,元宝日活增长了 20 倍,排名中国 AI 应用第三。他没有说的前两名分别是 DeepSeek 和字节豆包。
仅用字节十分之一的时间和小得多的投放预算,腾讯的用户规模来到了豆包的约 1/5。
在不能靠奇袭快速提升的模型能力上,字节面临的竞争形势也在变化。
经过过去近两年的密集更新,字节的模型数量、迭代速度和表现都明显提升。今年 2 月的字节全员会上,字节模型研发团队 Seed 负责人之一朱文佳说:“目前来看,我们的模型肯定是第一梯队,可以对标国内外最好的模型。”
但也因为探索方向众多,字节错过了发起中国 ChatGPT 时刻的机会。
也是 2 月全员会上,字节 CEO 梁汝波说:在 AI 有进展后,其实内部 “稍微有些放松”,团队并没有觉得一定要第一批复现 o1(OpenAI 在去年 9 月发布的推理模型),当时认为 “早一个月、晚一个月,关系不大”。
后来,最早复现 o1 的 DeepSeek-R1 掀起了网络狂潮,也在中国全民范围普及了 AI,并给腾讯送去意外之喜。
在同样掌握超级应用的字节和腾讯之间,较量还有模型综合体验与产品增长间的协同效率。
从字节发布豆包 1.5 Pro 时的博客中可以看到,字节认为大规模用户反馈仍然重要,并已在围绕用户反馈到模型体验的链条建造一套高效的、数据驱动的优化机制,这是字节在移动互联网战场中积累的强项。
字节豆包 1.5 Pro 官网博客中对用户反馈与模型使用体验优化链条的描述。
而如今元宝激增的用户,也给腾讯提供了类似的练手机会,腾讯也可能以此次产品奇袭为契机,加快模型自研节奏。
过去两年,腾讯只更新了两次主模型,进入 2025 年,仅在 3 月,混元就更新了 3D 生成模型 Hunyuan 3D-2.0 和推理模型混元 T1。
去年年底,一位大模型创业公司的投资人曾感慨,他们的被投本有一个完美的创业故事,“如果没有字节。” 而最近这 2 个月的故事是,字节本展现出了大象也能跳舞的灵敏,如果没有腾讯借助 DeepSeek 的迅疾一跃。
这是一种来自不同物种、不同维度的冲击。
DeepSeek 开源且中立,没接受过任何大公司的投资,不在任何 “阵营”。更重要的是,它目前无意成为一个入口级应用,没有在爆火后快速扩容试图接住这泼天的流量,这才使腾讯能更无顾忌地果断接入 DeepSeek。由于开源,DeepSeek 甚至都没有从腾讯的接入中获得收入。
如果说,当年互联网对一些传统业务的打击是 “毁灭你,与你无关”。如今开源、暂不追求应用转化的 DeepSeek,则给所有投入 AI 的公司带来了一种全新体验:冲击你,与我无关。
在腾讯接入 DeepSeek 带来意外变化之前,字节经过 2023 年上半年的摸索,找到了自己投入 AI 大模型的姿态:建立独立的新组织,回归字节奉行的价值观 “始终创业”。
腾讯和阿里都投资了多家大模型创业公司,而字节没有投资任何大模型公司。在 2023 年 6 月前,字节本考虑投资阶跃星辰和 MiniMax,最终两个因素使字节高层下定决心不投资:一是当时 TikTok 在美国面临压力;二是字节高层认为,面对 AI 底层技术变革的大机会,字节应该自己做,也能自己做好。
明确自己做后,字节加快筹建了独立于原有组织架构的新 AI 组织 Flow 和 Seed,前者做 AI 产品,后者做大模型研发,改变了此前字节 AI 研发分散在多部门的情况。
到 2023 年底,Flow 和 Seed 已成为一个与抖音、TikTok、火山引擎等字节各大业务平级的组织。它不向任何既有部门汇报,而是一个创始人工程。
而腾讯和阿里都把大模型研发放在既有组织里,混元团队在 TEG(技术工程事业群),通义研发团队在阿里云。
独立的组织加创始人参与,使字节 AI 可以跳出字节原本的扩张节奏、薪酬结构和考核机制。
2022 年底,之前十年间快速扩张的字节一度放缓招人,如抖音电商业务负责人当时被告知,新一年各团队将不再大规模扩张,原则是 “走一个人再进一个。” 而 2023 年后,字节大举扩张 AI:据我们从公开渠道对 2000 多名字节、腾讯和阿里 AI 研究人才(包括离职者)的梳理,到 2024 年底,字节 AI 研究者中的超 40% 是近两年加入的新人,新增比例高于腾讯和阿里。
2023 年四季度开始,字节创始人张一鸣也再次回到创业初期,开始频繁约见 AI 研究者。一位投资人告诉我们,2023 年冬天,当他像往常那样循着 AI 论文去拜访作者时,惊讶地发现:不少人刚和张一鸣一对一聊过,其中还有尚未毕业的博士生。
字节管理层的招人成果包括 Google 视频生成项目 Video Poet 原负责人蒋路、阿里通义原负责人周畅、零一万物原预训练负责人黄文灏等。
据我们了解,这些研发人员被传达的字节 AI 目标是:探索智能边界和摸高 AGI,追求全球领先。
Seed 作为字节模型研发的核心,也陆续整合了部分字节已有的 AI 团队。
字节在 2016 年就成立了 AI 研发组织 AI Lab,此前更多为字节的应用服务。在 2023 年前,AI Lab 下的 NLP(自然语言处理)组约有 100 人,其中只有一个 10 人小团队在研究大语言模型,其它人主要做翻译和抖音小安(内置于抖音的安全助手,有预防网曝、网络诈骗的功能)的优化。
2023 年后,AI Lab NLP 组的重心转向大语言模型,到同年下半年,该组被转入 Seed;2024 年,开发视频生成模型的 AI Lab PixleDance 组也被转入 Seed。之前向字节技术副总裁杨震原汇报的 AI Lab 负责人李航在 2023 年开始向 Seed 负责人朱文佳汇报。
字节也重启收购雷达,这是字节的招人手段之一。自 2023 年以来,字节至少已收购了智能耳机品牌 Oladance、某存算一体计算硬件公司,也曾与做出 Agent 产品 Manus 的 Monica 和某 AI 视觉公司洽谈过收购。
在薪酬、职级和考核方式上,字节给 AI 研发团队的条件超出既有体系。
在面向应届博士的 Top Seed 招募计划中,字节会给优秀候选人 3-1 职级(字节职级共有 1-5 5 个大层级,每层再分两小层,数字越大职级越高),薪资不低于百万元。
今年 1 月,字节启动以探索 AI 技术边界为目标的 Seed Edge 前沿研究计划,该计划设定了更宽松的考核机制:字节本来每半年考核一次绩效,而 Seed Edge 则在项目取得突破进展后,再做最终评估。
甚至是在惯常以 “ROI (投入产出比)定生死” 的产品项目上,字节现在面对 AI 也网开一面。过去,字节立新项目时会由商业分析团队论证收益预期,未来市场空间,字节管理层会要求算清每个产品的人力投入成本,如果跑一段时间后,新项目不达预期,业务层会发出调整指令,关停或撤换产品负责人。
在考察 AI 项目上,ROI 依然重要,但周期更长了——一位字节 AI 产品团队人士告诉我们,字节现在会以 AI 产品一定周期后的单用户价值作为考核系数,以测算未来收益,不同产品的考核周期不同,长的甚至可以到 5 年;但字节也没对这种考核方式做强制要求。
这激发了部分成员的强烈自驱。有 TopSeed 实习生在知乎分享,在开发某个项目的近两个月里,他几乎睡在公司,经常凌晨两点带着新想法兴奋惊醒,写两小时代码,5 点再睡。最投入时,他和带他的 mentor 会持续讨论到深夜,“谁也不想离开公司,感觉每一刻都在不断的发现新现象”。
某种意义上,Flow 与 Seed 等组成的字节 AI 部门更像一个独立的新公司,字节创始人也再次像创业者那样投入了大部分精力。
据了解,2024 年下半年开始,字节高层每月会来北京一次,召集字节 AI 核心决策层和当前重点项目团队成员复盘进展、讨论方向。
张一鸣也会自己看论文、自己学技术,字节有专门的研究团队协助他理解前沿技术,辅导者之一是新加坡国立大学原教授、字节研究员冯佳时。
当一家公司已有 12 万人,又想抓住一个性质可能极为不同的新机会时,成立一个独立新组织也许是更好的选择。新组织更能对抗过往的惯性。
春节过后,AI 市场环境大变。一位字节 AI 人士形容他们岁末年初的状态:刚要鼓掌,双手停在了半空。
字节目前的应对方法是继续全面出击。它们定下了多重目标,汇集了字节原本的主要高管,也引进了重磅人才。
据 2 月全员会,2025 年字节 AI 的 3 大目标是:探索智能上限、探索新的 UI 交互形式,以及加强规模效应。承接这些目标的是由 Flow Seed 和 Stone 三大板块组成的字节 AI 新组织,总规模近 2500 人;字节的中台部门也在支持 AI 业务。
做模型研发的 Seed 目前由朱文佳和今年 2 月正式加入字节的吴永辉共同负责,该板块负责 “探索智能上限”,尤其是吴永辉带队的大模型研发环节。
吴永辉是继 2022 年加入的 CFO 高准之后,最新一位直接空降到 CEO-1 级别的高管。相比 2015 年加入,历任 TikTok 产品技术负责人,也主管字节 AI 搜索的朱文佳,吴永辉的研发经历更聚焦 AI。
他在 2008 年获加州大学河滨分校博士学位后就进入 Google,17 年间主导了神经机器翻译(GNMT)、RankBrainn 等项目,论文引用次数超 4 万次。2023 年,吴永辉成为 “Google Fellow”,这是 Google 授予技术领域作出突出贡献专家的最高荣誉。
吴永辉之下,Seed 的模型研发主要有 4 个方向,分别是:大语言模型,视觉模型,语音模型,多模态 & 世界模型。字节 AI Lab 负责人李航也从向朱文佳汇报转为向吴永辉汇报。
据《AI 科技评论》,吴永辉近期调整了 Seed 架构,新设立不在正式组织结构中的若干虚拟小组,更扁平的汇报体系正在形成,一些原本汇报关系为吴永辉 -2 的人,目前也直接向吴永辉汇报。如据我们了解,字节 AI for Science 负责人、此前汇报给李航的顾全全现在也虚线汇报给吴永辉。
一位接触多位字节技术人员的投资人的观察是,在核心研发环节,字节正在用吴永辉这样的 “AI-native(AI 原生)” 技术人才替换之前从搜推广部门调来的人员。
今年 1 月启动的 Seed Edge 目前的主要技术负责人,也是 2024 年加入的字节新人。这个研究计划是 Seed 之中更关注智能上限前沿探索的部分,瞄准那些短期看不到明显收益,但有可能引领长期 AI 发展的研究,如下一代模型设计、下一代学习范式、下一个 Scaling 方向等。
在吴永辉加入后,朱文佳的重心调整为研发与体验更相关的模型应用能力,如问答、创作、解题、代码和 AI 使用工具的能力等。
这些能力是不同 AI 应用需要的共通模块。相当于一层连接模型和应用的 “能力中台”。字节过去也这么做过:2013 年,字节成立第二年就开始分设算法、工程等中台,封装通用技术和功能供一线产品团队取用。这是后来字节能在短视频等机会节点,快速搭建多个产品的基础。
做 AI 产品的 Flow 和做产品后端研发支持的 Stone 则主要与 3 大目标中的另外两个相关:探索新的 UI 交互方式,和加强规模效应。
新交互方式包括新硬件终端和推进与手机厂商的合作。比如去年 10 月,字节以收购的 Oladance 团队为基础,推出了智能耳机 Ola Friend,字节也正在研发 AI 眼镜。
加强规模效应的重点则是字节 AI 主力产品豆包。豆包最早由 Flow 总负责人朱骏于 2023 年 3 月带队开发,当时代号为 Grace。作为字节立项最早的新 AI 产品,豆包相关进展一直是朱骏 OKR 里的第一条。
豆包之外,字节的 AI 探索几乎涵盖当前 AI 产品的各个方向:有智能角色互动产品猫箱、图片生成产品星绘、AI 数学教育出海产品 Gauthmath、面向小初高学生的 AI 教育产品豆包爱学(此前叫河马爱学)。
与开发者直接相关的产品,如 Agent 平台 Coze 和今年 1 月刚上线的字节 AI coding 产品 Trae,则归属到了去年下半年从 Flow 中独立的产品研发团队 Stone 之下。Stone 负责人是字节工程技术负责人洪定坤。
基于文生图/视频的内容分享平台即梦是字节另一个重要的 AI 产品出口,它不属于 Flow,而由负责剪映的张楠主管。据了解,相比剪映,张楠其实花了更多精力在即梦上。
在这些 AI 新应用上,字节延续了过去的习惯:启用有丰富经验的连续创业者和在字节打过胜仗的产品负责人,汇集了字节的多位 “功臣”。
如 Flow 总负责人朱骏曾是短视频产品 Musical.ly 的创始人之一,后任 TikTok 产品负责人。即梦负责人张楠曾是图片社区产品图吧的创始人,2016 年,曾从 0 到 1 推出抖音、火山等产品,后担任抖音 CEO。负责豆包桌面版的齐俊元曾创立任务管理工具 Teambition。负责 AI 耳机和眼镜和手机厂商合作的 Kayden 为人熟知的身份是 36 氪创始人,其实他也有平板等硬件创业经验。朱骏的 -2 中也不乏有创业经历的人。
在豆包这个主力产品上,字节寄托了更多战略目标:加强 AI 产品的规模效应和打造大规模用户反馈到模型实际使用体验提升的优化闭环。
目前豆包已从最初的聊天机器人发展为结合了聊天对话、搜索、图片生成和 AI 浏览器的综合应用。字节对豆包的规模目标很激进:在去年第三季度,豆包的 DAU 的增长目标是 30%,四季度这个数字变成了 150%;我们了解到,今年豆包的 DAU 目标是超过 5000 万。
而在其它产品探索方向上,字节呈现了模型的归模型,产品的归产品的状态。多个字节 AI 产品并不排斥使用其他公司开发的模型,以追求更好的体验和增长。
即梦、Coze、Trae、剪映都已接入 DeepSeek。Coze 在 2024 年初上线后不久,就在海外版中给开发者提供 GPT-4 模型。Trae 也在近期使用了目前编程能力最强的 Claude 3.7 模型,原版模型要付费,而 Trae 则免费给大家用 Calude 3.7,这是一个强力拉新手段,一度导致大量用户排队。
配合强大的人才阵容,字节全集团也给 AI 板块调集了创业公司难以企及的资源。它可以让抖音为我所用:从去年 4 月开始,其它 AI 产品一度不被允许在抖音等字节体系里投放广告,后又开放了投放。
它有丰富的算力储备。2023 年时,字节的储备的 GPU 已超过 10 万张;仅在 2023 年上半年,字节就向英伟达订购超过 10 亿美元的 GPU。外媒报道,2025 年字节的 AI 算力采购预算至少有 900 亿元人民币。
我们也了解到,字节现在会优先将高端 GPU 供大模型团队使用,而在相对稳定但对业务很重要的推荐系统中,则更多使用一些国产 AI 芯片或 GPU。
字节内部也出现了一些因为团队、资源和方向太多而带来的摩擦和流程迟滞。
“这里有能力的人太多了,每个人都有自己的想法,想法光是达成共识就要一段时间,产品进化就会慢。” 一位字节 AI 产品的人士说。
一位字节模型侧人士说,因为要对接不同产品团队,所以经常同一段话,一天内要给几个不同团队各说一遍。
最近高层和汇报线的调整也让一些员工感到不安,难以静心。更容易做的成果已探索得差不多了,再想要进展,就需要更大投入。这导致,在总资源很多的情况下,一些研发人员的体感是卡不够用,部分团队需要排队等,“各凭本事”。
不管是外部竞争的快速变化,还是大公司做新业务时难以避免的组织张力,都不太会影响字节对 AI 的态度。字节做 AI 的方法和字节做其他新业务也没有太大区别:依然是从人才到基建的饱和式投入,穷尽所有业务方向,不放过任何可能性。
一些人怀疑这件事的持续性。在 AR、教育和游戏上,字节也曾密集投入,铩羽而归。但不用怀疑的是,AI 的带来的变革绝非 AR 或游戏可以相比,长期看,它创造的价值将超越移动互联网。
当一个用过去 13 年,成长为中国最大互联网公司的组织又遇到一局上限足够高的新游戏,他们不可能放过这个机会。
文章来自于“晚点LatePost”,作者“晚点团队”。
【开源免费】OWL是一个完全开源免费的通用智能体项目。它可以远程开Ubuntu容器、自动挂载数据、做规划、执行任务,堪称「云端超级打工人」而且做到了开源界GAIA性能天花板,达到了57.7%,超越Huggingface 提出的Open Deep Research 55.15%的表现。
项目地址:GitHub:https://github.com/camel-ai/owl
【开源免费】OpenManus 目前支持在你的电脑上完成很多任务,包括网页浏览,文件操作,写代码等。OpenManus 使用了传统的 ReAct 的模式,这样的优势是基于当前的状态进行决策,上下文和记忆方便管理,无需单独处理。需要注意,Manus 有使用 Plan 进行规划。
项目地址:https://github.com/mannaandpoem/OpenManus
【开源免费】Browser-use 是一个用户AI代理直接可以控制浏览器的工具。它能够让AI 自动执行浏览器中的各种任务,如比较价格、添加购物车、回复各种社交媒体等。
项目地址:https://github.com/browser-use/browser-use
【开源免费】AutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。
项目地址:https://github.com/Significant-Gravitas/AutoGPT
【开源免费】MetaGPT是一个“软件开发公司”的智能体项目,只需要输入一句话的老板需求,MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色,包括产品经理 / 架构师 / 项目经理 / 工程师,MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。
项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md
【开源免费】kimi-free-api是一个提供长文本大模型逆向API的开渔免费技术。它支持高速流式输出、智能体对话、联网搜索、长文档解读、图像OCR、多轮对话,零配置部署,多路token支持,自动清理会话痕迹等原大模型支持的相关功能。
项目地址:https://github.com/LLM-Red-Team/kimi-free-api?tab=readme-ov-file