前百川智能联创的AI音频赌局:我要造“人”,造AI主播

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
前百川智能联创的AI音频赌局:我要造“人”,造AI主播
8271点击    2026-02-09 14:40



上映于2013年的《Her》,是焦可最喜欢的一部电影。


影片中的AI Samantha没有脸、没有形象,人们能感知的,只有她温柔沉静的声音。当Samantha说出,“最近你经历的事情太多了,你失去了一部分的自己”,男主角潸然泪下。


这一幕给了焦可极大触动:“仅仅声音,就能让人产生这么强的情感链接。”


后来,在《Her》设定的时间,2025年初,身为百川智能联合创始人的焦可,选择离职创业,做了一家AI音频公司,来福电台。


前百川智能联创的AI音频赌局:我要造“人”,造AI主播


△前百川智能联合创始人、“来福电台”创始人兼CEO焦可,图源:作者拍摄


在他创业的时间点,音频,是一个充满争议的赛道。Google在2023年7月发布的知识库NotebookLM,能够将用户的研究资料,生成10-20分钟的音频——这个产品,给AI播客赛道带来了想象空间。


但想象的另一面,是国内音频赛道,至今乏善可陈的成绩。播客赛道的头部产品小宇宙,2024年初的月活仅600万左右,远不及长视频平台。


在融资过程中,焦可同样面对不少质疑:音频传递信息的效率远不及视频,音频的市场天花板不高。


和我们的交流中,回应同样的疑问,焦可前后花了30多分钟,从《Her》《2001:太空漫游》,聊到了小宇宙、豆包。对于他而言,非做音频不可的理由太多了:


由于生产成本高,国内音频内容的供给量过少,而用户每天拥有大量的“耳朵时间”;


如今偏精品化的音频内容供给,无法满足不同用户个性化的音频需求。


更重要的是,相较于视频、文字,音频是人类最自然的交互方式,具有强烈的陪伴属性


他告诉我们,让音频发挥最大优势的,就是AI。


一端,语音理解和生成技术,解决供给问题的同时,也能在交互中和用户建立情感联系;


另一端,AI开始洞察、理解用户的喜好。


恰巧,语音是生产信息效率最高的交互方式,用户能通过语音交互产生足够多的Long Context(长上下文)基于过往的Long Context,AI能够总结用户偏好,并将符合的音频内容,推荐给用户。


前百川智能联创的AI音频赌局:我要造“人”,造AI主播


△“来福电台”根据作者的收听历史,推荐的商业新闻播客。图源:作者试用


这套非共识的逻辑,并非所有人都买单。但也吸引了一些投资人,比如红杉中国创始及执行合伙人沈南鹏。从立项到过会,红杉前后只花了一周的时间。


2025年下半年,来福又完成了由达晨领投、红杉中国跟投的第二轮融资。两轮融资的总金额达到了1000多万美金。


但做一个AI播客平台,远非焦可的初心。他要造“人”,造AI主播。


在互联网时代,焦可在百度负责过音乐服务产品“MP3搜索”,创业做过ToC金融平台,还在中东负责过ToG项目——到了AI时代,这名互联网老兵开始思考:什么是不同于互联网的产品形态?


他得出的答案是:互联网时代解决的是连接效率的问题,AI解决的是生产力问题。


所以,工具、平台,都是互联网时代的产物,而“人”,才是独属AI时代的产品形态


这也是如今“来福电台”的运作逻辑。


焦可告诉我们,目前,来福上一共有15位AI中文主播,还有2位英文主播。TA们风格各异,主持不同的频道,还能记住听众的偏好。


“你会和主播们产生连接。就像听电台节目,如果主播换人了,你会不太习惯。”为了让用户感受到“人”的存在,焦可为来福设计了一个占了大半屏幕的球,跟着AI主播说话的节奏跃动。


前百川智能联创的AI音频赌局:我要造“人”,造AI主播


△随着AI主播说话节奏跃动的球。图源:作者试用


打开来福,用户能看到喜欢的AI主播,已经制作好自己感兴趣的内容,随时等待被收听。在这个过程中,用户也可以随时打断节目,提出问题、加入讨论,或者寻求情感陪伴。


在焦可看来,这是Samantha的雏形。


前百川智能联创的AI音频赌局:我要造“人”,造AI主播


△作者对AI主播提问:为什么从科技撤出的资金流向了低估值和红利股。图源:作者试用


以下是《智能涌现》和焦可的交流内容,内容经整理编辑:


我做的不是AI播客,而是造“主播”


智能涌现:你怎么定义来福?很多人说这是一款“AI播客”。


焦可:我不认为自己做的是AI播客平台。


来福现在有15位我们定义的中文AI主播,还有2位英文AI主播,每个“人”的风格都不同。经常有用户在使用产品的过程中,点名某一位主播。


来福非常强调人的属性,我们造的其实是“人”,造的是AI主播。


智能涌现:小川(百川智能创始人兼CEO)也说要“造人”。


焦可:我们在这方面有很大的共识。


当年轰轰烈烈的互联网医疗,最后都没开花结果,原因在于互联网革命本质上是生产关系的革命,解决的是效率的问题,不解决生产力的问题


但中国最大的问题在于,医生只有440万,好医生更少,供给严重不足。


23年初,我和小川在他家楼下聊了很多次,他当时就说想做AI医生。为什么我们信AI医疗?因为AI的本质是生产力革命。用AI造出医生,就能从根本上解决供给问题。


智能涌现:音频赛道的问题也是供给问题吗?


焦可:是。前段时间我看到有人发帖说,人类播客已经这么多了,为什么我还要听AI播客?其实人做音频的成本是非常高的,甚至超过视频制作。


视频就算主播有口音、周围环境很嘈杂,你后期可以配字幕,不影响观看。但音频只能听,所以对录音质量的要求很高。你需要一个录音棚,再不济也要配个麦克风。后期剪辑还要剪掉口癖、停顿、重复。


人类生产的音频量是有限的。比如小宇宙,一年大概有50万集节目,平均每天1000多集新节目。人类生产的视频,每天有大几千万。都没有人嫌AI视频多,为啥觉得AI音频多?


智能涌现:供给虽然少,但用户有那么多听音频的需求吗?


焦可:一个人每天都有很多“耳朵时间”,比如上下班通勤、健身跑步、做家务、睡前时间。


德勤发布过一份报告,除去音乐,世界范围内音频听众大概有16亿。而且音频是高频刚需,起码用户每两天就要听。


智能涌现:现在AI应用主流的方向有两个,一个是工具,一个是平台。这都不是你想做的产品形态?


焦可:平台经济是互联网的产品形态,工具型产品其实是平台服务的一部分。比如服务创作者和消费者双端的平台,平台为生产者提供创作工具,工具生产的内容再供给消费者。


现在很多AI产品,看上去还是一个平台或者工具,很容易落到大厂的射程里。


AI时代真正的产品形态应该是“人”,应该是科学家、医生、主播,这是互联网时代不具备的,但AI可以做到的产品形态。


智能涌现:造出来的“人”是什么产品形态?


焦可:《Her》这部电影就是个很好的产品经理,因为它定义了一个产品如何去和用户交互。


最开始Samantha和男主的交互,是主动帮他处理了邮件。后续他们建立感情,不是通过男主的主动chat,而是一起玩游戏、搭积木。大家一起做成一件事,才是真正的陪伴。


很多AI陪伴产品,非常大的问题是重度依赖用户的主动输入。你要不停和AI讲话,但绝大多数用户没有这么多话可以讲。所以最后留下来的用户是少数有表达欲的人。


智能涌现:为什么你“造人”切入的是音频赛道?


焦可:音频有视频不具备的价值,就是沟通性,这本来就是人类最自然的沟通方式。音频还很容易触发情感属性,以前有情感热线的都是电台,但没有电视台。


电影《Her》对这波AI创业的影响还蛮大的。GPT-4o中使用的声音,就来自片中的AI“Samantha”。很多人没意识到,从头至尾,Samantha没有形象,只有声音。


所以声音是很重要的,音频有很强的陪伴属性。目前图像、视频、机器人,还没有跨过恐怖谷效益,但音频可以。这是我们做音频的重要原因。


而且音频是非打扰、非独占式的。你看半个小时视频是蛮累的,因为所有的感官,你的眼睛、你的手、你的耳朵都被占着。但音频就还好。


未来两年,我相信大家会越来越懒得掏出手机,点击上面的App去社交或者检索信息。既然机器开始听得懂人话,未来我们交互的界面就可能成为语音。


智能涌现:你是怎么设计来福的功能的?


焦可:来福做的事,就是和《Her》一样,以提供内容为切口,去和用户交互。用户不只能听节目,还能随时和AI主播聊。


我们希望营造一种感觉,就是你随机走进一个房间,里面两个主播在聊你感兴趣的事。你可以坐下安静听,也可以随时参与他们的讨论。


在这个过程中,你会和主播们产生连接。就像听电台节目,如果主播换人了,你会不太习惯。


来福还可以根据你的需求,或者你的喜好,快速制作音频内容。比如一些有时效性的内容,人类播客可能需要一周的制作时间。但AI主播不到一小时就可以准备好内容。这是我们看到的机会。


智能涌现:你完整经历了互联网周期,现在做AI创业,有哪些思维是要改变的?


焦可:如果你认为AI是一个新的技术周期,那就千万小心,不要用互联网的惯性去做事。


我在百川也聊过很多互联网产品经理。但是大家还是想着怎么做平台、怎么做双边市场、怎么投流。


但网络效应在AI时代不存在。很多人在AI时代创业,说要做平台,但平台是上个互联网时代的产品形态。互联网改变的不是生产,而是将交易成本通过生产者和消费者的互联,打得很低


所以互联网大厂走的都是平台经济,让你可以通过在一段时间内大规模投入资金,让生产和消费两端同时规模化。


比如滴滴,一端是司机,一端是乘客。如果只有一端,互联网平台的经济模型是无效的。等两端都起来,互联网平台的壁垒就建立了。


但AI是生产力革命。生产力直接生产商品或服务,产生的是单边市场。2024年一些AI产品的投流证明,单边市场是没法靠烧钱起来的,一旦有更好的产品,用户就容易迁移。


AI是一个新的技术周期,就不要用互联网的思维做产品,而是要做隔代进化的东西。


相比DAU,我更看重DTU(Daily Talk User)


智能涌现:豆包是大厂产品,也上线了AI播客功能,它的DAU又有断层的优势。豆包会把你做的事儿覆盖掉吗?


焦可:豆包是工具型产品。


智能涌现:不少用户同样在和豆包建立情感联系。


焦可:我们看比例,大多数用户仍然把豆包当成搜索工具


Chatbot是即插即走的,用户很难产生Long Context。现在来福的用户日均使用时长已经到了半个小时。


而且你得主动和豆包交互,再等待回应。来福不需要你主动交互,它反过来根据你的需求陪伴你。所以只要你打开来福,你会发现来福已经根据你的兴趣,把节目主动制作好了,你不需要额外付出交互成本。


智能涌现:用户使用时长是你最关心的指标吗?


焦可:这么说,我更关心DTU,Daily Talk User,也就是每天有多少用户在讲话


DAU对我们而言不是重要指标。只有用户的Long Context决定长记忆的量,DAU随时会走。


智能涌现:那你需要和几个大App抢夺用户的注意力和时间。


焦可:是的。这两年用户比较容易沉浸在某几个大App里,获取新的用户时间很难。


所以我们现在也在追求高留存,让用户在长留存中产生足够的周均使用时长。


这对创业者来说是个挑战。所以我们现在也在和一些汽车厂商合作,帮他们做车载个性化AI电台。


智能涌现:来福会怎么做增长?


焦可:未来我们还是会先面向一二线城市的上班族,从他们的通勤时间切入。这是一个比较确定性的需求。


智能涌现:不只是大厂,国内现在聚焦AI音频制作的公司不少,来福有所谓的“护城河”吗?


焦可:大家的定位还是工具。我的观点是,使用工具的创作者是少数,内容消费者才是大多数。消费者在意的是服务,所以来福提供完整的内容服务。


光有内容供给是不够的,我们要解决的是分发问题


AI推荐音频目前是蛮有门槛的技术。音频的推荐筛选效率比较低,不像视频,用户看了开头就知道喜不喜欢,但音频你得听一两分钟才能决定。


所以目前我们自己搭了一套工程体系:


一块是主播和内容的AI生成管线,一块是AI音频的指令交互界面,还有一块是长记忆的Infra层,因为AI的记忆既会影响生成的内容是否匹配用户喜好,也会影响推荐分发的准确性。


智能涌现:国内有和你们做同样事情的公司吗?


焦可:从目前发布的产品来看,大家做的都是单点的音频模型,或者创作工具。但把一套服务做完的,只有我们。


智能涌现:小宇宙之类的播客平台,有内容和用户基础,未来他们做AI播客,你怎么竞争?


焦可:不少上个时代的平台,基本盘是人类生产的内容。这样的平台其实不太容易引入AI内容。即便引入,也会打一个“疑似AI生成”的水印,或者尽量降低权重。在我看来,这是一种歧视。


当你的基本盘是人类时,天然就会有一堆人维护原有的创作生态。就像胶片相机厂商,即便掌握技术,也很难转型成数码相机,这就是柯达当时发生的事。


智能涌现:这是用户教育可以解决的问题吗?


焦可:小宇宙的用户群和我们不一样,因为他们贡献的价值和我们也不一样。


小宇宙创始人Kyth说,小宇宙是在丰饶时代创造稀缺价值。独特、深度信息是小宇宙提供的价值,但消费群体只是少数人。


就像长视频平台出品的是精品内容,但创造的商业价值远不及抖音。抖音的核心价值不是短视频,真正有价值的东西是个性化,每个人都能被提供自己喜欢的内容。


所以来福贡献的价值也是个性化的播客。每个人打开来福,被推送的内容是不一样的。AI能把个性化的价值往上发挥到更高的level。


智能涌现:先发优势对你来说重要吗?


焦可:我创业这么多年,意识到节奏是最重要的事。我们可以快,但不能急。


如果我们求快,推出一个不solid的解决方案,用户是很容易被其他新供给抢走的。就像朱啸虎说的,一旦用户流失,如果要重新召回,在移动互联网时代可能要花10倍以上的成本。


智能涌现:之前有创业者提到,C端产品第一天不收钱,之后就再也收不到钱了。你认同这个观点吗?


焦可:这得看产品的类型。第一天必须收钱的,叫做“旅游型产品”,就好比你去旅游城市,一冲动在那儿买了房,结果之后根本不会住。


这些产品不是持续性的刚需,所以只能在第一波赚到钱。如果你相信自己做的是有留存的产品,一个越使用、用户忠诚度越高的产品,为什么要把收费门槛设置在第一天呢?我想和用户长期发展信任关系。


智能涌现:和用户长期发展信任关系后,你怎么设计来福的商业模式?


焦可:最容易做的是广告。AI主播可以用自己的风格去口播。


但其中也有问题。音频产品很难衡量广告效果,品牌不知道用户购买行为,是不是由于听到音频的推荐。


长期来看,AI核心的商业模式不是广告,而是用户付费。广告建立在商家和用户的信息不对称上。但AI其实在不断消除信息不对称。


智能涌现:来福目前面向的是国内市场。为什么你没有向大多数创业者一样day 1选择出海?


焦可:因为国内的音频需求很大,但供给比较弱。海外音频的供给挺强的,成熟市场意味着用户需求已经被较好的满足。


革命往往发生在边缘地区。所以从国内开始跑通产品,尤其是推荐,会比较容易。因为推荐体系建立在用户每天使用、产生context的基础上。


语音能产生更多用户上下文


智能涌现:Bet on音频是行业共识吗?


焦可:不算。我遇到很多投资人,都觉得音频的价值比较低,因为上一代音频公司没有做太大。


当然上一代音频产品的用户量可能不小,但没有成为大众应用,核心原因在于它们都是单边产品,音频退化成了信息承载工具。如果比信息传递效率,音频相较于视频,是不占优势的。


智能涌现:融资过程中你最常被问的问题是什么?


焦可:还是大厂竞争。创业公司如果只做单点功能、单点模型,是非常容易被大厂碾压的,因为大厂可以在单点功能上投入一整个部门的资源。


但来福做的事,实际上跨了好几个部门,包括内容、推荐、语音。对大厂而言,打通这么多业务蛮难的。


融资过程中,一些投资人会说音频不太好做。其实我蛮开心的。当大家都觉得音频好做,这件事大概率已经成为共识,大厂也会进场。


智能涌现:最早buy in你的投资人是谁?


焦可:最开始,2025年春节前,我和红杉的吴茗(红杉中国投资合伙人)聊,她是我在百度的老同事。


她把我推荐给了Neil(沈南鹏,红杉中国创始及执行合伙人)。Neil听完之后觉得逻辑很清楚。红杉很快,一周时间就过完会了。拿到钱我就正式创业了。


智能涌现:你是怎么向Neil解释自己的创业逻辑的?


焦可:我在百川期间,行业最重要的事叫做“探索人类智慧的上限”,通俗来讲,就是造一个爱因斯坦,能不能记住用户不重要,只要记住物理学定律就行。


但我和小川还有一个共识:在应用侧,记忆是很重要的事,AI时代真正的壁垒就是长期记忆。


所以,AI应用的兵家必争之地是Long Context(长上下文)。用户产生的上下文是AI记忆的内容,所以有了长上下文,才会有长记忆。


在所有交互中,只有音频才会产生Long Context和Long Memory。语音是人类最自然的一种沟通方式,语音输入的速度是文字的4倍,所包含的信息量是文字的两倍。


未来,AI会解决内容供给,也会利用记忆重塑内容分发,中间的桥梁,就是产生长上下文的音频。


智能涌现:为什么长记忆对应用很重要?


焦可:上一代的推荐引擎,本质上是根据你的历史行为,根据关键词,参考跟你相同画像用户的行为协同过滤,去猜你可能喜欢什么东西。


但现实中,你给家人朋友推荐饭馆、电影,一定不是靠猜的,而是基于多年对他的长期记忆。所以长期记忆对AI应用的价值在于真正记住、懂得一个用户。


抖音推荐算法的逻辑,在AI时代将会有新变化:一端,AI直接生成内容与服务,供给的数量与质量将再发生几个数量级的变化;另一端,AI基于对用户的长记忆理解用户,从而提供真正属于个人的个性化服务。


智能涌现:用户和一个AI主播交互的动力是什么?交互的需求真的存在吗?


焦可:很多场景都需要语音交互。比如我在开车时听节目,突然有个问题,我就直接打断AI主播问他们问题,不需要停车打字去搜索。


有时你也会对某个话题感兴趣,比如英特尔和英伟达的对比、去保定的旅游攻略,这些内容人类播客平台或许没有供给,但是AI 10秒之内就可以帮你生成定制化的节目。


我们有一个用户,晚上听到了一个讲原生家庭的节目,有感而发跟主持人聊了很久。还有一个用户,因为不同意主持人的观点,跟TA激辩了300多轮。


智能涌现:产品上线后,buy in的投资人比例变高了吗?


焦可:变高了。剩下的还是用互联网的逻辑评判语音,觉得我们太贵。


我们不太烧钱,也不想让股东结构太复杂。所以第二轮融资比较简单。


智能涌现:创业过程中你焦虑过吗?


焦可:我个人还好,因为逻辑想清楚了,做就好了。剩下的都是战术上的问题。创业其实每天十有八九都是坏消息,不过这才叫创业,如果一帆风顺,说明你已经在做被别人验证过的事。


如果真要说有什么急迫的事,就是招人。我出来公开发声,其实并不是为了To VC,我们刚融完一轮。


我们招人的时候就发现,很多候选人想求安稳,更愿意去大公司,或者当公务员。大家的心气儿和13、14年那会儿是不太一样的。


所以我出来发声,是因为想招人!很急!


文章来自于微信公众号 “智能涌现”,作者 “周鑫雨”

关键词: AI新闻 , AI音频 , AI主播 , Samantha
AITNT-国内领先的一站式人工智能新闻资讯网站
AITNT资源拓展
根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考
1
AI医疗影像

【开源免费】MONAI是一个专注于医疗影像分析的深度学习框架,它可以让医院高效、准确地从医疗影像数据中提取有价值的信息,以辅助医生进行诊断和治疗。

项目地址:https://github.com/Project-MONAI/MONAI?tab=readme-ov-file

2
知识库

【开源免费】FASTGPT是基于LLM的知识库开源项目,提供开箱即用的数据处理、模型调用等能力。整体功能和“Dify”“RAGFlow”项目类似。很多接入微信,飞书的AI项目都基于该项目二次开发。

项目地址:https://github.com/labring/FastGPT

3
免费使用GPT-4o

【免费】ffa.chat是一个完全免费的GPT-4o镜像站点,无需魔法付费,即可无限制使用GPT-4o等多个海外模型产品。

在线使用:https://ffa.chat/