ChatGPT 人工智能 GPT4 伦理 生成式 医疗 监管 安全 机器学习 深度学习 神经网络 计算机视觉 强化学习 模型 算法 应用 开发 研究 工具 平台 框架 数据集 训练 部署 安全 合规 培训 投资 LLM,llm AI,ai,Ai 大模型 大语言模型 制图 生图 绘图 文生图 文生视频 生成式AI AGI 世界模型 sora chatGPT,chatgpt,ChatGpt claude openai Llama deepseek midjourney 红熊猫模型 Red panda,panda Stable Diffusion,StableDiffusion,stable DALL- E 3 DALL E DALL Flux,flux 扩散模型 混元大模型 文心一言 通义千问 可灵 Pika PixelDance 豆包 月之暗面 零一万物 阶跃星辰 搜索增强 MiniMax Talkie Agent prompt fastai LangChain TTS 微调 提示词 知识库 智能体
# 热门搜索 #
搜索
独家对话李岩:宿华、经纬、红点资金支持,第一个「生成式推荐」创业公司|AI Pioneers
8118点击    2024-07-18 16:47

离开快手创业后,「李岩」悄悄拿到了快手联合创始人宿华、红点创投以及经纬创投的3200万美金种子轮融资。


作为快手初始AI体系的核心人物,李岩曾搭建了快手内部第一个深度学习部门,后来还帮助快手搭建起了多模态内容理解Multi-Media Understanding 技术体系。


他的其中一位投资人总结,在教授学者、移动互联网实干派,以及学术小天才,这三派AGI创业画像里,元石科技是唯一有能力整合「多模态、搜索、推荐」这三大核心技术栈的团队。


不过,自2023年初李岩正式确认自己创业后,一年多来,他就几乎消失了。


过去一年中,我们向李岩团队发出过多次采访邀请,希望跟他聊聊他的创业想法,都被「产品尚未准备好(公开)」婉拒。


不久前,元石科技的产品「问小白」正式上线,冷启动内测开启,这也是李岩团队第一次创业进展披露。于是我们再次找到李岩,希望和他聊聊他的创业计划。


在这次独家专访中,出乎意料的是,李岩的选择并不是一个纯模型公司,甚至也没有从多模态方面切入。


在「问小白」这个产品中,用户开屏即在「feed」中,看到由AI针对用户兴趣个性化生成的AIGC内容,并可随时用「chat」功能与AI基于内容做更多的交互。



可以理解为,这是一个基于自研LLM模型的生成式内容社区产品,与此前的内容社区产品相比,李岩的动作在于「生成式推荐」。


这是一个前沿的技术研究领域,至今只有Meta与CMU有一些落地成果。他告诉我,相比于之前的推荐算法,生成式推荐算法将不再基于协同过滤的推荐系统,推荐将变得更加智能,从当下的「千人十面」变成真正意义上的「千人千面」。


通过对用户更深层次需求的挖掘,推荐效率得到进一步提高,用户能够得到与自己更匹配的信息。而且,大量高质量语料对大模型的灌输,让生成式推荐算法拥有「价值观」。可以不再仅仅只是「讨好」用户,而是引导用户关注真正需要关注的优质信息。


目前在国内,李岩团队是首家以LLM驱动的生成式推荐算法作为产品核心和发展方向的创业公司。


元石的一位投资人认为,这种新的技术引擎在内容行业带来的成本与效率上的优化,与今日头条的成功路径基本一致。而在做生成式推荐算法产品这条路上,「我们看到,同时具备多模态、搜索、推荐三种背景的团队可能只有李岩」。


Vision:

做一个更高维度的推荐算法   


机器之心:我们先来介绍一下元石科技希望做一件什么事?


李岩:我们希望通过技术创新,汇聚智能,帮助用户进入心流状态,对抗精神墒。(来自米哈里·契克森米哈赖的“心流”理论)


机器之心:有点抽象,能否再解释下?


李岩:我们觉得当下是一个信息爆炸的时代,接收信息的渠道很多, 但是真正能够获得自己关心信息的渠道缺失了。


比如最近的WAIC,可能你会看到铺天盖地的报道但是每篇报导都是只言片语,但你并不能获取到你真正关心的信息,这时候你反而会陷入一种焦虑。


我们理解这是一种「精神熵」,这个概念是一个心理学家米哈里·契克森米哈赖提出的,跟我们希望做的事情非常准确地匹配。我们想做的事,就是帮助大家提升看到信息之后的幸福感和收获感。这种状态跟当下我们重度使用一些资讯类产品过后的「更焦虑、更疲惫、更开心」会有所区别。


机器之心:什么样的信息会让人看到更幸福、更有收获,而不是更焦虑、更疲惫?


李岩:这里有一个「心流」的概念,它指的是,人只有看到自己真的想看到的信息的时候,才会进入心流状态,从而感受到幸福,而不是去看到很多跟自己无关,或者不感兴趣的事情。


这同样是一个心理学研究结果,举一个具体的例子,比如父母让小孩写作业,虽然最终是落实了,但小孩是被动的,他非常痛苦,他只有在做自己想做的事情的时候,他会觉得自己很快乐。所以我们希望帮助用户进入心流的状态,去对抗精神熵。



机器之心:现在其实大部分社交社区的底层推荐系统,本质上也是希望实现这种目标(给用户推ta真正想看的)?


李岩:是有区别的。假如我们站在十年后,2034年看今天的推荐系统,包括产品和背后的技术,其实是非常落后的。现在产品所做的这些,其实并没有实现一个很完美的状态。


机器之心:怎么理解目前的水平和「更好」的水平?


李岩:我可以做个类比,目前的信息分发更像是原始人类阶段的本能反应,在精神并没有太丰富的阶段,可能人的本能就是「我要吃饭」、「我要哭」、「我要笑」,这样很直接的。


反应在推荐系统里,可能就是,比如你喜欢帅哥,就会一直给你推帅哥——推荐系统并没有过多的深入思考。而我们的产品希望做到的是,不是对用户本能反应的讨好,而是带着更高的智慧,带有关心和爱的推荐。


机器之心:这个听起来是一个审美上更高的维度,有点想要「教育用户」的意味。


李岩:准确地说并不是教育。很多事情在一个比较短的周期去看,是看不清楚的。但是比如说我们拉长到整个人类发展的历史上去看,我们会发现人类文明的每一次前进都会伴随着批判、反思甚至推翻、重构,一些东西在当下是看起来不错的,但在未来这可能就是有局限的。在网络世界也是这样 ,我们希望把更文明的成分,人类所积累的先进思想带到内容分发当中去。



技术实现路径:

选择更高质量的数据训练模型,让模型有价值观


机器之心:刚刚说是希望做一个帮助用户更好实现心流的内容产品,为什么会从做一个更好的LLM这件事着手?


李岩:我们认为LLM是通往AGI非常重要的节点。大语言模型可以做到,更好的去理解用户、理解内容,知道用户关心什么、喜欢什么、不喜欢什么,用户个人的所有的兴趣爱好可以tokenize,而大模型可以很好的去理解。


之前的推荐系统是无法做到这种程度的理解的,它只能给这个用户打上很多离散的标签,通过这个去尝试刻画和理解用户。现在,大模型不仅可以更好理解用户现有兴趣,还能增强对用户兴趣的挖掘,推理出用户隐性的兴趣爱好。


有了大模型之后,我们能够对全互联网上最高质量的语料进行压缩,对承载在文字里的人类文明进行压缩,从而使用这些文明,进一步将这些能力用到生成式推荐上,它就会拥有它的价值观、世界观,从而有一个更高维度的推荐价值体系。


大模型其实是承担了一个桥梁的作用,把这些最先进的认知与你的信息消费链接起来,然后进一步提升你的内容消费水平。


机器之心:这些「先进」内容指的是论文是吗?是社会科学还是自然科学方面都包括还是偏向哪方面?


李岩:大模型会读取整个互联网上人类积累的所有先进文明和信息,它在方方面面都可以是先进的。


机器之心:大模型怎么判定什么是「先进文明」?


李岩:其实我们人类已经对这件事情做过判断,而不是大模型,比如说我们权威的论文期刊、知名学者写的书,这些并不是大模型界定的,而是人类自己长期以来建立的高质量信息。


机器之心:嗯嗯,那这部分高质量数据具体是什么呢?来源?


李岩:我们看重数据驱动的模型能力建设,在我们模型里面,我们利用算法将可利用的高质量数据数量提升了超过一个数量级以上。另外,在数据的选择上,我们更多地采用,经典的书籍、理论、论文,这样的数据去训练我们的大模型,从而使得我们的模型有了更加深度理解用户的能力,更具体来讲,在内容推荐这件事上,我们不会一味让用户停留在短期快感内。而是同步有积累高质量信息的长期快乐。



机器之心:刚刚提到生成式推荐算法可以提高对用户理解程度,不同推荐算法对用户理解程度有没有量化的标准可以比较?


李岩:由于不同公司追求的目标是不一样的,因此优化目标也不一样。一般来说可能是时长、点击率以及留存。由于我们技术原理和业务方向是全新的领域,因此我们目前内部有一套非常复杂的数据体系,去评估这件事。


机器之心:在LLM上,目前元石技术上有什么优势?


李岩:我们从公司成立第一天开始,也就是2023年4月份左右,第一个版本的大模型就是MoE架构的。整体的技术路线选择在市场上是有很多的前瞻性。从2023年4月份到现在一年多时间,我们的模型已经迭代了四个版本。在很多公开的测试集上,我们的效果比很多其他模型的表现要好。


另外,我们高质量语料让回答的质量非常高,模型有深度思考的能力。第三,我们大模型速度也非常有竞争力,延迟极低。我们通过对模型训练和推理做了极致的优化,让我们训练大模型的成本大大下降,我们现在是免费的,不需要大家在高峰期给使用付费。


机器之心:为什么你觉得MoE是更优越的路线?


李岩:我们认为,要做自己的产品,需要有模型底层一体化链路的能力,大模型时代模型效果更好,往往意味着它参数量就大了。但是作为一个to c的产品,如果模型推理的成本很高,那商业上是不work的。所以我们既需要参数量很大,又需要推理成本很低,作为商业上可行的前提,最终我们只能选择MoE。我们是从第一天就想清楚了这个问题,我们写下的第一行代码就是MoE的。


机器之心:因为元石定位是一个应用公司,在研发过程中有没有考虑去使用一些开源模型,这样可能会更经济一点。


李岩:我们的目标并不是做一个模型层的公司,但我们还是选择自研大模型的原因在于,我们认为其他人的模型并不是为我们的目标服务的,我们是一个由自有大模型驱动的产品公司。


我们没有在模型层的商业模式上做过任何尝试,这跟我个人的认知有关系。有的人认为大模型是水和电,就是说我一旦做了好大模型,你们就不需要做了,都调用我的能力。但我们认为大模型更大的意义在于说极致服务用户的能力,场景化的能力,它在一个固定的场景,把用户服务的更好,提供了之前完全没有的体验。


另外,事实证明微调改变的能力是有限的。因为我们做这个事情的创新性还挺大的,需要在底层模型架构上做大的改动。我们内部也会用我们自研的模型跟开源模型去比,事实证明,我们内部自研的效果要远远好于开源模型。因为这个模型是完全为我这个场景打造的,从训练数据的构建以及算法的设计都做了很多工作。


机器之心:你个人在多模态方面也是属于国内探索的比较早的,在多模态方面有时间表吗?


李岩:目前文本大模型还是核心中的核心。是智能的基础。



产品价值:

能够更关注用户的个性化需求


机器之心:元石科技产品形态其实跟市面上几乎所有大模型C端产品都不一样,为什么会想要定义这样一款产品?


李岩:我们不是一个针对特定人群的产品,我们面向广泛的人群,我们也不是一个垂直内容社区。我们认为随AI生成能力和分发能力的提升,AI时代未来的内容垂类的边界甚至会越来越模糊。


在产品层面,目前我们产品有两个功能,一个是Feed一个是Chat。我们叫「问小白」,一个方面就是用户生活中有什么问题,都可以去问ta。另一方面是由小白「问」,基于用户问AI的问题,小白也会主动关心用户,主动给用户推送。名字叫小白,是希望用户有安全感,亲切感,抛弃掉冷冰冰的AI或者暴力的AI,跟用户是可以近距离接触的。


机器之心:所以可以把它理解成一个带有AI功能的内容产品吗?


李岩:可以,在此之外它还是一个实时在线的了解你喜好的朋友,那作为用户你有事你可以安排它去做,没事它可以观察你,看能帮到你什么主动做点事情。


机器之心:Feed流的内容全部是AIGC的吗?怎么保证这部分内容的质量?


李岩:用大模型生产内容的话,它首先是需要知道用户喜欢什么样的内容,再针对这些议题去生成,高质量地组织文章内容。这两个层面一方面是理解能力,一方面的生成能力,现在来看的话,这两方面的能力大模型都还有很大的提升空间。也是之所以创业的原因,因为我们认为自己有能力去将这个事情实现极大的提升。



机器之心:产品看起来有点像AI版的知乎、小红书、头条,相比于这些,区别和优势是什么?


李岩:我们首先是更关注用户的个性化需求。上一代你刚才讲的所有的产品,他们推荐系统的最基础原理是协同过滤,就是说一个用户喜欢A又喜欢B,另外一个用户喜欢A又喜欢C,那么B和C也是类似的。那我们就分别把B和C推荐给你。这种协同式的过滤手段存在非常明显的问题,就是总给你推荐一些头部垂类。


为什么呢?是因为你喜欢任何一个topic,大概率都跟喜欢这个topic的其他人,一样都更倾向于喜欢美女帅哥,都倾向于喜欢娱乐。所以系统最后就会认定其实你是喜欢娱乐、喜欢头部帅哥美女的。


这种方法它有它的好处,可以快速地拉动用户时长持续增长。但它的问题是,它使得用户个人兴趣、小众兴趣被埋没了,很难细致地理解用户。


而我们是基于大模型去做这件事情的。我们首先是希望能够照顾到你的个性化兴趣,而不是一律给你推头部帅哥美女或者娱乐内容,这样的话,这个推荐系统也并不是真正个性化的推荐系统。


所以,一个足够智能的推荐系统,它理论上是应该能照顾到用户所有的兴趣的。就无论是你大众层面的兴趣,还是小众个性化的兴趣。目前还做的远远不够。


机器之心:创业的时候为什么选择这样的一个方向,而不是目前常见的chatbot或者情感陪伴的产品形态?


李岩:我们认为,LLM融合推荐,有机会定义更全新的交互,一种无需「主动」交互的流畅体验。目前纯chat类的交互对用户还是有一定的使用门槛,需要用户主动发起提问。某种程度也限制了更广泛用户的渗透和使用。以及我们今天用的所有推荐类的产品,虽然用户用的很多,但是我们还是看到了用户反复的卸装。反复装说明他离不开,但是他反复卸,说明他没有百分之百满意。这是一个点,让我们认为推荐类的产品其实还是有很大的机会。


在这个基础上,我们认为自己团队的背景来做这件事非常契合,我个人及团队拥有很深厚的搜索、AI的研究和大规模产品化落地经验。



机器之心:不过内容型产品目前普遍遇到商业化路径不清晰,不是很成功的困局,在这块您怎么想?


李岩:目前还处于要更加充分地论证我们用户价值的阶段。在大的用户价值上去谈商业价值才有意义。大体量内容产品的超强变现能力,很多个产品已经给予了很成功的范例,比如快手。


机器之心:回到产品上看,回答能力越好对产品的价值意义在哪里?


李岩:我觉得有两个。第一个就是说你回答的越好,用户粘度就会很高,这样的话,你可以知道更多用户的信号,更了解用户。最终,系统可以根据这些来为用户创造它喜欢且真正需要的内容。持续形成正向的体验和数据循环。


机器之心:乐观去想,生成式推荐算法的逐步成熟可能会对内容行业产生哪些方面的影响?在你的想象中,一个成熟的「问小白」可能是怎样的?


李岩:生成式推荐给内容赛道注入新的活力,使得这个板块有巨大变化成为可能,而不是精雕细琢式的改良。


目前大模型等相关技术突飞猛进,但人和AI沟通的瓶颈明显,我们有能力把这两个方面都做的更好。问小白,小白问,我们希望极大的促进AI技术的普惠,让更需要AI的普通用户感受到AI的力量。


文章来自于微信公众号“机器之心”,作者 “姜菁玲”


AITNT资源拓展
根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考
1
微调

【开源免费】XTuner 是一个高效、灵活、全能的轻量化大模型微调工具库。它帮助开发者提供一个简单易用的平台,可以对大语言模型(LLM)和多模态图文模型(VLM)进行预训练和轻量级微调。XTuner 支持多种微调算法,如 QLoRA、LoRA 和全量参数微调。

项目地址:https://github.com/InternLM/xtuner