ChatGPT 人工智能 GPT4 伦理 生成式 医疗 监管 安全 机器学习 深度学习 神经网络 计算机视觉 强化学习 模型 算法 应用 开发 研究 工具 平台 框架 数据集 训练 部署 安全 合规 培训 投资 LLM,llm AI,ai,Ai 大模型 大语言模型 制图 生图 绘图 文生图 文生视频 生成式AI AGI 世界模型 sora chatGPT,chatgpt,ChatGpt claude openai Llama deepseek midjourney 红熊猫模型 Red panda,panda Stable Diffusion,StableDiffusion,stable DALL- E 3 DALL E DALL Flux,flux 扩散模型 混元大模型 文心一言 通义千问 可灵 Pika PixelDance 豆包 月之暗面 零一万物 阶跃星辰 搜索增强 MiniMax Talkie Agent prompt fastai LangChain TTS 微调 提示词 知识库 智能体
# 热门搜索 #
搜索
对话杨植麟:聚焦生产力,做好Kimi这一个产品
5876点击    2024-06-24 11:33

很长一段时间内,月之暗面都不会推出 Kimi 之外的第二款产品。


因为 AGI 产品的终极形态很确定,像人一样,能为用户解决问题,也能陪伴用户。


「所以娱乐的需求、生产力的需求,可能都没有明确的边界,它们最终都会在一个产品里,只是大家的路径会有不同。」杨植麟说,「我们希望聚焦做一个产品,然后把这个产品做到极致。」


他对产品的定义,对技术路线的选择,对组织形态的思考,都通向着最终的目标。


「你的创业状态是更像在爬山,还是在航海?」


「更像爬山,」杨植麟回答,「我们内部一直在说,要爬楼梯,不只是看风景。



以下内容来自 AGI Playground 2024 上,极客公园创始人 & 总裁张鹏与月之暗面 Kimi 创始人 & CEO 杨植麟的对话。


01 

复盘 Kimi:

更聚焦,对抗组织的惯性


张鹏:从你创业以来,咱俩去年做过一次直播,到今天又过了大半年的时间,你自己怎么评价 Kimi 的发展,给自己的团队、公司、产品打多少分?


杨植麟:对,确实时间过得很快。我估计有个 60 分。


从我们的视角来看,这个行业整体肯定还是一个马拉松。技术发展可能会相对快一些,但是如果看整体技术的普及,包括整个产品和商业化,我觉得肯定是需要从 10 年到 20 年的维度来看这个事情。


过去一年的时间,我们基本上做的一个事情是去探索早期的 PMF(Product Market Fit),然后在技术上迭代了一些模型的进展,使得这个模型能够更好地服务用户的需求。


但我觉得同时可能也还有很多挑战,这里面最关键的还是,比如 Scaling Law 今天还是非常早期,可能还要去看怎么能够 Scale 到下一代模型、下下代模型,通过这个东西在产品上能够形成更强的 PMF,真正能够在每个人的工作和生活中有更高的渗透。我觉得这个其实还是有非常多的挑战,可能是一个更长期的东西。


张鹏:相对来讲,你是入场比较晚的,但是我们从外界感知到的是你提速很快、现在声势很好。你觉得有什么做得比较成功的东西?能到今天这个客观的效果,你认为哪件事的选择是比较对的?


杨植麟:特别好的问题。我觉得严格意义上来讲,肯定不能说是非常成功或者怎么样,可能有一些小的起步。


这里面我们持续关注的东西,同时现在也在持续优化的东西,还是希望真正从底层出发去解决问题,真正关注第一性原理。就像比如说 Personal Computer 行业的基础假设是摩尔定律,我觉得 AI 行业的基础假设还是规模化定律——Scaling Law。


如果我们从 10 年的视角去看这个问题,我觉得更多还是:怎么能够从技术和模型的效果上持续优化,然后在这个过程中形成更强的 PMF。所以很多动作会从这个出发点开始,去规划到底要做什么东西。我们希望最大的投入,还有时间、精力应该是放在,怎么能够迭代出更好的模型,从而解锁更多的场景,这可能是我们最关注的东西。


当然它可能也意味着聚焦,在技术和产品上可能我们都希望更加聚焦,比如我们现在更多会聚焦面向知识工作者,比如学术科研人群、互联网从业者、内容创作者、金融分析师、法律等人群的生产力场景上,已经成为几千万知识工作者搜索资料、分析文件和创作内容的助手,生产力之外的场景现在暂时不会做特别多,因为你如果什么东西都做了,可能最后也很难做好。


张鹏:这件事也是有 trade-off 的,要做一些取舍


杨植麟:对,我觉得创业公司还是要有比较明确的重点。比如我们可能就是针对生产力场景去做非常极致的优化,很多时候产品上看起来都是一个框,好像没有发生什么变化,但背后的很多体验其实已经优化了很多,当然现在肯定还有很多很多的空间。



在这个取舍的过程中,很多时候就意味着需要砍掉一些东西,不是所有东西都要做,因为我觉得组织的惯性还是想做越来越多的东西,我们可能就是要去对抗这个地心引力,希望做更少的东西,但是把它做到极致。


包括在技术上也是,AI 空间很大,因为智能本身是一个非常 heterogeneous(异质性),就是非常异构的东西。一个会计师的智能,跟一个画家的智能、跟一个数学家的智能,完全不一样。在这里面,我们也会根据核心用户群体去看,到底什么样的智能可能是现在的重点,它对应的基础能力可能是什么?然后可能更聚焦地去做这个事。


张鹏:如果把一件事儿能做到今天这个效果,可能比较重要的原因是因为你比较聚焦,选择了生产力这个维度。在 trade-off 的过程中,比如现在陪聊的产品方向你肯定也看过,甚至团队有讨论过,你最终选择不做它,背后的逻辑是什么?


杨植麟:对,我们确实讨论过这个问题,最主要可能有几个点,一个是考虑到底我们最后想做的是什么?因为想做的是通用的智能。


最终闲聊的场景和生产力场景,我觉得大概率会结合在同一个产品里面,只是在路径选择上会不一样。我们先做生产力的原因是,生产力对于智商的提升更快,今天如果去做一个类似 Character.ai 这样的产品,绝大部分精力并不是在优化智商,因为优化智商对提升产品留存可能帮助不大。但如果做生产力的话,优化智商之后,你的留存能看到显著的提升。


公司的 mission 跟产品的 roadmap(路线图)之间,应该能够更紧密地结合起来,这是很重要的一个原因。


当然可能也有其他原因,比如说我们也观察了美国市场的不同选择、发展情况,美国市场整体来说比中国市场领先一两年,所以我们可以去看不同公司的发展情况。把生产力做特别好的公司,今天不管是从业务体量,还是从融资和人才吸引力来说,它其实都是更好。


还有一个很重要的原因,我觉得娱乐场景今天的(产品)基线非常高。过去十年移动互联网的发展,诞生了一堆非常好的娱乐体验的产品,但是在生产力这个维度的基础体验或者说价值,还有非常大可以挖掘的空间。即使说今天最好的生产力产品,我觉得它其实还没有非常深入地渗透到真正的工作流程里,而且这是 AI 能带来的巨大新变量,所以这可能是为什么我们会做这样选择的重要原因。


02 

Kimi 的目标是

你的终极伙伴


张鹏:怎么定义 Kimi 这个产品?它在解决什么问题?长期来看,是一个 AI 工作台还是什么?


杨植麟:这个我觉得可能是分短期和长期来看,短期希望在生产力场景能够提供越来越多的智能。大家今天一些最主要的任务,比如更好的信息获取、信息分析、创作等,我们希望它能发挥更大的价值。


最长期最理想的情况,本质上是在讨论 AGI 产品的终极形态或者终极定义是什么样的。其实大家有讨论,我觉得现在可能有两种不同的观点。


一种是,它是世界上另一个我,它拥有你所有的输入,想法基本跟你一样,等于是复刻了一个自己,「另外一个自己」可以在数字世界,甚至物理世界做很多事情。


另外一种定义是,它可能是你的一个伙伴,一个长期、甚至接近终生的伙伴,这个伙伴也能帮你做很多事情,但是它可能会跟你不一样,会给你提出来新的视角,并不是完全复刻你,而是可能有点像。


张鹏它理解我,而不是复刻我。


杨植麟:非常理解你。我现在觉得可能第二种的概率更大,所以这可能是我们想做的东西。


我觉得它会有几个比较重要的特征。


第一个我觉得它还是先得有用,就是你能做越来越复杂的事情。我觉得今天能做的事情还不够多,这也是为什么我们现在最聚焦的还是去进一步提升模型的能力。

因为只有通过提升模型的能力,才能让它去做更多的事情。


把它类比为一个人的话,其实还缺少非常多的维度。它可能没有记忆,没有办法做长期的规划。在我的想象中,如果这个产品做得好的话,它不是只能完成这种 10 秒、20 秒就能完成的任务,而是说你能够让它定一个季度的 OKR,它可以自己去完成。



然后第二个重要特征,我觉得还是AI和人之间能够建立非常长期的信任和 connection。但这个的前提还是第一步,就是它得足够有用。如果 AI 每天给你 hallucination(幻觉)、给你很多错误的结论,信任也很难建立。我觉得只有在越来越复杂、长窗口的任务里提供真实性和准确性,才能够建立信任。


所以我们会从这些方面去考虑产品。


张鹏:从这个角度来说,我们今天看到的可能只是一个产品的初级形态。这也解释了我们为什么可以看到产品里有不同新的功能,本质上你在努力赢得在用户身边更有用的位置。这种位置未来会是从一部分能干的事逐渐扩展到越来越多,这可能是个路径。


杨植麟:我觉得这里面有一个重要的标志,就是如果有一天你发现在你的工作里 AI 做的事情比你多了,也就是说 AI 占比超过 50% 了,可能会是一个非常重要的 milestone。


可能下一个 milestone 就是机器人的数量超过人类,但那是在物理世界,我觉得数字世界会更早实现。


张鹏 :所以我很好奇一个问题,从月之暗面 Kimi 的角度去看,今天有一个很成功的产品大家都在用,未来可能也会有新的功能解决用户更具象的问题。你会更倾向于都在 Kimi 这个平台解决,还是会有机会长出其他更专有的 APP?


杨植麟:我们肯定还是会很聚焦地,只做 Kimi 这一个 app。因为有一个很重要的点是,未来的智能产品,它应该满足普世的需求。就像我刚刚说的,娱乐的需求,或者生产力的需求,甚至这两个东西可能也没有特别明确的边界。


我觉得他们应该是在同一个产品里的,只是路径选择上会有区别。这也是我认为通用智能最有意思的地方,它不是只能做一件事。但只是说在路径选择上肯定没有办法在一开始就做所有的事情,一开始还是会有重点的场景、核心的用户群体,然后逐渐去泛化开来。


所以我们还是希望聚焦做一个产品,然后把这个产品做到极致


张鹏:听起来 Kimi 要能达到你刚才说的终极目标——一个理解用户的伙伴,首先的起点是从先帮用户做好一两件事情,然后逐渐能做越来越多的事情,然后这个伙伴的关系和信任就建立了。这是一个前进的世界观和路线图。


杨植麟:是的。我觉得这中间很重要的一个标志,就是 AI 可以从单个的、具体的任务,发展成能完成一个人要花几周才能做好的任务,也就是全方位的 Super Intelligence。


现在的 AI 其实可以实现一部分的 Super Intelligence,比如阅读长文本。人没有办法一下读完几百万字的文章、直接找到问题的答案,因为很多问题没法通过「查找」得到答案。这是我们一开始踩过的坑,就是找了一堆人标注长文本的数据,认为标注完了人就学会了。但你发现其实人根本标注不了,或者效率非常非常低。


所以今天 AI 有一部分的能力比人更好,我们需要的就是让这个范围逐渐变大。


03 

长文本本质是

「长推理」


张鹏:正好谈到了长文本,这也是 Kimi 一开始让大家印象深刻的一个点,甚至在那个时候月之暗面可能比较非共识的提出来这件事很重要。我们也看到很多的模型支持的文本长度在变长,这件事未来是不是已经逐渐形成共识?另外长文本对于解决你说的那个终极的问题,是不是最重要的路径?


杨植麟:特别好的问题。今天确实有很多人在做长文本,但如果说是完全的共识,其实我也不是非常确定。也有不同的观点,比如说认为短文本的场景下也有很多可以挖掘的东西,可能不一定要非常着急去做长文本。


但我觉得这个也是正常的,因为每一个公司本身都有自己的判断。对我们来说,我们其实比较早认为长文本可能是一个非常关键的东西,这里面有几个方面:


第一方面就是说,如果我们想让 AI 从完成一两分钟的任务变成完成长周期的任务,那必然要在一个很长的 context 里,才有可能真正把 AI 进一步往下推进。


但这是一个必要不充分条件,具备了很长的 context 能力后,可能还需要很强的推理能力,之后你可以有更长的 context……我觉得它有点像螺旋迭代的过程。


可能更准确的说法叫长推理,就是你能够在一个很长的窗口下面去做很好的推理,我觉得这个是最终能产生很大价值的。



张鹏:就是它最终其实是跟用户在做数据的输入、指令的输入和最终交付服务的转换比的计算,转换比越高,带来的价值就越高


杨植麟:对,这个确实很有意思。比如,即使只看长文本这个技术,它的落地过程也是一个比例逐渐提升的过程。


因为在最早期的时候,就是用长上下文去做一些阅读类任务。阅读类任务肯定是最早落地的,因为它是一个从很多的信息变成很少的信息的过程,相对会容易一些。


比如让 AI 读 10 篇文章,然后形成总结。这个难度肯定小于我只给 AI 一个很简单的指令,但是要一口气做一个月,并且最好还要满足用户的需求。


这确实是个比例的问题,就是输入和输出的比例,它可能是更本质的东西。


张鹏:理解了,你觉得未来长文本的成本会快速下降吗?因为现在真的把 200 万 token 扔进去跑一圈,成本还是蛮高的,而且这又跟长文本应用在哪些场景、能否高价值地解决问题有关,这两个问题其实是绑定在一起的,你怎么看?


杨植麟:我觉得成本的持续下降肯定是个必然趋势。最近我们有一些新技术,一方面是一些工程上的极致优化,比如 context caching(上下文缓存)技术。另一方面,我们在架构上也做了很多优化。这能够让成本在现在的基础上,下降甚至不止一个数量级。


所以如果是 200 万字的窗口、并且能够让大部分人普惠地用起来,我觉得这是一个大概率能在今年实现的目标。


张鹏:今年就可以做到吗?


杨植麟:对,我觉得这是我们的目标。在接下来很长一段时间内,成本会持续降低、而且速度会比 short context(短文本)更快。


今天还有很多东西是没有被挖掘的。比如说,如果考虑一个人处理一个很长的记忆、或长周期的任务,他其实并不需要记住所有东西,对吧?它是一个动态计算的过程,你可以选择哪些东西要记下来、哪些要扔掉,这里面有非常大的优化空间。


而今天 AI 的效率远远高于人类,所以它的优化空间很大,整体成本降低的速度会比短文本更快。


张鹏:那我们站在这个角度去想象一下,这种变量放在应用场景上,大家会怎么用这样的一个能力呢?比如说之前我们把一本书扔进去让它做总结,这是非常直接的,那按照你的推理,接下来还会有哪些用户场景会更可用?


杨植麟:这跟我们刚才说的话题有点相关。它是一个输入输出比例调整的过程,一开始可能就是阅读,阅读是目前最刚需的场景之一。之后它可能会变成,模型能够在很长的窗口内做推理和规划、并且执行多步任务的能力。


比如说你今天想调研某个话题,或者说甚至就是给了 AI 一个明确的目标,那它就可以去执行多步规划、然后调用不同的工具、甚至有中间的思考分析过程。我觉得它会逐渐往这个方向演进。


当然,对于多模态来说也很重要。比如你今天想生成一个长时间的连续视频,背后可能也需要很好的上下文技术。


张鹏:所以我现在理解你为什么说,其实长文本在接下来可能更接近长推理。它本质上不是传统意义上的「我给它多少文本,它处理多少」,而是「它有多长的推理能力、能在多少信息下进行进一步的推理和创造」,这变得更重要。


杨植麟:对,因为如果只有长的文本,但是脑子不够用(推理能力不够),那其实没有太大价值。它肯定是要两个同时都做好。


张鹏:它会从一个产品的 feature 转化为一种产品的后台能力,然后这种能力会产生更强大的 feature,这可能是它的行进路线对吧?


杨植麟:对,而且这其实也是跟用户一起探索的过程。比如说今天我们上下文中的很多场景,其实是 Day One 的时候都没预想到的。


即使是阅读这个事情,我们之前也没想到它可以被用来快速入门一个新领域,甚至在不同的行业里、它可能都有不同的用法。比如有的用户可能会用这个功能去做一些分析,但这些分析如果你不给大家提供上下文,那分析效果可能没那么好。当你给它提供了之后,它的分析可能会更有结构化,更像麦肯锡分析法那样。


所以我觉得这是一个跟用户共创的过程,你会不断发现新的应用场景。


张鹏:对,这就是智能带来的增益价值


04 

多模态统一才是

通用智能


张鹏:最近业界大家看到的技术变化,比如说我们今天看到的 Sora 和 GPT-4o,你怎么看待 Sora 这种视频生成的能力?会是未来 Kimi 特别看重的能力吗?


杨植麟:这个肯定很重要。因为对于通用智能来说,它肯定是多模态的,你很难想象一个单模态的通用智能。所以我觉得最终不同模态之间,一定会是统一的模型。当然,现在我们可以看到技术的发展,可能有两个不同的维度。


第一个维度是智能的不断上升。比如说我们看到 Sora 和 GPT-4o,它们的智能提升虽然有一些,但没有非常显著。如果让它们去做智商测试或者一些更复杂的任务,它们可能还是做不了。所以这个方向肯定需要持续投入,我认为这是最重要的方向。


另外一个维度是不断扩展模态。比如现在有视频模态、语音模态,未来可能会扩充到感知数据、动作数据、甚至机器人的模态。这背后的价值在于,(模型)能够完成更多的场景、提供更丰富的交互方式,能够帮助产品 cross the chasm(跨越鸿沟),让技术真正变得非常易用、被越来越多的人使用。


这是两个不同的维度,但最终它们会统一起来。


张鹏:像 GPT-4o 这样的多模态能力,一定是所有做模型的公司都在研究的能力。但像 Sora 这样的视频生成技术,它是在智能成长这条线上吗?还是更多的是在给用户交付服务?这条线到底是因为什么而重要?


杨植麟:其实这个问题在纯语言模型的时代就已经被讨论过了。


我记得在 2019 到 2020 年期间,有一个重要的讨论话题就是,语言模型到底应该侧重理解还是生成?一开始有像 BERT 这样的模型,后来有 GPT 系列,可能 GPT 的生成能力更好,但 BERT 在相同算力下的效率永远更高、也就是说单位算力下 Benchmark 的提升更大。


那段时间所有人都关注 BERT,觉得能做理解就行了,工业界大部分的价值都在于理解。但这里面可能忽略了一个很重要的问题,那就是如果你想做非常好的理解,实际上你需要做非常好的生成,这两个问题最终是一个问题。


对于视频来说也是一样。我们今天想做很好的视频生成,一方面是因为视频生成本身有很高的价值,尤其是对于内容创作者和用户来说。但我觉得更重要的还不是这个,更重要的是说如果能把生成的目标函数优化得非常好,它最终一定能把理解做得更好。


我觉得文本已经是个很大的 lesson,过去几年,一开始大家有很多争论,但后来基本上就是共识,就是理解和生成是分不开的。你很难单独训练一个理解的模型,最后这两个可能就是一个模型。



张鹏:最近我们经常看到学术界有一些探讨,觉得 Scaling Law 以及 Transformer 这件事可能通向未来,但有一些学术界大神、科学家们却会说这件事其实他们没有那么大信心,他们认为还要有新的变化。这件事让我们这些外行人还是会有一点疑惑。植麟你作为曾经的年轻学者,到今天的创业者,作为学者的世界观和创业的世界观有所不同,如何和谐地理解这两件事?你会怎么看学界的一些观点和判断?


杨植麟:我觉得是这样,学术界解决的问题是,寻找正确的第一性原理。工业界是基于第一性原理,去做最好的执行。但执行的意思也不是说完全执行,它可能也需要很多创新,在不同的层级上创新。


第一性原理是在最底层去创新,所以学术界的讨论是,现在 Scaling Law 对不对?Next Token Prediction 对不对?这样的问题。我觉得这些问题都很有意义,确实应该被讨论,应该被挑战,应该有新的观点出来,每个人有不同的想法。因为神经网络可能在三四十年前、甚至二三十年前的时候也没有太多人关注,大家觉得这个不是一个好的技术路线。


我觉得这是学术界最大的价值,工业界的价值或者说要做的事情是,在一个技术路线或第一性原理的基础上,去解决里面最重要的问题。比如虽然说 Scaling Law 是第一性原理,但在这个过程中它还有很多问题没有解决,比如怎么去生成数据,怎么做多模态的模型?怎么做数据飞轮?这些问题都需要解决,但他永远不是去发明一个新的第一性原理,他们是在不同的层级上工作、创新。这个是我的理解,学术界可能就需要更多辩论,需要有人提出很多新的挑战、想法。但工业界就是怎么能更快、更好地去解决,在第一性原理的基础上,第二层面的很多大的技术挑战。


但我觉得现在整体的冲突也没有那么大,比如说杨立昆一直在讲的世界模型,现在的大语言模型其实也是世界模型的一个特例。所以我觉得其实没有那么大的冲突。对我们来讲,就是在 Scaling Law 这个框架下面去探索智能的极限。但随着人类科技的发展,总是会有新的技术路线被提出来,但我觉得这个更多应该是纯学术研究的 mission,是不同的层级。


05 

创业公司,

动态反应比长期预测更重要


张鹏:去年咱们聊的时候你提到,大模型时代的创业公司,不光是技术产品创新,可能组织也需要创新,因为确实今天做产品,相比过去系统变量增加了很多,有模型、数据、用户等等这些东西。你觉得这一年,在组织创新上,有什么 grounding 的结果吗?


杨植麟:我觉得这还是一个持续的过程,因为组织它本身需要生长的时间嘛。


其实很多时候我们看到一些美国公司比我们跑得更快,一方面可能在于整体的 AI 能力还是更好,但其实也得益于他们花了非常多的时间去搭建组织,不光是招最好的人,可能形成了一套机制,让这些人都能在这个范式下去创新。因为中国公司很多时候还是起步晚了一点。这里面会有两种不同的公司,一种是原来做别的业务,现在转而做新的业务,那新业务需要的组织方式可能不一样。然后还有另一种,就是从 0 到 1 的,从 0 到 1 可能组织债会少一点,但也需要去探索一个好的方式。所以整体我觉得还是需要一些时间,我们现在可能有一些进展,但是肯定还有非常大的空间。


张鹏:这是一个确定重要的事,但它需要更长的时间去研究


杨植麟:对,因为我们考虑技术这个事情,本质上还是看技术是怎么产生出来的。它是靠人产生出来,人搭配生产材料。


张鹏:所以人是技术的第一性,或者说人的组织是技术背后的第一性


杨植麟:对,我觉得是这样。所以我们也会很关注,怎么能够去招聘最好的人才?特别是技术方面的人才。这些都是做好技术的一个基础吧。


张鹏:所以你现在花在招聘上的精力,是不是占比比较多?


杨植麟:对,整体占比也会比较高,因为这个还是我们核心的发展燃料。


张鹏:招什么样的人是你自己花时间最多的?


杨植麟:现在主要关注的还是技术方面的人才。这是跟公司的优先级相关的,对我们来说最重要的还是把技术做好,因为只有技术做好了,才能解锁更多的产品场景,有更好的留存,更好的商业化,所有的基础都是技术做得更好。所以我们今天在这方面,虽然已经有一些还不错的人,但是我们肯定还要持续去增强,持续吸引更多更好的人加入我们。



张鹏:过去这大半年,或者说创业这一年多以来,有什么你觉得自己预料对了的东西,和预料错了的东西?


杨植麟:我觉得整体来说,预测是一个很难的事情。所以更重要的反而是快速调整。因为 AI 的发展很快,很多时候你都很难预测。比如说明年模型能做到什么样?这个问题非常难回答,你可能有一些认知、判断,但最重要的还是根据新的变量做反应,这个新的变量可能来自于市场,可能来自于很多实验之后新的迭代,也可能来自用户反馈。总之根据新的变量,非常快速地去做反应,可能是最重要的。


如果一定要说预测的话,我觉得有几个东西在趋势上可能跟我们一开始想的差不多。比如像上下文长度一直在提升,包括视频生成的能力、能够有分钟级别的视频生成,这个趋势可能跟我们想的差不多。


但是有一些时间点上,判断不一定那么准确,比如像 Sora 的推出比我们想象中更早。但也可能并没有更早,因为它实际要达到 Product Market Fit 可能还需要一段时间。


张鹏:因为我们现在还没用上。


杨植麟:是,因为还没用到。它 somehow 真要达到 PMF 可能还有一定的时间。现在这里面更多的智能提升可能是来自于比如 GPT-4 这一代模型,做了更好的 Post Training,但是像 GPT-5,看起来这个时间表要比原来预测的更晚。所以在时间点上的准确预测,我觉得是很难。


张鹏:我听你的意思就是,不太在意远期的预测,你认为与其做远期预测,不如变成一个更连续、快速、有效的推理,每一个变量出来以后,赶紧下一步动作,而不是更远的那个。


杨植麟:动态快速的反应,这个也是我们作为一个小的创业公司,能做得更好的地方。


张鹏:不是在遥远的地方去下一个大注。


杨植麟:方向上肯定要有一些判断,就是做到长期的确定性,很坚定的往一个目标走,它关系到你的执行能不能做好。但比如几个月级别的维度的计划,我觉得可以允许有一些灵活调整,这样你犯错的概率会更小。


06 

是登山,

还是航海?


张鹏:我最后问一个稍微有一点无厘头的问题,希望用你的直觉先回答,先不要直接 reasoning 这个东西,先用 system one,再用 system two。你觉得你今天的工作,你的创业状态是更像在爬山,还是更像在航海?


杨植麟:可能更像爬山吧。


张鹏:好,那我们再 reasoning 一下,为什么更像在爬山?


杨植麟:我第一反应是爬山,是因为我们之前一直觉得是要爬楼梯,不是看风景。这是我们内部一直在说的事情,所以这是一个第一反应,但我觉得现在用 system two 想一下的话,我觉得,因为我也没有真正航过海,但我想象中的航海,是你在一个海洋上,即使走了几百公里,但你看到的东西基本是一样的。就你的目标还是很明确,但你看到的……


张鹏:进展不明确。


杨植麟:是的,在你没有很好的定位技术的情况下。


张鹏:参照物不明确。


杨植麟:对,不是那么明确能看到不一样的东西。你看到周围的东西没有发生任何变化,那个时候你的孤独感会更强。但登山的话,就是每一步都能感受到自己在提升。你能感受到模型的能力好像确实比几个月前更好了一点,你的留存也比几个月前好像高了一点。你的视野不太一样,你去度量你跟目标之间的距离的时候,会有更好的感受,所以我觉得它是一个进度更明确的东西。


这是一方面。另一方面,我觉得 AI 的发展也是一个渐进式的过程,一步一个台阶。你可能从 10 的 24 次方到 25、26、27。甚至假设大家都是 10 的 25 次方,你的训练效率也可以持续提升,你可以让每一分算力产出的智能更高。就有点像爬山的时候又多迈了几个台阶。所以我觉得整体上会更像登山。


张鹏:非常感谢植麟拿出时间来在 Founder Park 社区里做分享,我们也都期待你继续爬更高的山,然后也看到更丰富的风景。


文章来自于微信公众号“Founder Park”,作者 “Founder Park”


关键词: kimi , AI , AGI , 大模型 , AI应用 , 杨植麟
AITNT资源拓展
根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考
1
AI工作流

【开源免费】n8n是一个可以自定义工作流的AI项目,它提供了200个工作节点来帮助用户实现工作流的编排。

项目地址:https://github.com/n8n-io/n8n

在线使用:https://n8n.io/(付费)


【开源免费】DB-GPT是一个AI原生数据应用开发框架,它提供开发多模型管理(SMMF)、Text2SQL效果优化、RAG框架以及优化、Multi-Agents框架协作、AWEL(智能体工作流编排)等多种技术能力,让围绕数据库构建大模型应用更简单、更方便。

项目地址:https://github.com/eosphoros-ai/DB-GPT?tab=readme-ov-file



【开源免费】VectorVein是一个不需要任何编程基础,任何人都能用的AI工作流编辑工具。你可以将复杂的工作分解成多个步骤,并通过VectorVein固定并让AI依次完成。VectorVein是字节coze的平替产品。

项目地址:https://github.com/AndersonBY/vector-vein?tab=readme-ov-file

在线使用:https://vectorvein.ai/(付费)

2
免费使用GPT-4o

【免费】ffa.chat是一个完全免费的GPT-4o镜像站点,无需魔法付费,即可无限制使用GPT-4o等多个海外模型产品。

在线使用:https://ffa.chat/

3
无人直播

【开源免费】VideoChat是一个开源数字人实时对话,该项目支持支持语音输入和实时对话,数字人形象可自定义等功能,首次对话延迟低至3s。

项目地址:https://github.com/Henry-23/VideoChat

在线体验:https://www.modelscope.cn/studios/AI-ModelScope/video_chat


【开源免费】Streamer-Sales 销冠是一个AI直播卖货大模型。该模型具备AI生成直播文案,生成数字人形象进行直播,并通过RAG技术对现有数据进行寻找后实时回答用户问题等AI直播卖货的所有功能。

项目地址:https://github.com/PeterH0323/Streamer-Sales