一场关于非共识和长期最优解的对话。
光头,笑脸,一脸和气。
6月14日,当MiniMax创始人闫俊杰现身36氪WAVES2024大会时,还是一张令许多人感到陌生的脸。作为一家备受关注的AI大模型公司创始人,这还是他第一次出席一场线下峰会。
在延宕至今一年半的中国大模型鏖战中,MiniMax 其实是ChatGPT出现前成立的两家创业公司之一,也是截至目前中国大模型创业公司中估值最高、在C端商业化探索走得最快的公司之一。但闫俊杰却显得尤为低调。
在这场名为“非共识和长期最优解”的对话中,和闫俊杰对谈的是MiniMax的早期投资人——明势资本创始合伙人黄明明。其间,闫俊杰罕见地谈起了一些他从未透露的话题,比如最初的决定是如何发生的;在模型路线上的艰难抉择;组织管理方面的心得;以及他如何看待AI应用爆发的拐点,和中国AGI之于世界的位置。
“AGI是中国不能输掉的一场比赛。”黄明明说。
目前,除了明势资本外,入局MiniMax的投资方还包括高瓴创投、IDG资本、红杉中国、云启资本、米哈游、阿里、腾讯、小红书等机构。WAVES是36氪去年推出的全新峰会IP,今年已是第二届。
WAVES大会现场,闫俊杰与黄明明。
以下为我们提取的闫俊杰在本场对话的关键要点:
1. 从做人工智能到决定做通用人工智能的一个原因是:我的外公有一天说他说想写一本书,讲自己几十年的经历。但他没有办法写出来,因为这需要非常好的语言组织能力,也至少需要会打字。我认为只有人工智能可以帮助他实现这件事。
2. AI发展会有三个阶段:
第一阶段在2021年之前。这时AI不是独立存在的,更多是业务和产品中的某个环节。
第二阶段是AI开始具备一些通用能力,可以解决一些大众化的问题。这个时候AI可以独立驱动一些产品存在,我们现在就处在这个阶段。
第三个阶段是AI的能力稳定的大于普遍的个体,AI驱动的用户在线时长必然会大于传统产品。
3. GPT-4这一代的模型在各类的评测和很多真实场景中大概是20-30%的错误率。未来的拐点是模型错误率再降低一个数量级,应用规模再大两个数量级。
4. 未来全球AGI只有五家公司的话,至少有两家中国公司,至少第二名是中国公司。
5. 不管有钱的大厂,还是没有钱的创业公司,(中国公司)在算力层面的投入可能要比美国公司小1-2个数量级。这是接下来两三年内非常确定的事情。
6. 从Dense转型MoE模型,是通向更好模型的必要条件之一。包括合成数据、Attention机制、多模态融合等,更好模型需要的技术栈积累越来越多。
7. 创业中什么时候感觉选择做对了呢?当发现没有选择,而是只能找到唯一的路,大概率就是正确的选择了。
8. 相信AI价值在于服务普通人,因为整个社会分层大部分人都是普通人。
9. 人才是公司里最核心资产,因为人才和人才的组织创造了一切。
10. 我从小在比较落后的地区长大。很明显的观察,这些地区的人们可能比城市里的人更需要人工智能的帮助。
黄明明:IO你好(IO是俊杰在公司内部的称号)。很多人从来没有在公众场合见过你,说你是不是隐藏在背后的AI。非常高兴应36氪暗涌之邀,把真人拉到现场直接交流。
我和你是2021年底第一次见面,介绍人是米哈游的联合创始人刘伟。当时你刚开始出来创业,是中国第一个提出做通用人工智能的创业公司。第一次见面,我们明势去了三个人。第一次聊天,坦白说我没有听懂你在讲什么,你讲到对话、语音、数字人,市场也一度疯狂说你们是元宇宙转型到AGI的公司。好在我们三个人里至少有一个人听懂了,那就是夏令。他又找你聊一次后跟我说这个项目一定要投,所以我们这么早参与了 MiniMax,让我们有了一张通往新世界的门票。
明势资本也因此定了一个规则,见比较重磅的创始人时,我们至少带三个人一起去,万一有一个人听懂了呢?
时间拨回2021年,因为上一波AI都远低于大家的预期,无论社会价值还是商业价值,那是整个世界对AI看法比较黑暗的时刻。ChatGPT是2022年11月30日才发布。在更早的2021年,你看到了什么样巨大的机会,为什么那么早坚信AGI这件事的到来?
闫俊杰:其实也就是两年多以前,但好像已经过了一个世纪了。
黄明明:天上一日,地下千年。
闫俊杰:我三年前就想到这件事,就是2020年底。为什么想到做通用人工智能,其实经历了两个非常极端的事,让我意识到了必须得这么做。
我之前一直做技术,写论文,做很多研究。我一个同学是做代数几何,这是数学最前沿的几个领域之一。有一天他告诉我,他老师的老师去世了,我意识到这么重要的前沿领域,可能懂这个领域的人全世界只有20几个人。这个领域的进步是非常随机的,能够进入这个领域也越来越难的。
如果是依赖随机的单个人,那进步一定会遇到挑战。怎样可以让一个前沿领域持续进步,除了培养更好的人以外,那个时候开始想到如果有更好的AI是否也可以实现这件事?如果技术进步是重要的,那除了培养更好的人才以外,还有可以做研究的方式是就是人工智能,因为依赖技术的确定性是最高的。
除了前沿领域外,普通人也一样。
我老家在一个县城,我经常回县城观察县城人的生活。我的外公七八十岁,有一天,他说想写一本书,讲过去几十年的经历,可能这个经历没有很多人关心,但我很关心。我发现他没有办法把书写出来,因为这需要非常强的语言组织能力,需要打字,他都不会,怎样可以把他的经历变成一本书呢?我也没有办法帮助他,但我认为人工智能可以。
我意识到不管最前沿的事,还是普通人的事,如果有更通用的人工智能技术,都会有很多的不同。
但是那个时间点人工智能技术是非常依赖根据特殊的需求来定制模型,只能解决特定的问题,比如人脸识别,语音识别这些。长远这件事很重要,但是那个时间点人工智能实际产生的价值又很局限,一定是方法不对,或者说路线不对。
我开始意识到,为解决这个问题,唯一办法就是把人工智能变的更加通用,变成普通人生活中的一部分。那个时候开始想一定要做通用人工智能,要做AI to C。但是那个时间点还没有大模型这个词,用简化的语言描述就是可交互的智能体,就很容易被当成是在做数字人。
黄明明:作为这个领域的先行者,是否可以分享一下怎么看未来五年、十年AGI的发展?
闫俊杰:可以先看一下历史,我觉得AI发展会有三个阶段。
第一阶段,2021年之前,更多AI体现在大学实验室,包括很多大公司都有这种实验室,通过更好的算法解决特定的业务问题。AI在这一代里不是独立存在的,更多是业务和产品的一个环节,把其中的某一个特定功能效率变的更高。这是深度学习出来后,大模型出来前的阶段。
比如人脸识别,语音识别,很多美颜拍照等类似的东西。从2020年开始美国有这样的公司,我们2021年年底开始做。
现在我们处在第二个阶段。从2020年开始美国有这样的公司,我们2021年年底开始做。AI已经可以变成独立的产品形态存在。核心变量就是AI可以变成通用,通用是不需要定制,就可以服务更多场景,这才有独立价值。
比如在AI助手和AIGC的内容社区上都可以有一些AI的原生产品出现。但问题是现在的用户规模渗透率没有那么高,怎样可以提高这些渗透率,主要就是靠着技术的进步,产品创新。我们发现至少在自己的产品上,基本上就是大的用户拐点都是来自于模型能力的提升,这是非常显著的现象。
第三个阶段是再经历一轮模型能力的提升,错误率再下降一个数量级,模型的能力稳定的超过普通的个体。这一定会出现用户交互的频次超越基于推荐系统的应用。拐点可以定义成模型错误率再降低一个数量级,应用规模再大两个数量级。
黄明明:模型进入下一个时代,错误率得降低一个数量级,用户需要得过亿DAU。
至少第二名是一家中国公司
黄明明:作为一家出身中国的AGI公司,注定我们在能够获取的资源上比OpenAI,包括一些世界级大厂,少1-2个数量级。你甚至提过全球对大模型有最重大影响力的前50人都不在中国。作为中国AGI创业公司,怎样追赶顶级的像OpenAI这样的公司,有什么机会在未来能够超越这些公司?
闫俊杰:我们可以看一些客观的数字,除了OpenAI,头部创业公司有超过10亿美金的资金量。但这个领域不是创业公司自己的赛道,是创业公司跟上一代更大型公司在一起的赛道。我们可以看美国的公司,谷歌、微软、AWS,它们接下来几年都是千亿美金的投入量级。
黄明明:每家都是三年投资一千亿美金。
闫俊杰:这是美国几家大厂的共识。OpenAI也是有类似的体量投入。中国字节跳动有可能,或者说腾讯、阿里有可能有这么多钱。但再加上这些算力的限制,其实他们这些钱也花不出去。不管有钱的大厂,还是没有钱的创业公司,在算力层面的投入可能要小1-2个数量级,这是在接下来两三年内非常确定的事情。
这个东西不能特别报怨,我们就来想为了把AGI做好该怎么办,在限制是客观存在的情况下。
需要算力、数据和算法,其实还有非常核心的要素被忽略,用户。
AI不仅体现在一个模型上,还有另外一部分可以体现在用户的创造上。我们在模型上客观的说会落后一些,通过我们很多努力把落后的代差进一步的缩小。我们可以更好跟用户在一起,通过用户弥补这些差距。这可以简化成技术上的追赶,然后更多的跟用户在一起,共同实现AGI这件事。
黄明明:第一,我们得承认这个现实,算力和资源上的差距,但我们也有可以进化的持续迭代优势,包括用户的体验和用户的基础,以用户为核心的思维。很多工程师的红利可以起到很大的作用。
依然延伸上面的问题,我们上个时代是投电动车的,也是理想的早期投资人。我记得比亚迪王传福说过一句话,“在一起,才是中国汽车”。作为中国AGI的先行者和领导者,你怎么看中国的AGI公司在未来全世界格局里的一个定位?我个人认为AGI是中国不能输掉的一场比赛。如果我们输掉了这场比赛,我认为就像十八、十九世纪时中国刚刚开始面向世界的时候,用农耕文明对待已经进化到工业时代的世界。
闫俊杰:AI研发投入一定是越来越大的,这是不可否认的事情。短期会有很多的竞争,国内和海外的竞争都会有很多,很多随机性没法考虑的很清楚。但是如果长期看,考虑五年、十年以后,假设全世界只有三家公司,或者说只有五家公司。
黄明明:如果有五家AGI公司的话。
闫俊杰:那至少第二名应该是一家中国公司。
首先因为,在中国有10亿的互联网用户,至少用户规模上中国是绝对领先。
其次,从人才上,虽然中国目前整体环境,创新能力,距离美国目前还是有差距的。但也可以看到很多优秀的人会回来或者成长起来,并且我们不一定把AI想成特别神秘的事情,它和别的学科是一样的,比如跟新能源和生物制药是类似的。我相信中国虽然目前是有差距的,但中国整体的人才质量和人才生态会越来越好。那个时候中国最好的公司,有可能比美国第一个公司有差距,但是大概率会比美国第二的公司好,因为在美国也会头部聚拢。
短期的算力资源,算力,芯片制程上是落后的,但通信互联我们是领先的。
黄明明:通信互联是世界级的。
闫俊杰:虽然短期会经历很多挑战,各方面都有差距,但长远看,如果有五家,至少有两家是中国的,至少第二名是中国的。
黄明明:八年前,我们看智能EV的时候,当我们拆解特斯拉从整车的电子电气架构到它的电池包的时候,我们第一个感觉是传统的汽车行业完蛋了。
第二个感觉是中国的汽车行业怎么追,没有办法追,差的是几个代际的差距。但是我们用了七八年的时间实现了“弯道超车”,中国EV发展有目共睹。
马斯克讲,他认为未来全球的前十家的汽车公司,应该是有一家特斯拉,剩下的九家都是中国的公司。中国AGI领域,借助IO讲的话,如果未来有五家,至少有2-3家会来自中国。我们承认差距,但依然有很大追赶希望。
黄明明:从第一天起,MiniMax做出的很多决策是非常非共识的,我们最早提出做通用人工智能在2021年,去年赌MOE(混合-多专家模型)网络,到2023年6月时其实在硅谷MoE都不是共识,只有OpenAI全力赌MoE,谷歌全力赌Dense模型ENS。甚至MoE的提出者自己都不太相信MoE这条路径。
MiniMax内部6月决策也全力赌这件事,几乎赌上80%可用的算力资源。当时MiniMax正在进行10亿美金左右估值的融资,虽然这件事长期有益,但没有这么选的国内其他同行可能更容易做出被投资人和用户看到价值的功能。这样一个时刻,为什么敢做这个决策?
闫俊杰:两个东西导致的。作为一个创业者和偏理性的人,会做很多的分析。我们那个时候发现每天处理几百亿token。如果是Dense模型,我们没有办法每天出这么多token。很快会因为推理成本问题,耗尽所有钱。
黄明明:只是当时的那点用户量。
闫俊杰:我们那个时候已经明显知道,虽然外表上是一个C端产品,但给用户带来的价值本质上还是模型能力的提升。我们很容易看Dense的天花板就在那。
如果我们追求更高天花板,必须做类似的技术创新。不是有两条路可以选择,而是说为了实现你的目标,这是唯一的一条路。
黄明明:这是通向AGI的必要条件。
闫俊杰:这是通向更好模型的必要条件。不光是选择 MoE,包括创业里各种各样的决策,我发现一开始认为是一个选择,实际上都不是选择,就是什么时候感觉这个选择做对了呢?你会发现这不是选择,而是你能够想到的唯一一条路,只有那一条路可以通向你的目标。当时只能这样,如果做不出来就完了。
黄明明:我一直说创业跟我们人生一样,影响人生最重要的决策可能就是5-6个,创业公司也是一样。每一个决策决定了你和你的同行失之毫厘,差之万里。看着有很多选择,但想清楚了以后可能是唯一的选择,是不是因为你看的是更加长期的东西才得到这样结论。
闫俊杰:对。我们这次创业知道这件事很难,但优化一个3-6个月的目标意义不大,反正是很长期的事情。
黄明明:短期优化可以让外界感知,但对长期的目标没有太大的意义。
闫俊杰:是的。这个东西想起来很简单,内部说是不走捷径。我们的内部也走过一些捷径,但每次走捷径都会被打脸,最终变成公司价值观的第一条,不走捷径。但是尽管这样有时候还是会不由自主的走捷径。
黄明明:人性都愿意走捷径,尤其咱们行业里的聪明人多。我访谈过公司的高管,全球做出MoE的只有OpenAI,而这个技术确实像你说的是很难的。我们失败过两次,我知道你的一些高管其实心里比较慌,他们中间也问过你,但他们给我的反馈,每次找你不知道你是装的,还是内心真的特别坚定,从来没有一丝一毫的犹豫。当时心里有没有过犹豫,尤其失败了两次,赌上了几乎公司所有的算力资源和人力,心里有没有过一丝一毫的犹豫?
闫俊杰:其实还是很慌的。当想不清楚的时候会纠结,但当你想清楚了以后发现就是唯一的一条路。知道别的路走不通,只有这条路可以走。即使着急也没有用,只能往前走,因为已经确信就是这样的。
黄明明:因为长期目标决定了这是唯一可走的路。他赌MoE的事没有跟大多数股东沟通,去年市场上的传闻有的人做出了很好的功能,有人在Dense持续迭代,说MiniMax的大模型停在3月的版本没有很大进展。
很多人来问,很多人替你们着急也不知道你们在干什么,原有模型没有迭代,产品遇到瓶颈。
今年1月的时候你们的MoE没有完全的做出来,但那个时候你心里已经有谱了。有一次碰面,IO很轻描淡写跟我和夏令说,几乎押上公司80%的资源,失败过两次,但这件事现在差不多了。
他表现的轻描淡写,我当时脸上也波澜不惊,但我可以跟大家分享当时内心的真实感受,我感觉对面的这个人要么是疯子,要么是天才,敢把全部的资源押宝在这件事上。每一个投资人都有一个这个公司投少了的想法,这是我上次跟俊杰聊完了,他赌MoE这件事,我走出门以后跟夏令说的第一句话,我说 MiniMax这家公司投少了,俊杰这个人我们投少了。
黄明明:OpenAI同时在做世界上最难的两件事,一个是AGI,一个是超大规模的杀手级的应用(Killer App)。MiniMax也是中国的AGI最早提出同时做大模型和Killer App应用的公司,为什么一定要同时做呢?
闫俊杰:这是来自于创业过程中形成的内部哲学,我们意识到两件事,AI价值在于服务普通人,因为整个社会分层大部分人都是普通人。比较大的价值意味着能够让更多的普通人来使用你的产品。
如果你要服务普通人,唯一的办法是以产品的形式辐射到这么多人。这家公司的价值也在于给用户创造多大的价值,用户越多,你的价值会越大。技术的进步需要依赖很多用户的交互反馈,反馈不一定是直接点赞,有各种各样的信息。用户反馈让模型变的更好,这是核心的要素。
黄明明:让我想起了几年前的电动车领域,有一波人就是星辰大海,冲着L4、L5去。但像特斯拉和理想这样的EV企业,我得有尽可能多的车跑在路上,拿到用户驾驶行为的反馈才能更好的做自动驾驶的模型。这和你刚才讲的有异曲同工之处。
闫俊杰:我们跟用户一起来创造更好的人工智能,而不是说做了一个很好的技术给别人,这就是我们对技术跟产品的理解。用户或者说用户的创造是模型和产品的一部分,而不是分散的两个个体,不是要做一个最好的东西,然后像上帝一样让所有人用。
黄明明:用户和用户的创造是产品和模型的一部分。我们发现一个很有意思的现象,硅谷的人说通往AGI的道路上注定充满权力斗争。不管是硅谷还是中国所有做AI的人,大多数人是用精英的视角,我做出最牛的东西,你们这些人,你们10亿人、60亿人用就好了,都在用精英视角俯瞰芸芸众生。你提过我们不是开发这个技术,而是我们跟用户一起共创这个技术。
黄明明:除了刚才讲的部分,这跟个人以前的成长经历有什么关系吗?
闫俊杰:我从小在比较落后的地区长大,现在很多的时间生活在城市,但也有机会经常看一下老家人怎么生活。很明显的观察,他们可能比城市里的人更需要人工智能的帮助。不管是老人还是像我这样正在工作的人,甚至一些更加年轻的学生。
黄明明:俊杰第一次和我提这个时,我感到非常羞愧。之前内部不管讨论AGI,还是从所谓社会道德约束角度,我们更多是从精英的视角。
这让我想起了最近的段子。今年高考命题好像有一个题目说谈AI对人类社会的发展。对一个在云南大山里的小孩,他可能连电脑和网络都没有摸过,考虑的是怎样把家里的庄稼耕完还可以上课,让这样的孩子怎样回答AI对社会发展的影响?所以与用户共创,给每一个普通人创造价值,这是MiniMax给我非常大的震动。
黄明明:第一次看到IO,都很容易被外表迷惑,笑咪咪、乐呵呵的。我后来跟你的同事聊,发现他们对你有一个从不信任到信任的过程,我们是否应该赌,每次你都超前国内公司,甚至在世界范围内都超前。
我们当时最大顾虑是,你温和外表下能否做管理,毕竟做公司和技术开发是不一样的。后来聊完发现,你和外表是截然相反的人,做决策时无比高效和果决。当你做决策时,你没有一丝一毫犹豫,考虑唯一是对达成下个更优模型或者更长期进展有没有帮助,如果没有帮助就把所有无用节点砍掉。
你在上家公司也是带过一千人团队的管理者,而MiniMax到今天只有三百多人,这样的组织和管理方式是从创办这家公司开始就有的思考,还是过程中碰到问题快速迭代?
闫俊杰:这是非常关键的问题。假设这家公司没有员工,剩下的只是一些钱、模型以及用户,其实没有办法变的更好。
人才是公司里最核心资产,因为人和组织创造了后面的东西。
做这家公司时就想明白了,因为你的资源都很有限,竞争激烈,目标又特别难,有各种各样不确定性,完全无法掌控。唯一办法就是想最本质的东西,不要被浅层东西迷惑。
如果想底层东西,唯一就是技术进步的效率。技术进步的效率跟效果可以相互转化,假设你计算资源有限,效率高意味着你的迭代更快从而有更好的效果,这两个东西在传统AI上是不等价的,但在这个时代,效率和效果几乎等价。
如果说你唯一目标是研发效率,自然可以推出来什么样研发组织形态是能够有比较高的效率,这几乎可以推出来一个好的组织应该长什么样,怎么运转,找什么样人,怎样可以让一个组织从优秀变成卓越,可以推出很多东西。
唯一办法就是找到里面精简的几条核心原理,基于原理推出来应该怎么做。遇到错误时不停调整。底层想的越清楚,犯错误概率就越低。
黄明明:包括张一鸣和理想汽车的李想,你们的内心非常纯粹。每个人做决策要考虑一百、一万个点,外界怎么想、投资人怎么想,员工怎么想,媒体怎么想,但我们大多数人是把那些你刚才讲最底层的,或者是真正最长期的目标都没有想的足够清楚和透彻。
事实上,只有内心足够纯粹的人,对这件事真正发自内心有信仰和热爱的人,才能坚决果断摒弃噪音,做出长期最优解,这个最优解可能在当时很多人看来是非共识的。
文章来源于“于丽丽”
【开源免费】Fay开源数字人框架是一个AI数字人项目,该项目可以帮你实现“线上线下的数字人销售员”,
“一个人机交互的数字人助理”或者是一个一个可以自主决策、主动联系管理员的智能体数字人。
项目地址:https://github.com/xszyou/Fay
【开源免费】AutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。
项目地址:https://github.com/Significant-Gravitas/AutoGPT
【开源免费】MetaGPT是一个“软件开发公司”的智能体项目,只需要输入一句话的老板需求,MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色,包括产品经理 / 架构师 / 项目经理 / 工程师,MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。
项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md
【开源免费】VideoChat是一个开源数字人实时对话,该项目支持支持语音输入和实时对话,数字人形象可自定义等功能,首次对话延迟低至3s。
项目地址:https://github.com/Henry-23/VideoChat
在线体验:https://www.modelscope.cn/studios/AI-ModelScope/video_chat
【开源免费】Streamer-Sales 销冠是一个AI直播卖货大模型。该模型具备AI生成直播文案,生成数字人形象进行直播,并通过RAG技术对现有数据进行寻找后实时回答用户问题等AI直播卖货的所有功能。
项目地址:https://github.com/PeterH0323/Streamer-Sales