ChatGPT 人工智能 GPT4 伦理 生成式 医疗 监管 安全 机器学习 深度学习 神经网络 计算机视觉 强化学习 模型 算法 应用 开发 研究 工具 平台 框架 数据集 训练 部署 安全 合规 培训 投资 LLM,llm AI,ai,Ai 大模型 大语言模型 制图 生图 绘图 文生图 文生视频 生成式AI AGI 世界模型 sora chatGPT,chatgpt,ChatGpt claude openai Llama deepseek midjourney 红熊猫模型 Red panda,panda Stable Diffusion,StableDiffusion,stable DALL- E 3 DALL E DALL Flux,flux 扩散模型 混元大模型 文心一言 通义千问 可灵 Pika PixelDance 豆包 月之暗面 零一万物 阶跃星辰 搜索增强 MiniMax Talkie Agent prompt fastai LangChain TTS 微调 提示词 知识库 智能体
# 热门搜索 #
搜索
李开复回应一切:竞技场排名“让我们有信心继续做预训练”
2782点击    2024-11-01 10:41

我们只落后OpenAI 5-6个月,但要进一步缩短这个时间差,大家的难度都很大。


国产大模型首次在国际最具挑战的“大模型竞技场”榜单上超过GPT-4o(5月版本),当零一万物的名字紧跟在OpenAI、Google之后,李开复却如是坦言。


就在“大模型六小强”叫停预训练的传闻甚嚣尘上之时,李开复旗下零一万物历时5月憋了个大招,用实际行动回应一切:


推出最新旗舰模型Yi-Lightning,性能超越GPT-4o-2024-05-13,冲上UC伯克利大模型竞技场(Chatbot Arena)总榜第6。


还把每百万token的价格打到了0.99元人民币——不到该版本GPT-4o的3%,相比于GPT-4o-mini百万token输入输出价格的均值,也降低了近2/3。


以上数据截止10月26日


不仅大模型竞技场官方发帖盛赞,“这标志着中国大模型的强劲增长”。


也得到了大模型社区的广泛认可:


中国大模型正在迎头赶上!很高兴看到竞争仍在继续,这迫使谷歌和OpenAI等大公司继续开发他们的模型,更重要的是,发布这些模型。



而这样一个模型背后,另一点值得关注的是,李开复博士和他旗下的零一万物,对中国大模型创业公司的发展路径,又有了更清晰的认知。


就在与量子位的一对一对谈中,从打榜,到追赶OpenAI,再到大模型应用的商用落地,李开复博士坦诚畅聊一切,还与我们分享了来自硅谷的最新见闻。


具体细节,在此分享。


(以下为李开复观点呈现)


中国大模型创业公司要“换一种打法”

5-6个月的差距如何追赶


零一万物从去年11月提出Yi-34B,到今年5月的Yi-Large,再到现在10月的Yi-Lightning,大约是5-6个月出一个模型,每次的新模型基本都能够达到5-6个月之前世界第一的水平


5-6个月代表着一个绝对的差距吗?


我觉得追赶有两种心态,一种心态是我要用一样的方法论去做一样的事情,消耗一样的资源往AGI去冲。如果是这种思路,那放弃追赶是正确的。


OpenAI在训练GPT-4的时候花了1亿美金,GPT-5花了10亿美金,GPT-6可能就要花100亿美金,越往下越是一个天文数字。国内没有一个创业公司能融这么多钱,大厂可能也不舍得花这么多钱。


我们必须要有一个认知:美国有一些投资人的心态是很独特的,无论三年内烧出AGI的概率有多低,都要去砸一下试试。像OpenAI,有非常好的口才能说服一批投资人投他们;像马斯克,他的名字可能就值几十亿美元;像Google,不甘心他们最先发明的技术风头被别人抢走,所以咬咬牙也会投入;Meta我觉得一定程度是在搅局,但反正他们最近的广告收益很高,花个10亿美金甚至100亿美金没什么问题。


我们是没有这样的巨量资源的。


所以一模一样的打法是难以复制到初创企业身上的。但我们可以换一种打法,就是找到独特的“多快好省”的打法后发制人,用最少的资源,训练出力所能及的最优秀的模型。 



我们说只落后OpenAI 5-6个月,如果说要再进一步缩短这个时间差,包括我们在内的中国同行们,难度都很大。零一万物的想法是,我们要做一个世界一流的模型,现阶段的策略会晚于第一个做到的模型5-6个月,不过我们会争取做得比它成本更低、速度更快——这样可用性反而是更高的。


中国公司很擅长把一件事情做到极致,用更低的成本,实现更高的效率。成本低了能够带来更多应用的爆发


衡量模型能力很重要


我认为不能衡量的事情就没法进步,所以打榜不是为了像高考一样看能得第几名,而是去了解你在全球这么多厉害的公司和人当中,处在什么样的位置,是不是还有资格继续往前冲,还是已经掉队了。这一点非常重要。


各种榜单衡量的东西不一样。比如MMLU衡量的是“天花板”,问题是盖一个天花板100米高的房子,而你最高只能跳几米,上面的80米完全跳不上去,那有什么意思?


所以我们更看重如何去衡量模型的能力,以及是否被用户认可。UC伯克利大模型竞技场的评估方式,是让人来公平地评价,这是我们和全球巨头一直关注这个榜单的原因。


我们认可的不是打榜、刷榜的概念,而是用一个公平的,可以和最终用户对接、让他们来评分的这样一个方法,来给我们反馈。



举个例子,这次榜单上我们提交了两个模型,看它们不同的得分,我们就能学到很多东西。


我们在这个榜单上是全球范围排第三名的公司,只在OpenAI和Google之后。让我们很欣慰的是我们知道自己肯定处在世界第一梯队上,这一点对我们来说非常重要,让团队非常振奋,因为我们知道自己的模型是可以打国内、国外市场的,谁都不用怕。


这对我们团队来说是一个正反馈,让我们有信心往前冲,继续做模型,继续做预训练。


另外很重要的是,跟排我们前面五名和后面五名的模型相比,Yi-Lightning的速度都比它们快。



AI应用进入商业化拐点


现在国内进入了一个可以做AI应用的时间点。


为什么早前AI应用比较难做呢?其实就一个原因:好的模型推理成本太高。一年半前,中国就没有一个模型是可以做出PMF(产品市场匹配)来的。


过去做移动应用,用户从10万增长到100万,虽然也会增加带宽、服务器等成本,但公司们不会因此破产。而在AI时代,如果一次推理就要几块钱,当用户10倍增长时,创业公司们马上就会破产。


今年,国内达到世界一流水平的模型已经有几个了,并且有些成本已经足够低。比如我们的Yi-Lightning,每百万token的价格是0.99元人民币,就已经可以支持一个AI搜索应用:每次搜索成本只要1-2分钱,即使用户达到百万级别,每人每天搜5次,成本也还是可控的。


这就是为什么要等到有一个性价比足够高的世界级模型,才能像移动互联网时代那样去做应用的原因。



国内ToC的应用目前还没有出现一个Super APP,不是因为用户不需要,而是因为之前足够好的模型会把任何一个创业者烧破产。到今天好的模型足够便宜,情况就大大改变了,对ToC我是非常乐观的。并且我相信,中国的创业者在做PMF方面是超过美国的,就好像美团做得比DoorDash好,抖音做得比Instagram好一样。


不过做应用可能还有一个挑战,就是用户的获取成本。


国内大厂很强势,创业公司获取用户的成本会比较高。所以对创业者来说,除了要有信心,模型够好够便宜,下一个就是怎么去找到机会,用比较少的钱撬动比较多的流量,或者是解决用户的强需求。


对于ToB的应用,我觉得本质是大模型代表的AI 2.0时代跟AI 1.0时代是有差别的。AI 1.0是项目制,你要做什么我全部帮你进场去做,做一单赔一单。在今天很多ToB的公司还是做一单赔一单,这个是让人担忧的。


但比较乐观的是,当你拥有大模型的能力,项目可以更便宜地做出来。有大模型的底座,不用收集那么多数据,它本身的能力就已经很强了。


大模型还有很多过去未有的能力,无论是做Agent、多模态内容生成,还是做Copilot、直播,这些能力都是AI 1.0时代没有的,是值得一试的。


走ToB路线特别要当心的是,首先,不要做一单赔一单。


其次,要认识到客户对模型没有需求,对解决方案才有需求。


第三,应该努力去找到合适的行业,能够快速让模型的本质融合行业的特质,实现省钱或者赚钱,最好是赚钱。


对于零一万物来说,我们会逐渐释放我们的产品。在ToC方面,我们还是会延续国外先尝试,再回到国内市场的路线。主要是我们已经在海外建立了一些实操经验,积累了一些对海外市场的理解,而且有些应用在海外收费比较容易被用户接受。


ToB的话我们在零售、政务、金融、能源等领域做出了一些有利润的单子。但是坦诚地说也还在不断验证,如何去建立可持续的优势。


当你在某个行业里拿下一单,它是一个不可复制的特例,还是可以重复再做第二单、第三单?在第二单、第三单中技术的重复使用能不能让你的利润率变得更高?这都还需要验证。我们的第二年,会聚焦在从技术到应用实践的商业化验证。



什么应用是值得去做的?2009年我做过一次演讲,当时说到移动互联网的应用到来的顺序会和PC应用成长的顺序相关。比如先是读取内容、撰写内容,然后是搜索管理内容,再能够去把内容做得更加多元化、更丰富,之后能够在内容之外拓展付费行为,包括广告、支付、电商、社交等等。内在逻辑是人的需求其实就是这些。


一个新的时代到来,应该也是这样的。AI内容的阅读和生产,是ChatGPT、Midjourney、可灵。那下一个阶段就是AI搜索,然后是多模态社交/娱乐,再走到本地生活&电商等等。


健康的大模型生态是倒三角结构


“ChatGPT火爆之后,钱都让英伟达赚走了”,这个观点是一个客观的事实。


一个主要因素是英伟达的主要客户是超级大厂,他们一买就买十万张、几十万张卡,这一下就让英伟达赚了很多钱。


这些公司的想法是要成为第一个做出AGI的公司,所以花多少钱买GPU都是值得的。这个心态就会导致钱都流向英伟达,也可能导致他们做出来的模型很厉害,但都很大、很昂贵。


对于我们来说其中的机会就是做更小的、推理成本更低的模型,去推动应用的发展。


要突破这个现状,我觉得就是要有足够多的公司了解到这样一个生态系统:


底层是GPU,中间是各种模型平台,模型平台之上是应用。这个结构一定要是上层最大、底层最小的倒三角,才是健康的。


另一个因素是,英伟达实在太强了,利润非常高。如果有两三家芯片厂商能与之竞争,他们的整个盘子可能就没有那么大,我们买到的GPU也可能变得更便宜。但短期来看,英伟达还是业界最强。


硅谷新见闻


o1引入了一个非常新的思维方式:不是所有智能都来自于预训练和微调。


以后大模型技术的发展应该会有三条路线:


第一还是怎么做好预训练;


第二是怎么做好post-training;


第三是怎么在推理之中加入思考。


o1最让我惊讶的是,我在美国碰到一位经济学教授,他跟我说,他用o1等于能少招一个博士生


他有什么想法不用等到博士生每周跟他1 on 1的时候再来讨论,而是可以随时打开电脑去问o1。虽然有时候会有错误,但教授给它指出后,o1居然会学习,有时候还能反过来纠老师的错。所以这件事就变成,o1可能比一个博士生还能增强老师的能力。


当时我跟他聊的时候还有OpenAI的人在旁边。OpenAI的人就很兴奋地加入进来问,教授你愿意花多少钱买o1的服务?教授说很简单,我招博士生一年是10万美元,那我愿意付这10万美元给o1。



另外一件大家都在讨论的事是OpenAI的融资。


OpenAI的这次融资有点辛苦,融到66亿美元,看起来很多了,但要考虑到OpenAI的估值是1570亿美元。


挑战来自于哪里?我的理解是GPT-5是不太好训练的。理论上GPT-5应该已经出来了,但现在推延了,会推延多久大家并不知道。


但OpenAI可怕的地方在于,他们内部藏了很多类似o1这样的项目。他们并不着急推出,第一是怕竞争对手会学习进步,第二是要等到融资的节点,回应竞争对手的节点再拿出来用。


可以观察到的是,一年前,投资人们还在疯狂投各种模型,到今年,大家已经意识到,从纯财务投资的角度来讲,花很多钱去训练一个并没有产生太大商业价值的模型,几个月以后它就可能被取代,钱就白烧了。


我讲这个事情最主要的一点是想说:


投资人已经开始用商业思维来评估这个领域了。


文章来自于微信公众号“量子位”,作者“GenAI”


AITNT资源拓展
根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考
1
智能体

【开源免费】AutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。

项目地址:https://github.com/Significant-Gravitas/AutoGPT


【开源免费】MetaGPT是一个“软件开发公司”的智能体项目,只需要输入一句话的老板需求,MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色,包括产品经理 / 架构师 / 项目经理 / 工程师,MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。

项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md

2
AI搜索

【开源免费】MindSearch是一个模仿人类思考方式的AI搜索引擎框架,其性能可与 Perplexity和ChatGPT-Web相媲美。

项目地址:https://github.com/InternLM/MindSearch

在线使用:https://mindsearch.openxlab.org.cn/


【开源免费】Morphic是一个由AI驱动的搜索引擎。该项目开源免费,搜索结果包含文本,图片,视频等各种AI搜索所需要的必备功能。相对于其他开源AI搜索项目,测试搜索结果最好。

项目地址:https://github.com/miurla/morphic/tree/main

在线使用:https://www.morphic.sh/

3
免费使用GPT-4o

【免费】ffa.chat是一个完全免费的GPT-4o镜像站点,无需魔法付费,即可无限制使用GPT-4o等多个海外模型产品。

在线使用:https://ffa.chat/

4
微调

【开源免费】XTuner 是一个高效、灵活、全能的轻量化大模型微调工具库。它帮助开发者提供一个简单易用的平台,可以对大语言模型(LLM)和多模态图文模型(VLM)进行预训练和轻量级微调。XTuner 支持多种微调算法,如 QLoRA、LoRA 和全量参数微调。

项目地址:https://github.com/InternLM/xtuner

5
无人直播

【开源免费】VideoChat是一个开源数字人实时对话,该项目支持支持语音输入和实时对话,数字人形象可自定义等功能,首次对话延迟低至3s。

项目地址:https://github.com/Henry-23/VideoChat

在线体验:https://www.modelscope.cn/studios/AI-ModelScope/video_chat


【开源免费】Streamer-Sales 销冠是一个AI直播卖货大模型。该模型具备AI生成直播文案,生成数字人形象进行直播,并通过RAG技术对现有数据进行寻找后实时回答用户问题等AI直播卖货的所有功能。

项目地址:https://github.com/PeterH0323/Streamer-Sales