国产大模型竞技场首超GPT-4o!零一万物GLM共同跻身Top10

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
AITNT-国内领先的一站式人工智能新闻资讯网站 搜索
国产大模型竞技场首超GPT-4o!零一万物GLM共同跻身Top10
3197点击    2024-10-16 14:12

国产大模型首次在公开榜单上超过GPT-4o!


就在刚刚,“大模型六小强”之一的零一万物正式对外发布新旗舰模型——Yi-Lightning(闪电)


在大模型竞技场(Chatbot Arena)上,Yi-Lightning性能直冲总榜单并列第6,数学分榜并列第3,代码等其它分榜也名列前茅。


总成绩几乎与马斯克最新xAI大模型Grok-2-08-13持平,超越GPT-4o-2024-05-13、GPT-4o-mini-2024-07-18、Claude 3.5 Sonnet等顶流。


国产大模型竞技场首超GPT-4o!零一万物GLM共同跻身Top10


同时,国内清华系大模型公司智谱AI的GLM-4-Plus也杀进了总榜,位居第9位。


该榜单结果来自全球累积超千万次的人类用户盲测投票。


前段时间大模型竞技场还刚刚更新了规则,新榜单对AI回答的长度和风格等特征做了降权处理,分数更能反映模型真正解决问题的能力。


这次Yi-Lightning杀出重围,Lmsys团队特意发帖子,称这是竞技场上的大新闻:


国产大模型竞技场首超GPT-4o!零一万物GLM共同跻身Top10


大模型竞技场总榜第六、国产第一


细看大模型竞技场分类榜上的“赛况”,Yi-Lightning各项能力都排在前头。


中文能力上,Yi-Lightning和GLM-4-Plus两个国产大模型都名列前位。


Yi-Lightning跃居并列第二,和o1-mini相差无几。


国产大模型竞技场首超GPT-4o!零一万物GLM共同跻身Top10


数学能力,Yi-Lightning和Gemini-1.5-Pro-002并列第3,仅次于o1-preview、o1-mini。


国产大模型竞技场首超GPT-4o!零一万物GLM共同跻身Top10


代码能力Yi-Lightning排名并列第4。


国产大模型竞技场首超GPT-4o!零一万物GLM共同跻身Top10


另外在Hard PromptsLonger Query分榜,Yi-Lightning也都排在第4位。


国产大模型竞技场首超GPT-4o!零一万物GLM共同跻身Top10


国产大模型竞技场首超GPT-4o!零一万物GLM共同跻身Top10


最后同样值得关注的是,竞技场新功能风格控制过滤,确保分数反映模型真正解决问题的能力,而不是用漂亮的格式、增加回答长度。


在对长度和风格等特征做了降权处理后,所有模型分数均有下降,Yi-Lightning排名变化不大,整体还与GPT-4o、Grok-2同一梯队。


国产大模型竞技场首超GPT-4o!零一万物GLM共同跻身Top10


发布会上,零一万物创始人兼CEO李开复博士展示了Yi-Lightning在不同场景上的能力。


Yi-Lightning主打一个“推理速度更快,生成质量更好”。


相比上半年Yi-Large,Yi-Lightning首包速度提升1倍,推理速度也提升了4成。


像是翻译下面这种文学作品,Yi-Lightning不仅速度更快:


国产大模型竞技场首超GPT-4o!零一万物GLM共同跻身Top10


而且用词更精准,更具文学色彩:


国产大模型竞技场首超GPT-4o!零一万物GLM共同跻身Top10


那么Yi-Lightning是如何做到的?


好用还得极速


Yi-Lightning采用MoE混合专家模型架构。


底层技术上,Yi-Lightning在以下方面进行了提升。


国产大模型竞技场首超GPT-4o!零一万物GLM共同跻身Top10


首先是优化混合注意力机制(Hybrid Attention),只在模型的部分层次中将传统的全注意力(Full Attention)替换为滑动窗口注意力(Sliding Window Attention)


由此以来,模型在保证处理长序列数据高性能表现的同时,还能大大降低推理成本。


Yi-Lightning还引入了跨层注意力(Cross-Layer Attention, CLA),允许模型在不同的层次之间共享键(Key)和值(Value)头,减少对存储需求。


这使得Yi-Lightning能在不同层次之间更有效地共享信息。


总的来说,KV cache缩小了2-4倍,同时将计算的复杂度从O(L²)降至O(L)。


其次,Yi-Lightning还采用了动态Top-P路由机制


也就是说,Yi-Lightning可以根据任务的难度动态自动选择最合适的专家网络组合——


训练过程中会激活所有专家网络,使模型能学习到所有专家知识;而推理阶段,根据任务的难度,模型会选择性激活更匹配的专家网络。


另外,之前有一些传言称国内大模型“六小强”,有一些已经不做预训练了,李开复博士这次在发布会上直接“辟谣”:


零一万物绝不放弃预训练。


而且在模型预训练阶段,团队还积累了丰富的多阶段训练方法,将整个训练分为两块,一块做好以后就把它固定起来,然后在这个固定的模型上再做后段训练。


训练前期,更注重数据多样性,使得Yi-Lightning尽可能学习不同的知识;训练后期更重内容更丰富、知识性更强的数据。


同时团队还在不同阶段采用不同的batch size和LR schedule保证训练速度和稳定性。


李开复博士还表示,零一万物开发模型讲究“模基共建”,也就是共建模型和基础架构


模型的训练、服务、推理设计,与底层的AIInfra架构和模型结构必须高度适配。


这样做的目的,不仅是让模型更好,而且让它在推理的时候能够更便宜。


再加上以上种种抬升“性价比”的技术加持,所以Yi-Lightning这次也是打到了白菜价——


0.99元每1M token


在中文等方面,Yi-Lightning比肩OpenAI的o1-mini,o1-mini的定价是每百万输入3美元,每百万输出12美元。


Yi-Lightning每百万token只需0.99RMB也是打到了骨折。


但李开复博士表示,即便这样也:不亏钱。


国产大模型竞技场首超GPT-4o!零一万物GLM共同跻身Top10


除了发布新模型,零一万物这次还首发了AI2.0数字人方案。


国产大模型竞技场首超GPT-4o!零一万物GLM共同跻身Top10


目前该数字人已接入Yi-Lightning,实时互动效果相比以往更强更自然了,belike:


国产大模型竞技场首超GPT-4o!零一万物GLM共同跻身Top10


最后谈起和国外头部大模型的差距,李开复博士表示这次Yi-Lightning的排名证明了国产大模型跟硅谷最顶尖模型的差距缩小到了五个月。


去跟追上美国最顶尖的模型,缩短这个时间差非常困难,要付出很大的努力和有独特的打法。在国内不少公司都在努力,“模基共建”则是零一万物自己摸索的独特路径。


参考链接:


[1]https://x.com/lmarena_ai/status/1846245604890116457


[2]https://x.com/01AI_Yi/status/1845776529185476613


文章来自于微信公众号“ 量子位”,作者“ 西风”


国产大模型竞技场首超GPT-4o!零一万物GLM共同跻身Top10

关键词: AI , GPT-4o , 零一万物 , GLM , Yi-Lightning
AITNT-国内领先的一站式人工智能新闻资讯网站
AITNT资源拓展
根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考
1
数字人

【开源免费】Fay开源数字人框架是一个AI数字人项目,该项目可以帮你实现“线上线下的数字人销售员”,

“一个人机交互的数字人助理”或者是一个一个可以自主决策、主动联系管理员的智能体数字人。

项目地址:https://github.com/xszyou/Fay

2
免费使用GPT-4o

【免费】ffa.chat是一个完全免费的GPT-4o镜像站点,无需魔法付费,即可无限制使用GPT-4o等多个海外模型产品。

在线使用:https://ffa.chat/

3
prompt

【开源免费】LangGPT 是一个通过结构化和模板化的方法,编写高质量的AI提示词的开源项目。它可以让任何非专业的用户轻松创建高水平的提示词,进而高质量的帮助用户通过AI解决问题。

项目地址:https://github.com/langgptai/LangGPT/blob/main/README_zh.md

在线使用:https://kimi.moonshot.cn/kimiplus/conpg00t7lagbbsfqkq0

4
无人直播

【开源免费】VideoChat是一个开源数字人实时对话,该项目支持支持语音输入和实时对话,数字人形象可自定义等功能,首次对话延迟低至3s。

项目地址:https://github.com/Henry-23/VideoChat

在线体验:https://www.modelscope.cn/studios/AI-ModelScope/video_chat


【开源免费】Streamer-Sales 销冠是一个AI直播卖货大模型。该模型具备AI生成直播文案,生成数字人形象进行直播,并通过RAG技术对现有数据进行寻找后实时回答用户问题等AI直播卖货的所有功能。

项目地址:https://github.com/PeterH0323/Streamer-Sales