ChatGPT 人工智能 GPT4 伦理 生成式 医疗 监管 安全 机器学习 深度学习 神经网络 计算机视觉 强化学习 模型 算法 应用 开发 研究 工具 平台 框架 数据集 训练 部署 安全 合规 培训 投资 LLM,llm AI,ai,Ai 大模型 大语言模型 制图 生图 绘图 文生图 文生视频 生成式AI AGI 世界模型 sora chatGPT,chatgpt,ChatGpt claude openai Llama deepseek midjourney 红熊猫模型 Red panda,panda Stable Diffusion,StableDiffusion,stable DALL- E 3 DALL E DALL Flux,flux 扩散模型 混元大模型 文心一言 通义千问 可灵 Pika PixelDance 豆包 月之暗面 零一万物 阶跃星辰 搜索增强 MiniMax Talkie Agent prompt fastai LangChain TTS 微调 提示词 知识库 智能体
# 热门搜索 #
搜索
国产大模型竞技场首超GPT-4o!零一万物GLM共同跻身Top10
2745点击    2024-10-16 14:12

国产大模型首次在公开榜单上超过GPT-4o!


就在刚刚,“大模型六小强”之一的零一万物正式对外发布新旗舰模型——Yi-Lightning(闪电)


在大模型竞技场(Chatbot Arena)上,Yi-Lightning性能直冲总榜单并列第6,数学分榜并列第3,代码等其它分榜也名列前茅。


总成绩几乎与马斯克最新xAI大模型Grok-2-08-13持平,超越GPT-4o-2024-05-13、GPT-4o-mini-2024-07-18、Claude 3.5 Sonnet等顶流。



同时,国内清华系大模型公司智谱AI的GLM-4-Plus也杀进了总榜,位居第9位。


该榜单结果来自全球累积超千万次的人类用户盲测投票。


前段时间大模型竞技场还刚刚更新了规则,新榜单对AI回答的长度和风格等特征做了降权处理,分数更能反映模型真正解决问题的能力。


这次Yi-Lightning杀出重围,Lmsys团队特意发帖子,称这是竞技场上的大新闻:



大模型竞技场总榜第六、国产第一


细看大模型竞技场分类榜上的“赛况”,Yi-Lightning各项能力都排在前头。


中文能力上,Yi-Lightning和GLM-4-Plus两个国产大模型都名列前位。


Yi-Lightning跃居并列第二,和o1-mini相差无几。



数学能力,Yi-Lightning和Gemini-1.5-Pro-002并列第3,仅次于o1-preview、o1-mini。



代码能力Yi-Lightning排名并列第4。



另外在Hard PromptsLonger Query分榜,Yi-Lightning也都排在第4位。




最后同样值得关注的是,竞技场新功能风格控制过滤,确保分数反映模型真正解决问题的能力,而不是用漂亮的格式、增加回答长度。


在对长度和风格等特征做了降权处理后,所有模型分数均有下降,Yi-Lightning排名变化不大,整体还与GPT-4o、Grok-2同一梯队。



发布会上,零一万物创始人兼CEO李开复博士展示了Yi-Lightning在不同场景上的能力。


Yi-Lightning主打一个“推理速度更快,生成质量更好”。


相比上半年Yi-Large,Yi-Lightning首包速度提升1倍,推理速度也提升了4成。


像是翻译下面这种文学作品,Yi-Lightning不仅速度更快:



而且用词更精准,更具文学色彩:



那么Yi-Lightning是如何做到的?


好用还得极速


Yi-Lightning采用MoE混合专家模型架构。


底层技术上,Yi-Lightning在以下方面进行了提升。



首先是优化混合注意力机制(Hybrid Attention),只在模型的部分层次中将传统的全注意力(Full Attention)替换为滑动窗口注意力(Sliding Window Attention)


由此以来,模型在保证处理长序列数据高性能表现的同时,还能大大降低推理成本。


Yi-Lightning还引入了跨层注意力(Cross-Layer Attention, CLA),允许模型在不同的层次之间共享键(Key)和值(Value)头,减少对存储需求。


这使得Yi-Lightning能在不同层次之间更有效地共享信息。


总的来说,KV cache缩小了2-4倍,同时将计算的复杂度从O(L²)降至O(L)。


其次,Yi-Lightning还采用了动态Top-P路由机制


也就是说,Yi-Lightning可以根据任务的难度动态自动选择最合适的专家网络组合——


训练过程中会激活所有专家网络,使模型能学习到所有专家知识;而推理阶段,根据任务的难度,模型会选择性激活更匹配的专家网络。


另外,之前有一些传言称国内大模型“六小强”,有一些已经不做预训练了,李开复博士这次在发布会上直接“辟谣”:


零一万物绝不放弃预训练。


而且在模型预训练阶段,团队还积累了丰富的多阶段训练方法,将整个训练分为两块,一块做好以后就把它固定起来,然后在这个固定的模型上再做后段训练。


训练前期,更注重数据多样性,使得Yi-Lightning尽可能学习不同的知识;训练后期更重内容更丰富、知识性更强的数据。


同时团队还在不同阶段采用不同的batch size和LR schedule保证训练速度和稳定性。


李开复博士还表示,零一万物开发模型讲究“模基共建”,也就是共建模型和基础架构


模型的训练、服务、推理设计,与底层的AIInfra架构和模型结构必须高度适配。


这样做的目的,不仅是让模型更好,而且让它在推理的时候能够更便宜。


再加上以上种种抬升“性价比”的技术加持,所以Yi-Lightning这次也是打到了白菜价——


0.99元每1M token


在中文等方面,Yi-Lightning比肩OpenAI的o1-mini,o1-mini的定价是每百万输入3美元,每百万输出12美元。


Yi-Lightning每百万token只需0.99RMB也是打到了骨折。


但李开复博士表示,即便这样也:不亏钱。



除了发布新模型,零一万物这次还首发了AI2.0数字人方案。



目前该数字人已接入Yi-Lightning,实时互动效果相比以往更强更自然了,belike:



最后谈起和国外头部大模型的差距,李开复博士表示这次Yi-Lightning的排名证明了国产大模型跟硅谷最顶尖模型的差距缩小到了五个月。


去跟追上美国最顶尖的模型,缩短这个时间差非常困难,要付出很大的努力和有独特的打法。在国内不少公司都在努力,“模基共建”则是零一万物自己摸索的独特路径。


参考链接:


[1]https://x.com/lmarena_ai/status/1846245604890116457


[2]https://x.com/01AI_Yi/status/1845776529185476613


文章来自于微信公众号“ 量子位”,作者“ 西风”


关键词: AI , GPT-4o , 零一万物 , GLM , Yi-Lightning
AITNT资源拓展
根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考
1
数字人

【开源免费】Fay开源数字人框架是一个AI数字人项目,该项目可以帮你实现“线上线下的数字人销售员”,

“一个人机交互的数字人助理”或者是一个一个可以自主决策、主动联系管理员的智能体数字人。

项目地址:https://github.com/xszyou/Fay

2
免费使用GPT-4o

【免费】ffa.chat是一个完全免费的GPT-4o镜像站点,无需魔法付费,即可无限制使用GPT-4o等多个海外模型产品。

在线使用:https://ffa.chat/

3
prompt

【开源免费】LangGPT 是一个通过结构化和模板化的方法,编写高质量的AI提示词的开源项目。它可以让任何非专业的用户轻松创建高水平的提示词,进而高质量的帮助用户通过AI解决问题。

项目地址:https://github.com/langgptai/LangGPT/blob/main/README_zh.md

在线使用:https://kimi.moonshot.cn/kimiplus/conpg00t7lagbbsfqkq0

4
无人直播

【开源免费】VideoChat是一个开源数字人实时对话,该项目支持支持语音输入和实时对话,数字人形象可自定义等功能,首次对话延迟低至3s。

项目地址:https://github.com/Henry-23/VideoChat

在线体验:https://www.modelscope.cn/studios/AI-ModelScope/video_chat


【开源免费】Streamer-Sales 销冠是一个AI直播卖货大模型。该模型具备AI生成直播文案,生成数字人形象进行直播,并通过RAG技术对现有数据进行寻找后实时回答用户问题等AI直播卖货的所有功能。

项目地址:https://github.com/PeterH0323/Streamer-Sales