ChatGPT 人工智能 GPT4 伦理 生成式 医疗 监管 安全 机器学习 深度学习 神经网络 计算机视觉 强化学习 模型 算法 应用 开发 研究 工具 平台 框架 数据集 训练 部署 安全 合规 培训 投资 LLM,llm AI,ai,Ai 大模型 大语言模型 制图 生图 绘图 文生图 文生视频 生成式AI AGI 世界模型 sora chatGPT,chatgpt,ChatGpt claude openai Llama deepseek midjourney 红熊猫模型 Red panda,panda Stable Diffusion,StableDiffusion,stable DALL- E 3 DALL E DALL Flux,flux 扩散模型 混元大模型 文心一言 通义千问 可灵 Pika PixelDance 豆包 月之暗面 零一万物 阶跃星辰 搜索增强 MiniMax Talkie Agent prompt fastai LangChain TTS 微调 提示词 知识库 智能体
# 热门搜索 #
搜索
全球最强开源模型Qwen2发布,阿里云为开闭源之争画下休止符
7586点击    2024-06-07 14:50

大模型领域,开源与闭源之争一直是技术和产业界关注的焦点。阿里云通义千问最新发布的Qwen2系列模型,为这场争论提供了最新的答案。


6月7日,通义千问推出开源模型系列Qwen2,包括5款模型:0.5B、1.5B、7B、72B、MoE,其中,Qwen2-72B整体性能相比Qwen1.5-110B大幅提升!一举超越了美国最强的开源模型Llama3-70B,更是将文心4.0等中国众多闭源模型甩在身后,登上最强开源大模型的宝座。


OpenCompass大模型测评榜单上,Qwen1.5-110B已领先于文心4.0等一众中国闭源模型


对比当前最优的开源模型,Qwen2-72B在多项能力上均处于领先


Qwen2系列模型除了技术性能上的提升,还展现了更多的应用潜力。其多语言处理、长文本处理、代码生成、数学和逻辑推理等能力,已经在MMLU、GPQA、HumanEval等国际测评中得到了验证。


代码及数学能力也得到了显著提升


此前存在一种观点认为在大模型的开发上,闭源模型因为其庞大的投资和资源积累,相较开源模型具有不可比拟的优势,导致了一种看似共识的观念:开源模型难以追赶闭源模型的步伐。


单一的公司的闭源模型,如果有大量资金和资源投入,的确可以在短期内推动技术的发展,这一点在OpenAI上已经得到了验证。而且不可否认,选择闭源的OpenAI在性能上仍然是业界最强。


而这次阿里云Qwen2的发布,表明开源模型同样能够达到甚至超越闭源模型的高性能。这不仅让开源模型落后闭源模型的论调不攻自破,也再次证明了开源大模型不仅不会越来越落后,在技术上更是有着无限的可能。开源大模型能够做到足够强,并且会越来越强。


同时这也是对开源价值的再一次阐释,Qwen系列的开源模型除了为技术社区贡献了一项重要的资源,也鼓励了全球性的创新合作,进一步强化了开源大模型生态系统的活力和包容性。


值得一提的是,阿里云在1个月前刚刚发布中文场景性能超过GPT-4的闭源模型——通义千问2.5,从这个角度来看开闭源的路线选择,阿里云实际上是两条腿走路。既利用开源的优势进行广泛的技术传播和创新,又通过闭源的方式保障关键技术的领先和商业应用的稳定。这种类似于双轨制的策略,使得阿里云能够在技术创新和商业化应用中取得平衡,实现技术价值的最大化。


所以,开源与闭源并不矛盾,而是在不同的场景和需求下扮演着各自独特的角色,这并不是一道非此即彼的选择题,也是时候为两者的路线之争画下休止符了。


Qwen2问世,卷起千层浪


Qwen2不仅仅意味着开源大模型阵营诞生了新标杆,它已在整个行业里卷起千层浪。Qwen2系列模型的API已经登陆自家的阿里云百炼平台,众多全球开源平台和工具也第一时间宣布对Qwen2的支持,包括Tensor-RT、OpenVINO、OpenCompass、XTuner、LLaMA-factory、Firefly、OpenBuddy、vLLM、Ollama等等,这样的生态影响力在国产大模型行列里绝无仅有。



Qwen2这次的开源在X上也引发了大量的讨论:海外网友和开发者纷纷欢迎这款最强开源模型的到来。


“自Llama 3以来,Qwen2是最具影响力的开源LLM,性能超过了Llama 3,在学术和聊天方面达到了最先进的性能”


Hugging Face创始人第一时间发来贺电


事实上,过去10个月里,这样的场景并不是阿里云开源大模型仅有的高光时刻。据了解,Qwen系列模型总下载量已突破1600万次。在全球开源社区出现了超过1500款基于Qwen二次开发的模型,Qwen系列的72B、110B模型多次登顶HuggingFace 的Open LLM Leaderboard开源模型榜单,其国际社会认可度及开发者好感度可见一斑。


大洋彼岸的Meta试图用Llama系列一统开源天下,而阿里的通义千问的出现为全球开发者提供了另一项选择,也让我们看到了“国外一开源,国内就自主”说法的偏颇。市场会用脚投票,以Qwen为代表的国内开源模型所作出的贡献被长期忽视的现状,一定会随着更多全球企业和开发者的认可,逐渐扭转过来。


开源的Qwen,开放的阿里云


开源与互联网的发展紧密相连,自1970年代Unix和互联网问世之初,开源就随之出现。如果不是开源运动的推进,许多技术仍可能被少数巨头企业所垄断,阻碍科技普惠程度,我们所见证的科技创新浪潮也将不复存在。


对于大模型行业来说,有了更好的开源模型,才能够吸引更多人才参与到相关技术创新研究中。有了更好的开源模型,更多中小企业才能真正用上大模型,才会有更多对大模型产品应用的探索。


阿里云对开源的坚持,本质上是相信开放的力量,也就是阿里云CTO周靖人所说,“坚持开源开放是阿里云的重要策略,我们希望打造一朵AI时代最开放的云,让算力更普惠、让AI更普及。”这种坚定的开源策略,不仅为技术创新提供了土壤,也为全球开发者提供了平台。


开放是为了服务好客户,阿里云百炼集成了国内外主流优质大模型,提供模型选型、微调训练、安全套件、模型部署等服务和全链路的应用开发工具。


开放也是为了生态的繁荣,把饼做大,才能更好的分饼。在阿里云魔搭社区上,汇聚了大量开源模型,成为国内开发者最活跃的AI社区。


选择开源还是闭源,不仅是企业的战略决策,更会影响商业模式。不可否认的是大模型的开源存在商业模式不明朗的问题,比如扎克伯格也一直在评估自身能否从云服务厂商使用Llama相关收入中进行分成,毕竟Meta不太可能为了Llama去开辟云计算业务。


而对阿里云这样一家提供基础设施的云厂商来说,商业逻辑就十分清晰了。在大模型技术带动云计算增量需求,几乎是一个确定性趋势的背景下,Qwen的开源不需要带来直接的商业化收益,而是吸引更多的厂商和开发者,来使用阿里云打造的基础设施,以及包括闭源模型在内的相关服务,从底层的算力基座,到大模型应用的构建,再到开放的AI生态,从而形成完整的商业模式。


通过亲自下场打造并开源Qwen系列模型,同时为大模型的落地提供完善的工具和平台,阿里云走出一条与Meta、微软、AWS等顶级玩家不同的道路,这种云+AI的示范效应,已成为一种行业标准,对客户选择阿里云来探索大模型提供了一种天然的说服力。


这在全球大模型厂商中也是独一份。


Qwen是阿里AGI愿景的重要拼图


在AGI成为科技巨头们新战场的当下,阿里巴巴清晰地表明了其在这一领域的坚定信心和战略布局。在阿里发布的2024财年致股东信中,明确提出电商和云计算是阿里的两大核心业务,并将通过持续投资保持基础技术的领先地位,包括人工智能在内的创新。


从技术发展的角度来看,AI的进步经历了数次重要的飞跃,已经深刻改变了各个行业的面貌。云计算的普及进一步加速了AI的发展,使得大规模数据处理和复杂模型训练成为可能。在这一历史背景下,阿里云通过其云计算基础设施和持续的技术创新,推动了AI技术的前沿探索,Qwen的领先以及在全球范围获得了认可,正是阿里云计算与AI结合战略的产物。


从商业发展的角度,技术创新一直是企业竞争力的核心驱动力。阿里云通过将AI与云计算的深度融合,不仅开辟了在AI时代的商业模式,也获得了持续增长的路径。


在近期与摩根大通的对话中,阿里巴巴副主席蔡崇信再次表示AI和云计算的结合至关重要,并强调了阿里对AGI愿景的坚定信念。现在来看,阿里云已然为这一愿景打造了一块关键拼图。


文章来自于微信公众号 “硅星人Pro”,作者 “周一笑”


关键词: 阿里大模型 , Qwen2 , Llama-3 , AI
AITNT资源拓展
根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考
1
微调

【开源免费】XTuner 是一个高效、灵活、全能的轻量化大模型微调工具库。它帮助开发者提供一个简单易用的平台,可以对大语言模型(LLM)和多模态图文模型(VLM)进行预训练和轻量级微调。XTuner 支持多种微调算法,如 QLoRA、LoRA 和全量参数微调。

项目地址:https://github.com/InternLM/xtuner