ChatGPT 人工智能 GPT4 伦理 生成式 医疗 监管 安全 机器学习 深度学习 神经网络 计算机视觉 强化学习 模型 算法 应用 开发 研究 工具 平台 框架 数据集 训练 部署 安全 合规 培训 投资 LLM,llm AI,ai,Ai 大模型 大语言模型 制图 生图 绘图 文生图 文生视频 生成式AI AGI 世界模型 sora chatGPT,chatgpt,ChatGpt claude openai Llama deepseek midjourney 红熊猫模型 Red panda,panda Stable Diffusion,StableDiffusion,stable DALL- E 3 DALL E DALL Flux,flux 扩散模型 混元大模型 文心一言 通义千问 可灵 Pika PixelDance 豆包 月之暗面 零一万物 阶跃星辰 搜索增强 MiniMax Talkie Agent prompt fastai LangChain TTS 微调 提示词 知识库 智能体
# 热门搜索 #
搜索
阿里开源最新Qwen-14B:英文理解能力接近LLaMA2-70B,数学推理能力超过GPT-3.5!
4748点击    2023-09-26 15:05

通义千问是阿里巴巴推出的一个大语言模型,此前开源的Qwen-7B引起了广泛的关注,因为他的理解能力很强但是参数规模很小,因此受到了很多人的欢迎。而目前再次开源全新的Qwen-14B的模型,参数规模142亿,但是它的理解能力接近700亿参数规模的LLaMA2-70B,数学推理能力超过GPT-3.5


除了Qwen-14B外,本次阿里还开源了一个基于Qwen-14B模型打造的Agent开源软件。



Qwen-14B模型介绍


Qwen-14B是基于Transformer的大型语言模型,按照官方的介绍,Qwen-14B在超过3万亿tokens上训练,数据集包含高质量中、英、多语言、代码、数学等数据,涵盖通用及专业领域的训练语料。而此前的Qwen-7B模型实在2.4万亿tokens上训练。因此,不仅参数规模翻了一倍,其训练数据也增长了25%。


训练数据不同语言占比如下:


参数规模和训练数据的增长也让Qwen-14B的效果大幅增加,在MMLU的评测结果上得分66.3,接近700亿参数规模的LLaMA2-70B,引起了非常多的关注。


Qwen-14B模型的训练细节


Qwen-14B使用了超过3万亿tokens的数据进行预训练,这些数据包括高质量的中文、英文、多语言、代码、数学等信息,覆盖了广泛的领域。通过大量对比实验,预训练数据的分布得到了优化,确保了模型的高质量训练。


模型的架构也非常出色,包括了40层的Transformer编码器,每层有40个注意力头,以及一个5120维的模型维度。


模型的词汇表大小达到了151,851,而序列长度可达2048。这个词汇表可以说是超过了很多模型。大模型的词汇表是指在自然语言处理(NLP)中使用的模型所能理解和处理的所有单词、子词或标记的集合。词汇表的大小通常是衡量一个NLP模型规模的重要指标之一。


目前常见的模型词汇表大小如下:



可以看到,但从词汇表看,Qwen-14B也是目前最多的模型之一。


在实现方式方面,Qwen-14B采用了流行的技术,如RoPE相对位置编码、SwiGLU激活函数和RMSNorm,这些技术的应用使得模型在各种任务上表现出色。


以下是通义千问-14B(Qwen-14B)模型的详细信息:



Qwen-14B模型对长上下文的支持


Qwen-14B的强大之处不仅在于其参数规模和训练数据的广泛性,还在于其对长上下文的支持。引入NTK插值,LogN注意力缩放,窗口注意力等技巧,将Qwen-14B模型的上下文长度从2K扩展到8K以上。


这意味着模型能够理解和处理更长的文本片段,这对于复杂的自然语言处理任务非常重要。


Qwen-14B模型的评测结果


最终,我们来看一下Qwen-14B在各种评测任务上的表现。这个模型在多个中英文下游评测任务上都表现出色,包括常识推理、代码理解、数学问题求解、翻译等。事实上,它的性能不仅超越了相近规模的开源模型,甚至在某些指标上也与更大尺寸的模型竞争激烈。在MMLU的评测上,Qwen-14B的得分66.3,远超Baichuan2-13B-Base的59.17分,接近700亿参数规模的LLaMA2-70B的68.9分,而在GSM8K的数学推理上,Qwen-14B的得分61.3分,超过了GPT-3.5的57.1分。


下图是DataLeaner大模型评测中Qwen-14B和其它模型的评测对比结果:




在代码评估上,HumanEval的得分32.3,比CodeLLaMA-7B的33.5略低,但是超过了LLaMA2-70B的30.5分,也就是说,作为语言模型,Qwen-14B代码表现尚可,但是与专门的代码模型相比则不太行


Qwen-14B的模型开源情况和相关资源


Qwen-14B模型开源了2个版本,一个是Qwen-14B的基础大模型,一个是Qwen-14B-Chat版本的对话调优版本。后者可以更好适应对话任务。


需要注意的是,Qwen-14B模型开源协议是自定义开源协议,对学术研究完全开放,而商用需要申请授权,不过也是免费授权商用~


Qwen-Agent


Qwen-Agent是一个基于开源模型通义千问(Qwen)的代码库,用于将工具使用、规划生成、记忆等组件集合在一起。目前,我们已经开发了一个名为BrowserQwen的浏览器扩展程序,它能够方便地辅助您进行网页和PDF文档的理解、知识整合和富文本内容编辑工作。以下是BrowserQwen的特点:


将Qwen集成到浏览器扩展程序中,支持在浏览器中与Qwen进行讨论,聊一聊当前Web页面、PDF文档的内容。


在您允许的前提下,BrowserQwen将记录您浏览过的网页和PDF素材,以帮助您根据浏览内容完成编辑工作。通过BrowserQwen,您可以快速完成多网页内容的理解、浏览内容的整理和新文章的撰写等繁琐工作。


支持插件调用,目前已经集成了代码解释器(Code Interpreter)等插件,代码解释器能够支持上传文件进行数据分析等功能。


目前,我们支持两种模型:Qwen-14B-Chat(推荐)和Qwen-7B-Chat。对于Qwen-7B-Chat模型,请使用2023年9月25日之后从官方HuggingFace重新拉取的版本,因为代码和模型权重都发生了变化。




文章转载自“数据学习”



关键词: Qwen-14B , LLaMA2 , GPT-3.5 , 通义千问
AITNT资源拓展
根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考
1
智能体

【开源免费】AutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。

项目地址:https://github.com/Significant-Gravitas/AutoGPT


【开源免费】MetaGPT是一个“软件开发公司”的智能体项目,只需要输入一句话的老板需求,MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色,包括产品经理 / 架构师 / 项目经理 / 工程师,MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。

项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md