# 热门搜索 #
搜索
0门槛免费商用!孟子3-13B大模型正式开源,万亿token数据训练
3758点击    2024-04-01 18:32

澜舟科技官宣:孟子3-13B大模型正式开源!


这一主打高性价比的轻量化大模型,面向学术研究完全开放,并支持免费商用。



在MMLU、GSM8K、HUMAN-EVAL等各项基准测评估中,孟子3-13B都表现出了不错的性能。


尤其在参数量20B以内的轻量化大模型领域,在中英文语言能力方面尤为突出,数学和编程能力也位于前列。



据介绍,孟子3-13B大模型是基于Llama架构,数据集规模高达3T Tokens


语料精选自网页、百科、社交、媒体、新闻,以及高质量的开源数据集。通过在万亿tokens上进行多语言语料的继续训练,模型的中文能力突出并且兼顾多语言能力。


孟子3-13B大模型开源


只需两步,就能使用孟子3-13B大模型了。


首先进行环境配置。



如果想要进行模型微调,他们也提供了相关文件和代码。



事实上,早在3月18日的澜舟大模型技术和产品发布会现场,就透露了孟子3-13B大模型的诸多细节。


当时他们表示,孟子3-13B大模型训练已经完成。


对于选择13B版本的原因,周明解释道:


首先,澜舟明确以服务ToB场景为主,ToC为辅。


实践发现,ToB场景使用频率最高的大模型参数量多为7B、13B、40B、100B,整体集中在10B-100B之间。


其次,在这个区间范围内,从ROI(投资回报率)角度来讲,既满足场景需求,又最具性价比。


因此,在很长一段时间内,澜舟的目标都是在10B-100B参数规模范围内,打造优质的行业大模型。


作为国内最早一批大模型创业团队,去年3月,澜舟就发布了孟子GPT V1(MChat)。


今年1月,孟子大模型GPT V2(含孟子大模型-标准、孟子大模型-轻量、孟子大模型-金融、孟子大模型-编码)对公众开放。



好了,感兴趣的朋友可戳下方链接体验一下。


本文来源于公众号凹非寺,作者白交


AITNT资源拓展
根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考
1
微调

【开源免费】XTuner 是一个高效、灵活、全能的轻量化大模型微调工具库。它帮助开发者提供一个简单易用的平台,可以对大语言模型(LLM)和多模态图文模型(VLM)进行预训练和轻量级微调。XTuner 支持多种微调算法,如 QLoRA、LoRA 和全量参数微调。

项目地址:https://github.com/InternLM/xtuner