只要不到10行代码,就能让大模型数学能力(GSM8k)提升20%!
来自主题: AI技术研报
8868 点击 2024-08-24 16:27
只要不到10行代码,就能让大模型数学能力(GSM8k)提升20%!
近日,西交微软北大联合提出信息密集型训练大法,使用纯数据驱动的方式,矫正LLM训练过程产生的偏见,在一定程度上治疗了大语言模型丢失中间信息的问题。
对于小型语言模型(SLM)来说,数学应用题求解是一项很复杂的任务。
大模型内卷时代,也不断有人跳出来挑战Transformer的统治地位,RWKV最新发布的Eagle 7B模型登顶了多语言基准测试,同时成本降低了数十倍
2B性能小钢炮来了!刚刚,面壁智能重磅开源了旗舰级端侧多模态模型MiniCPM,2B就能赶超Mistral-7B,还能越级比肩Llama2-13B。成本更是低到炸裂,170万tokens成本仅为1元!