
150B token从头训练,普林斯顿Meta发布完全可微MoE架构Lory
150B token从头训练,普林斯顿Meta发布完全可微MoE架构Lory前几天,普林斯顿大学联合Meta在arXiv上发表了他们最新的研究成果——Lory模型,论文提出构建完全可微的MoE模型,是一种预训练自回归语言模型的新方法。
前几天,普林斯顿大学联合Meta在arXiv上发表了他们最新的研究成果——Lory模型,论文提出构建完全可微的MoE模型,是一种预训练自回归语言模型的新方法。
GPT-4o发布不到一周,首个敢于挑战王者的新模型诞生!最近,Meta团队发布了「混合模态」Chameleon,可以在单一神经网络无缝处理文本和图像。10万亿token训练的34B参数模型性能接近GPT-4V,刷新SOTA。
70B模型,秒出1000token,换算成字符接近4000!
大模型正以前所未有的速度重塑我们的工作和生活方式,人们期待大模型走向千行百业,为实际业务带来真正的价值提升。
大模型的性价比之战已经来到了新的阶段。
秀杀手级AI玩法、Gemini安卓合体截胡苹果、最强TPU,谷歌2小时提了121次AI。
红极一时的思维链技术,可能要被推翻了!
关于大模型分词(tokenization),大神Karpathy刚刚推荐了一篇必读新论文。
昨天刚刚在顶会ICLR作为特邀演讲(Invited Talk)中“国内唯一”的大模型玩家智谱AI,今天又放出了一个好消息
在刚刚举行的 ICLR 2024 大会上,智谱AI的大模型技术团队公布了面向激动人心的AGI通用人工智能前景的三大技术趋势,同时预告了GLM的后续升级版本。