
150B token从头训练,普林斯顿Meta发布完全可微MoE架构Lory
150B token从头训练,普林斯顿Meta发布完全可微MoE架构Lory前几天,普林斯顿大学联合Meta在arXiv上发表了他们最新的研究成果——Lory模型,论文提出构建完全可微的MoE模型,是一种预训练自回归语言模型的新方法。
来自主题: AI技术研报
9518 点击 2024-05-20 16:10
前几天,普林斯顿大学联合Meta在arXiv上发表了他们最新的研究成果——Lory模型,论文提出构建完全可微的MoE模型,是一种预训练自回归语言模型的新方法。
红极一时的思维链技术,可能要被推翻了!
关于大模型分词(tokenization),大神Karpathy刚刚推荐了一篇必读新论文。
昨天刚刚在顶会ICLR作为特邀演讲(Invited Talk)中“国内唯一”的大模型玩家智谱AI,今天又放出了一个好消息
在刚刚举行的 ICLR 2024 大会上,智谱AI的大模型技术团队公布了面向激动人心的AGI通用人工智能前景的三大技术趋势,同时预告了GLM的后续升级版本。
开源大模型领域,又迎来一位强有力的竞争者。
AI做数学题,真正的思考居然是暗中“心算”的?
“预测下一个token”被认为是大模型的基本范式,一次预测多个tokens又会怎样?
91行代码、1056个token,GPT-4化身黑客搞破坏!
如今,大型语言模型(LLM)已经成为了我们生活中的好帮手