ICML 2024 | 梯度检查点太慢?不降速、省显存,LowMemoryBP大幅提升反向传播显存效率 关键词: LowMemoryBP,反向传播,模型训练,微调,AI 自从大型 Transformer 模型逐渐成为各个领域的统一架构,微调就成为了将预训练大模型应用到下游任务的重要手段 来自主题: AI技术研报 9061 点击 2024-07-12 17:47
院士领衔推出大模型的第3种记忆:比参数存储和RAG都便宜,2.4B模型越级打13B 关键词: Memory,AI,上海算法创新研究院,模型训练 给大模型加上第三种记忆格式,把宝贵的参数从死记硬背知识中解放出来! 来自主题: AI技术研报 5968 点击 2024-07-09 00:24