
面向超长上下文,大语言模型如何优化架构,这篇综述一网打尽了
面向超长上下文,大语言模型如何优化架构,这篇综述一网打尽了作者重点关注了基于 Transformer 的 LLM 模型体系结构在从预训练到推理的所有阶段中优化长上下文能力的进展。
来自主题: AI资讯
4518 点击 2024-01-03 13:38
作者重点关注了基于 Transformer 的 LLM 模型体系结构在从预训练到推理的所有阶段中优化长上下文能力的进展。
今天分享一篇符尧大佬的一篇数据工程(Data Engineering)的文章,解释了speed of grokking指标是什么,分析了数据工程
化学反应是药物设计和有机化学研究的基础。研究界越来越需要一种能够有效捕获化学反应基本规则的大规模深度学习框架。