论老黄卖铲子的技术含量。
论老黄卖铲子的技术含量。
让我们训练一个 Storyteller。
距上次Karpathy AI大课更新之后,又有了1个多月的时间。这次他带了超详细的4小时课程——从零开始实现1.24亿参数规模的GPT-2模型。
AI 大牛 Andrej Karpathy 又「上新」了,这次一口气放出了长达四个小时的视频。
众所周知,对于 Llama3、GPT-4 或 Mixtral 等高性能大语言模型来说,构建高质量的网络规模数据集是非常重要的。然而,即使是最先进的开源 LLM 的预训练数据集也不公开,人们对其创建过程知之甚少。
Llama 3发布一个月后,一位开发者在GitHub上创建了名为「从头开始实现Llama 3」的项目,引起了开源社区的广泛关注。代码非常详细地展现了Llama所使用的Transformer架构,甚至让Andrej Karpathy亲自下场「背书」。
关于大模型分词(tokenization),大神Karpathy刚刚推荐了一篇必读新论文。
没想到,自 2012 年 AlexNet 开启的深度学习革命已经过去了 12 年。
一个仅用 1000 行代码即可在 CPU/fp32 上实现 GPT-2 训练的项目「llm.c」
纯C语言训练GPT,1000行代码搞定!,不用现成的深度学习框架,纯手搓。 发布仅几个小时,已经揽星2.3k。