苹果AI首登iPhone!47页论文曝自研模型,多项测评超GPT-4。
苹果AI首登iPhone!47页论文曝自研模型,多项测评超GPT-4。
了解以色列的读者应该知道,以色列只是一个面积仅为重庆三分之一,人口不到1000万的“弹丸小国”。以色列没石油、没淡水,资源贫瘠到除了沙子一无所有,并且常年来战争不断。
在Meta的Llama 3.1训练过程中,其运行的1.6万个GPU训练集群每3小时就会出现一次故障,意外故障中的半数都是由英伟达H100 GPU和HBM3内存故障造成的。
一半以上的故障都归因于 GPU 及其高带宽内存。
英特尔用“光”,突破了大模型时代棘手的算力难题—— 推出业界首款全集成OCI(光学计算互连)芯片。
我们知道 LLM 是在大规模计算机集群上使用海量数据训练得到的,机器之心曾介绍过不少用于辅助和改进 LLM 训练流程的方法和技术。而今天,我们要分享的是一篇深入技术底层的文章,介绍如何将一堆连操作系统也没有的「裸机」变成用于训练 LLM 的计算机集群。
英伟达全面转向开源GPU内核模块,历史将再次见证Linux社区开源的力量。
囤 GPU 真的像修铁路一样,是一项划算的投资吗?
纯国产GPU的万卡集群,它来了! 而且还是国内首个全功能GPU,兼容CUDA的那种。
Scaling Law 持续见效,让算力就快跟不上大模型的膨胀速度了。「规模越大、算力越高、效果越好」成为行业圭皋。主流大模型从百亿跨越到 1.8 万亿参数只用了1年,META、Google、微软这些巨头也从 2022 年起就在搭建 15000 卡以上的超大集群。「万卡已然成为 AI 主战场的标配。」