大模型推理速度飙升3.6倍,「美杜莎」论文来了,贾扬清:最优雅加速推理方案之一
大模型推理速度飙升3.6倍,「美杜莎」论文来了,贾扬清:最优雅加速推理方案之一去年,在加速大语言模型推理层面,我们迎来了一个比推测解码更高效的解决方案 —— 普林斯顿、UIUC 等机构提出的 Medusa。如今,关于 Medusa 终于有了完整技术论文,还提供了新的版本。
来自主题: AI技术研报
5306 点击 2024-01-24 14:06
去年,在加速大语言模型推理层面,我们迎来了一个比推测解码更高效的解决方案 —— 普林斯顿、UIUC 等机构提出的 Medusa。如今,关于 Medusa 终于有了完整技术论文,还提供了新的版本。
最近,两位哈佛辍学生共同创立的AI芯片公司,估值已达3400万美元,并计划明年交付一款名为「Sohu」的AI推理加速芯片——其LLM推理性能达到H100的10倍,而单价吞吐量更是高达140倍。
DeepMind的研究团队开发了一款基于大型语言模型的人工智能系统,名为FunSearch,可以在数学和计算机科学中生成新的解。通过迭代中的进化,FunSearch能够解决复杂的数学问题,并发现新的数学知识和算法。这种基于大型语言模型的人工智能系统不仅能超越人类数学家,而且比现有的方法更有效。
英伟达老黄,带着新一代GPU芯片H200再次炸场。官网毫不客气就直说了,“世界最强GPU,专为AI和超算打造”。