
妈妈再也不用担心延迟了!斯坦福手搓Llama超级内核,推理仅需0.00068秒
妈妈再也不用担心延迟了!斯坦福手搓Llama超级内核,推理仅需0.00068秒斯坦福Hazy实验室推出新一代低延迟推理引擎「Megakernel」,将Llama-1B模型前向传播完整融合进单一GPU内核,实现推理时间低于1毫秒。在B200上每次推理仅需680微秒,比vLLM快3.5倍。
来自主题: AI技术研报
7761 点击 2025-05-30 12:36
斯坦福Hazy实验室推出新一代低延迟推理引擎「Megakernel」,将Llama-1B模型前向传播完整融合进单一GPU内核,实现推理时间低于1毫秒。在B200上每次推理仅需680微秒,比vLLM快3.5倍。