AI资讯新闻榜单内容搜索-Megakernel

# 热门搜索 #

大模型

人工智能

openai

融资

chatGPT

搜索: Megakernel

妈妈再也不用担心延迟了！斯坦福手搓Llama超级内核，推理仅需0.00068秒

斯坦福Hazy实验室推出新一代低延迟推理引擎「Megakernel」，将Llama-1B模型前向传播完整融合进单一GPU内核，实现推理时间低于1毫秒。在B200上每次推理仅需680微秒，比vLLM快3.5倍。

来自主题: AI技术研报

10480 点击 2025-05-30 12:36