用上这个工具包,大模型推理性能加速达40倍
用上这个工具包,大模型推理性能加速达40倍只需不到9行代码,就能在CPU上实现出色的LLM推理性能。英特尔® Extension for Transformer创新工具包中的LLM Runtime为诸多模型显著降低时延,且首个token和下一个token的推理速度分别提升多达40倍和2.68倍,还能满足更多场景应用需求。
来自主题: AI技术研报
4197 点击 2023-11-30 19:10
只需不到9行代码,就能在CPU上实现出色的LLM推理性能。英特尔® Extension for Transformer创新工具包中的LLM Runtime为诸多模型显著降低时延,且首个token和下一个token的推理速度分别提升多达40倍和2.68倍,还能满足更多场景应用需求。
两款新芯片,一款是基于 arm 的 CPU,一款是自研 AI 芯片;其次是将 Bing Chat 更名为 Microsoft Copilot,至此完成了 AI 产品的全面 Copilot 化;最后是推出了允许任何人自定义 AI 对话机器人的 Copilot Studio。
骁龙峰会,高通旗下骁龙X Elite芯片正式亮相,专为PC笔记本打造,性能和功耗都创下行业新纪录。首款搭载骁龙X Elite的PC,将把130亿参数大模型塞进PC,实现AI对PC产品的颠覆式重塑。
早就听说笔记本PC就能跑生成式AI,我们也试了试,看看笔记本仅借助CPU能不能在本地自己写代码、自己作图?