
在长文本上比Flash Attention快10倍!清华等提出APB序列并行推理框架
在长文本上比Flash Attention快10倍!清华等提出APB序列并行推理框架在 ChatGPT 爆火两年多的时间里,大语言模型的上下文窗口长度基准线被拉升,以此为基础所构建的长 CoT 推理、多 Agent 协作等类型的高级应用也逐渐增多。
来自主题: AI技术研报
6957 点击 2025-03-12 14:53
在 ChatGPT 爆火两年多的时间里,大语言模型的上下文窗口长度基准线被拉升,以此为基础所构建的长 CoT 推理、多 Agent 协作等类型的高级应用也逐渐增多。