
LLM生成延迟降低50%!DeepSpeed团队发布FastGen:动态SplitFuse技术,提升2.3倍有效吞吐量
LLM生成延迟降低50%!DeepSpeed团队发布FastGen:动态SplitFuse技术,提升2.3倍有效吞吐量DeepSpeed-FastGen结合MII和DeepSpeed-Inference实现LLM高吞吐量文本生成。
来自主题: AI资讯
4790 点击 2023-12-02 11:54
DeepSpeed-FastGen结合MII和DeepSpeed-Inference实现LLM高吞吐量文本生成。